Wprowadzeniedo WEKA
Adam Zagdański,Artur Suchwałko
(www.suchwalko.pl)
Czym jest WEKA?
Moduły dostępnew WEKA
Moduł Explorer
Moduł KnowledgeFlow
WEKA – informacjetechniczne
Dodatkoweinformacje
criti
cal
adva
nce
priv
ilege
s
ratin
g
com
plai
nts
lear
ning
rais
es
raises
learning
complaints
rating
privileges
advance
critical
Wprowadzenie do WEKA
Adam Zagdański, Artur Suchwałko
5 marca 2011
Adam Zagdański, Artur Suchwałko Wprowadzenie do WEKA 1 / 38
Wprowadzeniedo WEKA
Adam Zagdański,Artur Suchwałko
(www.suchwalko.pl)
Czym jest WEKA?
Moduły dostępnew WEKA
Moduł Explorer
Moduł KnowledgeFlow
WEKA – informacjetechniczne
Dodatkoweinformacje
criti
cal
adva
nce
priv
ilege
s
ratin
g
com
plai
nts
lear
ning
rais
es
raises
learning
complaints
rating
privileges
advance
critical Plan prezentacji I
Część:
1 Czym jest WEKA?Główne cechy projektuWersje oprogramowania
2 Moduły dostępne w WEKA
3 Moduł ExplorerPreprocessingWizualizacjaKlasyfikacjaAnaliza skupień
4 Moduł Knowledge Flow
5 WEKA – informacje techniczneWymagane oprogramowanieFormat danych
6 Dodatkowe informacjeUżyteczne linkiWybrane projekty stworzone na bazie WEKAKsiążka – DM z wykorzystaniem WEKAWEKA – dokumentacja techniczna
Adam Zagdański, Artur Suchwałko Wprowadzenie do WEKA 2 / 38
Wprowadzeniedo WEKA
Adam Zagdański,Artur Suchwałko
(www.suchwalko.pl)
Czym jest WEKA?
Moduły dostępnew WEKA
Moduł Explorer
Moduł KnowledgeFlow
WEKA – informacjetechniczne
Dodatkoweinformacje
criti
cal
adva
nce
priv
ilege
s
ratin
g
com
plai
nts
lear
ning
rais
es
raises
learning
complaints
rating
privileges
advance
critical Czym jest WEKA?Weka Machine Learning Project, The University of Waikato, New Zelandhttp://www.cs.waikato.ac.nz/ml/weka/Część:
Weka: Oprogramowanie z zakresu uczenia maszynowego (machinelearning) i pozyskiwania wiedzy (data mining), stworzonew języku Java,
Weka: Zestaw algorytmów wykorzystywanych do realizacji zadań dataminingu,
Weka: Oprogramowanie wykorzystywane w badaniach naukowych,edukacji, a także do zastosowań praktycznych,
Weka: Narzędzia do obróbki wstępnej danych (pre-processing),klasyfikacji, regresji, analizy skupień, odkrywania regułasocjacyjnych i wizualizacji,
Weka: Oprogramowanie towarzyszące książce „Data Mining:Practical Machine Learning Tools and Techniques” autorstwaI.H. Wittena i E. Franka,
Adam Zagdański, Artur Suchwałko Wprowadzenie do WEKA 3 / 38
Wprowadzeniedo WEKA
Adam Zagdański,Artur Suchwałko
(www.suchwalko.pl)
Czym jest WEKA?
Moduły dostępnew WEKA
Moduł Explorer
Moduł KnowledgeFlow
WEKA – informacjetechniczne
Dodatkoweinformacje
criti
cal
adva
nce
priv
ilege
s
ratin
g
com
plai
nts
lear
ning
rais
es
raises
learning
complaints
rating
privileges
advance
critical Czym jest WEKA?Weka Machine Learning Project, The University of Waikato, New Zelandhttp://www.cs.waikato.ac.nz/ml/weka/Część:
Weka: Wygodna baza dla rozwijania nowych algorytmów uczeniamaszynowego,
Weka: Algorytmy, które mogą być stosowane z wykorzystaniemdostępnych graficznych interfejsów użytkownikalub wywoływane z poziomu własnego kodu/aplikacji napisanejw języku Java, Możliwe jest wykorzystanie klas WEKAw innych programach(np. w środowisku R lub RapidMiner)
Weka: Oprogramowanie typu open source udostępnione na licencjiGNU General Public License,
Weka: To także... ptak nielot, zagrożony wyginięciem, występującywyłącznie na terenie Nowej Zelandii.
Adam Zagdański, Artur Suchwałko Wprowadzenie do WEKA 4 / 38
Wprowadzeniedo WEKA
Adam Zagdański,Artur Suchwałko
(www.suchwalko.pl)
Czym jest WEKA?
Moduły dostępnew WEKA
Moduł Explorer
Moduł KnowledgeFlow
WEKA – informacjetechniczne
Dodatkoweinformacje
criti
cal
adva
nce
priv
ilege
s
ratin
g
com
plai
nts
lear
ning
rais
es
raises
learning
complaints
rating
privileges
advance
critical Czym jest WEKA?Główne cechy projektuCzęść: Główne cechy projektu
Obszerny zestaw narzędzi do przetwarzania wstępnego danych(pre-processing’u),
Algorytmy uczenia maszynowego i metody oceniające ichefektywność,
Przyjazne graficzne interfejsy użytkownika (w tym, narzędziado wizualizacji danych),
Wygodne środowisko do porównania efektywności algorytmów.
Adam Zagdański, Artur Suchwałko Wprowadzenie do WEKA 5 / 38
Wprowadzeniedo WEKA
Adam Zagdański,Artur Suchwałko
(www.suchwalko.pl)
Czym jest WEKA?
Moduły dostępnew WEKA
Moduł Explorer
Moduł KnowledgeFlow
WEKA – informacjetechniczne
Dodatkoweinformacje
criti
cal
adva
nce
priv
ilege
s
ratin
g
com
plai
nts
lear
ning
rais
es
raises
learning
complaints
rating
privileges
advance
critical Czym jest WEKA?Wersje oprogramowania ICzęść: Wersje oprogramowania
book version – wersja towarzysząca książce „Data Mining:Practical Machine Learning Tools and Techniques” autorstwaI.H. Wittena i E. Franka. Wersja została „zamrożona” w 2005wraz z publikacją książki i nie pojawiają się już dla niej nowefunkcjonalności (np. nowe algorytmy, itd.), a jedyniekorygowane są dostrzeżone błędy,
Rysunek: v.3.4.12 (book)
Adam Zagdański, Artur Suchwałko Wprowadzenie do WEKA 6 / 38
Wprowadzeniedo WEKA
Adam Zagdański,Artur Suchwałko
(www.suchwalko.pl)
Czym jest WEKA?
Moduły dostępnew WEKA
Moduł Explorer
Moduł KnowledgeFlow
WEKA – informacjetechniczne
Dodatkoweinformacje
criti
cal
adva
nce
priv
ilege
s
ratin
g
com
plai
nts
lear
ning
rais
es
raises
learning
complaints
rating
privileges
advance
critical Czym jest WEKA?Wersje oprogramowania IICzęść: Wersje oprogramowania
stable version – aktualna wersja stabilna
Rysunek: v.3.6.4 (stable)
developer version – wersja aktualnie rozwijana, uzupełnianao nowe algorytmy, usprawnienia, itp. (v.3.7.3)
Adam Zagdański, Artur Suchwałko Wprowadzenie do WEKA 7 / 38
Wprowadzeniedo WEKA
Adam Zagdański,Artur Suchwałko
(www.suchwalko.pl)
Czym jest WEKA?
Moduły dostępnew WEKA
Moduł Explorer
Moduł KnowledgeFlow
WEKA – informacjetechniczne
Dodatkoweinformacje
criti
cal
adva
nce
priv
ilege
s
ratin
g
com
plai
nts
lear
ning
rais
es
raises
learning
complaints
rating
privileges
advance
critical Cztery główne moduły dostępne w WEKA
Część:
Explorer CLI
Experimenter Knowledge Flow
Adam Zagdański, Artur Suchwałko Wprowadzenie do WEKA 8 / 38
Wprowadzeniedo WEKA
Adam Zagdański,Artur Suchwałko
(www.suchwalko.pl)
Czym jest WEKA?
Moduły dostępnew WEKA
Moduł Explorer
Moduł KnowledgeFlow
WEKA – informacjetechniczne
Dodatkoweinformacje
criti
cal
adva
nce
priv
ilege
s
ratin
g
com
plai
nts
lear
ning
rais
es
raises
learning
complaints
rating
privileges
advance
critical Cztery główne moduły dostępne w WEKA I
Część:
1 Explorer – główny moduł oferujący dostępdo najważniejszych funkcjonalności. Szereg rozwiązańułatwiających użytkownikowi przeprowadzenie analiz (łatwakonfiguracja parametrów, kontrola kolejności wykonywaniaanaliz, parametry domyślne, podpowiedzi kontekstowe).Zalecany na początek i dla większości użytkownikóww zupełności wystarczający!
2 CLI – interfejs tekstowy (Command Line Interface). Dostępdo funkcjonalności systemu poprzez wpisywanie komendtekstowych. Zalecany dla doświadczonych użytkowników!
Adam Zagdański, Artur Suchwałko Wprowadzenie do WEKA 9 / 38
Wprowadzeniedo WEKA
Adam Zagdański,Artur Suchwałko
(www.suchwalko.pl)
Czym jest WEKA?
Moduły dostępnew WEKA
Moduł Explorer
Moduł KnowledgeFlow
WEKA – informacjetechniczne
Dodatkoweinformacje
criti
cal
adva
nce
priv
ilege
s
ratin
g
com
plai
nts
lear
ning
rais
es
raises
learning
complaints
rating
privileges
advance
critical Cztery główne moduły dostępne w WEKA II
Część:
3 Experimenter – zaprojektowany aby umożliwićprzeanalizowanie, która metoda (np. klasyfikacji lub regresji)i jaki zestaw parametrów jest najlepszy dla naszego problemu.W module zastosowano rozwiązania umożliwiająceprzeprowadzania złożonych eksperymentów obliczeniowychna wielką skalę. Zaawansowani użytkownicy mają np.możliwość przeprowadzania obliczeń rozproszonych (na wielukomputerach równocześnie), dzięki wykorzystaniu technologiiJava RMI (Remote Method Invocation),
4 Knowledge Flow – interfejs graficzny, pozwalającyzaprojektować schemat potokowego przetwarzania danych.Wykorzystując technikę „przeciągnij i upuść” możemy łatwołączyć bloki reprezentujące poszczególne etapy analizy.
Adam Zagdański, Artur Suchwałko Wprowadzenie do WEKA 10 / 38
Wprowadzeniedo WEKA
Adam Zagdański,Artur Suchwałko
(www.suchwalko.pl)
Czym jest WEKA?
Moduły dostępnew WEKA
Moduł Explorer
Moduł KnowledgeFlow
WEKA – informacjetechniczne
Dodatkoweinformacje
criti
cal
adva
nce
priv
ilege
s
ratin
g
com
plai
nts
lear
ning
rais
es
raises
learning
complaints
rating
privileges
advance
critical Moduł ExplorerGłówny panelCzęść:
Rysunek: Moduł Explorer
Adam Zagdański, Artur Suchwałko Wprowadzenie do WEKA 11 / 38
Wprowadzeniedo WEKA
Adam Zagdański,Artur Suchwałko
(www.suchwalko.pl)
Czym jest WEKA?
Moduły dostępnew WEKA
Moduł Explorer
Moduł KnowledgeFlow
WEKA – informacjetechniczne
Dodatkoweinformacje
criti
cal
adva
nce
priv
ilege
s
ratin
g
com
plai
nts
lear
ning
rais
es
raises
learning
complaints
rating
privileges
advance
critical Moduł ExplorerZakładkiCzęść:
1 Preprocess – Wczytanie i obróbka wstępna danych,2 Classify – konstrukcja prognoz z wykorzystaniem metod
klasyfikacji i regresji; uczenie metody i weryfikacjajej efektywności,
3 Cluster – grupowanie obiektów (analiza skupień),4 Associate – odkrywanie reguł asocjacyjnych,5 Select attributes – wybór najważniejszych/najbardziej
istotnych atrybutów (cech),6 Visualize – wizualizacja danych w 2D (z elementami
interaktywnymi).
Adam Zagdański, Artur Suchwałko Wprowadzenie do WEKA 12 / 38
Wprowadzeniedo WEKA
Adam Zagdański,Artur Suchwałko
(www.suchwalko.pl)
Czym jest WEKA?
Moduły dostępnew WEKA
Moduł Explorer
Moduł KnowledgeFlow
WEKA – informacjetechniczne
Dodatkoweinformacje
criti
cal
adva
nce
priv
ilege
s
ratin
g
com
plai
nts
lear
ning
rais
es
raises
learning
complaints
rating
privileges
advance
critical Moduł ExplorerEdytor danychCzęść: Preprocessing
Adam Zagdański, Artur Suchwałko Wprowadzenie do WEKA 13 / 38
Wprowadzeniedo WEKA
Adam Zagdański,Artur Suchwałko
(www.suchwalko.pl)
Czym jest WEKA?
Moduły dostępnew WEKA
Moduł Explorer
Moduł KnowledgeFlow
WEKA – informacjetechniczne
Dodatkoweinformacje
criti
cal
adva
nce
priv
ilege
s
ratin
g
com
plai
nts
lear
ning
rais
es
raises
learning
complaints
rating
privileges
advance
critical Moduł ExplorerPreprocessing – filtryCzęść: Preprocessing
Narzędzia obróbki wstępnej (pre-processing’u) w programie WEKA są nazywanefiltrami
W tej grupie znajdują się m.in. metody pozwalające przeprowadzić:
dyskretyzację (przedziałowanie) cech,
standaryzację (normalizację) danych,
próbkowanie,
wybór atrybutów,
transformacje i łączenie atrybutów,
wyznaczenie składowych głównych (metoda PCA),
Podział filtrów:
unsupervised – nienadzorowane,
supervised – nadzorowane,
Dla obu kategorii (unsupervised i supervised) wyróżnia się filtry stosowane dla:
atrybutów/cech (attribute),
przypadków (instance).
Adam Zagdański, Artur Suchwałko Wprowadzenie do WEKA 14 / 38
Wprowadzeniedo WEKA
Adam Zagdański,Artur Suchwałko
(www.suchwalko.pl)
Czym jest WEKA?
Moduły dostępnew WEKA
Moduł Explorer
Moduł KnowledgeFlow
WEKA – informacjetechniczne
Dodatkoweinformacje
criti
cal
adva
nce
priv
ilege
s
ratin
g
com
plai
nts
lear
ning
rais
es
raises
learning
complaints
rating
privileges
advance
critical Moduł ExplorerPreprocessing – przygotowanie danych do analizCzęść: Preprocessing
Rysunek: Przykład – przekształcenia wstępne(dyskretyzacja cech ciągłych)
Adam Zagdański, Artur Suchwałko Wprowadzenie do WEKA 15 / 38
Wprowadzeniedo WEKA
Adam Zagdański,Artur Suchwałko
(www.suchwalko.pl)
Czym jest WEKA?
Moduły dostępnew WEKA
Moduł Explorer
Moduł KnowledgeFlow
WEKA – informacjetechniczne
Dodatkoweinformacje
criti
cal
adva
nce
priv
ilege
s
ratin
g
com
plai
nts
lear
ning
rais
es
raises
learning
complaints
rating
privileges
advance
critical Moduł ExplorerPreprocessing – przygotowanie danych do analizCzęść: Preprocessing
Rysunek: Przykład – skategoryzowane wykresy słupkowe dla wszystkichatrybutów (opcja: Visualize All)
Adam Zagdański, Artur Suchwałko Wprowadzenie do WEKA 16 / 38
Wprowadzeniedo WEKA
Adam Zagdański,Artur Suchwałko
(www.suchwalko.pl)
Czym jest WEKA?
Moduły dostępnew WEKA
Moduł Explorer
Moduł KnowledgeFlow
WEKA – informacjetechniczne
Dodatkoweinformacje
criti
cal
adva
nce
priv
ilege
s
ratin
g
com
plai
nts
lear
ning
rais
es
raises
learning
complaints
rating
privileges
advance
critical Moduł ExplorerWizualizacjaCzęść: Wizualizacja
Rysunek: Przykład – wykresy rozrzutu (scatterplots)
Adam Zagdański, Artur Suchwałko Wprowadzenie do WEKA 17 / 38
Wprowadzeniedo WEKA
Adam Zagdański,Artur Suchwałko
(www.suchwalko.pl)
Czym jest WEKA?
Moduły dostępnew WEKA
Moduł Explorer
Moduł KnowledgeFlow
WEKA – informacjetechniczne
Dodatkoweinformacje
criti
cal
adva
nce
priv
ilege
s
ratin
g
com
plai
nts
lear
ning
rais
es
raises
learning
complaints
rating
privileges
advance
critical Moduł ExplorerKlasyfikacjaCzęść: Klasyfikacja
Klasyfikatorami w programie WEKA są nazywane modele pozwalającena prognozowanie zmiennych nominalnych (etykietki klas) lub liczbowych (np.modele regresyjne)
Wybrane, zaimplementowane w WEKA algorytmy klasyfikacji
drzewa decyzyjne,
lasy losowe (random forest),
metody najbliższego sąsiada (instance-based classifiers),
Support Vector Machines (SVM),
sieci neuronowe wielowarstwowe,
regresja liniowa i logistyczna,
naiwny klasyfikator bayesowski,
sieci bayesowskie,
Meta-classifiers – klasyfikatory złożone (zaagregowane),
UserClassifier – klasyfikator (w formie drzewa decyzyjnego) budowany
interaktywnie przez użytkownika,ZeroR – klasyfikator referencyjny, prognozowana jest najczęstsza klasa lub
wartość średnia (w przypadku prognoz ilościowych),
wiele innych...
Adam Zagdański, Artur Suchwałko Wprowadzenie do WEKA 18 / 38
Wprowadzeniedo WEKA
Adam Zagdański,Artur Suchwałko
(www.suchwalko.pl)
Czym jest WEKA?
Moduły dostępnew WEKA
Moduł Explorer
Moduł KnowledgeFlow
WEKA – informacjetechniczne
Dodatkoweinformacje
criti
cal
adva
nce
priv
ilege
s
ratin
g
com
plai
nts
lear
ning
rais
es
raises
learning
complaints
rating
privileges
advance
critical Moduł ExplorerKlasyfikacja – podział metodCzęść: Klasyfikacja
W WEKA wyróżnia się następujący podział algorytmówklasyfikacji:
bayes
functions
lazy
meta
mi
misc
trees
rules
Adam Zagdański, Artur Suchwałko Wprowadzenie do WEKA 19 / 38
Wprowadzeniedo WEKA
Adam Zagdański,Artur Suchwałko
(www.suchwalko.pl)
Czym jest WEKA?
Moduły dostępnew WEKA
Moduł Explorer
Moduł KnowledgeFlow
WEKA – informacjetechniczne
Dodatkoweinformacje
criti
cal
adva
nce
priv
ilege
s
ratin
g
com
plai
nts
lear
ning
rais
es
raises
learning
complaints
rating
privileges
advance
critical Moduł Explorer IKlasyfikacja – podział metodCzęść: Klasyfikacja
bayes – klasyfikatory bayesowskie (m.in.: sieci bayesowskiei naiwny klasyfikator bayesowski),
functions – klasyfikatory, które w naturalny sposób możnaprzedstawić jako równania matematyczne, m.in.: regresjaliniowa i logistyczna, sieci neuronowe, SVM. Wyjątkiem jestnp. naiwny klasyfikator bayesowski, który należy do osobnejgrupy,
lazy – klasyfikatory, które przechowują przypadki ze zbioruuczącego i nie wykonują żadnych obliczeń, aż do momentuklasyfikacji nowych obiektów (m.in.: różne warianty metodynajbliższego sąsiada, ale także metoda LBR – Lazy BayesianRules),
Adam Zagdański, Artur Suchwałko Wprowadzenie do WEKA 20 / 38
Wprowadzeniedo WEKA
Adam Zagdański,Artur Suchwałko
(www.suchwalko.pl)
Czym jest WEKA?
Moduły dostępnew WEKA
Moduł Explorer
Moduł KnowledgeFlow
WEKA – informacjetechniczne
Dodatkoweinformacje
criti
cal
adva
nce
priv
ilege
s
ratin
g
com
plai
nts
lear
ning
rais
es
raises
learning
complaints
rating
privileges
advance
critical Moduł Explorer IIKlasyfikacja – podział metodCzęść: Klasyfikacja
meta – meta-classifiers, klasyfikatory złożone, poprawiająceefektywność klasyfikatorów bazowych:
różne warianty komitetów/rodzin klasyfikatorów (np. bagging,boosting),CostSensitiveClassifier – modyfikacja wag przypadkówzgodnie z kryterium kosztu przypisanym każdej z klas lubprognozowanie tej klasy, której odpowiada najmniejszyoczekiwany błąd klasyfikacji (zamiast prognozowania klasynajbardziej prawdopodobnej),AttributeSelectedClassifier – klasyfikator z optymalniewybranymi atrybutami (zastosowanie metod wyboru cechzwanych wrapper’ami),metody oparte na „zamianie typu zadania”, np.:klasteryzacja ⇒ klasyfikacja, predykcja ⇒ klasyfikacja,m.in.: ClassificationViaRegression, RegressionByDiscretization,ClassificationViaClustering, OrdinalClassClassifier,MultiClassClassifier,
Adam Zagdański, Artur Suchwałko Wprowadzenie do WEKA 21 / 38
Wprowadzeniedo WEKA
Adam Zagdański,Artur Suchwałko
(www.suchwalko.pl)
Czym jest WEKA?
Moduły dostępnew WEKA
Moduł Explorer
Moduł KnowledgeFlow
WEKA – informacjetechniczne
Dodatkoweinformacje
criti
cal
adva
nce
priv
ilege
s
ratin
g
com
plai
nts
lear
ning
rais
es
raises
learning
complaints
rating
privileges
advance
critical Moduł Explorer IIIKlasyfikacja – podział metodCzęść: Klasyfikacja
misc – pozostałe, niestandardowe algorytmy klasyfikacji,
trees – klasyfikatory oparte na drzewach(m.in.: DecisionStump, Id3, J4.8, RandomForest,UserClassifier),
rules – metody oparte na generowaniu (indukcji) reguł.
Adam Zagdański, Artur Suchwałko Wprowadzenie do WEKA 22 / 38
Wprowadzeniedo WEKA
Adam Zagdański,Artur Suchwałko
(www.suchwalko.pl)
Czym jest WEKA?
Moduły dostępnew WEKA
Moduł Explorer
Moduł KnowledgeFlow
WEKA – informacjetechniczne
Dodatkoweinformacje
criti
cal
adva
nce
priv
ilege
s
ratin
g
com
plai
nts
lear
ning
rais
es
raises
learning
complaints
rating
privileges
advance
critical Moduł ExplorerKlasyfikacja – przykład wykorzystania drzew decyzyjnychCzęść: Klasyfikacja
Rysunek: Przykład – klasyfikacja z wykorzystaniem drzewklasyfikacyjnych
Adam Zagdański, Artur Suchwałko Wprowadzenie do WEKA 23 / 38
Wprowadzeniedo WEKA
Adam Zagdański,Artur Suchwałko
(www.suchwalko.pl)
Czym jest WEKA?
Moduły dostępnew WEKA
Moduł Explorer
Moduł KnowledgeFlow
WEKA – informacjetechniczne
Dodatkoweinformacje
criti
cal
adva
nce
priv
ilege
s
ratin
g
com
plai
nts
lear
ning
rais
es
raises
learning
complaints
rating
privileges
advance
critical Moduł ExplorerKlasyfikacja – przykład wykorzystania sieci neuronowychCzęść: Klasyfikacja
Rysunek: Przykład – klasyfikacja z wykorzystaniem sieci neuronowych
Adam Zagdański, Artur Suchwałko Wprowadzenie do WEKA 24 / 38
Wprowadzeniedo WEKA
Adam Zagdański,Artur Suchwałko
(www.suchwalko.pl)
Czym jest WEKA?
Moduły dostępnew WEKA
Moduł Explorer
Moduł KnowledgeFlow
WEKA – informacjetechniczne
Dodatkoweinformacje
criti
cal
adva
nce
priv
ilege
s
ratin
g
com
plai
nts
lear
ning
rais
es
raises
learning
complaints
rating
privileges
advance
critical Moduł ExplorerAnaliza skupień – zaimplementowane algorytmyCzęść: Analiza skupień
k-Means – klasyczna metoda k-średnich,
EM – klasteryzacja z wykorzystaniem algorytmu EM(Expectation Maximization),Cobweb – implementacja algorytmów: Cobweb dla zmiennychjakościowych oraz algorytmu Classit dla cech numerycznych.Wynikiem działania jest drzewo. Dla każdego przypadkuwybierana jest najlepsza z czterech możliwości:
Dodanie przypadku do najlepszego hosta,Utworzenie nowego liścia,Połączenie dwóch najlepszych hostów i dodanie przypadkudo połączonego węzła,Podział najlepszego hosta i dodanie przypadku do jednegoz otrzymanych podzbiorów,
Adam Zagdański, Artur Suchwałko Wprowadzenie do WEKA 25 / 38
Wprowadzeniedo WEKA
Adam Zagdański,Artur Suchwałko
(www.suchwalko.pl)
Czym jest WEKA?
Moduły dostępnew WEKA
Moduł Explorer
Moduł KnowledgeFlow
WEKA – informacjetechniczne
Dodatkoweinformacje
criti
cal
adva
nce
priv
ilege
s
ratin
g
com
plai
nts
lear
ning
rais
es
raises
learning
complaints
rating
privileges
advance
critical Moduł ExplorerAnaliza skupień – zaimplementowane algorytmyCzęść: Analiza skupień
X-means – rozszerzona wersja algorytmu k-means, uzupełniealgorytmu o etap Improve-Structure. W tym etapie próbuje siępodzielić centra (środki) w obrębie ich rejonu. Porównaniei wybór pomiędzy strukturą oryginalną i struktura uzyskaną popodziale centrów, odbywa się na bazie wartości kryteriów BIC(odpowiadających obu strukturom),
FarthestFirst – metoda klasteryzacji oparta na algorytmieprzeszukiwania farthest first, autorstwa Hochbauma i Shmoys’a(1985); szybka i prosta, metoda poszukiwania k-średnich,
DBScan – Density-Based Spatial Clustering of Applicationswith Noise; algorytm oparty na gęstościach,
OPTICS – uporządkowanie obiektów umożliwiająceidentyfikację skupisk (interfejs graficzny).
Adam Zagdański, Artur Suchwałko Wprowadzenie do WEKA 26 / 38
Wprowadzeniedo WEKA
Adam Zagdański,Artur Suchwałko
(www.suchwalko.pl)
Czym jest WEKA?
Moduły dostępnew WEKA
Moduł Explorer
Moduł KnowledgeFlow
WEKA – informacjetechniczne
Dodatkoweinformacje
criti
cal
adva
nce
priv
ilege
s
ratin
g
com
plai
nts
lear
ning
rais
es
raises
learning
complaints
rating
privileges
advance
critical Moduł ExplorerAnaliza skupień – dodatkowe informacjeCzęść: Analiza skupień
W WEKA nie są w tej chwili zaimplementowane klasycznemetody klasteryzacji hierarchicznej,
Możliwa jest wizualizacja wyników analizy skupieńi ich ewentualne porównanie z prawdziwymi grupami (jeżelitakie są znane),
Możliwa jest ocena wyników oparta na funkcji wiarogodności,jeżeli algorytm klasteryzacji bazuje na założeniach dotyczącychrozkładów,
Klasa/wrapper MakeDensityBasedClusterer umożliwia„opakowanie” dowolnego algorytmu klasteryzacji,tak aby zwracał on rozkład i gęstość. Dopasowany jest rozkładnormalny oraz rozkład dyskretny, oszacowane wewnątrzkażdego skupiska, „wyprodukowanego” przez wyjściowyalgorytm klasteryzacji.
Adam Zagdański, Artur Suchwałko Wprowadzenie do WEKA 27 / 38
Wprowadzeniedo WEKA
Adam Zagdański,Artur Suchwałko
(www.suchwalko.pl)
Czym jest WEKA?
Moduły dostępnew WEKA
Moduł Explorer
Moduł KnowledgeFlow
WEKA – informacjetechniczne
Dodatkoweinformacje
criti
cal
adva
nce
priv
ilege
s
ratin
g
com
plai
nts
lear
ning
rais
es
raises
learning
complaints
rating
privileges
advance
critical Moduł ExplorerAnaliza skupień – przykład zastosowania metody k-meansCzęść: Analiza skupień
Rysunek: Przykład – zastosowanie metody k-means
Adam Zagdański, Artur Suchwałko Wprowadzenie do WEKA 28 / 38
Wprowadzeniedo WEKA
Adam Zagdański,Artur Suchwałko
(www.suchwalko.pl)
Czym jest WEKA?
Moduły dostępnew WEKA
Moduł Explorer
Moduł KnowledgeFlow
WEKA – informacjetechniczne
Dodatkoweinformacje
criti
cal
adva
nce
priv
ilege
s
ratin
g
com
plai
nts
lear
ning
rais
es
raises
learning
complaints
rating
privileges
advance
critical Moduł Knowledge FlowProjektujemy schemat potokowego przetwarzania danychCzęść:
Schemat możemy budować łącząc (metodą „przeciągnij i upuść”) bloki reprezentujące:źródła danych, narzędzia obróbki wstępnej, algorytmy uczenia, metody ocenyefektywności, moduły do wizualizacji wyników.
Rysunek: Przykładowy schemat wykorzystany do oceny dokładnościklasyfikacji
Adam Zagdański, Artur Suchwałko Wprowadzenie do WEKA 29 / 38
Wprowadzeniedo WEKA
Adam Zagdański,Artur Suchwałko
(www.suchwalko.pl)
Czym jest WEKA?
Moduły dostępnew WEKA
Moduł Explorer
Moduł KnowledgeFlow
WEKA – informacjetechniczne
Dodatkoweinformacje
criti
cal
adva
nce
priv
ilege
s
ratin
g
com
plai
nts
lear
ning
rais
es
raises
learning
complaints
rating
privileges
advance
critical WEKA – informacje techniczneWymagane oprogramowanieCzęść: Wymagane oprogramowanie
WEKA może być uruchomiana praktycznie na dowolnejplatformie (Windows, Linux, Mac),
Do uruchomienia WEKA 3.4.x (i starszych wersji) wymaganajest Java 1.4 (lub nowsza wersja),
Środowisko uruchomieniowe Java można pobrać za darmo np.ze strony www Sun Microsystems (http://www.sun.com/),
Wersja rozwojowa (developer version), począwszy od v.3.5.3,wymaga już Java 5.0.
Adam Zagdański, Artur Suchwałko Wprowadzenie do WEKA 30 / 38
Wprowadzeniedo WEKA
Adam Zagdański,Artur Suchwałko
(www.suchwalko.pl)
Czym jest WEKA?
Moduły dostępnew WEKA
Moduł Explorer
Moduł KnowledgeFlow
WEKA – informacjetechniczne
Dodatkoweinformacje
criti
cal
adva
nce
priv
ilege
s
ratin
g
com
plai
nts
lear
ning
rais
es
raises
learning
complaints
rating
privileges
advance
critical WEKA – informacje techniczneFormat danychCzęść: Format danych
Dane mogą być importowane z plików w rożnych formatach:ARFF, CSV, C4.5, format binarny,
Można również wczytywać dane podając adres URLlub komunikując się z bazą danych za pomocą języka SQL(wykorzystywany jest JDBC – Java DataBase Connectivity),
Domyślnym formatem danych wykorzystywanym w WEKAi opracowanym specjalnie na potrzeby tego projektu jestformat ARFF – Attribute-Relation File Format,
ARFF jest rodzajem pliku tekstowego ASCII, zawierającymdodatkowo informacje o typach atrybutów.
Adam Zagdański, Artur Suchwałko Wprowadzenie do WEKA 31 / 38
Wprowadzeniedo WEKA
Adam Zagdański,Artur Suchwałko
(www.suchwalko.pl)
Czym jest WEKA?
Moduły dostępnew WEKA
Moduł Explorer
Moduł KnowledgeFlow
WEKA – informacjetechniczne
Dodatkoweinformacje
criti
cal
adva
nce
priv
ilege
s
ratin
g
com
plai
nts
lear
ning
rais
es
raises
learning
complaints
rating
privileges
advance
critical WEKA – informacje techniczneFormat danychCzęść: Format danych
Przykładowe dane w formacie ARFF% 1. Title: Iris Plants Database%% 2. Sources:% (a) Creator: R.A. Fisher% (b) Donor: Michael Marshall (MARSHALL%[email protected])% (c) Date: July, 1988%@RELATION iris
@ATTRIBUTE sepallength NUMERIC@ATTRIBUTE sepalwidth NUMERIC@ATTRIBUTE petallength NUMERIC@ATTRIBUTE petalwidth NUMERIC@ATTRIBUTE class {Iris-setosa,Iris-versicolor,Iris-virginica}
@DATA5.1,3.5,1.4,0.2,Iris-setosa4.9,3.0,1.4,0.2,Iris-setosa4.7,3.2,1.3,0.2,Iris-setosa4.6,3.1,1.5,0.2,Iris-setosa5.0,3.6,1.4,0.2,Iris-setosa5.4,3.9,1.7,0.4,Iris-setosa4.6,3.4,1.4,0.3,Iris-setosa5.0,3.4,1.5,0.2,Iris-setosa4.4,2.9,1.4,0.2,Iris-setosa4.9,3.1,1.5,0.1,Iris-setosa
Adam Zagdański, Artur Suchwałko Wprowadzenie do WEKA 32 / 38
Wprowadzeniedo WEKA
Adam Zagdański,Artur Suchwałko
(www.suchwalko.pl)
Czym jest WEKA?
Moduły dostępnew WEKA
Moduł Explorer
Moduł KnowledgeFlow
WEKA – informacjetechniczne
Dodatkoweinformacje
criti
cal
adva
nce
priv
ilege
s
ratin
g
com
plai
nts
lear
ning
rais
es
raises
learning
complaints
rating
privileges
advance
critical WEKA – użyteczne linki
Część: Użyteczne linki
WEKA Homepagehttp://www.cs.waikato.ac.nz/~ml/weka/
WEKA Mailing listhttps://list.scms.waikato.ac.nz/mailman/listinfo/wekalist
WekaWikihttp://weka.wikispaces.com/
Frequently Asked Questions (FAQ)http://weka.wikispaces.com/Frequently+Asked+Questions
Weka-related Projectshttp://www.cs.waikato.ac.nz/~ml/weka/index_related.html
Javadochttp://weka.sourceforge.net/doc/
Adam Zagdański, Artur Suchwałko Wprowadzenie do WEKA 33 / 38
Wprowadzeniedo WEKA
Adam Zagdański,Artur Suchwałko
(www.suchwalko.pl)
Czym jest WEKA?
Moduły dostępnew WEKA
Moduł Explorer
Moduł KnowledgeFlow
WEKA – informacjetechniczne
Dodatkoweinformacje
criti
cal
adva
nce
priv
ilege
s
ratin
g
com
plai
nts
lear
ning
rais
es
raises
learning
complaints
rating
privileges
advance
critical Wybrane projekty stworzone na bazie WEKAŹródło: Weka-related Projects,http://www.cs.waikato.ac.nz/ml/weka/index_related.htmlCzęść: Wybrane projekty stworzone na bazie WEKA
YALE - Yet Another Learning Environment,
Weka-Parallel - parallel processing for Weka,
Automatic Knowledge Miner - online data mining reports,
Weka Visualization tools - using PMML, VisWiz, andROCOn,
Weka on Text - software for text mining,
Judge - software for document classification and clustering,
Grid Weka - grid computing with Weka,
FAEHIM - Data Mining Web services,
Fuzzy algorithms - for clustering and classification.
Adam Zagdański, Artur Suchwałko Wprowadzenie do WEKA 34 / 38
Wprowadzeniedo WEKA
Adam Zagdański,Artur Suchwałko
(www.suchwalko.pl)
Czym jest WEKA?
Moduły dostępnew WEKA
Moduł Explorer
Moduł KnowledgeFlow
WEKA – informacjetechniczne
Dodatkoweinformacje
criti
cal
adva
nce
priv
ilege
s
ratin
g
com
plai
nts
lear
ning
rais
es
raises
learning
complaints
rating
privileges
advance
critical Wybrane projekty stworzone na bazie WEKAŹródło: Weka-related Projects,http://www.cs.waikato.ac.nz/ml/weka/index_related.htmlCzęść: Wybrane projekty stworzone na bazie WEKA
BioWeka - knowledge discovery and analysis for biologists,
Mathematica interface for Weka,
weka4WS - distributed data mining,
RWeka - an R interface to Weka,
Mayday - Machine Learning for Microarrays - plugin for theWEKA machine Learning Library,
PROMPT - Statistical comparison and mapping of proteinsets. Import/Export of WEKA arff data files,
GeneticProgramming - Genetic Programming Classifier forWeka,
Weka-GDPM - extended version of Weka 3.4 to supportautomatic geographic data preprocessing for spatial datamining.
Adam Zagdański, Artur Suchwałko Wprowadzenie do WEKA 35 / 38
Wprowadzeniedo WEKA
Adam Zagdański,Artur Suchwałko
(www.suchwalko.pl)
Czym jest WEKA?
Moduły dostępnew WEKA
Moduł Explorer
Moduł KnowledgeFlow
WEKA – informacjetechniczne
Dodatkoweinformacje
criti
cal
adva
nce
priv
ilege
s
ratin
g
com
plai
nts
lear
ning
rais
es
raises
learning
complaints
rating
privileges
advance
critical Książka – DM z wykorzystaniem WEKA
Część: Książka – DM z wykorzystaniem WEKA
Ian H. Witten, Eibe Frank, Data Mining: Practical MachineLearning Tools and Techniques (Second Edition), MorganKaufmann, 2005
Adres www:http://www.cs.waikato.ac.nz/~ml/weka/book.html
Wyjaśnienie idei działania algorytmów Data mining
Pomoc w wyborze odpowiedniego algorytmu dla określonegoproblemu oraz odpowiedniej metod oceny efektywności
Adam Zagdański, Artur Suchwałko Wprowadzenie do WEKA 36 / 38
Wprowadzeniedo WEKA
Adam Zagdański,Artur Suchwałko
(www.suchwalko.pl)
Czym jest WEKA?
Moduły dostępnew WEKA
Moduł Explorer
Moduł KnowledgeFlow
WEKA – informacjetechniczne
Dodatkoweinformacje
criti
cal
adva
nce
priv
ilege
s
ratin
g
com
plai
nts
lear
ning
rais
es
raises
learning
complaints
rating
privileges
advance
critical WEKA – dokumentacja techniczna w formacie javadoc
Część: WEKA – dokumentacja techniczna
Metody zaimplementowane w WEKA mogą być wykorzystywane bez koniecznościuruchomiania graficznych interfejsów użytkownika,Kod źródłowy (klasy) zaimplementowane w ramach projektu WEKA mogą byćwykorzystywane np. we własnych aplikacjach napisanych w języku Java lubw innych programach, np. w systemie statystycznym R(http://cran.r-project.org/web/packages/RWeka/RWeka.pdf) lub w programieRapidMiner (http://www.rapidminer.com/),Korzystanie z klas WEKA ułatwia szczegółowa dokumentacja techniczna w formaciejavadoc.
Rysunek: Struktura klas Rysunek: Klasa J48 (drzewoklasyfikacyjne)
Adam Zagdański, Artur Suchwałko Wprowadzenie do WEKA 37 / 38
Wprowadzeniedo WEKA
Adam Zagdański,Artur Suchwałko
(www.suchwalko.pl)
Czym jest WEKA?
Moduły dostępnew WEKA
Moduł Explorer
Moduł KnowledgeFlow
WEKA – informacjetechniczne
Dodatkoweinformacje
criti
cal
adva
nce
priv
ilege
s
ratin
g
com
plai
nts
lear
ning
rais
es
raises
learning
complaints
rating
privileges
advance
critical Bibliografia
Część: WEKA – dokumentacja techniczna
Weka home page.Internet.http://www.cs.waikato.ac.nz/ml/weka/.
Weka wiki.Internet.http://weka.wikispaces.com/.
I.H. Witten and E. Frank.Data Mining: Practical Machine Learning Tools andTechniques.Morgan Kaufmann, 2005.
Adam Zagdański, Artur Suchwałko Wprowadzenie do WEKA 38 / 38