Literatura
1.T. Hastie, R. Tishirani, and J. Friedman. The Elements of Statistical Learning, Data Mining, Inference and Prediction. Springer Series in Statistics. Springer, (2003 a další, web).
2.I.H.Witten and E.Frank. Data Mining - Practical machine learning tools and techniques with Java implementation. Accademic Press Pub., USA, 1999.
Doplňující literatura
P. Berka.Dobývání znalostí z databází. Academia, 2003.T. Mitchell. Machine Learning. McGraw Hill, New York, 1997.S. Russel and P. Norwig. Artificial Intelligence: A Modern Approach. Prentice Hall, 2003.
Příklady statistického učení
Vytořit z dat model, který dokáže:● Určit polohu robota z minulé pozice a senzorů .● U pacienta hospitalizovaného s infarktem
predikovat riziko dalšího infarktu. Predikci lze založit na demografických, stravovacích a klinických datech o pacientovi.
● Rozpoznání spamu od e-mailu.● Predikovat cenu akcií za 6 měsíců z aktuální
výkonnosti společnosti a ekonomických dat.
Typický scénář „zadání“● Máme danou cílovou veličinu
● kvantivativní Y – cena akcií, nebo● kategoriální G – infarkt ano/ne.
● Chceme její hodnotu predikovat na základě příznaků (features) X● klinická měření, stravování.
● Máme množinu trénovacích dat, u kterých známe i příznaky, i hodnotu cílové veličiny.
● Na základě těchto dat tvoříme model . ● Dobrý model predikuje cíl s malou chybou.
f , g
Učení s učitelem / bez učitele● Předchozí slajd se týká učení s učitelem
(supervized learning).
● Při učení bez učitele nemáme žádnou cílovou veličinu, úkolem je popsat data – např. klastrováním či určením závislostí. (unsupervised learning)
Příklad: Klasifikace e-mailu.● Data obsahují 4601 příkladů, snažíme se
rozlišit spam a žádaný e-mail.● Známe cílovou třídu spam/email a frekvence 57
nejčastějších slov či znaků.
● Příklad modelu:
● V tomto příkladu je nestejná cena chyby.
Příklad: rakovina prostaty● Cílem je predikovat logaritmus prostate specific
antigen (lpsa) z množiny příznaků.
● Predikujeme spojitouveličinu.
● Bodový graf, XY graf(scatter plot)
ObsahChapter 2: Úvod do učení s učitelemChapter 3. a 4. Lineární metody pro regresi a klasifikaciChapter 5. SplajnyChapter 6. Jádrové (kernal) metody a lokální regrese
Chapter 7. Ohodnocení a volba modelůChapter 8. Kombinace modelů, EM algoritmus, ..Chapter 9: Rozhodovací stromyChapter 10: BoostingChapter 11: Neuronové sítě
Chapter 12: Support vector machinesChapter 13: Nejbližší sousedéChapter 14: Učení bez učitele
Typické otázky u zkoušky● Vysvětlete pojem:
přeučení, prokletí dimenzionality, bayesovsky optimální predikce, maximálně věrohodný odhad, optimální separující nadrovina, ...
● Napište algoritmus: AdaBoost, Rozhodovací stromy včetně prořezávání, EM, SVM, ...
● Dolňující otázky pro ujasnění, nakolik pojmům/algoritmům rozumíte
na jedničku či pokud jste někde hodně nevěděli.Mnohé ze slajdů se nezkouší, z přednášky možná vytušíte co ;-)
Přehled základních pojmů● vstupní veličiny (=features), cílová veličina● numerické, kategoriální, uspořádané veličiny● regrese (=predikce numerické veličiny)● klasifikace (=predikce kategoriální veličiny)● binární veličiny – kódujeme 0/1 nebo -1/1● uspořádané – často pomocí dummy variables (pomocné
proměnné)
● vstupní veličiny značíme X, výstup Y resp. G.● X je matice Nxp, predikce značíme střechou .
Lineární regresep
p
p
p
Lin. regrese 2
p
Lin. regrese - výsledek
● Není-li invertibilní, ubereme závislé sloupce, nebo se pokusíme překódovat nebo přefiltrovat data tak, aby invertibilní byla.
Maskování
U lineární regrese pro víc tříd může dojít k maskování:modrá třída není nikdy predikovaná.
Lin. regrese vs. nejbližší sousedé● Lineární regrese
● je hladká, stabilní● výrazně závisí na předpokladu linearity hranice● má malý rozptyl, potenciálně velké vychýlení (bias).
● k-NN● se přizpůsobí libovolné (spojité..) hranici● predikce záleží na pozici a hodnotách pár okolních
bodů, proto je nestabilní● velký rozptyl, malé vychýlení (bias).
Přeučení (overfitting)● Přeučením se nazývá
přílišná závislost modelu na trénovacích datech, která zvyšuje chybu na testovacích datech.Tj. růst oranžové křivky při klesající modré vpravo v grafu.
Optimální bayeskovská hranice● Pokud víme, jakým
procesem jsou data generována, můžeme v každém bodě predikovat nejčastější hodnotu (při stejné ceně chyby).
● Tento postup vytvoří optimální bayesovskou hranici (kde jsou obě hodnoty stejně časté).
Prokletí dimenzionality● Nejbližší sousedé jsou při velké dimenzi hodně
daleko.
Proč vadí vzdálený nejbližší soused
Druhý příklad
Weka● nástroj pro Data mining, umožňuje učit mnoho
modelů.
● http://www.cs.waikato.ac.nz/ml/weka/