Universidade Federal do Parana
Laboratorio de Estatıstica e Geoinformacao - LEG
Classificacao
Eduardo Vargas Ferreira
Tipos de aprendizado
Matriz de dados Y fornecido Y não fornecido
Aprendizado supervisionado
Aprendizado não - supervisionado
Regressão Classificação
Y contínuo Y discreto
2
Introducao
• Em muitos problemas, a variavel Y assume valores em um conjunto nao
ordenado C, por exemplo:
? E-mail ∈ {spam, ham};
? Dıgito ∈ {0, 1, . . . , 9};
? Alzheimer ∈ {com Alzheimer, sem Alzheimer};
• Nestes casos, estamos diante de um problema de classificacao;
3
Introducao
• Considere um problema binario, em que Y assume somente dois valores,c1 ou c2. Para um dado x , escolheremos c1 quando
P(Y = c1|x) ≥ P(Y = c2|x),
• Tal classificador e conhecido como Classificador de Bayes. Escolhemosnossa funcao, tal que,
h(x) = argmaxd∈{c1,c2}
P(Y = d |x).
O classificador de Bayes e um padrao ouro inalcancavel!
4
Plug-in classifier
• A solucao e entao estimar P(Y = ci |x), para i ∈ C, ou seja
? Estimamos P(Y = c|x) para cada categoria c ∈ C;
? Tomamos h(x) = argmaxc∈C
P(Y = c|x).
• Essa abordagem e conhecida como plug-in classifier.
5
K-Nearest Neighbors
6
K-Nearest Neighbors
• O KNN estima a distribuicao condicional de Y |X de acordo com asclasses dos K vizinhos de determinada observacao x0, ou seja:
P(Y = j | X = x0) =1
K
∑i∈N0
I(yi = j).
o
o
o
o
o
oo
o
o
o
o
o o
o
o
o
o
oo
o
o
o
o
o
7
K-Nearest Neighbors
• A escolha de K tem um efeito drastico no classificador KNN obtido
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
oo
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
oo
o
o
o o
o
o
o o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
oo
o
o
o
oo
o
oo
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
oo
oo
o
o
o
o
o
o
o
oo
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
oo
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
oo
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
oo
o
o
o o
o
o
o o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
oo
o
o
o
oo
o
oo
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
oo
oo
o
o
o
o
o
o
o
oo
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
oo
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
KNN: K=1 KNN: K=100
8
K-Nearest Neighbors
• Temos que escolhe-lo de acordo com o resultado do teste. A linhapontilhada representa o classificador de Bayes.
0.01 0.02 0.05 0.10 0.20 0.50 1.00
0.0
00
.05
0.1
00
.15
0.2
0
1/K
Err
or
Ra
te
Training Errors
Test Errors
9
K-Nearest Neighbors
• Temos que escolhe-lo de acordo com o resultado do teste. A linhapontilhada representa o classificador de Bayes.
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
oo
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
oo
o
o
o oo
o
o o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
oo
o
oo
oo
o
oo
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
oo
o
oo
o
o
o
o
o
o
o
oo
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
oo o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
oo
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
X1
X2
KNN: K=10
10
Regressao logıstica
11
Exemplo: Inadimplencia no cartao de credito
• Nosso objetivo e prever se um cliente sera ou nao inadimplente noproximo mes. Para tanto, temos tres variaveis explicativas:
? Student: se o cliente e ou nao estudante;
? Income: rendimento anual do cliente;
? Balance: o valor devido no mes atual.
0 500 1000 1500 2000 2500
02
00
00
40
00
06
00
00
Balance
Inco
me
No Yes
05
00
10
00
15
00
20
00
25
00
Default
Ba
lan
ce
No Yes
02
00
00
40
00
06
00
00
Default
Inco
me
12
Podemos utilizar regressao linear?
• Suponha que para classificacao da variavel Default codificamos da forma:
Y =
{0, se No ,
1, se Yes .
• Podemos simplesmente realizar uma regressao linear de Y em X eclassificar como Yes se Y > 0.5?
0 500 1000 1500 2000 2500
0.0
0.2
0.4
0.6
0.8
1.0
Balance
Pro
ba
bili
ty o
f D
efa
ult
| | || | ||| ||| || | ||| || || | || | || || ||| | | | ||| || || || || ||| || | ||| || ||| ||| || ||| |||| | ||| ||| | || | || | || || | ||| | || ||| || || | || | ||| || | ||| || ||| | ||| || || ||| | ||
|
|| ||| || || | |||| | || || | ||| || || || | || | | | |
|
||| | ||| |||| | || || ||| || ||| || |
|
| || |
|
| |
|
|| || ||| | || || ||| | || || || || |||| | ||
|
|
|
| ||| | || || || || ||| || |
|
|| | ||| | | ||| ||| || | || | | || || ||| || || | || || |||||||| || || | || | |||| | || || || || | || ||| || |||
|
|||
|
| | |
|
| | |||||
|
|| || || || || || ||| | || || |||| || | | ||| ||| | | | || || || || | ||
|
| | || || || ||| || | ||| ||| | ||| |||| | || |
||
| || ||| | | | ||| ||| | || | | |||| | || | ||||| || | ||| || || || |
|
| || || | ||||| | | || || | |||| | ||| | ||| | | ||| | | ||| || ||| | || ||||
|
| || |
|
| || || | || | | | || || | || || ||| |||| |||
|
| |||
|
|| | | || ||| | || ||| || || | ||| || | || || || |||| | ||| | | ||| || ||| | ||| |||| |
|
||| || | | ||
|
| || || |||| ||| ||| | | || | || || ||| ||| ||| | ||| || | || ||| || | | ||| || || ||| ||
|
| || || || | || || || || || || |||| ||
|
| |||| | | | ||| || |||| || |
|
||| | ||| ||| || || | || || || || |||| || | | ||| | |||| | |
|
||| | ||||| || || | || || || | ||| || || |
|
|||| |||| | | || || || || | || || |||| | | ||| |
|
|| || | | |||| || || || | |||| || || || || ||| || || | || | | || || | || || ||
|
|| | ||| | ||| |
|
|||||| | | ||| || | || || | | ||| | | | | || ||| | | |||| | ||
|
|| | || |
|
| ||| || | ||| | || || ||
|
| || | || | | || | || || | | |
|
| |||
|
||| | || || || | | | || || ||
|
|| || | | ||| | |||| || ||| || || || || || ||| ||| | ||| | | |||| || ||| | | ||
|
|| | | || ||| || | ||| || ||| || || || | || || || || ||
|
|| || |
||
|| | || ||| |||| | |||
|
| || | | ||| || | ||| ||| | || | | | ||| || || || | ||| || | ||| || || ||
|
|| | ||
|
|| | | || ||| || ||| ||| | || ||| |||| | || | | || |||| |
|
|| || | || ||| || | || || | || | ||| | || ||| || || || || | || || | || || || || | || | |||| | ||| | || || | || || || || ||| || | | || | ||| ||| | ||| | | |||
|
|
|
|||| || | | || | ||| ||| || | ||| || | | | |||| |
|
||| | || ||| | || |||| || | || || | | || || ||| ||| | ||| || || || || | |
|
|
|
|| || | ||| ||||| | | | ||| | | ||| || || || || || | |
|
||
|
|||| ||| |
|
| ||| |
|
||| ||| | ||||| | || || || || | | || || || || || ||| ||| | || | ||
|
||| | ||| || | ||| | |||| || | | || |||| | || || || || || | |
|
||| | | || |||| | || || | |
|
|| | || | || |||| | ||
|
| || || ||| || | | ||| || || ||
|
|| || ||| ||| || || || ||| || || ||| || | | | ||| || || ||||| || | ||| | || | |
|
| || || |
|
| || | | || || | ||||| || | || || || || || | || || || | ||
|
|| ||| || || || ||| | || |||| | | || || || | |
|
|| | || || ||| | ||| || ||| | | ||| ||| || || ||| || ||| || || ||||
|
|||
|
||| | || || || |
|
| || || ||| ||| || | |||
|
||| || || ||| || |
|
|| || || | ||| || | || | || |
|
| || ||| | | ||| || ||| | || | || | || | | || || || | || || | |||
|
|
|
|||| | || | | || | || | ||| | ||| | || | || || || || ||| || |||| || | ||| || || || || | ||
|
||| || | |
|
| | ||| | || || ||||| ||| ||| |
|
|| | ||| ||| ||| | ||
|
|| | || || ||| || | |
|
| | || ||||| ||| | || || ||| || || ||
|
|| | |
|
||| || | || | || | | ||||| | || ||| || |||
|
|| | | |||| | | || | || | |||| | | | | | ||| | |||
|
|||| || ||| || ||
|
||| || |
|
|| | || || || | || | |||||| |
|
|| |
|
||| | | || ||| |
|
| | ||| ||||| ||| | | || || || |
|
| || | ||| || || || || | | ||| || | | | ||| | || || || |||| || |
|
| || | ||| | | || ||| || | | ||| | | ||| | | ||| ||| ||| | |
|
| || | ||| || ||| | || |
|
| ||| | || ||| |||
|
||| | | || || || |||| ||| | ||| ||| ||| || || ||| | ||| |||| | || ||| | || || | || ||| || || || || || || | || || || |||| || || || ||| |
|
|| || || ||| ||
|
|| | ||| | || ||| | || | | | ||| | || || || | ||| |||| || | || || | | |||| | || ||| || | ||| ||| || | || | | | ||| ||
|
| ||| | || | | | |
|
|||| || || | ||| | || |||||| || || || ||| ||| | || ||| | |||| ||| | || || |
|
| || | || || || || || ||| | || || || || | ||| || | || ||| || || |||| ||
|
|| | ||| || || || || | | ||| ||| ||| || ||| |||| ||||| |
|
|||| | | || |||| ||| ||| || || ||| || || || || ||||| ||| | || || | || | ||| ||| |
|
| ||| || || || || || || |||| || |||| || || |
|
||| || || || || | |||
|
|| ||| | ||| || ||| || ||||| ||| | | || |||| || || | ||| || | || ||| | | ||||| | ||| ||| || | | | | || | | || || || | || |||| | ||
|
| || || || || || || || | | || || | | || | ||| ||| | | ||| ||
|
|| ||| || ||| || | || || ||| |||| | ||| || || ||| | | | ||| || | ||| |||| || || |||| || | || | ||| || | || | ||| || || || || ||| || |||| ||| || ||||| | || || |
|
|| || | ||| || ||
|
|| | | |||| | ||| ||| ||| || || || ||| || || || | || || || ||| | | ||||
|
|| | |||| || || ||
|
| || | |
|
|| || | |||| || | ||| ||| | || || || | || | | ||
|
|| || |
|
|| | ||| || |||| ||| || |
|
|| | || ||
|
|| | | || | || ||| ||| || | || |
|
| || ||| | |||| |||| || | ||||| | | |
|
|| ||| ||||
|
||| | || || ||| || | ||| | || || | || || || | ||| || |
|
|| || || | || ||
|
| || ||| ||
|
| || | | ||
|
|| || | || |
|
|| |||| | ||||| | | || | | |||||| || ||| ||| || || |||| | | || |||| || ||
|
| |
|
||| ||
|
| || | |
|
|| || | || | | |||| || | | || | | || || || || || | || ||| | | |||| | |
|
| || || || || || || ||| | | || || ||| || | |||| | || ||| | |||| |||||
|
| | |
|
| | ||| | |||| | || || || || || || | || | || | | | || || | || | |||| | || | || || | ||| | || || ||| || || |||
|
| || ||| | || | || || || ||| | || |||| || | || | ||
|
| | ||| ||| || | |||
|
|| ||| || || || | | || | ||| | || ||| | ||
|
|| || | || | | || ||| | |||| || || | || ||||| || ||| || || || ||| ||| ||| | ||| || ||| ||| || || | ||| |
|
|| |
|
| ||||| | || ||| || || || || | ||| || || | | | ||| | || ||| ||| ||| |||| ||| ||| || || | || | |
|
| || | ||| ||| || || || ||| || ||| | || || | | || | || || || | || | ||| | || || || ||| ||| || || | || | ||
|
| || ||| || || ||| || | ||| || | || |
|
| || | ||| ||| || ||| | ||| || || | | ||| | ||
|
| | || | | |
|
|| | ||| || || | | ||| | | ||| | | || || |||| | || ||
|
|| | | || | | | ||
|
| ||| | | || | || ||| || || | ||| | ||| || |||| | ||| ||| || | || || ||| ||| | ||| ||| ||||| |||| ||| | | |||| ||
|
| |||| | || | |
|
||| ||| || || ||
|
|| |
|
|
|
||| ||| | |||| || ||| | || ||| | | || ||| ||
|
| ||| || |||| || | || | || || | | |||| || | |||
|
||||| || | |||| ||
|
| ||| || |
|
|| || || ||||| | | ||| | ||| | || | ||| || | || | || | | || |||
|
| || |||| ||| | | |
|
| || |||
|
|| || | || | ||||| | | ||| || || | | ||| || || | | | | || ||| | |||| | | || | |||| || | ||| | || |||| | | || ||| ||
|
|| || | || | | || | ||| ||| || || | | || || | || || ||| || || || | | | || | |||| | | || || ||| |
|
|| || | || || || || | ||| | || || || | ||| | || ||| ||
|
|| || || ||
|
| || ||| || || | |
|
| || | | || | ||| | || || ||| || |||| || || | ||
|
|| || || || | | |||
|
|| || | ||| || ||| || | | || |||| | | || ||| |
|
| | |
|
| || | ||| || | | ||| || | || ||| || | | || | | ||| | || | | ||| || ||| | ||| || ||
|
|| || ||| ||| || || ||| || |
||
|| |
|
| | || | || || | ||| || | ||| | | | || | || | || | | |||| | ||| | ||| ||| ||| || | ||| || || || | || |||| | | |||| ||| | | | |||| |
|
|
|
| || || |||| | || |
|
|| || || | |||
| |
| ||| ||| | || | | | |||
|
| ||| | ||| || || || || || | ||| || | || ||| ||| | | || |||| | |||||
|
| || | ||| ||| || || | | ||||| ||| | || || || ||| | ||| || | | || | || || |||| || | ||| | ||| | || || || | || ||| ||| ||| || | ||| | || ||| || || ||| || || | |||| || ||| || ||| | ||| ||| | || | || || || ||| | || ||| | || | || ||| | | ||| | |
|
| | ||||| | ||
|
|| |
|
|||| || |||||
|
|| | | || |||| | || || ||
|
|| ||| || || || ||| |||| || ||| | |||| | | |
|
| | | |||| || ||| | ||| | | || || |
|
|| | || | || | |
|
| | |
|
||| | || | ||| || || || ||| |||| || || ||| || || |||
|
| | | || | || ||| || | ||| ||| || || | ||| || | || || || ||| || ||| | || | || | || || ||| | || ||||| | |
|
|| | | | |||| || ||| || || || || | | || |
|
||| | || || ||| || | || |||
|
|| || ||| | | ||| ||| | || || || || || || | | | ||| | || | | || || | | || ||| || ||| | || || | |||| || || ||| || |
|
|| | || | | || ||| |||| | || | | || ||| | || || || |||| || ||| ||| || || || || || | ||| ||| |||| | |
|
| ||| | ||| ||| || || || |||| || | ||||| | || | ||||| | ||
|
| | || || ||| || | |||| | ||| | || ||| ||| | | || |
|
|| ||| ||
|
| || | ||| || || || |||| || ||
|
||| | || |||| || | || ||| || || | || | || | || || ||| |||| ||| |
|
||| ||| || | || || || | || || | | ||| || || | ||| ||| | ||| ||| |||| | || | || || ||| | || || ||| |
|
|| | ||| ||| | || || || || | || | | ||| || | ||| | || || || || | | || | | || | | |||| || ||| | | || || || ||| || || | |
|
| | ||| || || || |
|
| || || |||
|
| | || |||| ||| | || | ||| || | || | || ||| | || || || || |||||| || | || || | ||| ||| | | || | | || || ||| | ||| || ||||| | || ||| | ||| |||| | || | || ||| ||
|
|||||| | ||| || | || || || ||| || || || || | | || | ||
|
|| || || || ||| | ||| ||| ||| || || || || | || || ||
|
||| | || || || | ||| | || || | || ||| | || || ||
|
| | || | ||| || || | | ||| | || | |||| |||| || || | || | | ||| | || | | |||| || | |||| | || || | || || | ||| || || | ||| || | || ||| |||
|
| || || |||| || || |||| | ||| |||| | |||| |||| || |
|
|| | || | | || | | |
|
| ||||| | |||||| | || | | || || || || | || ||| || | || || || |
|
|
|
| ||| | || | ||| ||| |||| |
|
|| || || || || | | || | ||| | | | ||
|
|| || | || | |||| | ||
|
| || |||| || | ||||| || || | ||| | | ||| ||| | || |||| ||| |
|
| |||| || | ||
|
|| || | |||| | || ||||| | || | ||| | | || || | | | || ||| ||| || | | || | ||
|
|| ||| |
|
| | || || |||| |
|
|| | ||| | || || | ||| || || ||| | || || | ||| || || | || | || |||| || ||| ||| ||| || | ||| | || || | |||
| |
||| || || || | || |||| | |||| || ||| || || | ||| ||
|
| || || ||| || || | | ||| | || | |||| ||
|
|| ||| || | || | | | || | ||| | |
|
| || || || | || || || | ||| || ||| || ||
|
| || | |||| |||
|
| ||| || || | || |
|
| || ||| || | || || |||| || | ||| | || | || | ||| | || | || ||||| |
|
|| | || || | | | ||| | || ||||
|
|
|
| | | | |||| ||| |||| |||| | | | ||| | || | || || | || | |||| | || | | ||| || |
|
||||
|
| ||| | ||| ||
|
| || || ||| ||| || |||| ||| |
|
||| || | ||
|
||| | | || ||| | || |||| || | || ||| || || | ||| | ||| || |||
|
|| ||| || ||| | | || || | || | ||| | || | | || | ||| |||| || || ||||| | ||| | || || || || | || | ||||
|
|| ||| || ||| | | || || | ||| |||| | |
|
|| | | ||| || ||
|
| || || || |
|
| | | || | || ||| ||| | | | || || || |||
|
| || || ||||| | | || ||
|
||
|
|| | || || | ||| || | || | ||| |
|
|| | || | |||
|
|| | |||| || ||| | ||| | | ||| || | || || || | | || |||| ||
|
| || | || || | || ||| | ||| ||| ||| | ||| | || | ||| ||||| | | | ||
|
| | | || | ||| || || ||
|
| || |||| | ||| | |||| || | | ||| || | ||
|
|| | | ||||| | || ||| || || || ||| |||| |||
|
| | | ||| |||| | || |||| | || | | || || | | || || || | ||||| ||| |||
|
|| ||| ||| ||
|
| | || | || ||||| ||| || || || || | ||| || | | | | ||
|
| ||| | || || | | || ||| || |||| ||| || | | ||| | ||| | || || || | || | || | || || | || |
|
| || || |||| ||||| | || | || | || |||| | || | || || |||| | | ||| ||
|
| || || || ||| || || | ||||| || || | ||| || |||| | || ||| ||| || || | |||| || | ||| ||| || | ||| | | || | || || | | || | | || | || |
|
|
|
||| | | ||| ||| || | || | || ||| | |
|
| ||| || || | | || ||| | | | || | || ||| || | || || | || || || || || || || ||| | || || || | || ||||
|
| ||| ||| |
|
| ||| | || | | ||||| | ||| || || || ||| || | ||| | || || ||| || | || | |
|
| |
|
||| ||||| | |||| || || ||| || | || | || ||| | ||
|
| | ||| | ||| | |||| || || | |||| | | ||
|
||| | | || | | ||| || | ||| || ||| || || ||| ||| ||| | || | | | || || ||| || | ||| |||| || || ||| | ||| |||| ||||| || ||| || || | | ||| || || || |||| ||| ||
|
||| ||| ||| | || | ||| | || | | || ||| | || || ||| | || | ||| || | | || ||| | ||| | || || || |||| | | ||
|
||||| || | | || || || ||||| | ||| || ||| ||| | || || || | | || || ||| || | |
|
|| | || |||| || ||
|
|| || | | || | | ||
|
|
|
|
|
|| || | || || ||
|
| || || || || | || ||| | || | | ||| | || || |||| |||| || | ||
|
| || || | || || ||| | | || ||| || || || | | | ||||
|
|| ||| ||| || || || | || || || | | || | || | ||| | || ||| || | || ||| || | || || || || ||| ||| | | ||| | || | || || || || | |||| || || | || || ||| | || | |||| | || | || | | | || || | || || ||| | | ||| |||| | ||| || | || ||| | || | ||| || ||| || || || ||| || | || || || | || |||| || | || || || ||| || || ||| | | | || | | | || |||
|
|| || || ||||| || | |||| |
|
| | | || | | | |||||| ||| || | | ||| | ||| | ||| |||| | | | | || |||| | ||
|
| ||
|
| | || || ||| || || ||| || | || || | ||| || || || || || || | || | ||| ||
|
|| | | || || | || ||| ||| || |
|
|| |||| | || | || || | | || | |||| || ||| || | | || | || | || || ||
|
| | || | |||| | || || | || |||| |||| | || | |||
|
|||| | ||| || | | |
|
| | || |||
|
| ||| |||| | | || | | ||| || | | || | | || | || | || |
|
||| || ||| | |
|
||| || ||| ||| ||| ||
|
|| | || || |||| ||| | || || | ||| || | ||
|
||
|
| |
| |
|| ||||| || | || | ||
|
| || ||| || |
|
|| | ||
|
| |||| || | || | ||| | ||| ||| || || || || || |||| | ||| | ||| |||
|
| || || | | || ||| || | || ||| || ||||| | |||
|
|| |||| | ||| | |||| |||| || || || | ||| | ||| ||| || | || | | || ||| || ||| | | | || ||| | | | || || | | || || || || || | ||| | ||| ||| | || | ||| || | || | || || | ||| ||| || || || | ||||| | ||
|
|| |||| || ||| ||| | |||
|
|| || | | ||| | | |
|
| | || | || || ||| || || || | || | || || || | | | ||| |||| || | || ||| | || || | | |
|
|| || || || || ||||| | | || || ||| | | ||| | ||| ||| | | |
|
||
|
| | ||| || || ||| || || || || || || | ||||| || | || || | || || || | | ||| || || | ||| || | | ||| ||| ||| |
|
||| || ||| || |
|
||| || | || ||| || ||| ||| | || | ||| ||| || ||| ||| || | | | || || | || || | | | ||| | | || || || | || | | ||
|
|| | || || || || ||| | || |||| || || || | | ||| | || | ||| | || || | ||
|
| |||
|
| || || || | |||| || ||| | || ||||
|
||| | || ||
|
| |||
|
| | || | ||||| ||| || || || | | | ||| | | || |||| || | ||||| ||| ||| | |||| | | || ||| || || || |||| || || | || ||| || |||| |||| | | | ||
|
|| ||| ||| || | || | || |||| |||| | || ||| ||| ||||||| || ||| | || | || ||| | | | || || |||| || || || | || | |
|
| || || || | || ||||
|
| || ||| | | || ||| || | ||| | | | |
|
||| | | |||| || || || || | || | ||| | || | ||| |
|
| || | || || ||| | || | | || | |||| || || ||| | || ||| ||| |
|
| || ||| || | ||| | || | || | ||| ||| || || |||| || | || ||| | || | ||| || || |||| ||| || |
|
||||
|
| ||||| ||| |
|
| | || ||| | |
|
|| | || ||||| | ||| || | |
|
| || || ||
|
||| || | | |||||| |
|
|||| | || ||
|
|| | |
|
|||| | |
|
| | || || | ||| || | ||
|
| | ||| || ||| || ||| || || | | || ||| | || ||| | || |||| ||||| || | ||||| | | || || ||| | ||| | || || |
|
|| || ||| || || ||| | || || || | || |||| || || | | |||| | | | ||
|
|| | | || ||| | | | | || ||| || || ||| ||| || | || || ||| ||| ||| ||| || || || | | | || | | || ||| | || || ||| ||| || || | | ||| ||| || |||| | | || | || | || || ||| | | || || | ||| || ||| | || |
|
||
|
| ||| || || |
|
|| || ||| ||| | || || |
|
|| || | ||| ||| || | |||| | || || ||| || ||||| || || | || ||
|
|| |||| | || || || || | || | ||| || | |
|
| |||| ||| |
|
| ||| || ||| | ||| || | | |
|
| |||||| |
|
| | || |||| || ||| || || || | || |||||
|
|
|
| | ||| ||| | | || | | ||| | || | | ||| |
|
| |||| ||| || || | ||| | | | ||
0 500 1000 1500 2000 2500
0.0
0.2
0.4
0.6
0.8
1.0
Balance
Pro
ba
bili
ty o
f D
efa
ult
| | || | ||| ||| || | ||| || || | || | || || ||| | | | ||| || || || || ||| || | ||| || ||| ||| || ||| |||| | ||| ||| | || | || | || || | ||| | || ||| || || | || | ||| || | ||| || ||| | ||| || || ||| | ||
|
|| ||| || || | |||| | || || | ||| || || || | || | | | |
|
||| | ||| |||| | || || ||| || ||| || |
|
| || |
|
| |
|
|| || ||| | || || ||| | || || || || |||| | ||
|
|
|
| ||| | || || || || ||| || |
|
|| | ||| | | ||| ||| || | || | | || || ||| || || | || || |||||||| || || | || | |||| | || || || || | || ||| || |||
|
|||
|
| | |
|
| | |||||
|
|| || || || || || ||| | || || |||| || | | ||| ||| | | | || || || || | ||
|
| | || || || ||| || | ||| ||| | ||| |||| | || |
||
| || ||| | | | ||| ||| | || | | |||| | || | ||||| || | ||| || || || |
|
| || || | ||||| | | || || | |||| | ||| | ||| | | ||| | | ||| || ||| | || ||||
|
| || |
|
| || || | || | | | || || | || || ||| |||| |||
|
| |||
|
|| | | || ||| | || ||| || || | ||| || | || || || |||| | ||| | | ||| || ||| | ||| |||| |
|
||| || | | ||
|
| || || |||| ||| ||| | | || | || || ||| ||| ||| | ||| || | || ||| || | | ||| || || ||| ||
|
| || || || | || || || || || || |||| ||
|
| |||| | | | ||| || |||| || |
|
||| | ||| ||| || || | || || || || |||| || | | ||| | |||| | |
|
||| | ||||| || || | || || || | ||| || || |
|
|||| |||| | | || || || || | || || |||| | | ||| |
|
|| || | | |||| || || || | |||| || || || || ||| || || | || | | || || | || || ||
|
|| | ||| | ||| |
|
|||||| | | ||| || | || || | | ||| | | | | || ||| | | |||| | ||
|
|| | || |
|
| ||| || | ||| | || || ||
|
| || | || | | || | || || | | |
|
| |||
|
||| | || || || | | | || || ||
|
|| || | | ||| | |||| || ||| || || || || || ||| ||| | ||| | | |||| || ||| | | ||
|
|| | | || ||| || | ||| || ||| || || || | || || || || ||
|
|| || |
||
|| | || ||| |||| | |||
|
| || | | ||| || | ||| ||| | || | | | ||| || || || | ||| || | ||| || || ||
|
|| | ||
|
|| | | || ||| || ||| ||| | || ||| |||| | || | | || |||| |
|
|| || | || ||| || | || || | || | ||| | || ||| || || || || | || || | || || || || | || | |||| | ||| | || || | || || || || ||| || | | || | ||| ||| | ||| | | |||
|
|
|
|||| || | | || | ||| ||| || | ||| || | | | |||| |
|
||| | || ||| | || |||| || | || || | | || || ||| ||| | ||| || || || || | |
|
|
|
|| || | ||| ||||| | | | ||| | | ||| || || || || || | |
|
||
|
|||| ||| |
|
| ||| |
|
||| ||| | ||||| | || || || || | | || || || || || ||| ||| | || | ||
|
||| | ||| || | ||| | |||| || | | || |||| | || || || || || | |
|
||| | | || |||| | || || | |
|
|| | || | || |||| | ||
|
| || || ||| || | | ||| || || ||
|
|| || ||| ||| || || || ||| || || ||| || | | | ||| || || ||||| || | ||| | || | |
|
| || || |
|
| || | | || || | ||||| || | || || || || || | || || || | ||
|
|| ||| || || || ||| | || |||| | | || || || | |
|
|| | || || ||| | ||| || ||| | | ||| ||| || || ||| || ||| || || ||||
|
|||
|
||| | || || || |
|
| || || ||| ||| || | |||
|
||| || || ||| || |
|
|| || || | ||| || | || | || |
|
| || ||| | | ||| || ||| | || | || | || | | || || || | || || | |||
|
|
|
|||| | || | | || | || | ||| | ||| | || | || || || || ||| || |||| || | ||| || || || || | ||
|
||| || | |
|
| | ||| | || || ||||| ||| ||| |
|
|| | ||| ||| ||| | ||
|
|| | || || ||| || | |
|
| | || ||||| ||| | || || ||| || || ||
|
|| | |
|
||| || | || | || | | ||||| | || ||| || |||
|
|| | | |||| | | || | || | |||| | | | | | ||| | |||
|
|||| || ||| || ||
|
||| || |
|
|| | || || || | || | |||||| |
|
|| |
|
||| | | || ||| |
|
| | ||| ||||| ||| | | || || || |
|
| || | ||| || || || || | | ||| || | | | ||| | || || || |||| || |
|
| || | ||| | | || ||| || | | ||| | | ||| | | ||| ||| ||| | |
|
| || | ||| || ||| | || |
|
| ||| | || ||| |||
|
||| | | || || || |||| ||| | ||| ||| ||| || || ||| | ||| |||| | || ||| | || || | || ||| || || || || || || | || || || |||| || || || ||| |
|
|| || || ||| ||
|
|| | ||| | || ||| | || | | | ||| | || || || | ||| |||| || | || || | | |||| | || ||| || | ||| ||| || | || | | | ||| ||
|
| ||| | || | | | |
|
|||| || || | ||| | || |||||| || || || ||| ||| | || ||| | |||| ||| | || || |
|
| || | || || || || || ||| | || || || || | ||| || | || ||| || || |||| ||
|
|| | ||| || || || || | | ||| ||| ||| || ||| |||| ||||| |
|
|||| | | || |||| ||| ||| || || ||| || || || || ||||| ||| | || || | || | ||| ||| |
|
| ||| || || || || || || |||| || |||| || || |
|
||| || || || || | |||
|
|| ||| | ||| || ||| || ||||| ||| | | || |||| || || | ||| || | || ||| | | ||||| | ||| ||| || | | | | || | | || || || | || |||| | ||
|
| || || || || || || || | | || || | | || | ||| ||| | | ||| ||
|
|| ||| || ||| || | || || ||| |||| | ||| || || ||| | | | ||| || | ||| |||| || || |||| || | || | ||| || | || | ||| || || || || ||| || |||| ||| || ||||| | || || |
|
|| || | ||| || ||
|
|| | | |||| | ||| ||| ||| || || || ||| || || || | || || || ||| | | ||||
|
|| | |||| || || ||
|
| || | |
|
|| || | |||| || | ||| ||| | || || || | || | | ||
|
|| || |
|
|| | ||| || |||| ||| || |
|
|| | || ||
|
|| | | || | || ||| ||| || | || |
|
| || ||| | |||| |||| || | ||||| | | |
|
|| ||| ||||
|
||| | || || ||| || | ||| | || || | || || || | ||| || |
|
|| || || | || ||
|
| || ||| ||
|
| || | | ||
|
|| || | || |
|
|| |||| | ||||| | | || | | |||||| || ||| ||| || || |||| | | || |||| || ||
|
| |
|
||| ||
|
| || | |
|
|| || | || | | |||| || | | || | | || || || || || | || ||| | | |||| | |
|
| || || || || || || ||| | | || || ||| || | |||| | || ||| | |||| |||||
|
| | |
|
| | ||| | |||| | || || || || || || | || | || | | | || || | || | |||| | || | || || | ||| | || || ||| || || |||
|
| || ||| | || | || || || ||| | || |||| || | || | ||
|
| | ||| ||| || | |||
|
|| ||| || || || | | || | ||| | || ||| | ||
|
|| || | || | | || ||| | |||| || || | || ||||| || ||| || || || ||| ||| ||| | ||| || ||| ||| || || | ||| |
|
|| |
|
| ||||| | || ||| || || || || | ||| || || | | | ||| | || ||| ||| ||| |||| ||| ||| || || | || | |
|
| || | ||| ||| || || || ||| || ||| | || || | | || | || || || | || | ||| | || || || ||| ||| || || | || | ||
|
| || ||| || || ||| || | ||| || | || |
|
| || | ||| ||| || ||| | ||| || || | | ||| | ||
|
| | || | | |
|
|| | ||| || || | | ||| | | ||| | | || || |||| | || ||
|
|| | | || | | | ||
|
| ||| | | || | || ||| || || | ||| | ||| || |||| | ||| ||| || | || || ||| ||| | ||| ||| ||||| |||| ||| | | |||| ||
|
| |||| | || | |
|
||| ||| || || ||
|
|| |
|
|
|
||| ||| | |||| || ||| | || ||| | | || ||| ||
|
| ||| || |||| || | || | || || | | |||| || | |||
|
||||| || | |||| ||
|
| ||| || |
|
|| || || ||||| | | ||| | ||| | || | ||| || | || | || | | || |||
|
| || |||| ||| | | |
|
| || |||
|
|| || | || | ||||| | | ||| || || | | ||| || || | | | | || ||| | |||| | | || | |||| || | ||| | || |||| | | || ||| ||
|
|| || | || | | || | ||| ||| || || | | || || | || || ||| || || || | | | || | |||| | | || || ||| |
|
|| || | || || || || | ||| | || || || | ||| | || ||| ||
|
|| || || ||
|
| || ||| || || | |
|
| || | | || | ||| | || || ||| || |||| || || | ||
|
|| || || || | | |||
|
|| || | ||| || ||| || | | || |||| | | || ||| |
|
| | |
|
| || | ||| || | | ||| || | || ||| || | | || | | ||| | || | | ||| || ||| | ||| || ||
|
|| || ||| ||| || || ||| || |
||
|| |
|
| | || | || || | ||| || | ||| | | | || | || | || | | |||| | ||| | ||| ||| ||| || | ||| || || || | || |||| | | |||| ||| | | | |||| |
|
|
|
| || || |||| | || |
|
|| || || | |||
| |
| ||| ||| | || | | | |||
|
| ||| | ||| || || || || || | ||| || | || ||| ||| | | || |||| | |||||
|
| || | ||| ||| || || | | ||||| ||| | || || || ||| | ||| || | | || | || || |||| || | ||| | ||| | || || || | || ||| ||| ||| || | ||| | || ||| || || ||| || || | |||| || ||| || ||| | ||| ||| | || | || || || ||| | || ||| | || | || ||| | | ||| | |
|
| | ||||| | ||
|
|| |
|
|||| || |||||
|
|| | | || |||| | || || ||
|
|| ||| || || || ||| |||| || ||| | |||| | | |
|
| | | |||| || ||| | ||| | | || || |
|
|| | || | || | |
|
| | |
|
||| | || | ||| || || || ||| |||| || || ||| || || |||
|
| | | || | || ||| || | ||| ||| || || | ||| || | || || || ||| || ||| | || | || | || || ||| | || ||||| | |
|
|| | | | |||| || ||| || || || || | | || |
|
||| | || || ||| || | || |||
|
|| || ||| | | ||| ||| | || || || || || || | | | ||| | || | | || || | | || ||| || ||| | || || | |||| || || ||| || |
|
|| | || | | || ||| |||| | || | | || ||| | || || || |||| || ||| ||| || || || || || | ||| ||| |||| | |
|
| ||| | ||| ||| || || || |||| || | ||||| | || | ||||| | ||
|
| | || || ||| || | |||| | ||| | || ||| ||| | | || |
|
|| ||| ||
|
| || | ||| || || || |||| || ||
|
||| | || |||| || | || ||| || || | || | || | || || ||| |||| ||| |
|
||| ||| || | || || || | || || | | ||| || || | ||| ||| | ||| ||| |||| | || | || || ||| | || || ||| |
|
|| | ||| ||| | || || || || | || | | ||| || | ||| | || || || || | | || | | || | | |||| || ||| | | || || || ||| || || | |
|
| | ||| || || || |
|
| || || |||
|
| | || |||| ||| | || | ||| || | || | || ||| | || || || || |||||| || | || || | ||| ||| | | || | | || || ||| | ||| || ||||| | || ||| | ||| |||| | || | || ||| ||
|
|||||| | ||| || | || || || ||| || || || || | | || | ||
|
|| || || || ||| | ||| ||| ||| || || || || | || || ||
|
||| | || || || | ||| | || || | || ||| | || || ||
|
| | || | ||| || || | | ||| | || | |||| |||| || || | || | | ||| | || | | |||| || | |||| | || || | || || | ||| || || | ||| || | || ||| |||
|
| || || |||| || || |||| | ||| |||| | |||| |||| || |
|
|| | || | | || | | |
|
| ||||| | |||||| | || | | || || || || | || ||| || | || || || |
|
|
|
| ||| | || | ||| ||| |||| |
|
|| || || || || | | || | ||| | | | ||
|
|| || | || | |||| | ||
|
| || |||| || | ||||| || || | ||| | | ||| ||| | || |||| ||| |
|
| |||| || | ||
|
|| || | |||| | || ||||| | || | ||| | | || || | | | || ||| ||| || | | || | ||
|
|| ||| |
|
| | || || |||| |
|
|| | ||| | || || | ||| || || ||| | || || | ||| || || | || | || |||| || ||| ||| ||| || | ||| | || || | |||
| |
||| || || || | || |||| | |||| || ||| || || | ||| ||
|
| || || ||| || || | | ||| | || | |||| ||
|
|| ||| || | || | | | || | ||| | |
|
| || || || | || || || | ||| || ||| || ||
|
| || | |||| |||
|
| ||| || || | || |
|
| || ||| || | || || |||| || | ||| | || | || | ||| | || | || ||||| |
|
|| | || || | | | ||| | || ||||
|
|
|
| | | | |||| ||| |||| |||| | | | ||| | || | || || | || | |||| | || | | ||| || |
|
||||
|
| ||| | ||| ||
|
| || || ||| ||| || |||| ||| |
|
||| || | ||
|
||| | | || ||| | || |||| || | || ||| || || | ||| | ||| || |||
|
|| ||| || ||| | | || || | || | ||| | || | | || | ||| |||| || || ||||| | ||| | || || || || | || | ||||
|
|| ||| || ||| | | || || | ||| |||| | |
|
|| | | ||| || ||
|
| || || || |
|
| | | || | || ||| ||| | | | || || || |||
|
| || || ||||| | | || ||
|
||
|
|| | || || | ||| || | || | ||| |
|
|| | || | |||
|
|| | |||| || ||| | ||| | | ||| || | || || || | | || |||| ||
|
| || | || || | || ||| | ||| ||| ||| | ||| | || | ||| ||||| | | | ||
|
| | | || | ||| || || ||
|
| || |||| | ||| | |||| || | | ||| || | ||
|
|| | | ||||| | || ||| || || || ||| |||| |||
|
| | | ||| |||| | || |||| | || | | || || | | || || || | ||||| ||| |||
|
|| ||| ||| ||
|
| | || | || ||||| ||| || || || || | ||| || | | | | ||
|
| ||| | || || | | || ||| || |||| ||| || | | ||| | ||| | || || || | || | || | || || | || |
|
| || || |||| ||||| | || | || | || |||| | || | || || |||| | | ||| ||
|
| || || || ||| || || | ||||| || || | ||| || |||| | || ||| ||| || || | |||| || | ||| ||| || | ||| | | || | || || | | || | | || | || |
|
|
|
||| | | ||| ||| || | || | || ||| | |
|
| ||| || || | | || ||| | | | || | || ||| || | || || | || || || || || || || ||| | || || || | || ||||
|
| ||| ||| |
|
| ||| | || | | ||||| | ||| || || || ||| || | ||| | || || ||| || | || | |
|
| |
|
||| ||||| | |||| || || ||| || | || | || ||| | ||
|
| | ||| | ||| | |||| || || | |||| | | ||
|
||| | | || | | ||| || | ||| || ||| || || ||| ||| ||| | || | | | || || ||| || | ||| |||| || || ||| | ||| |||| ||||| || ||| || || | | ||| || || || |||| ||| ||
|
||| ||| ||| | || | ||| | || | | || ||| | || || ||| | || | ||| || | | || ||| | ||| | || || || |||| | | ||
|
||||| || | | || || || ||||| | ||| || ||| ||| | || || || | | || || ||| || | |
|
|| | || |||| || ||
|
|| || | | || | | ||
|
|
|
|
|
|| || | || || ||
|
| || || || || | || ||| | || | | ||| | || || |||| |||| || | ||
|
| || || | || || ||| | | || ||| || || || | | | ||||
|
|| ||| ||| || || || | || || || | | || | || | ||| | || ||| || | || ||| || | || || || || ||| ||| | | ||| | || | || || || || | |||| || || | || || ||| | || | |||| | || | || | | | || || | || || ||| | | ||| |||| | ||| || | || ||| | || | ||| || ||| || || || ||| || | || || || | || |||| || | || || || ||| || || ||| | | | || | | | || |||
|
|| || || ||||| || | |||| |
|
| | | || | | | |||||| ||| || | | ||| | ||| | ||| |||| | | | | || |||| | ||
|
| ||
|
| | || || ||| || || ||| || | || || | ||| || || || || || || | || | ||| ||
|
|| | | || || | || ||| ||| || |
|
|| |||| | || | || || | | || | |||| || ||| || | | || | || | || || ||
|
| | || | |||| | || || | || |||| |||| | || | |||
|
|||| | ||| || | | |
|
| | || |||
|
| ||| |||| | | || | | ||| || | | || | | || | || | || |
|
||| || ||| | |
|
||| || ||| ||| ||| ||
|
|| | || || |||| ||| | || || | ||| || | ||
|
||
|
| |
| |
|| ||||| || | || | ||
|
| || ||| || |
|
|| | ||
|
| |||| || | || | ||| | ||| ||| || || || || || |||| | ||| | ||| |||
|
| || || | | || ||| || | || ||| || ||||| | |||
|
|| |||| | ||| | |||| |||| || || || | ||| | ||| ||| || | || | | || ||| || ||| | | | || ||| | | | || || | | || || || || || | ||| | ||| ||| | || | ||| || | || | || || | ||| ||| || || || | ||||| | ||
|
|| |||| || ||| ||| | |||
|
|| || | | ||| | | |
|
| | || | || || ||| || || || | || | || || || | | | ||| |||| || | || ||| | || || | | |
|
|| || || || || ||||| | | || || ||| | | ||| | ||| ||| | | |
|
||
|
| | ||| || || ||| || || || || || || | ||||| || | || || | || || || | | ||| || || | ||| || | | ||| ||| ||| |
|
||| || ||| || |
|
||| || | || ||| || ||| ||| | || | ||| ||| || ||| ||| || | | | || || | || || | | | ||| | | || || || | || | | ||
|
|| | || || || || ||| | || |||| || || || | | ||| | || | ||| | || || | ||
|
| |||
|
| || || || | |||| || ||| | || ||||
|
||| | || ||
|
| |||
|
| | || | ||||| ||| || || || | | | ||| | | || |||| || | ||||| ||| ||| | |||| | | || ||| || || || |||| || || | || ||| || |||| |||| | | | ||
|
|| ||| ||| || | || | || |||| |||| | || ||| ||| ||||||| || ||| | || | || ||| | | | || || |||| || || || | || | |
|
| || || || | || ||||
|
| || ||| | | || ||| || | ||| | | | |
|
||| | | |||| || || || || | || | ||| | || | ||| |
|
| || | || || ||| | || | | || | |||| || || ||| | || ||| ||| |
|
| || ||| || | ||| | || | || | ||| ||| || || |||| || | || ||| | || | ||| || || |||| ||| || |
|
||||
|
| ||||| ||| |
|
| | || ||| | |
|
|| | || ||||| | ||| || | |
|
| || || ||
|
||| || | | |||||| |
|
|||| | || ||
|
|| | |
|
|||| | |
|
| | || || | ||| || | ||
|
| | ||| || ||| || ||| || || | | || ||| | || ||| | || |||| ||||| || | ||||| | | || || ||| | ||| | || || |
|
|| || ||| || || ||| | || || || | || |||| || || | | |||| | | | ||
|
|| | | || ||| | | | | || ||| || || ||| ||| || | || || ||| ||| ||| ||| || || || | | | || | | || ||| | || || ||| ||| || || | | ||| ||| || |||| | | || | || | || || ||| | | || || | ||| || ||| | || |
|
||
|
| ||| || || |
|
|| || ||| ||| | || || |
|
|| || | ||| ||| || | |||| | || || ||| || ||||| || || | || ||
|
|| |||| | || || || || | || | ||| || | |
|
| |||| ||| |
|
| ||| || ||| | ||| || | | |
|
| |||||| |
|
| | || |||| || ||| || || || | || |||||
|
|
|
| | ||| ||| | | || | | ||| | || | | ||| |
|
| |||| ||| || || | ||| | | | ||
13
Regressao logıstica
• A regressao logıstica utiliza a forma
P(Y = 1|X ) =eβ0+β1X
1 + eβ0+β1X.
• Com um pouco de algebrismo, chegamos em
log
[P(Y = 1|X )
1− P(Y = 1|X )
]= β0 + β1X .
Variavel Coeficiente Erro padrao Estatıstica t p-valor
Intercepto -3,5041 0,0707 -49,55 < 0, 0001Student[Yes] 0,4049 0,1150 3,52 0,0004
log
[P(Default = Yes | Student)
1− P(Default = Yes | Student)
]= −3, 5241 + 0, 4049 · Student[Yes]
14
Regressao logıstica com varias variaveis
• Agora o caso de mais de um preditor, o modelo geral torna-se
log
[P(Y = 1|X )
1− P(Y = 1|X )
]= β0 + β1X1 + . . .+ βpXp.
Variavel Coeficiente Erro padrao Estatıstica t p-valor
Intercepto -10,8690 0,4923 -22,08 < 0, 0001Balance 0,0057 0,0002 24,74 < 0, 0001Income 0,0030 0,0082 0,37 0,7115Student[Yes] -0,6468 0,2362 -2,74 0,0062
• Por que o coeficiente de Student e negativo agora, enquanto era positivoanteriormente? Confundimento.
15
Confundimento
• Os resultados sao diferentes, especialmente quando existe correlacaoentre os preditores.
500 1000 1500 2000
0.0
0.2
0.4
0.6
0.8
Credit Card Balance
De
fau
lt R
ate
No Yes
05
00
10
00
15
00
20
00
25
00
Student Status
Cre
dit C
ard
Ba
lan
ce
16
Regressao multinomial
17
Regressao multinomial
• Ate agora, discutimos o caso de regressao logıstica com duas classes. Efacil generalizar para mais classes
P(Y = k|X ) =eβ0k+β1kX1+...+βpkXp∑Kl=1 e
β0l+β1lX1+...+βplXp
• Por exemplo, podemos classificar um paciente na sala de emergencia deacordo com seu sintoma
Y =
1, se AVC ,
2, se overdose de droga ,
3, se ataque epiletico .
18
Outra abordagem
• Uma alternativa para estimar P(Y |X ) consiste em modelar a distribuicaode X , em cada classe separadamente, utilizando o Teorema de Bayes:
P(Y = k|X = x) =P(Y = k)P(X = x |Y = k)
P(X = x)
• Que escrevendo de outra forma fica
P(Y = k|X = x) =πk fk(x)∑Kl=1 πl fl(x)
• Entao temos que
δk(x) ∝ argmax πk fk(x)
19
Outra abordagem
• πk = P(Y = k) e a probabilidade marginal ou priori para classe k. Podeser estimada utilizando as proporcoes amostrais em cada classe.
• fk(x) = P(X = x |Y = k) e a densidade para X na classe k (diferentesdistribuicoes levam a diferentes metodos).
20
Analise de discriminante
21
Analise de discriminante
• Ao considerarmos para fk(x) a distribuicao Normal em cada classe, nosleva a analise de discriminante linear ou quadratica, pois
δk(x) ∝ argmax πk fk(x)
= argmax
{logπk −
1
2log |Σk | −
1
2〈x − µk ,Σ
−1k (x − µk)〉
}.
πk =nkn
µk =1
nk
∑i :yi=k
xi
Σk =1
nk − 1
∑i :yi=k
(xi − µk)(xi − µk)t
22
Analise de discriminante
• Quando fk(x) possui matriz de covariancia, Σk , diferente em cada classe,temos a analise de discriminante quadratico (ADQ)
δk(x) ∝ argmax πk fk(x)
= argmax
{logπk −
1
2log |Σk | −
1
2(x − µk)tΣ−1
k (x − µk)
}.
• Se todas as classes compartilharem o mesmo Σ =∑
knk−1n−K
Σk , estamosdiante da analise de discriminante linear (ADL)
δk(x) ∝ argmax πk fk(x)
= argmax
{logπk −
1
2µtkΣ−1µk + x tΣ−1µk
}.
23
Analise de discriminante
x1x1
x 2x 2
24
Ilustracao: p = 2 e k = 3 classes
• No exemplo abaixo, temos π1 = π2 = π3 = 1/3;
−4 −2 0 2 4
−4
−2
02
4
−4 −2 0 2 4
−4
−2
02
4
X1X1
X2
X2
• A linha pontilhada e conhecida como fronteira de decisao de Bayes(Bayes decision boundaries);
25
Exemplo: Iris Data
Comprimento da Sépala
Largura da Sépala
Comprimento da Pétala
Largura da Pétala
26
Exemplo: Iris Data
• Temos 4 variaveis, 3 especies com 50 observacoes em cada classe;
• Analise de discriminante linear classifica corretamente 147/150observacoes dos dados de treino.
27
Exemplo simulado: Bayes, ADL e ADQ
• No exemplo, temos a fronteira de decisao de Bayes em rosa, ADLpontilhado e ADQ em verde, em um problema com 2 classes;
Σ1 = Σ2 Σ1 6= Σ2
−4 −2 0 2 4
−4
−3
−2
−1
01
2
−4 −2 0 2 4
−4
−3
−2
−1
01
2
X1X1
X2
X2
28
Regressao logıstica versus ADL
• Regressao logıstica maximiza a verossimilhanca condicional
∏i
p(xi , yi ) =∏i
p(yi |xi )︸ ︷︷ ︸logistica
∏i
g(xi )︸ ︷︷ ︸ignorado
• ADL maximiza a verossimilhanca completa
∏i
p(xi , yi ) =∏i
p(xi |yi )︸ ︷︷ ︸normal fk
∏i
p(yi )︸ ︷︷ ︸bernoulli πk
29
Qual classificador escolher?
• Cenario 1: 20 observacoes em cada classe. Todas nao correlacionadas enormalmente distribuıdas;
• Cenario 2: Semelhante ao cenario 1, mas em cada classe, os preditorestem correlacao de -0,5;
• Cenario 3: Semelhante ao cenario 1, mas com distribuicao t de student.
KNN−1 KNN−CV LDA Logistic QDA
0.2
50
.30
0.3
50
.40
0.4
5
SCENARIO 1
KNN−1 KNN−CV LDA Logistic QDA
0.1
50
.20
0.2
50
.30
SCENARIO 2
KNN−1 KNN−CV LDA Logistic QDA
0.2
00
.25
0.3
00
.35
0.4
00
.45
SCENARIO 3
30
Qual classificador escolher?
• Cenario 4: Os dados sao normalmente distribuıdos, com correlacao de0,5 em uma classe e -0,5 em outra;
• Cenario 5: As respostas foram geradas utilizando os preditores: X 21 , X 2
2 eX1 × X2 (ou seja, limite de decisao quadratico);
• Cenario 6: As respostas foram geradas utilizando funcoes nao linearesmais elaboradas.
KNN−1 KNN−CV LDA Logistic QDA
0.3
00
.35
0.4
0
SCENARIO 4
KNN−1 KNN−CV LDA Logistic QDA
0.2
00
.25
0.3
00
.35
0.4
0SCENARIO 5
KNN−1 KNN−CV LDA Logistic QDA
0.1
80
.20
0.2
20
.24
0.2
60
.28
0.3
00
.32
SCENARIO 6
31
Naive bayes
32
Naive bayes
• Se supusermos que as componentes de x sao independentescondicionalmente a classe Y estamos diante do Naive Bayes;
• Naive Bayes assume distribuicao normal, com Σk diagonal:
δk(x) ∝ log
[πk
p∏j=1
fkj(xj)
]= −1
2
p∑j=1
(xj − µkj)2
σ2kj
+ log(πk).
• Apesar de tal suposicao nao ser razoavel, em muitos problemas ela econveniente, e leva a bons classificadores.
• Lembre-se que estamos interessados classificar, e obter estimadoresviciados nao altera esta decisao.
33
Exemplo: Iris Data
34
Exemplo: Iris Data
35
Tipos de erro
36
Tipos de erro
• Voltando ao exemplo do cartao de credito, temos a seguinte situacao:
Default observadoNao Sim Total
Default preditoNao 9644 252 9896Sim 23 81 104
Total 9667 333 10000
• Tivemos23 + 252
10000= 2, 75% erros de classificacao;
• Se classificarmos todos como N~ao, terıamos333
10000= 3, 33% de erro;
Falso positivo: fracao de negativos classificados como positivo,23
9667= 0, 2%;
Falso negativo: fracao de positivos classificado como negativo,252
333= 75, 7%.
37
Variando o threshold
• Podemos mudar as taxas de erro, alterando a fronteira de decisao paraalgum valor ∈ [0, 1]:
P(Default = Yes | Balance, Student) ≥ threshold.
• Abaixo, em azul temos a taxa de falso negativo, em laranja falso positivoe em preto a taxa de erro total.
0.0 0.1 0.2 0.3 0.4 0.5
0.0
0.2
0.4
0.6
Threshold
Err
or
Rate
38
Curva ROC
• A curva ROC (receiver operator characteristic) nos ajuda nesta escolhado threshold. Ela apresenta as duas taxas de erro ao mesmo tempo.
ROC Curve
False positive rate
Tru
e p
ositiv
e r
ate
0.0 0.2 0.4 0.6 0.8 1.0
0.0
0.2
0.4
0.6
0.8
1.0
39
Referencias
• James, G., Witten, D., Hastie, T. e Tibshirani, An Introduction toStatistical Learning, 2013;
• Hastie, T., Tibshirani, R. e Friedman, J., The Elements of StatisticalLearning, 2009;
• Lantz, B., Machine Learning with R, Packt Publishing, 2013;
• Tan, Steinbach, and Kumar, Introduction to Data Mining,Addison-Wesley, 2005;
• Some of the figures in this presentation are taken from ”An Introductionto Statistical Learning, with applications in R”(Springer, 2013) withpermission from the authors: G. James, D. Witten, T. Hastie and R.Tibshirani
40