+ All Categories
Home > Education > Classifier evaluation and comparison

Classifier evaluation and comparison

Date post: 11-May-2015
Category:
Upload: anton-konushin
View: 592 times
Download: 0 times
Share this document with a friend
Popular Tags:
30
Статистическое сравнение классификаторов на множестве наборов данных Влад Шахуро Факультет ВМК МГУ им. М.В.Ломоносова Лаборатория КГиМ Семинар Компьютерное зрение 29 октября 2012 г.
Transcript
Page 1: Classifier evaluation and comparison

Статистическое сравнение классификаторов намножестве наборов данных

Влад Шахуро

Факультет ВМК МГУ им. М.В.ЛомоносоваЛаборатория КГиМ

Семинар «Компьютерное зрение»

29 октября 2012 г.

Page 2: Classifier evaluation and comparison

1

Постановка задачи

Дано k обученных классификаторов, протестированныхна N наборов данных. Пусть cji — оценка качества j-гоклассификатора на i-м наборе данных. Предполагается, чтооценки качества классификаторов достаточно надёжны.

Требуется определить по значениям cji , являются лирезультаты классификаторов статистически различными и,в случае k > 2, определить, какие именно классификаторыотличаются по качеству.

Page 3: Classifier evaluation and comparison

2

Проверка гипотез

X = (X1, . . . , Xn) - данные (выборка)F — совокупность априори допустимых распределений XFX — неизвестное истинное распределение данных, FX ∈ FF0 ⊂ F — выделенное множество функций распределения

Задача проверки гипотез: необходимо по данным X проверитьсправедливость утверждения H0 : FX ∈ F0. H0 называетсянулевой гипотезой. Утверждение H1 : FX ∈ F\F0 называетсяальтернативной гипотезой.

Правило, согласно которому мы, наблюдая X, принимаемрешение принять гипотезу H0 как истинную либо принятьальтернативную гипотезу H1, называется статистическимкритерием.

Page 4: Classifier evaluation and comparison

3

Проверка гипотез (продолжение)

P(H1|H0) = α — вероятность ошибки I рода или уровеньзначимости (significance level) критерия

P(H0|H1) = β — вероятность ошибки II рода, 1− β —мощность критерия

На практике обычно стараются выбрать наиболее мощныйкритерий при заданном значении ошибки первого рода.

Page 5: Classifier evaluation and comparison

4

Проверка гипотез (продолжение)

В случае сравнения классификаторов в качестве нулевойгипотезы выступает предположение о том, что всеклассификаторы в некотором роде эквивалентны, в качествеальтернативной гипотезы — предположение о том, что хотя быдва некоторых классификатора неэквивалентны.

Критерии, включающие в себя расчёт параметроввероятностного распределения признака, называютсяпараметрическими.

Критерии, основанные на оперировании частотами и рангами,называются непараметрическими.

Page 6: Classifier evaluation and comparison

5

Сравнение двух классификаторов

Простейший способ сравнения множества классификаторов —выделить все возможные пары классификаторов и сравниватькаждую пару классификаторов выбранным критерием.

Page 7: Classifier evaluation and comparison

6

Парный критерий Стьюдента

Пусть c1i , c

2i — результаты двух классификаторов на i-м из N

наборов данных и di = c2i − c1

i — их разница.

Статистика t = d/σd распределена по закону Стьюдентас N − 1 степенью свободы. Здесь d — среднее арифметическоеразниц результатов, а σd — стандартная ошибка.

t ∼ t(N − 1)

Page 8: Classifier evaluation and comparison

7

Парный критерий Стьюдента (продолжение)

Недостатки критерия:— Не работает на несоизмеримых наборах данных,

отвечающих различным проблемам. Можно решить,поделив разницу на среднее значение качестваdi =

c2i−c1i(c1i +c2i )/2

— Требует, чтобы k был достаточно большим (≥ 30).В противном случае выборка должна быть взятаиз нормального распределения. Любопытно, что все тестына нормальное распределение недостаточно мощныпри таких размерах выборки

— Чувствителен к выбросам

Page 9: Classifier evaluation and comparison

8

Критерий УилкинсонаПроранжируем di по возрастанию модулей. Посчитаем суммырангов результатов на наборах данных, на которых одинклассификатор показал результат лучше другого.

R+ =∑di>0

rank(di) +1

2

∑di=0

rank(di)

R− =∑di<0

rank(di) +1

2

∑di=0

rank(di)

Введём статистику T = min(R+, R−). Для T при N < 25существуют таблицы точных критических значений,при больших N статистика

z =T − 1

4N(N + 1)√124N(N + 1)(2N + 1)

имеет примерно нормальное распределение.

Page 10: Classifier evaluation and comparison

9

Критерий Уилкинсона (продолжение)

Особенности критерия:— Работает на несоизмеримых наборах данных— Устойчив к выбросам— Не требует предположений о характере распределения

результатов классификаторов— Если выполняются условия для критерия Стьюдента,

то критерий Уилкинсона менее мощен

Page 11: Classifier evaluation and comparison

10

Критерий знаков

Посчитаем количество наборов данных, на которых одинклассификатор превосходит второй. Если гипотезаэквивалентности классификаторов верна, то каждыйклассификатор должен выиграть примерно N/2 раз на Nнаборах данных. Количество побед является случайнойвеличиной, распределённой по биномиальному закону.

При больших N количество побед при условии верностигипотезы распределено по нормальному закону N(N/2,

√N/2).

Тогда для проверки гипотезы эквивалентности можноиспользовать z-тест: если количество побед по меньшей мереравно N/2 +

√N , алгоритм значительно превосходит другой

алгоритм с ошибкой предсказания 5%.

Page 12: Classifier evaluation and comparison

11

Критерий знаков (продолжение)

Особенности критерия:— Применим к любым наборам данных, не требует

ни соизмеримости сложности данных, ни нормальностирезультатов

— Намного слабее критерия Уилкинсона, не отвергаетнулевую гипотезу до тех пор, пока исследуемый алгоритмне превосходит значительно второй алгоритм

Page 13: Classifier evaluation and comparison

12

Сравнение множества классификаторов

Приведенные ранее критерии не были созданы специально дляисследования множества случайный величин. В силу того, чтодля проверки нулевой гипотезы нужно сделать k(k−1)

2сравнений, определённая доля нулевых гипотез отвергаетсяиз-за погрешностей и случайностей.

В статистике существуют методы, специально предназначенныедля тестирования эквивалентности многих случайных величин.

Page 14: Classifier evaluation and comparison

13

ANOVA

В случае множественного сравнения классификаторов выборкаподелена на k групп с N наблюдений в каждой группе.

σ2bg =

N

k − 1

k∑j=1

(cj − c)2

σ2wg =

1

k(N − 1)

k∑j=1

N∑i=1

(cji − cj)2

σ2bg — межгрупповая дисперсия, σ2

wg — внутригрупповаядисперсия

F =σ2bg

σ2wg

∼ F (k − 1, k(N − 1))

Page 15: Classifier evaluation and comparison

14

ANOVA (продолжение)

Для попарного сравнения классификаторов используетсястатистика

T =

√N(ci − cj)√

2σ2wg

∼ t(k(N − 1))

Необходимые условия для теста:— Выборки должны быть взяты из нормального

распределения— Равенство дисперсий результатов каждого классификатора

Page 16: Classifier evaluation and comparison

15

Тест Фридмана

Тест Фридмана является непараметрическим аналогом ANOVAс повторными измерениями.Пусть rji — ранг j-го алгоритма на i-м наборе данных,Rj = 1

N

∑i r

ji - средний ранг j-го алгоритма. Если верна

гипотеза об эквивалентности алгоритмов, их средние рангитакже должны быть равны.

Page 17: Classifier evaluation and comparison

16

Тест Фридмана (продолжение)

Введём статистику Фридмана

χ2F =

12N

k(k + 1)

∑j

R2j −

k(k + 1)2

4

χ2F ∼ χ2(k − 1), k > 5, N > 10

Статистика Фридмана косервативна (т.е. стремитсяк недооценке). Можно ввести более надежную статистику

FF =(N − 1)χ2

F

N(k − 1)− χ2F

FF ∼ F (k − 1, (k − 1)(N − 1))

Page 18: Classifier evaluation and comparison

17

Тест Фридмана (продолжение)

Если тест Фридмана отвергает нулевую гипотезу, можно ввестистатистику для сравнения i-го и j-го классификаторов:

z =(Ri −Rj)√

k(k+1)6N

Статистика z имеет нормальное распределение. Значение zиспользуется для определения соответствующей вероятности(p-value) и её последующего сравнения с вероятностью αошибки I рода.

Page 19: Classifier evaluation and comparison

18

Корректировки вероятностей ошибок

В самом простом случае каждая гипотеза, соответствующаяпаре классификаторов, тестируется независимо от всехостальных гипотез. Более хорошие результаты даёттестирование гипотез в совокупности.

Будем контролировать ошибку на семействе гипотез(family-wise error) — вероятность совершить хотя бы однуошибку I рода при сравнении множества пар.

Page 20: Classifier evaluation and comparison

19

Процедуры Nemenyi и Хольма

Nemenyi: значение ошибки α делится на количествопроизведённых сравнений классификаторов m = k(k−1)

2

Хольм-Бонферрони: пусть p1, . . . , pm — упорядоченныевероятности (p-values) и H1, . . . ,Hm — соответствующиеим гипотезы. Процедура Хольма отвергает гипотезыH1, . . . ,Hi−1, если i — минимальное целое число, для котороговыполнено неравенство pi > α/(m− i+ 1).

Page 21: Classifier evaluation and comparison

20

Процедура Бергманна и Хоммеля

Множество индексов I ⊆ {1, . . . ,m} называетсяисчерпывающим (exhaustive), если в точности все гипотезыHj , j ∈ I, могут быть верными.

Рассмотрим это определение для трёх классификаторов.H1 : C1 ∼ C2, H2 : C2 ∼ C3, H3 : C3 ∼ C1

Из 23 возможных сочетаний гипотез исчерпывающимиявляются следующие:— Все гипотезы верны— H1 верна, H2 и H3 неверны— H2 верна, H1 и H3 неверны— H3 верна, H1 и H2 неверны— Все гипотезы неверны

Page 22: Classifier evaluation and comparison

21

Процедура Бергманна и Хоммеля (продолжение)

function obtainExhaustive(C = {c1, . . . , ck}):let E = ∅E = E ∪ {all possible pairwise comparisons using C}if E == ∅:

return Efor all possible divisions of C into C1 & C2, ck ∈ C2 and C1 6= ∅:E1 = obtainExhaustive(C1)E2 = obtainExhaustive(C2)foreach family of hypotheses e1 of E1:

foreach family of hypotheses e2 of E2:E = E ∪ (e1 ∪ e2)

return E

Процедура Бергманна и Хоммеля: отвергнуть гипотезу Hj ,если j 6∈ A

A =⋃{I : I − exhaustive, min{pi : i ∈ I} > α/|I|}

Page 23: Classifier evaluation and comparison

22

Статическая процедура Шеффера

Пусть p1, . . . , pm — упорядоченные вероятности (p-values) иH1, . . . ,Hm — соответствующие им гипотезы. Процедураотвергает гипотезы H1, . . . ,Hi−1, если i — минимальное целоечисло, для которого выполнено неравенство pi > α/ti, где ti —максимальное число гипотез, которые могут быть верны,при условии, что какая-то i− 1 гипотеза неверна. ti ∈ S(k), гдеS(k) — набор чисел возможных верных гипотез приk сравниваемых классификаторов.

S(k) =

k⋃j=1

{C2j + x : x ∈ S(k − j)

}

Page 24: Classifier evaluation and comparison

23

Сравнение критериев

Будем сравнивать мощности критериев косвенно черезследующие параметры:— Количество отвергнутых нулевых гипотез— Среднее значение статистики критерия (average p-value,

APV)Чем меньше значение APV, тем больше вероятностьотвергнуть нулевую гипотезу на заданном уровне доверия

— Вопроизводимость результатов — вероятность того, чтодва эксперимента на одной и той же паре алгоритмовдадут одинаковый результат (отвергнут или примутнулевую гипотезу):

R(p) = 1− 2var(p) = 1− 2

∑i(pi − p)n− 1

Page 25: Classifier evaluation and comparison

24

Сравнение критериев (продолжение)

При сравнении двух классификаторов сэмплированиепроизводится из нескольких наборов данных так, чтовероятность выбрать i-й набор данных пропорциональна1/(1 + e−kdi), где di — разница точности классификаторовна этом наборе данных, а k — смещённость.

Page 26: Classifier evaluation and comparison

25

Сравнение парных критериев

Слева: k и APV, справа: k и количество отвергнутых нулевыхгипотез

Page 27: Classifier evaluation and comparison

26

Сравнение множественных критериев

Слева: k, APV и R(p), справа: k и количество отвергнутыхнулевых гипотез

Page 28: Classifier evaluation and comparison

27

Сравнение процедур корректировки

Page 29: Classifier evaluation and comparison

28

Резюме

— При сравнении классификаторов на реальных данныхнепараметрические критерии более предпочтительны,т.к. они накладывают меньшие ограничения на выборкурезультатов

— Для сравнения большого количества классификаторовстоит пользоваться специализированными критериями,например, тестом Фридмана

— Для попарного сравнения классификаторов после того, какотвергнута нулевая гипотеза, стоит пользоватьсякорректировками (post hoc tests), учитывающимизависимость гипотез друг от друга

Page 30: Classifier evaluation and comparison

29

Список материалов

Demsar. Statistical Comparison of Classifiers over Multiple DataSets. JMLR 6 (2006).

Garcıa, Herrera. An Extension on «Statistical Comparisonof Classifiers over Multiple Data Sets» for all PairwiseComparisons. JMLR 9 (2008).

Ивченко, Медведев. Введение в математическую статистику.

http://statmaster.sdu.dk/courses/st111/module11/index.html

http://ru.wikipedia.org/wiki/F-тест


Recommended