Регрессионный анализ
Методыанализа
ФакторыНезависи-
мые
ОткликиЗависимые Результат
Дисперсионный Любыешкалы
Интерваль-ные
Стат.значи-мость и силавлияния
Корреляционный Нет разделенияЛюбые шкалы
(разные коэффициенты)
Сила инаправление
связи
Регрессионный Интерваль-ные
(предикторы)
Интерваль-ные
Прогноз(интер- но неэкстаполяция
?)
Регрессия
• Моделирование, описание зависимостимежду переменными
• Количественная оценка поведения откликапри изменении предиктора
- >> уравнение регрессии• Предсказание значений переменной откликапри заданных значениях предиктора
- >> прогноз
ДовольноДовольно часточасто длядля описанияописаниязависимостизависимости достаточнодостаточнополучитьполучить графическоеграфическоеизображениеизображение имеющихсяимеющихся данныхданных..
ШирокоШироко применяютсяприменяются««точечныеточечные диаграммыдиаграммы»» = =
scatterscatter--plotplot
ЕслиЕсли имеютсяимеются нене отдельныеотдельныезначениязначения, , аа рядряд группгрупп((выбороквыборок, , вариантоввариантов……) ) --
1 2 3 4 5 38 39 41 42 43
N
300
350
400
450
500L
КаждаяКаждая точкаточка --безбез оценкиоценки!!!.....!!!.....
1 2 3 4 5 38 39 41 42 43
N
300
350
400
450
500
LКаждаяКаждая точкаточка!!!.....!!!.....
((ноно –– доверительныйдоверительныйинтервалинтервал!)!)
1 2 3 4 5 38 39 41 42 43
N
300
320
340
360
380
400
420
440
460
480
500
520
L
СмотритеСмотрите самисами..........
1 2 3 4 5 38 39 41 42 43
N
300
320
340
360
380
400
420
440
460
480
500
520
LГИПОТЕЗЫГИПОТЕЗЫ……
НекотораяНекоторая тенденциятенденция......
1 2 3 4 5 38 39 41 42 43
N
300
320
340
360
380
400
420
440
460
480
500
520L
ГИПОТЕЗЫГИПОТЕЗЫ……
««ЧеткаяЧеткая»» тенденциятенденция......
1 2 3 4 5 38 39 41 42 43
N
300
320
340
360
380
400
420
440
460
480
500
520L
ГИПОТЕЗЫГИПОТЕЗЫ……
««ОченьОчень четкаячеткая»» тенденциятенденция......
1 2 3 4 5 38 39 41 42 43
N
300
320
340
360
380
400
420
440
460
480
500
520L
ГИПОТЕЗЫГИПОТЕЗЫ --
ДваДва этапаэтапа......
1 2 3 4 5 38 39 41 42 43
N
300
350
400
450
500
LГИПОТЕЗЫГИПОТЕЗЫ…… --
ДвеДве областиобласти……..
1 2 3 4 5 38 39 41 42 43
N
300
320
340
360
380
400
420
440
460
480
500
520
L
СмотритеСмотрите самисами..........
• Обязательно показыватьдоверительные интервалы
• Не придавать значения отдельнымточкам (по крайней мере - без вескихоснований) – важны тенденции!
• Учитывать = показывать (и обсуждать) ВСЕ возможные гипотезы
• В дальнейшем исследованииПРОВЕРЯТЬ и ДОКАЗЫВАТЬ
Г.Г.Винберг (1980)Условия корректного применения вбиологии элементарныхэмпирических формул (Колич. методы в экологии животных, Л.,1980, с.34-36)
1. Предпочтение следует отдавать, во-первых, формулам, приложимым ко всем или к большей части относящихся кним материалам разных авторов
2. Нередко результаты отдельных наблюдений за проявлениямиодной и той же биологические закономерности выражают спомощью разных элементарных функций. Это ведет кнакоплению несравнимых или трудно сравнимых формул, чторезко снижает эффективность исследований. Необходимодостигнуть договоренности об единообразных способахматематического выражения каждой из изучаемыхзависимостей.
• 3. Практика исследований показала существеннуюособенность биологических данных. Материалы, полученные при, казалось бы, идентичных условиях, часто статистически достоверно различаются. Поэтому, помимо статистической обработкинаблюдений, весьма важно устанавливать, в какоймере воспроизводимы полученныеколичественные зависимости, к какому кругуобъектов и каким условиям они приложимы.4. Количественному выражению подлежат достаточнооднородные по отношению к изучаемому факторубиологические материалы. Этим важным условиемплодотворности устанавливаемых количественныхсоотношений очень часто пренебрегают. В результатеполучают формально правильные, но биологическибессодержательные и ненужные, часто неоправданноусложненные математические выражения.
• 5. В практике исследований зависимости разныхвзаимосвязанных функций организма (или в болееобщей форме - разных взаимосвязанных элементовбиологической системы) от некоторого фактора чащевсего изучаются раздельно. Результаты изучениякаждой отдельной функции организма выражают ввиде соответствующего уравнения. Сопоставлениеэтих уравнений между собой, как показываютконкретные примеры, может приводить к абсурднымвыводам. Следовательно, зависимость отопределенного фактора разныхвзаимосвязанных функций организма илисистемы надо устанавливать на одном и том жеобъекте и при одинаковых условиях. Прираздельном изучении функций нужно принимать вовнимание необходимость согласования получаемыхрезультатов с результатами изучения зависимости отрассматриваемого фактора другихвзаимосвязанных функций организма илиэлементов системы.
Линейные и нелинейные• Внутренне линейные функции.
Y=exp(θ1 + θ2 t2 + ε)• Внутренне линейные функции можнопреобразовать к линейному виду.
• Например: y = ax2
при замене y - lg(y)x - lg(x)
принимает линейный вид
• Шмидт В.М. Математические методы в ботанике. Изд. ЛГУ. 1984 (с. 101)
• Терентьев П.В., Ростова Н.С. Практикум побиометрии. Изд. ЛГУ. 1977 (с. 100-101)
Подбор варианта линеаризации
• «Опасность нелинейности» зачастуюпреувеличивается!
• Степень точности (неточности) измерений в биологическихисследованиях может превышать«искажения от нелинейности»
• Обычно интервал имеющихся значенийнаходится в области линейнойзависимости
0 2 4 6 8 10 12 14 16 18 20 22
Var1
-2
0
2
4
6
8
10
12
14
16
18
20Va
r2
СильноеСильноеискажениеискажение
ТолькоТолько областьобластьлинейнойлинейной зависимостизависимости
Анализ роста
• «Соотносительный рост» - аллометрия(Huxley, 1932)
y = bxα
Где α – «константа равновесия»;При α >1 – положительная аллометрия
α <1 – отрицательная аллометрия
α = 1 – равномерный рост
Примеры нелинейных связей
• S-образные кривые ростаЛогистическая функция:
Y = A /[(1 + 10a+bx) + c]А – окончательный размер, a и b –константы (определяют наклон, изгиби точку перегиба), с – исходныйразмер
Функция Гомпертца (несимметричная: растянутая верхняя ветвь)
Y = A /1010a+bxСм. Шмидт В.М. 1984, с. 129-148.
Анализ роста
Уравнение регрессии
Y = b0 + b1X
X – независимаяпеременная,
предиктор, фактор
independent variable, predictor
b0 – ожидаемоезначение Y при X = 0
Оценка β0
intercept
b1 – угол наклонаграфика по отношению
к оси X,
среднее изменение Y на единицу изменения
Х в выборке
Оценка β1
slope
Y – зависимаяпеременная, откликОценка μ(yi)dependent variable, response variable
0 40 80 120 160 200CWD_BASAL
600
1000
1400
1800
2200
RIP_D
ENS
Y = 879.43+5.49*xCorrelation: r = 0.80
Какую линию выбрать?
• На графике рассеяния можно провестимножество линий, которые проходятчерез точки данных
0 40 80 120 160 200CWD_BASAL
600
1000
1400
1800
2200
RIP_D
ENS
Y = 879.43+5.49*xCorrelation: r = 0.80
• Для полученной линии регрессии
ДОВЕРИТЕЛЬНАЯ ЗОНАи –
доверительные интервалы длякаждого из коэффициентов уравнения
Сравнение двух линий регрессии
Урбах В.Ю. Статистический анализ в биол. Имедицинских исследованиях. М. 1975. (с.203-220)
Метод наименьших квадратов
• Функция потерь• Loss = ∑(yi – yi exp)2
• Сумма квадратов отклонений наблюдаемыхот ожидаемых значений должна бытьминимальна
X
YНаблюдаемые значения Y приданном X
Ошибки – отклонениянаблюдаемых значений отпредсказанных регрессией
Предсказанные регрессиейзначения Y при данном X
Рассчет коэффициентовуравнения линейной
регрессии•Модель Yi exp = β0+β1X+ εi
•Оценка модели yi exp = b0 + b1xi•Нужноминимизироватьзначение функциипотерь
•Берем производныепервого порядка отфункции потерь по β0и β1 и приравниваемих к нулюX
YФункция потерь
Loss = ∑ εi2 = ∑ (Yi exp – β0 – β1Xi)2
Рассчет коэффициентовуравнения линейной
регрессии•Система т. наз. нормальных уравнений•-2∑ (Yi exp – b0 – b1Xi) = 0•-2∑ Xi (Yi exp – b0 – b1Xi) = 0 •Коэффициенты регрессии
•b0 = Y– b1X•b1 = [ ∑ (xi – X) (yi – Y)]/
∑ (xi – X)2
Стандартные ошибкикоэффициентов•SEb0 = sqrt[mSe{1/n+X2/∑(xi - X)2}]•SEb1 = sqrt[mSe/∑(xi - X)2]X
Y
• Интерпретация полученного уравнениярегрессии – по коэффициентам (???)
Стандартизированныекоэффициенты регрессии
• Оценка коэффициентов, которая не зависит отединиц измерения X и Y
• Как получить стандартизованные коэффициенты?– Умножить обычный коэффициент на отношение
SDX и SDY
– или– Подобрать уравнение регрессии постандартизованным X и Y
b1* = b1 * SDX/SDY
Структура общейизменчивости
X
Y
Наблюдаемые значения Y приданном X
Общее среднее значение Y
Предсказанные регрессиейзначения Y при данном X
Y
yi
yi exp
Общаяизменчивость
∑(yi – Y)2
Изменчивостьотносительнорегрессионной прямой
∑(yi exp – Y)2
Остаточнаяизменчивость
∑(yi – yi exp)2= +
Y
yi
yi exp
«Особые» случаи«Особые» случаи
• Анализ кривых «доза – эффект» = probit analysis (Bliss C.)
• «Временные ряды» = ряды динамики =Time series
• Анализ кривых «доза – эффект» = probit (Bliss C.)в фармакологии, токсикологии... (экологии)
Литература:1.Урбах В.Ю. Статистический анализ в биологических имедицинских исследованиях. 1975. (глава 9)
2.Беленький М.Л. Элементы количественной оценкифармакологического эффекта. 1963.
3.Зайцев Г.Н. Математический анализ биологическихданных. 1991. (с.99-103)
4.Кудрин А.Н., Пономарева Г.Т. Применениематематики в экспериментальной и клиническоймедицине. 1967.
• Варианты различаются по ДОЗЕ илиДЛИТЕЛЬНОСТИ ВОЗДЕЙСТВИЯ(количественная оценка)
• Интервалы между вариантами поинтенсивности воздействия могут бытьравные или неравные
• ЭФФЕКТ оценивается как числообъектов в группе (варианте) сзарегистрированной реакцией (погибли– вылечились - ….)
• Группы небольшие (например, n=5-6)
• РЕЗУЛЬТАТ АНАЛИЗА --->• LD50 - летальная доза для 50% выборки
или –эффективная доза (ED50)эффективное время
(длительность) воздействия (ET50, LT50)
• Несколько методов, использующих• Логарифмирование• «Пробиты» -
дляа) логарифмов долей выборки, демонстрирующих наличие эффекта –
используютсяб) накопленные частости нормальногораспределения
• Отсюда: probability -> probite
• Методы, основанные налогарифмировании, (Рида и Минча; Кербера) а) более строги к данным(равноотстоящие значения доз, равенствообъема групп)б) менее точны (недостаточнаялинеаризация)
• «Слабое место» пробит-анализа –допущение о нормальности кривой «доза-эффект»
• Для величины LD50 имеется методоценки ошибки и доверительногоинтервала (также – сравнения междуэтими величинами для разныхвоздействий)
• Основная часть вычислений можетбыть сделана по таблицам значенийпробитов (см. пп. 1 и 3 в списке литературы)
• Показатель является стандартным иего можно сравнивать с результатами, полученными другми исследователями
Преимущества пробит-анализа
DOSE
50%
EFFE
CT
(%%
)
LD50
lg(DOSE)
50%
EFFE
CT
(%%
)
LD50
• В пакете STATISTICA – Nonlinear Models -> Nonlinear Estimation
• Предварительно в файле данных нужносделать логарифмирование обеихпеременных
Пробит-анализ• Доля «реагирующих» приравнивается кнакопленным частостям (z) нормального распределения, длякоторых
Z = Φ((x-μ)/σ)где Φ – интеграл вероятностей, μ и σ -математическое ожидание истандартное отклонениераспределения.
• Заменяем Z на p%, x на lgD, μ на lgD50 иполучаем
p% = Φ ((lgD - lgD50)/ σ)• или (упрощая обозначения)–
p = Φ ((l - l50)/ σ) [*]• После замены Φ на ψ (функция, обратная кинтегралу вероятностей)
y’ = ψ (p)• получаем
y’ = (1/σ)l - l50/σ
• В области p<0.5 величина y’ принимаетотрицательное значение. Для удобствазаменяем y’ на
y = y’+a,• где a=5. • Теперь, если по оси абсцисс откладыватьзначения l (логарифм дозы – по вариантам), а по оси ординат y = ψ (p) + 5
• то точки расположатся примерно по прямойлинии.
• Величина y = ψ(p) + 5 получила названиепробит (от probability unit= вероятностнаяединица).
Для групп с объемом n 3-15 – специальные таблицызначения пробитов (не нужны не только таблицывероятностей, но и вычисление процентов).
Число объектов с проявляющейся реакциейЧислообъектов вгруппе 0 1 2 3 4 5 …15
3 3.50 4.57 5.43 6.50 - -
4 3.36 4.33 5.00 5.67 6.64 -
5 3.25 4.16 4.75 5.25 5.84 6.75
6 3.16 4.03 4.57 5.00 5.43 5.97
7 3.10 3.93 4.43 4.82 5.18 5.57
8 3.04 3.85 4.33 4.68 5.00 5.32
…15 2.78 3.50 3.89 4.16 4.38 4.57 7.22
((частьчасть таблицытаблицы пробитовпробитов –– УрбахУрбах, 1975:245, 1975:245)
Пример
Частотаэффекта
Накопленная частота
есть нет есть нет сумма
%%
2.4 6 0 6 0.0 0 17 17 0 3.16
2.8 7 1 6 14.3 1 11 12 8.2 3.93
3.2 7 3 4 42.9 4 5 9 44.5 4.82
3.6 6 5 1 83.3 9 1 10 90.0 5.97
4.0 6 6 0 100. 15 0 15 100 6.84
Пробит
% положит.
Логарифмдозы
N группы
МожноМожно простопросто сосчитатьсосчитать попо ««серединесередине интервалаинтервала»»::LgLg ЭДЭД5050 = 3.2 + (3.6= 3.2 + (3.6--3.2) (53.2) (50.00.0--42.9)/(83.342.9)/(83.3--42.9) = 3.2742.9) = 3.27ТогдаТогда ЭДЭД5050 = 1.86 = 1.86 ·· 101033..НОНО -- ПриПри этомэтом мымы используемиспользуем толькотолько двадва изиз пятипяти вариантоввариантов!!
А) логарифмированиеБ) пробиты
1
2
3
4
5
2.2 2.4 2.6 2.8 3.0 3.2 3.4 3.6 3.8 4.0 4.2
LgD
-20
0
20
40
60
80
100
120
procent
1
2
3
4
5
2.2 2.4 2.6 2.8 3.0 3.2 3.4 3.6 3.8 4.0 4.2
Lg Doze
3.0
3.5
4.0
4.5
5.0
5.5
6.0
6.5
7.0
Probit
• «Временные ряды» = рядыдинамики = Time seriesа) Закономерная (фиксированная) последовательность значений в рядузначений исследуемой(ых) переменнойкорреляции междупоследовательными значениями в ряду(автокорреляция) и/или между рядами(кросскорреляция)
«Особые» случаи
«Временные ряды» = ряды динамики= Time series
а) Фиксированнаяпоследовательностьб) Компоненты временных рядов
• Общая тенденция• Периодическая (ие) колебания
- их может быть несколько! (продолжительность общего срока идлина интервалов)
• Случайные колебания
Не только для «настоящих» рядовдинамики –
• «Ряды» в пространстве• «Ряды» метамерных органов
• Условие:достаточное число членов ряда!!!
• «Сглаживание» значений во временныхрядах - метод «скользящей средней»(аналогичен «линии свободной руки», но более обоснован!!!)
• Интервал сглаживания• Коэффициенты у значений в пределахинтервала (для нелинейногосглаживания)
• Пример использования
• Барман Ракхал Чандра «Экологическаяизменчивость морфологических признаков побегаPhragmites australis и P.karka»
(канд. диссертация, 1993)
Материал: Fragmites australis избассейна р. Ижора (+ Красный Бор) и из
Лондона; F. carka из Бангладеж.
• Измерения последовательных метамеров попобегу (N = 360)
• «Стандартизация» интервала (разное числометамеров!)
• Всего 8 признаков -> 2 компоненты (PCA)• Фурье-преобразование значений компонент• По коэффициентам Фурье – PCA -> ординация выборок и отдельных растений
• Интерпретация полученной ординации(влияние фенофазы и загрязнения)
Верховья Ижоры
«Агрозона»
Окрестности хранилищатоксичных отходов
Ям-Ижора Пудость
Красный Бор
Временные ряды =ряды динамики
= time series
• Проверка последовательных значенийна наличие ТРЕНДАЗакс Л. Статистическоеоценивание.1976, с. 347-356.
//Обратите внимание:очень полезный справочник!!!//
Отношение «разбросов» (дисперсий) разностей (метод Neumann, Moore)
• Если последовательные значения независимы, тоSS (i; i+1) ≈ 2SStotal т.е.SS (i; i+1) / SStotal ≈ 2.0
(тренда нет ≥2.0)• Если есть тренд, то
SS (i; i+1) / SStotal < 2.0(обе величины – суммы квадратов разностей:между «соседними» значениями и - со средним)
• Общая дисперсия сравнивается с дисперсиейпоследовательных разностей (по SS)
SStotal и SS (i; i+1) (напомним: последовательность – фиксирована!)
|xi – X| xi |xi – xi+1| |2 – 8.3|= 6.3 2 |2 – 3|= 1 |3 – 8.3|= 5.3 3 |3 – 5|= 2|5 – 8.3|= 3.3 5 |5 – 6|= 1|6 – 8.3|= 2.3 6 |6 – 7|= 1|7 – 8.3|= 1.3 7 |7 – 9|= 2|9 – 8.3|=0.7 9 |9 – 10|= 1
|10 – 8.3|=1.7 10 |10 – 12|= 2|12 – 8.3|=3.7 12 |12 – 14|= 2|14 – 8.3|=5.7 14 |14 – 15|= 1|15 – 8.3|=6.7 15
Суммы квадратов разностей
180.1 SS 21.0
Тренд явноЕСТЬ:
21/180.1= 0.12
т.е. <<2
|xi – X| xi |xi – xi+1| |5 – 8.3|= 3.3 5 |5 – 15|= 10|15 – 8.3|=6.7 15 |15 – 2|= 13|2 – 8.3|= 6.3 2 |2 – 6|= 4
|12 – 8.3|=3.7 12 |12 – 3|= 9|3 – 8.3|= 5.3 3 |3 – 10|= 7
|6 – 8.3|= 2.3 6 |6 – 12|= 6
|10 – 8.3|=1.7 10 |10 – 9|= 1|9 – 8.3|=0.7 9 |9 – 14|= 5
|14 – 8.3|=5.7 14 |14 – 7|= 7|7 – 8.3|= 1.3 7
Суммы квадратов разностей
180.1 SS 526.0
ТрендаНЕТ!!!
526/180.1>>2
Т.е. – чем меньшесумма квадратов «последовательныхразностей»
(между соседними значениями)по сравнению с
суммой квадратов отклонений от среднегоТЕМ БОЛЕЕ ВЕРОЯТНО НАЛИЧИЕ ТРЕНДА
Знаковый критерий Cox, Stuart-1955• Весь ряд разделяется на 3 части (первая итретья – одинакового объема)
• Знаки разностей между последовательнымизначениями в первой-третьей частях:число плюсов или – минусов (S)
• Ожидаемое значение (если тренда нет) –S = n/6, его дисперсия – n/12, а SD = (n/12)0.5
• Оцениваем отношение полученного и –ожидаемого значений
Первая треть 4 7 3 5 6 7 8 9Вторая треть 5 6 2 3 5 6 4 3
Знаки разностей – + + + + + + +
ПРИМЕР: Всего значений n=22, берем по 8из первой и последней частей:
z = (│S-n/6│ – 0.5)/ ((n/12) 0.5)
Получаем:
z = (│6-22/6│ – 0.5)/ (22/12) 0.5 = 2.83/1.35 = 2 .10
что соответствует Р0=0.0357
Установлен возрастающий тренд при Р0≤0.05
• Для n<30 z = (|S-n/6| - 0.5) / (n/12)0.5
• Для n>30 z = (|S-n/6| ) / (n/12)0.5
• Критические значения для одно-(1) идвухстороннего (2) критерия -
α 1 2
0.05 1.64 1.96
0.01 2.33 2.58
• Приблизительная оценка возможна – пографику последовательных значений
Многомерная регрессия
Прогнозы• Эпидемий• Численности «вредных» видов• Изменений климата на Земле• Медицинская диагностика• Пренатальная диагностика (как особыйслучай)
• Все предикторы• Последовательное включение (forward)• Последовательное исключение
(backward)• Пошаговый – включение (stepwise=step
by step forward)• Пошаговый – исключение (stepwise=step
by step backward)Сейчас в стат. пакетах программ –> >
пошаговые = stepwise
Выбор «наилучшего» уравнения
Оценка «наилучшего»уравнения
По предикторам• По F-критерию (при включении и приисключении... – «добавка»)
• По множественному и частнымкоэффициентам детерминации (привключении и при исключении... –«добавка»)
• В пошаговых алгоритмах – и длявсех ранее включенных (иисключенных)
• Дополнительная характеристика:Толерантность признака
Т = 1 – R2
Чем больше толерантность (то есть- меньше детерминированность)
использованных для уравнения признаков, тем ниже «избыточность» полученныхфункций!!!