Планирование исследования (с чего начать)
Куликов, Сергей Михайлович
Биостатистика в ГНЦ. Лекция 1
Я его слепила из того что было, А потом что было, то и полюбила
Танич М.
Я леплю из пластилина … Если клоун выйдет плохо, Назову его Дурак.
Никитины
“One of the problems is the lower priority given to attempting to replicate published research, instead believing that an issue is settled” George D. Lundberg, MD The Certainty of Uncertainty in Medicine. Medscape. May 14, 2015.
• More large-scale collaborative research; • Adoption of a culture of replication; • Registration of studies, protocols, analysis codes, datasets, raw data, and results; • Sharing of data, protocols, materials, software, and other tools; • Enhanced practices of reproducibility; • Containment of conflicts of interest of sponsors and authors; • More appropriate statistical methods; • Better training of the scientific workforce in methods and statistical literacy; • Standardization of definitions and analyses; • More stringent thresholds for claiming discoveries or "successes"; • Improvement of standards of study design; • Improvements in peer review, reporting, and dissemination of research results.
Most Published Research Findings Are False
How to Fix the Mess
References 1. Ioannidis JPA. Why most published research findings are false. PLoS Med.
2005;2:e124.http://journals.plos.org/plosmedicine/article?id=10.1371/journal.pmed.0020124 Accessed May 11, 2015. 2. Weisberg HI. Willful Ignorance: The Mismeasure of Uncertainty. Hoboken, New Jersey: John Wiley & Sons, Inc; 2014. 3. Ioannidis JPA. How to make more published research true. PLoS Med.
2014;11:e1001747.http://journals.plos.org/plosmedicine/article?id=10.1371/journal.pmed.1001747 Accessed May 11, 2015.
Книги
План лекции
• Введение. Зачем нужна статистика и популяционная гематология.
• Как поставить цель и сформулировать задачу исследования • Объект исследования, системы счисления («попугаи») • Типы исследований в медицине, типы диссертационных
исследований • Факторы, маркеры, эффективность, выход и конечные точки • Как разработать дизайн, определить затраты и время • Что такое протокол исследования • Что такое информационный протокол, инструменты сбора
данных, качество данных • Типы и форматы данных
Два методологических подхода в философии науки
Типологический: естественные науки
Популяционный : социальные науки, демография, эпидемиология
Медицина
Стремление к типологизации в теории Многообразие на практике
Двойные издержки типологического подхода в медицине
Медицинская наука
Популяция больных
Медицинская практика
Популяция больных
Модель типового больного
Стандарный протокол
Селекция в исследование
Унификация терапии
Две ошибки (двойной
«bias»)
5-летняя выживаемость ХМЛ больных в клинических трайлах и по данным популяционных регистров
D PULTE, A GONDOS, M-T. REDANIEL, H. BRENNER Survival of Patients with Chronic Myelocytic Leukemia: Comparisons of Estimates from Clinical Trial Settings and Population-Based Cancer Registries, The Oncologist 2011;16:663–671 www.TheOncologist.com
Российские популяционные данные, ГНЦ -83% EutosOSP –Rus – 85% Весь регистр - 78%
Базовая общая задача популяционной гематологии – разработка моделей поведения популяции во времени
Популяция (группа,
совокупность) Больные: • Селекция в
исследование, • Очередь на
госпитализацию, • Экономические
ограничения Доноры: • Рекрутинг и отбор Клетки: • Размножение, • мутации
Механизмы входа
Механизмы выхода
Изменения характеристик во времени
Механизмы воздействия
Больные: • смерть • Выход из протокола, • Выписка Доноры: • Инфицирование Клетки: • Апоптоз • дифференциация
• терапия • агитация • финансирование • Адм. процедуры • Законодательные
акты
• старение • ответ на терапию • воздействие
«конкурентов» • структурные
изменения
Модель типового объекта, описание популяции
Объекты популяционной гематологии
Больные
Доноры
Родственники, дети больных
Врачи, персонал
Клетки, клоны, гены
госпитализации, койки, квоты Все объекты – популяции
Все объекты – связанные популяции Все объекты – гетерогенные популяции
Компоненты
Здоровая популяция
Цели и задачи исследования – первые шаги
«Первый шаг планирования исследования – поставить научный вопрос»
Митчел Кац «Первый шаг аспиранта в ГНЦ – шаг в сторону лаборатории биостатистики»
Сергей Куликов
Цели и задачи исследования - формулировки
• Охарактеризовать (описать) группу больных с данной (редкой) нозологией
• Изучить то-то у тех-то
• Померить такой-то параметр у таких-то больных
• Посмотреть мутации гена у больных
• Разработать стандарт лечения
• Проанализировать регистр больных
• Провести сравнительный анализ групп больных с целью уточнения алгоритмов дифференциальной диагностики
• Оценить прогностическое значение фактора
• Изучение динамики фактора и его возможности применения в качестве маркера эффективности терапии
• Оценка распространенности гена (профиля мутаций) и его (их) прогностической значимости
• Провести сравнительное клиническое исследование протоколов
• Оценить популяционные характеристики (заболеваемость, распространенность, факторы риска, смертность,…)
Как не надо формулировать цель
Типовые формулировки цели исследования
Базовая общая задача популяционной гематологии – разработка моделей поведения популяции во времени
Популяция
Больные: • Селекция в
исследование, • Очередь на
госпитализацию, • Экономические
ограничения Доноры: • Рекрутинг и отбор Клетки: • Размножение, • мутации
Механизмы входа
Механизмы выхода
Изменения характеристик во времени
Механизмы воздействия
Больные: • смерть • Выход из протокола, • Выписка Доноры: • Инфицирование Клетки: • Апоптоз • дифференциация
• терапия • агитация • финансирование • адм. Процедуры • Законодательные
акты
• старение • ответ на терапию • воздействие
«конкурентов» • структурные
изменения
Модель типового объекта, описание популяции
до после
контрольная группа
исследуемая группа
время ----- >
архивное,
ретроспективное Крос-секционное
(одномоментное)
Кратное крос-
секционное
(двух-этапное,
сравнительное)
Лонгтитудное
(мониторинговое)
исследуемая группа
контрольная группа
Типы исследований
Причинно-следственные связи
Критерии для заключения о наличия возможной причинно-следственной связи на основе наблюдательных исследований: • Причина должна предшествовать результату • Ассоциация должна быть правдоподобной, т.е. иметь
биологический смысл • Вывод сделан на основе непротиворечивых результатов нескольких
исследований • Ассоциация причины и эффекта должна быть сильной • Должна существовать зависимость «доза-эффект» • Снижение уровня изучаемого фактора должно приводить к
снижению эффекта (риска заболевания) Hill.AB. (1965) The enviroment and disease: association of causation?, Proceeding of the Royal Society of Medicine, 58, 295 (Цитата по А.Petrrie, C Sabin (2005), Medical Statistics at a Glance)
Виды и источники ошибок (смещений, biases)
• Ошибки наблюдателя • Ошибки из-за наличия других факторов • Ошибки селекции • Инфомационные ошибки, ошибки измерения • Публикационные
А.Petrrie, C Sabin (2005), Medical Statistics at a Glance)
• Другие (пропуски, ошибки записи, сокрытие информации, фальсификации )
Что такое и зачем нужна рандомизация
• Цель – простой вопрос «какой протокол» лучше • Задача – минимизировать ошибки (смещение), вызванное влиянием других
факторов • Решение – сбалансировать группы по факторам • Средства – для контролируемых факторов – стратификация (набор в под-
группы с одинаковыми значениями фактора. Например возрастные группы ) • Средство – для не-контролируемых факторов и неизвестных факторов –
рандомизация • рандомизация (в отличие от простого набора в контрольную группу)– это
также «лекарство» от входной селекции, субъективизма, фактора времени и т.д.
больные Критерий включения
Протокол терапии
Страта 1
Страта 2
R
R
ветвь A
ветвь B
ветвь A
ветвь B
Оценка конечных точек
Простая – случайная последовательность : AABABBBAABAABA …..
Блочная – случайная последовательность сбалансированных блоков: ABBA AABB BAAB ……
Пример: План исследования ОМЛ-01.01 (ГНЦ 2001-2009)
7+3+VP-16 7+3+VP-16 N2 / 7+3 (т) N5 (2 курса)
7+3+VP-16 7+3 (д) N2 / 7+3 (т) N5
(2 курса)
7+3+VP-16 HAD N2
(2 курса)
I
N
F
+
A
T
R
A
R
Важно понимать
• Поисковые и доказательные цели нельзя совместить в одном исследовании, диссертационная работа – всегда поисковое исследование
• Пассивное наблюдательное исследование не означает отсутствие планового сбора информации
• Никакое одномоментное не даст информации о временной компоненте!
• Не контролируемое, субъективное включение объектов в исследование всегда ставит вопрос о селекции и смещении
Как приступить к работе Рекомендации для аспирантов
• Определить цель и тип работы • Типы :
1. «сравнить группы». Нужны близкие группы и целевой – показатель («рефери») 2. «изучить прогностические факторы». Нужны данные «до» и «после», как минимум 3. «Эффективность протокола терапии». Нужна контрольная выборка. 4. «Эпидемиология». Нужны большие выборки и четкий алгоритм формирования группы. 5. «Лабораторный мониторинг» Нужен временной регламент и больше контрольных
точек. 6. «Гибридный фундаментально-клинический» (типа освоить методику). Подумать о
метрологии – что ты меряешь, ошибки и «зачем?!» Не забыть о клинических характеристиках.
• Написать синопсис (краткое изложение) исследования • Определить контент и временной регламент собираемой информации • Желательны «бумажные» формы сбора данных – информационный протокол • Определиться с электронным инструментарием (база данных) • Найти партнера биостатистика. Оценить достижимость поставленной цели. • Оценить затраты – временные, административные, финансовые.
Обязательное условие для начала исследовательской работы
• План исследования должен существовать до появления первого байта информации, первого обследованного больного, первого лабораторного теста.
• Синопсис - цели, задачи, объемы, временные рамки
• Информационный протокол (формы, опросники, таблицы, лабораторные журналы)
• Готовый инструмент сбора, контроля данных (база данных, Веб –система сбора, EXCEL формы)
• Ожидаемые результаты, гипотезы
Краткое содержание протокола Название: Исследование эпидемиологии ……. в регионах России. Тип исследования: Проспективное, наблюдательное, скрининговое, популяционное. Заболевание: …… является ……… заболеванием …… , которое характеризуется ……., относится к редким заболеваниям.. ………… Изучение эпидемиологии …… является актуальной клинической проблемой. Первичные цели: Оценка эпидемиологических характеристик ……. в регионах России и их зависимость от основных демографических показателей. Вторичные цели Оценка характеристик распределения риск-факторов ……. Разработка ……….. протоколов первичной и дифференциальных диагностики ………… Разработка процедур мониторинга клинического статуса больных …….. Разработка информационной структуры, программного инструментария регистра ……… Дизайн исследования: многоцентровое проспективное наблюдательное когортное исследование. Объем выборки: Не ограничено, оценочно – около ….. пациентов. Сроки проведения: включение пациентов с …. до …, мониторинг – до …… Центры участники: ……
Пример синопсиса исследования
Документация исследования кроме синопсиса должна также включать : - Протокол исследования - Информационный прокол (формы, опросники, структура базы данных) - Инструкции (процедурные, по вводу данных и т.д.) - Текст информированного согласия - Лист участников
Типовое исследование - факторы, маркеры, эффективность, выход и конечные точки
Вход, базовая информация: • Демографическая
информация (пол, возраст, социальный статус),
• Анамнез, • Диагноз, • Клинический статус, • Лабораторные данные
Воздействие: Протокол А, Протокол В, ……..
Мониторинг и клинический выход: • Визиты
(клинический статус)
• Регламент измерений объективных данных
• (лабораторные тесты)
• События и жизненный статус
факторы маркеры
Конечные точки
Объекты исследования (кванты данных, система счисления)
• На практике и для статистики, учета и анализа надо понимать какие объекты ты считаешь.
• Что является единицей счета: Больной, визит, эпизод, госпитализация, квота, орган, клон, клетка, …?
• От ответа существенным образом зависит структура собираемой информации, записи в базе данных, реляции (связи и идентификация)
Пример 1:
Цель Изучение закономерностей развития инфекционных осложнений у гематологических больных на разных этапах химиотерапии и оценка их влияния на общую эффективность лечения
Задачи
1. Оценка частоты возникновения различных инфекционных осложнений в зависимости от диагноза, этапа лечения, демографических характеристик
2. Оценка временных характеристик инфекционных осложнений в зависимости от вида лечения, диагноза и фазы заболевания
3. Изучение причин летальности на разных этапах программной химиотерапии
4. Анализ эффективности цитостатического воздействия при различных формах гемобластозов в зависимости от времени возникновения и типа инфекционных осложнений.
Информационный протокол и инструменты сбора данных
Базовая информация о больном (диагноз, анамнез, …)
Госпитализации (протоколы, события, …)
Инфекционные эпизоды (препараты)
Осложнения (описание, результат терапии)
курсы терапии, (завершенность, нейтропения …)
1. При поступлении – сбор паспортных данных, демографической, анамнестической и диагностической инф.
2. В процессе лечения – мониторинг инф. осложнений и назначений по этому поводу()
3. Мониторинг жизненного статуса и важных событий после и между госпитализациями
Объект - больной
Объект - госпитализация
Объект – курс терапии
Объекты – эпизод, препараты
Объект – осложнение
Инструменты сбора данных (формы информационного протокола)
Пример 2:
Цель контроль и управление инфекционной (вирусной) безопасностью длительной терапии больных с заболеваниями системы крови
Задачи 1. Создать систему мониторирования вирусологического статуса больных 2. Оценить инфицированность больных до начала терапии и факторы, на нее
влияющие 3. Оценить причинно-следственные, вероятностные связи случаев
инфицирования вирусами с основными факторами риска и определить вклад каждого из них в общий риск вероятного инфицирования.
4. На основе анализа статистики отводов от донаций оценить остаточный риск трансфузионного инфицирования
5. Определить динамику появления клинических и лабораторно-биохимических симптомов вирусного инфицирования от первого момента положительного маркеры.
6. Оценить влияние вирусного инфицированния больных с опухолевыми заболеваниями системы крови на эффективность терапии основного заболевания
Основные Данные об Обследуемом
(демография, контакты)
Анамнестические данные ( вирусные заболевания и
операции)
Анамнез факторов риска инфицированности гепатитами у гематологических больных
Организация Имя формы
Название формы
Раздел
Индикатор поля
данных
Содержимое поля данных
(вопрос)
Выбор из категорий
Вложенные таблицы
Маска ввода
1
Беременности и роды
Гемотрансфузионный анамнез
Инвазивные исследования
процедуры и манипуляции
Клинико-лабораторные
показатели пациента при поступлении
принадлежность пациента к
социальной группе риска
2
Опросник пациента гематологического стационара как реципиента препаратов крови
Учетная Карта динамического наблюдения за факторами риска и индикаторов инфицированности гепатитами
гемотрансфузии
Перемещение в клинике и
возможный контакт с инфицированными
больными
Мониторинг маркеров вирусного
гепатита
Мониторинг клинических и лабораторно-
биохимических показателей
инфицированности
медицинские манипуляции (поштучно и понедельно)
Структуры собираемых данных
Базовая (входная) информация
Визиты, этапы
Результаты (выходная информация)
Базовая информация
Визиты, этапы
Результаты
Анкеты, опросники
Ленты лабораторных тестов
Матрицы близости объектов
простая
сложная
Мониторинг важных событий
Типы и форматы элементов данных Тип Пример Кодирование,
формат, маска Анализируется?
Числовой температура _ _ . _ С Все виды анализа, кроме таблиц
Бинарный (две категории)
Есть/нет что-то 0-нет, 1-да Все виды анализа
Категориальный - упорядоченный
Группа риска 0-низкая, 1-средняя, 3-высокая
Да – промежуточный тип между численными и «чисто» категориальными
Категориальный - неупорядоченный
Национальность Любые цифровые Да, с ограничениями
Текстовый Перечень препаратов, Мутации
Текст, текст,… Требует предварительного синтаксического разбора
Свободный текст комментарии Нет
Дата, время Дата рождения dd/mm/yyyy В основном нужны для вычисления интервалов, например - возраст
Событие Время до смерти Две переменные: время и индикатор цензурирования или два времени
Да – событийный анализ
Работа с данными - советы
• Начинать собирать данные нужно ПОСЛЕ того, как готовы инструменты сбора данных:
– Бумажные формы (анкеты, опросники)
– Электронные формы (база данных, ВЕБ система сбора )
– Таблица EXCEL (только в исключительно простых исследованиях)
• )
Заключение, выводы
• Этап планирования – самый важный этап любого исследования.
• Чем продуманней план, дизайн исследования, тем проще анализ, тем достоверней получаемые результаты.
• Не откладывайте визит к «врачу», не занимайтесь самолечением. Идите к биостатистикам – чем раньше, тем лучше.
• Архивные, пассивные, ретроспективные, одномоментные исследования – самые слабые по надежности и достоверности типы медицинских исследований. Соответствующие диссертационные работы все труднее «проходят».
• Не ленитесь формализовать и включать в протокол всю имеющуюся информацию. Потом – это будет труднее.
• Основным объектом исследования [здесь] являются человеческие популяции. Все персональные характеристики очень важны. Их обязательно надо включать в данные.
Продолжение следует
• На следующей лекции – что делать с данными
• Потом – как читать статьи
Практикум
• Найдите и начните читать книгу M.Katz “Study Design and Statistical Analysis”
• Прочтите докторскую диссертацию Гармаевой Т.Ц.
• Напишите синопсис своего исследования (диссертационной работы)
• Попробуйте напишите информационный протокол своего исследования (формы сбора данных)
Куликов, Сергей Михайлович
Email: [email protected]
Самое лучшее - все проверять экспериментальным путем: тогда действительно можно приобрести знания, в то время как строя догадки и делая умозаключения, никогда не станешь по настоящему образованным человеком
- Марк Твен, Дневники Евы
Цифры обманчивы — я убедился в этом на собственном опыте; по этому поводу справедливо высказался Дизраэли: «Существует три вида лжи: ложь, наглая ложь и статистика».
— Марк Твен, Главы моей автобиографии.