Aplicação de testes de progresso
em escolas de Medicina
Carlos Fernando Collares, MD, MSc, DSc
FHML – Dept. of Educational Development and Research – School of Health Professions Education
Termômetro mede a temperatura
FHML – Dept. of Educational Development and Research – School of Health Professions Education
Relógio mede o tempo
FHML – Dept. of Educational Development and Research – School of Health Professions Education
Como se mede a competência do médico?
FHML – Dept. of Educational Development and Research – School of Health Professions Education
Miller GE. The assessment of clinical skills/competence/performance.Academic Medicine (Supplement) 1990; 65: S63-S7.
Pirâmide de Miller
FHML – Dept. of Educational Development and Research – School of Health Professions Education
Avaliação em educação médica
• Avaliação de competências.
• Uso de diversos instrumentos.
• Boas propriedades psicométricas (validade e confiabilidade).
• Exequibilidade.
• Consonância com os objetivos de aprendizagem.
• Contexto e ambiente.
• Pacientes e outros profissionais como avaliadores.
(Dijkstra et al., 2009; Norcini et al., 2011)
FHML – Dept. of Educational Development and Research – School of Health Professions Education
Teste de progresso
• Abrange todos os domínios do conhecimento médico.
• Aplicado duas a quatro vezes por ano em estudantes detodos os semestres/anos acadêmicos.
• Utilizado por escolas tradicionais e de metodologias ativasde ensino-aprendizagem.
• Graduação e pós-graduação (residência).
• Composto por questões de múltipla escolha.
• De 50 a 200 questões (4 a 8 horas).
(Dijksterhuis, 2009; Van der Vleuten et al., 1996)
FHML – Dept. of Educational Development and Research – School of Health Professions Education
Aspectos positivos
• Evita a avaliação de informações meramente memorizadaspara “passar na prova”.
• Permite a avaliação da aprendizagem significativa (“life-longlearning”) do conhecimento funcional.
• Registro da evolução discente.
• Detecção precoce de estudantes com baixo desempenho.
• Proporciona feedback aos testandos e às instituições.
• Melhora o comportamento dos estudantes.
• Melhora a qualidade dos currículos.
• Melhora a validade preditiva da avaliação.
(Van der Vleuten et al., 1996)
FHML – Dept. of Educational Development and Research – School of Health Professions Education
70
50
95
155
percentil:
Escore do estudante
“forte”
“satisfatório”
“fraco”
“pobre”
“excelente”
FHML – Dept. of Educational Development and Research – School of Health Professions Education
FHML – Dept. of Educational Development and Research – School of Health Professions Education
FHML – Dept. of Educational Development and Research – School of Health Professions Education
FHML – Dept. of Educational Development and Research – School of Health Professions Education
Aspectos negativos
• Risco de seleção inadequada de questões.
• Risco de mensuração de baixos níveis taxonômicos.
• Subestimação do raciocínio clínico.
• Dificuldade do teste variável.
• Pouca confiabilidade para ingressantes.
• Tempo longo para testagem causa fadiga nos estudantes.
• Testes curtos diminuem a validade de conteúdo.
• Exequibilidade para aplicação simultânea.
(Nendaz and Tekian, 1999; Van der Vleuten et al., 1996)
FHML – Dept. of Educational Development and Research – School of Health Professions Education
Teste de progresso X Residência
• Provas de residência também são de múltipla escolha,assim como o teste de progresso
• Estudantes com escores altos no teste de progressoteriam melhores resultados nos processos seletivospara residência médica
• Teste de progresso usado como “simulado”
• O uso de testes de progresso para predição daaprovação em programas de residência ainda carecede evidências
(Hamdy et al., 2006)
FHML – Dept. of Educational Development and Research – School of Health Professions Education
IFoM
• International Foundations of Medicine.
• NBME (National Board of Medical Examiners).• FAIMER (Foundation for the Advancement of
International Medical Education and Research).• Exame criado para atender escolas médicas de todo
o mundo.• Parâmetro para autoavaliação.• Certificação internacional.• Correlação com os exames do NBME.
FHML – Dept. of Educational Development and Research – School of Health Professions Education
Perguntas
• O teste de progresso é um instrumentopsicometricamente confiável?
• O teste de progresso apresenta qual grau decorrelação com o IFoM?
• É possível utilizar os resultados do teste de progressopara predizer a aprovação em programas de residênciamédica?
FHML – Dept. of Educational Development and Research – School of Health Professions Education
Objetivos
• Avaliar as propriedades psicométricas de um teste de
progresso aplicado em algumas escolas médicas
brasileiras, particularmente:
- Confiabilidade
- Validade concorrente
- Validade preditiva
FHML – Dept. of Educational Development and Research – School of Health Professions Education
Participantes
Nesta pesquisa foram estudados.
• Teste de progresso: 462 estudantes de todos o curso
• IFoM: 84 estudantes do último ano
• Concluintes: 43 estudantes do último semestre
FHML – Dept. of Educational Development and Research – School of Health Professions Education
Instrumentos
• Teste de progresso individual (TPI)� 120 questões de múltipla escolha� Variedade de níveis taxonômicos e graus de dificuldade� Blueprinting
• IFoM� 200 questões de múltipla escolha� Elevado coeficiente de confiabilidade (> 0,90),
apropriado para exames decisivos
FHML – Dept. of Educational Development and Research – School of Health Professions Education
• A confiabilidade do TPI foi avaliada pelo coeficiente deconsistência interna, medido pelo alfa de Cronbach, epela precisão local, calculada de acordo com o escoretheta (escore pela teoria de resposta ao item).
• A validade concorrente do TPI foi avaliada por meio dacorrelação com escores do IFoM
• A validade preditiva do TPI foi avaliada por meio daregressão logística entre os escores bruto e theta emfunção da seleção para a residência.
• SPSS 17, ITEMAN 4, XCALIBRE 4, WINSTEPS 3.7
Análise de dados
FHML – Dept. of Educational Development and Research – School of Health Professions Education
Intermezzos teóricos
eResultados
FHML – Dept. of Educational Development and Research – School of Health Professions Education
Psicometria é a área do conhecimento na qual a
estatística é aplicada para uso na Psicologia e na
Educação.
FHML – Dept. of Educational Development and Research – School of Health Professions Education
Dois conceitos importantes
• Confiabilidade: o instrumento de avaliação
mede de forma precisa o que se propõe a
medir?
• Validade: o instrumento de avaliação mede
realmente aquilo que se propõe a medir?
FHML – Dept. of Educational Development and Research – School of Health Professions Education
Escore real
• Se o estudante pudesse realizar infinitas provas
simultaneamente, todas elas com as mesmas
características, teríamos seu “escore real”.
• Escore observado = Escore real + erro de medida.
• Quanto menor a confiabilidade, maior o erro de medida.
• O baixo grau de confiabilidade limita a validade.
• Todavia, um instrumento confiável nem sempre é
válido.
FHML – Dept. of Educational Development and Research – School of Health Professions Education
Três correntes psicométricas
• Teoria clássica dos testes
• Teoria de resposta ao item
• Teoria da generalizabilidade
FHML – Dept. of Educational Development and Research – School of Health Professions Education
Teoria clássica dos testes
• Usa o número ou a proporção de acertos como escore(escore bruto).
• Confiabilidade e erro padrão de medida são calculados para aprova como um todo.
• Dificuldade das questões é calculada apenas pelo percentualde erros.
• Poder discriminativo das questões pode ser calculado pelascorrelações entre o item e a nota total (correlações bisseriale ponto-bisserial) ou por meio da diferença no percentual deacertos na questão entre os testandos com nota total alta enota total baixa.
FHML – Dept. of Educational Development and Research – School of Health Professions Education
Análise gráfica de uma questão pela teoria clássica dos testes
Pro
po
rção
de
resp
on
den
tes e
m c
ad
a
alt
ern
ati
va
Grupos de testandos em ordem crescente de escores
FHML – Dept. of Educational Development and Research – School of Health Professions Education
Pro
po
rção
de
resp
on
den
tes e
m c
ad
a
alt
ern
ati
va
Grupos de testandos em ordem crescente de escores
Análise gráfica pela teoria clássica dos testes de uma questão problemática
FHML – Dept. of Educational Development and Research – School of Health Professions Education
Teoria de resposta ao item (TRI)
• Conjunto de modelos probabilísticos que relacionam aprobabilidade de acerto em cada questão (item) com ograu de habilidade dos testandos (theta).
Escore observado = escore real + erro de medida
• Nas análises pela teoria de resposta ao item, onde se lêescore observado, leia-se “tau” e onde se lê “escore real”,leia-se “theta”.
Tau = theta + erro de medida
• Por conta disso, a TRI também é conhecida como “truescore theory”(“teoria do escore verdadeiro”).
FHML – Dept. of Educational Development and Research – School of Health Professions Education
A teoria de resposta ao item consiste na modelagem matemática
de uma variável latente, não-observada, a partir dos
comportamentos observados(escores brutos)
(Pasquali, 2007)
FHML – Dept. of Educational Development and Research – School of Health Professions Education
Uma das vantagens da TRI é que, ao contrário da teoria clássica, os níveis de confiabilidade e erro de medida são calculados não para a
prova como um todo, mas ao longo do espectro de habilidade (“theta”).
FHML – Dept. of Educational Development and Research – School of Health Professions Education
Modelo logístico de 3 parâmetros (usado no teste de progresso)
a = discriminaçãob = dificuldadec = acerto ao acaso
Modelo logístico de 1 parâmetro – Rasch(usado no IFoM)
b = dificuldade
FHML – Dept. of Educational Development and Research – School of Health Professions Education
A teoria de resposta ao item leva em consideração a dificuldade de cada questão para dar a nota final
do testando.
Traduzindo …
FHML – Dept. of Educational Development and Research – School of Health Professions Education
Análise gráfica de uma questão pela teoria de resposta ao item
Pro
bab
ilid
ad
e d
e a
cert
o
FHML – Dept. of Educational Development and Research – School of Health Professions Education
Análise gráfica de uma questão de má qualidade psicométrica pela TRI
Pro
bab
ilid
ad
e d
e a
cert
o
FHML – Dept. of Educational Development and Research – School of Health Professions Education
VALIDADE
FHML – Dept. of Educational Development and Research – School of Health Professions Education
• Para ter um elevado grau de validade, uma prova precisa ser constituída por questões que representem uma boa amostragem do conteúdo que se pretende medir.
• Uma estratégia útil para assegurar a validade de conteúdo de instrumentos de avaliação: blueprinting
Validade de conteúdo
FHML – Dept. of Educational Development and Research – School of Health Professions Education
FHML – Dept. of Educational Development and Research – School of Health Professions Education
Validade concorrente
• Um instrumento de avaliação de um determinado domínio do conhecimento deve ter alto grau de correlação com outro instrumento que objetive avaliar o mesmo domínio.
• O instrumento cujas propriedades psicométricas são conhecidas e que é correlacionado com o instrumento que se deseja estudar é considerado o instrumento “critério”.
FHML – Dept. of Educational Development and Research – School of Health Professions Education
Validade preditiva
• Da mesma forma que o simulado de prova de residência deve prever quem terá maior probabilidade de ser aprovado em um processo real...
• ... Um processo seletivo real para um programa de residência deve prever quais serão os residentes com maior aptidão às atividades exigidas no programa.
FHML – Dept. of Educational Development and Research – School of Health Professions Education
O modelo de regressão logística para predição de aprovação na residência médica em função dos
escores do teste de progresso pela teoria de resposta ao item prediz corretamente até 84% dos
resultados na residência.
Odds ratio = 5,240; p = 0,004
FHML – Dept. of Educational Development and Research – School of Health Professions Education
“A validade é um problema que exige escalar a pirâmide.”
(van der Vleuten, 2001)
FHML – Dept. of Educational Development and Research – School of Health Professions Education
Validade de construto
• Possibilita determinar a característica
educacional que explica a variância
encontrada no teste.
• Identificação da dimensionalidade
• Análise fatorial exploratória
• Análise fatorial confirmatória por modelagem
de equações estruturais
FHML – Dept. of Educational Development and Research – School of Health Professions Education
Teste de progresso possui unidimensionalidadeanálise de componentes principais x análise paralela
FHML – Dept. of Educational Development and Research – School of Health Professions Education
“Determinar a validade é um processo que consiste emreunir múltiplas fontes de evidência para argumentar
racionalmente sobre o que os resultados do testepermitem inferir. A validade de um teste depende do uso
que se faz dele.”
(Messick, 1989; Kane, 2001)
“Validade é uma questão de grau.”(Zumbo et al., 2007)
“Validação é um processo de monitorização contínua aolongo do tempo. Um instrumento nunca poderá ser
considerado finalmente validado.”(Shepard, 1983)
FHML – Dept. of Educational Development and Research – School of Health Professions Education
“A validade de uma provadepende da boa garantiade qualidade em torno daconstrução das questões.”
(Verhoeven et al., 1999)
FHML – Dept. of Educational Development and Research – School of Health Professions Education
Diagramas de distribuição ( boxplots) da proporção de acertos conforme a presença de inadequação na redação do it em
p = 0,025Cohen’s d = 0,2
(Collares et al., 2012)
FHML – Dept. of Educational Development and Research – School of Health Professions Education
Diagramas de distribuição ( boxplots) da discriminação pela TRI (“a”) conforme a presença de inadequação na redação do item
p < 0,001Cohen’s d = 0,5
(Collares et al., 2012)
FHML – Dept. of Educational Development and Research – School of Health Professions Education
Correlação entre IFoM e teste de progresso
r = 0,637 (p < 0,001)
FHML – Dept. of Educational Development and Research – School of Health Professions Education
Correlação entre IFoM e teste de progresso (escores theta)
r = 0,626
(p < 0,001)
FHML – Dept. of Educational Development and Research – School of Health Professions Education
CONFIABILIDADE
FHML – Dept. of Educational Development and Research – School of Health Professions Education
Confiabilidade dos testes
• Confiabilidade ou fidedignidade (do inglês “reliability”) designa a propriedade de um instrumento medir com precisão o que quer que esteja sendo medido.
• Descreve a consistência e/ou reprodutibilidade da mensuração.
• Portanto há uma relação inversamente proporcional entre o erro de mensuração e o coeficiente de confiabilidade.
FHML – Dept. of Educational Development and Research – School of Health Professions Education
Métodos de estimação da confiabilidade
• teste-reteste• formas equivalentes (split-half)• concordância entre avaliadores (kappa de Cohen
ou coeficiente de correlação intraclasse)• precisão local• consistência interna (Kuder Richardson e alfa de
Cronbach)
FHML – Dept. of Educational Development and Research – School of Health Professions Education
Fatores que influenciam a confiabilidade
• Extensão do instrumento de avaliação (i.e., número de itens/questões)
• Relação entre dificuldade dos itens de e o grau de habilidade dos testandos
• Heterogeneidade da dificuldade dos itens• Número de testandos• Número de avaliadores
FHML – Dept. of Educational Development and Research – School of Health Professions Education
Fórmulas envolvendo a confiabilidade
FHML – Dept. of Educational Development and Research – School of Health Professions Education
Interpretação do coeficiente de confiabilidade
• Coeficientes maiores que 0,6 são satisfatórios;maiores que 0,7 são bons; maiores que 0,8 sãoótimos; e maiores que 0,9 são excelentes.
• Um coeficiente de confiabilidade menor que 0,5significa que provavelmente mais da metade davariância observada nos escores da prova sedeve a erro de mensuração, ao invés dediferenças reais no desempenho dos testandos.
FHML – Dept. of Educational Development and Research – School of Health Professions Education
FHML – Dept. of Educational Development and Research – School of Health Professions Education
FHML – Dept. of Educational Development and Research – School of Health Professions Education
FHML – Dept. of Educational Development and Research – School of Health Professions Education
FHML – Dept. of Educational Development and Research – School of Health Professions Education
FHML – Dept. of Educational Development and Research – School of Health Professions Education
Uma prova com elevado nível de confiabilidade tem...
...notas baixas, médias e altas
e questões fáceis, médias e difíceis...
FHML – Dept. of Educational Development and Research – School of Health Professions Education
Confiabilidade do teste de progressoC
on
fiab
ilid
ad
e (
pre
cis
ão
) l
ocal
Escore theta
alfa de
Cronbach = 0,80
Precisão local > 0,90 para testandos de nível mais elevado
Precisão local > 0,50 para testandos de nível mais baixo
FHML – Dept. of Educational Development and Research – School of Health Professions Education
Conclusões
• Este estudo traz evidências de que o teste deprogresso é um instrumento de avaliaçãocom elevado grau de confiabilidade, validadeconcorrente e validade preditiva.
• A teoria de resposta ao item, além produzirescores mais confiáveis, também permite seu usocomo um instrumento de predição para aaprovação na residência médica.
FHML – Dept. of Educational Development and Research – School of Health Professions Education
E o futuro?
FHML – Dept. of Educational Development and Research – School of Health Professions Education
Não seria bom poder emparelharautomaticamente o nível de conhecimento dos
alunos com a dificuldade da prova?
FHML – Dept. of Educational Development and Research – School of Health Professions Education
• Computerized adaptive testing.
• Utiliza algoritmos baseados na TRI.
• Ajuste dinâmico ao nível de habilidade de cada testando aolongo do teste.
• Avalia todos os testandos com o mesmo grau de precisão.
• Extremos do espectro do nível de habilidade (theta).
• Minimiza problemas de segurança (sigilo das questões).
• GRE, GMAT, Microsoft CP, Canada Medical Council, AustralianMedical Council, NBME em estudos.
Isto é possível com a testagemadaptativa computadorizada (CAT)
FHML – Dept. of Educational Development and Research – School of Health Professions Education
• CATs são capazes de reduzir a extensão de um teste em50% ou mais (Weiss & Kingsbury, 1984).
• CATs oferecem maior segurança:
•Se o mesmo teste é aplicado a todos, as questões setornam conhecidas rapidamente.
•Esta possibilidade é reduzida se todos recebem umconjunto diferente de itens.
• Retestagem pode ser mais frequente.
•Havendo mudança no nível de conhecimento, aoreteste á pessoa muito provavelmente receberá umaprova totalmente distinta.
Vantagens da CAT
FHML – Dept. of Educational Development and Research – School of Health Professions Education
• Aumento da motivação do testando.
• Estudantes de desempenho elevado não perdemtempo com questões fáceis.
• Estudantes de baixo desempenho não sãodesencorajados por questões difíceis, permitindo suaevolução gradual.
• Testando sabe sua nota imediatamente após o término daprova.
• Meio de administração facilita o uso de áudio, vídeo eimagens de alta qualidade.
Mais vantagens da CAT
FHML – Dept. of Educational Development and Research – School of Health Professions Education
CAT já está disponível
FHML – Dept. of Educational Development and Research – School of Health Professions Education
A duração do exame é variável, conforme o nível de erro de medida
(SEM) desejado (ex.: 0,2)
FHML – Dept. of Educational Development and Research – School of Health Professions Education
Exemplo de resultado imediato
FHML – Dept. of Educational Development and Research – School of Health Professions Education
A confiabilidade das avaliações tem comomelhorar ainda mais?
FHML – Dept. of Educational Development and Research – School of Health Professions Education
Teoria da generalizabilidade
• “Mistura de teoria clássica com ANOVA”.
• Permite discernir entre diferentes fontes de errode medida de instrumentos de avaliação.
• Inevitavelmente mostra que repetidas medidassão necessárias para melhor confiabilidade deinstrumentos de avaliação.
• Importância da avaliação seriada, longitudinal.
FHML – Dept. of Educational Development and Research – School of Health Professions Education
Latent growth models(modelos de crescimento latente)
FHML – Dept. of Educational Development and Research – School of Health Professions Education
E as consequências que a testagem traz para a
sociedade?
FHML – Dept. of Educational Development and Research – School of Health Professions Education
Tipos de validade
• Validade de conteúdo
• Validade de critério concorrente
• Validade de critério preditiva
• Validade de construto
• Validade consequencial
FHML – Dept. of Educational Development and Research – School of Health Professions Education
• Equanimidade de condições• Test Fairness• Claridade das instruções• Segurança da prova• Definição do método dos escores (clássica, TRI)• Determinação da nota de corte (ex. Angoff)• “Quanto melhor a nota, melhor o profissional?”
FHML – Dept. of Educational Development and Research – School of Health Professions Education
Efeito da avaliação longitudinal sobre o profissionalismo médico
• Responsabilidade: a vida profissional domédico não deve começar após a colação degrau, mas desde o primeiro dia de aula.
• Exames seriados promovem a aprendizagemdo estudante.
• Exames seriados fornecem informações para amelhoria da qualidade as escolas.
FHML – Dept. of Educational Development and Research – School of Health Professions Education
• Testes decisivos podem melhoraros níveis de desempenho emotivação dos estudantes.
• Problemas de saúde mental(ansiedade e depressão) podempiorar ou serem deflagrados.
• A tradição dos testes préviosdefinirá o que é abordado noscurrículos.
• A autoridade controladora doteste controlará os currículos.
• A importância do teste podecorrompê-lo.
FHML – Dept. of Educational Development and Research – School of Health Professions Education
Lei de Goodhart
Quando uma medida (p. ex., a nota em um teste) se torna um objetivo
sobre o qual se conduz uma determinada política (aprovação, promoção), tal medida tende a
rapidamente perder qualidade no conteúdo informativo que a qualifica
para desempenhar esse papel.
FHML – Dept. of Educational Development and Research – School of Health Professions Education
Avaliar os médicos do futuro é um desafio...
... que exige evidências.
FHML – Dept. of Educational Development and Research – School of Health Professions Education
FHML – Dept. of Educational Development and Research – School of Health Professions Education
Prof. Dr. Cees van der Vleuten
Karolinska Institutet Prize for Research in Medical Education 2012
FHML – Dept. of Educational Development and Research – School of Health Professions Education
School of Health Professions Education (SHE)
SHE Collaborates
FHML – Dept. of Educational Development and Research – School of Health Professions Education
GRATO!
http://www.maastrichtuniversity.nl/she