Predictive habitat distribution models in ecology
Guisan, A. ; Thuiller, W. 2005, Predicting species distribution: offering more than simple habitat. Ecology Letters, 8:993-1009. Guisan, A. ; Zimmermann. 2000, Predictive habitat distribution models in ecology. Ecological Modelling, 135:147-186.
III Referata, Agosto de 2006
Proposta – Guisan & Thuiller
SDMs- amplamente utilizados para prever impactos antropogênicos nos padrões de biodiversidade
Limitações nas aplicações teóricas e práticas
Visão geral dos avanços, discutindo princípios ecológicos e pressupostos dos SDMs
Sugerindo incorporar migração de spp, dinâmica de população interações bióticas e ecologia de comunidade nos SDMs em múltiplas escalas
Contexto
Tudo começou com a quantificação das relações entre espécies e o ambiente, e evoluiu:
Quantificação não espacial baseada em dados empíricosJohnston (1924) – invasão de cactus na Austrália x clima
Hittinka (1963) – determinantes climáticas de spp européias
Modelagem espacial de distribuição de espécies (não estatítico nem empírico)
Nix et al. (1977) - predições espaciais de crops baseadas em nicho
Modelagem estatística, espacialmente explícita e empírica da distribuição das spp
Ferrier (1984) – simulações de distribuições de espécies (phD – aves)
+ Verner et al. (1986) – vertebrados terrestres; e Margules & Austin (1991) –conservação - survey e análise de dados
Muitas contribuições a partir de 1990...
ContextoRecentemente – SDMs como ferramenta para várias questões ecológicas:
Quantificação do nicho ambiental das spp
Testar hipóteses biogeográficas, ecológicas e evolutivas
Avaliar invasão e proliferação de espécies
Impacto de mudanças climáticas e de LUCC na distribuição de spp
Indicação de áreas para coleta de spp raras
Recuperação e re-introdução de spp
Planejamento de conservação e áreas prioritárias
Modelagem de comunidade (biod,composição) a partir de distribuição de spp individuais
Construção de regiões bio ou ecogeográficas
Cálculo da distância ecológica entre fragmentos na dinâmica de meta-populações na paisagem e modelos de fluxo genético
Objetivo Específico do trabalho – Guisan e Thuiller, 2005Apresentar os avanços na construção de modelos de distribuição de espécies e indicar algumas limitaçõesFoca na projeção do impacto de mudanças climáticas na distribuição da biodiversidade
SDMs- O que são e como funcionam?SDMs – modelos empíricos que relacionam observações de campo a variáveis ambientais preditoras, baseados em superfícies de respostas derivadas estatística ou teoricamente.
Dados das espécies: presença, presença-ausência, observações de abundância a partir de amostragem de campo aleatória ou estratificada, ou oportunistas – coleções
Preditores ambientais – efeitos diretos ou indiretos:Fatores limitantes (reguladores): controlam eco-fisiologia (temp, água, solo)Distúrbios: perturbações (naturais ou antropogênicas) no ambienteRecursos: todos componentes assimiláveis (energia, nutrientes, água)
Padrões espaciais diferenciados conforme a escala, hierarquicamente:
Distribuição gradual –grande extensão e resolução grosseira– controle por reguladores climáticos
Distribuição agrupada – pequena área e resolução fina – controle por distribuição agrupada de recursos (variação micro-topográfica ou fragmentação de habitat)
–
SDMs- O que são e como funcionam?SDMs – modelos empíricos que relacionam observações de campo a variáveis ambientais preditoras, baseados em superfícies de respostas derivadas estatística ou teoricamente.
Dados das espécies: presença, presença-ausência, observações de abundância a partir de amostragem de campo aleatória ou estratificada, ou oportunistas – coleções
Preditores ambientais – efeitos diretos ou indiretos:Fatores limitantes (reguladores): controlam eco-fisiologia (temp, água, solo)Distúrbios: perturbações (naturais ou antropogênicas) no ambienteRecursos: todos componentes assimiláveis (energia, nutrientes, água)
Padrões espaciais diferenciados conforme a escala, hierarquicamente:
Distribuição gradual –grande extensão e resolução grosseira– controle por reguladores climáticos
Distribuição agrupada – pequena área e resolução fina – controle por distribuição agrupada de recursos (variação micro-topográfica ou fragmentação de habitat)
–
Distribuição gradual –grande extensão e resolução grosseira– controle por reguladores climáticos
Distribuição agrupada – pequena área e resolução fina – controle por distribuição agrupada de recursos (variação micro-topográfica ou fragmentação de habitat)
SDMs- O que são e como funcionam?
–
SDMs - Teoria Ecológica e pressupostos
SDMs – saída Mapas de Adequação de Habitats – teoria ecológica nem sempre integrada aos modelos.
Teoria tem sido negligenciada.
Deveria estar em todas as fases da modelagem:Seleção dos preditores ambientais mais “causais” Escolha das curvas de respostas dos preditores mais ecologicamente realistas Determinação de conjunto restrito de modelos competitivos numa inferência multi-modeloDiscussão das causas prováveis e dos erros dos custos de prediçãoAvaliação da validade dos pressupostos dos modelos nas projeções climáticas futuras
SDMs – Idealmente 6 Etapas
1. Formulação2. Preparação dos dados3. Ajuste do modelo4. Avaliação do modelo5. Predições espaciais6. Avaliação da aplicabilidade do modelo
(Guisan & Zimmermann, 2000)
SDMs – Idealmente 6 Etapas
1. FormulaçãoTeoria e dados – modelo conceitual atualizado, objetivos claros, hipóteses de trabalho, estratégia para coleta de novos dados ou para complementar, escolha da resolução espaço-temporal e extensão geográfica
Métodos de modelagem – identificar método mais adequado e o framework (reamostragem x observações independentes) e a estatística necessária para avaliar a precisão preditiva do modelo
Decisões dependentes do grupo e diferentes aspectos estudados
Formulação do Modelo conceitual
Padrões gerais de distr de espécies Gradientes ecológicos, spp têm direções de stress físico e biológico
Realidade
GeneralidadePrecisão
Mecanicistas (fisiológico)
Baseado em processos
Analíticos teóricos
matemático
Empíricos fenômenos (ecológico) estatístico
Analíticos – Lotka-Volterra, Crescimento logístico
Mecanicistas – baseados em relações de causa-efeito
Empírico – condensar fatos empíricos
Modelos preditivos de vegetação –empíricos por natureza, mas pode incorporar fisiologia
Estão no eixo de “trade-off” entre precisão e generalidade
PreditoresMecanicista – parâmetros ecológicos causais=>dig mapsPrecisão das variáveis de entrada x generalidade
Fatores topográficos – dados precisos, modelam com alta resolução espacialFatores biofísicos – escalas mais gerais, topografia tem pouco poder preditivo
Gradientes ecológicos: recurso (consumo matéria e energia –nut, água, luz), direto (temp, pH) e indireto (elevação, declividade, aspecto, geologia, etc.)
Indiretos – sem relevância fisiológica, fácil medir, boa correlação com padrões das spp
extensão geográfica limitada. Em outro lugar a mesma posição topográfica pode revelar diferente combinações de gradientes diretos e recursos (Lei da constância relativa dos lugares)
Diretos e recursos - modelo mais geral e aplicável em outras áreas
Formulação do Modelo conceitual
Nicho
Nicho Fundamental x Realizado – Distr simulada decorre de restrições fisiológicas teóricas ou de observações de campo
Modelos mecanicistas – parametriza nicho fundamental + regras de competição para predizer nicho realizado
Modelos preditivos estáticos - baseados em observações (campo) empíricas – predição de nicho (ecológico) realizado
Podem acrescentar princípios fisiológicos e teóricos para predizer nicho fundamental
Formulação do Modelo conceitual
Conceito de Nicho
Conceitos de NichoDirecionado pelas demandas ambientais das spp como definido por Grinell ou Hutchinson
Abordagem auto-ecológica e fisiológica para nicho (nicho ambiental)Nicho Fundamental – sp ocupa toda área favorável Nicho Realizado – as relações bióticas limitam o nicho fundamental, é o observado na natureza
Direcionado pelo impacto que as spp podem ter em seu ambiente (Elton, MacArthur ou Levins)
Abordagem quanto aos níveis tróficos e cadeia alimentar (nicho trófico)
SDMs - baseam-se no conceito de nicho. - conceito das demandas e o nicho ambiental são considerados.
Simplificação - SDMs quantificam o nicho realizado de Hutchinson baseia-se na distribuição observada
Nicho fundamental - somente modelos mecanicistas (planta no lab) fisiologia e comportamento
Porém – nicho realizado dos SDMs são assumidos sem evidências ecológicas
Conceito de NichoOutra Simplificação – substituir nicho realizado por nicho potencial
Nicho potencial - definido como parte do fundamental disponível para as spp, restrito pelo ambiente realizado (Ackerly, 2003). Não existem todas as possibilidades de combinação das variáveis ambientais na área de estudo.
Pulliam (2000) propôs visões teóricas das relações nicho x distr.:a) Nicho Grinelliano – spp ocorre onde a condição ambiental é favorável
b) Nicho realizado de Hutchinson – competição ou predação reduz o fundamental
c) Dinâmica fonte-sumidouro – ocorrência depende da taxa de crescimento e migração nos habitats fontes e sumidouros
d) Situação limite por dispersão
Definir teoria a priori (a menos evidência campo/lab).
Para algumas spp o nicho fundamental completo jamais será capturado
Observações a partir de indivíduos com sucesso reprodutivo
Conceito de NichoConsiderações teóricas – incluir dispersão e dinâmica populacional como parâmetros dos modelos
Caso contrário – SDMs baseiam-se no nicho Grinelliano fundamental ou no nicho realizado de Hucthinson
Rhododendron (Vetaas, 2002)
Spp competitivamente dominantessofrem menos restrições bióticas -Pressupostos do nicho Grinelliano
Spp subordinadas sofrem limitações por competição –Pressupostos do nicho realizado de Hutchinson
Pressupostos – Postulado do Equilíbrio
Dados ambientais e das espécies referem-se a um tempo/espaço da amostragem => modelos são snapshot das relações spp x ambiente
Postulado: Spp modeladas estão em um pseudo-equilíbrio com seu ambiente.
Porém, poucas considerações sobre:Quão perto um ambiente modelado está do equilíbrio?Quanto tempo levaria para alcançar novo equilíbrio (depois de alguma mudança no ambiente)?Spp arbóreas européias (36/50)– Razão (Realizado/Potencial)<50% - controladas por dispersão, não devem estar em equilíbrioSpp invasoras não estão em equilíbrio com o ambiente, devem ser modeladas a partir de sua distribuição nativa
EquilíbrioModelos de Distr. Estáticos – assumem o equilíbrio ou o pseudo-equilíbrio entre o ambiente e os padrões das spp observados.
Não-equilíbrio seria mais realista. Mas para modelar:Modelo deve ser dinâmico e estocástico
Pressuposto de Equilíbrionecessário para modelos de distr de escala mais geralMenos restritivo para spp persistentes, resposta lenta; Vantagem: menos conhecimento da fisiologia e comportamentoInfluência humana, distúrbios, dinâmica sucessional – modelados com dificuldade
Alternativa – modelagem de simulação dinâmica Precisa conhecer muito bem a sp e relação com habitat – literatura -poucos modelos espaciais com simulação para escalas mais genérica
Formulação do Modelo conceitual
Espécie x ComunidadeGleasoniano (indivíduo) x Clementsiano (comunidade) –debate....
Evidências paleoecológicas – comunidades de plantas não têm sido estáveis, com a variação climática, comunidades modernas de spp não têm longas histórias, as comunidades não se movem como uma entidade seguindo mudanças climáticas
Modelar sp ao invés de comunidade – mais realístico
Alternativa para comunidade: simular seleção de spp dominantes para classificar a distr superposta, gerando mapas de comunidade simulados
Modelos de distr preditivos futuros (modelos estáticos, com mudanças climáticas) – sp ou comunidade – problema do equilíbrio -> ignora possibilidade de simular comportamento individual ou da spp – dispersão, migração, plasticidade, adaptação, etc.
Formulação do Modelo conceitual
Critérios para seleção de modelos - plantas
Precisão e escala global, ambiente atual =>modelo estáticoEscala local, topografia complexa -> melhor com variáveis indiretas
Formulação do Modelo conceitual
CC climatic Change
2. Preparação dos Dados
Amostragem e DadosEscolha da escala espacialEscolha de variáveis explicativas significantes (fisio) para o modelo preditivoDesenho amostral – baseado nos gradientes
Gradsect – (Gradient-Oriented Transect (Gradsect) Sampling)Estratificado-aleatório – sortear/sistematizar amostras em polígonos de condições ambientais homogêneas
Gradsect semelhante a amostragem estratificada-aleatória para padrões de riqueza de spp e ambos superiores a sistemática ou aleatória.Se dado foi coletado sem estratégia definida (observações) => amostrar sub-set fixo/ estrato ambiental Análise de auto-correlação para definir distância mínima entre amostras
Informação AmbientalDados de campo, mapeamentos sistemáticos, sensoriamento remoto, e resultantes de modelagem em GIS
DEM- importante pela correlação com outras variáveis, maior precisão, porém pode não ser de alto poder preditivo
Gradiente topográfico pode ser usado para verificar correspondência entre atributos digitais e aqueles observados no campo
Tarefa: Selecionar conjunto apropriado de dados para parametrizar o modelo
??? Como selecionar variáveis preditoras???
Preparação dos Dados
Formulação do Modelo estatístico:Escolha de um algoritmo adequado para predizer um tipo de variável-resposta e estimar os coeficientes do modelo
Escolha de uma abordagem estatística ótima para o contexto do modelo
A maioria dos modelos estatísticos é específica para um tipo de variável-resposta e está associada a uma distribuição de probabilidade específica.
Tem que testar se a variável (distr empírica) se comporta conforme a distribuição estatística
3. Ajuste do Modelo
Guisan & Zimmermann (2000)
Formulação do Modelo estatístico:Escolha de um algoritmo adequado para predizer um tipo de variável-resposta e estimar os coeficientes do modeloEscolha de uma abordagem estatística ótima para o contexto do modeloA maioria dos modelos estatísticos é específica para um tipo
de variável-resposta e está associada a uma distribuição de probabilidade específica.
Tem que testar se a variável (distr empírica) se comporta conforme a distribuição estatística
Regressões Generalizadas
Relacionam uma variável-resposta a uma única (simples) ou uma combinação (múltipla) de variáveis ambientais (preditoras)
Preditoras – as var ambientais ou componentes ortogonais derivados (evitar multicolinearidade) de análise multivariada (PCs).
Regressão clássica (RL) – válida qdo variável resposta tem distrnormal e variância não muda com a média (homocedasticidade)
Ajuste do Modelo
Regressões GeneralizadasGLMs – modelos de regressão mais flexíveis – var.resposta com outras distribuições e funções de variância não-constantes.
Combinação de preditores está relacionadada var.resposta através de uma função link, que possibilita:
Transformar para linearidadeManter as predições (var.resposta) dentro de um intervalo de valores coerentes Lida com distribuições Gaussiana, Poisson, Binomial ou Gamma com as funções identidade, logaritmica, logistica e inversa
Se a resposta não tem uma relação linear com o preditor, pode-se incluir um termo transformador para o preditor
Quando o modelo inclui termos de ordem maiores, é chamada de regressão polinomial Regressão polinomial de segunda ordem – simula resposta unimodal simétricaDe terceira ordem - simula respostas bimodais e com desvios, ou ambos Outras funções de transformação...
Ajuste do Modelo
Regressões GeneralizadasGAMs - Regressão Alternativa – baseadas em funções não-paramétricas de suavização do preditor
Médias-móveis, regressão ponderada pela localidade ou funções de densidade ponderadas localmente
Modelo aditivo generalizado – suaviza independentemente cada preditor e aditivamente calcula a var. respostaSmoothers Multidimensional - possíveis
Modelos de regressão podem incorporar processos ecológicos – dispersão ou conectividade
Ajuste do Modelo
Técnicas de Classificação Árvores de classificação (qualitativa) e regressão (quantitativa), classificação baseada em regras, e class. Máxima Verossimilhança.Técnicas que associam uma classe da variável resposta
(binomial ou multinomial) para cada combinação de preditoresambientais (nominais ou contínuos).
Não tem exemplos diretos com distr de plantas ou animais (?)
Construídos a partir da inter-relação de regras simples deduzidas do conhecimento prévio sobre o fenômeno a ser modelado – literatura, laboratório, etc.
Ajuste do Modelo
Envelopes ambientais BIOCLIM – cálculo de envelope mínimo retangular num espaço climático multi-dimensional
HABITAT – espaço mais restrito com envelopes polytopeconvexo (convex hull).
Resultados similares, classificação difere – árvore de decisão dicotômica ou com muitos nós terminais
DOMAIN – baseado em métrica de similaridade ponto a ponto (medidas de distância multivariadas). Mais adequado quando dados disponíveis são limitados
Ajuste do Modelo
Técnicas de Ordenação – spp ou comunidadesMaioria baseia-se em Análise de Correspondência Canônica
Análise direta de gradiente onde os eixos de ordenação principais são combinações lineares dos descritores ambientaisBaseia-se na média recíproca dos scores dos locais e das espécies Assume distr gaussina das spp, com limiar inf e sup de ocorrência e um ótimo ao longo do gradiente.Apropriado para conjunto de dados com muitas ausências. Método robusto.
Análise de Redundância menos usada para simular distr de comunidades ou taxa ambientalmente dependente Limita-se a gradientes ambientais curtos(truncados)
Ajuste do Modelo
Abordagem Bayesiana Combina uma probabilidade a priori de observar a sp ou comunidade com suas probabilidades condicionadas ao valor de cada preditor ambiental.
Probabilidade condicional pode ser freq relativa da ocorrência de uma sp dentro de uma classe discreta de um preditor nominal.
A P a priori pode ser baseada na literaturaNo mapeamento da vegetação a P a posteriori é calculada para cada unidade de vegetação, e a unidade com maior probabilidade é prevista para cada localidade candidata.
Ajuste do Modelo
Redes Neurais Recurso promissor – muitas referências para (ANN),poucas para predizer distr espacial de spp ou comunidades usando descritores biofísicos Mais poderoso que regressão múltipla para modelar relações não-linearesProblema – classificação processo não-paramétrico (“black art”)
Outras abordagensModelos em SIG – sobreposição de variáveis ambientais, medidas de variação, similaridade e regras regras para combinar probabilidadesAnálise de função discriminante
Ajuste do Modelo
Outras abordagensENFA – Ecological Niche-factor analysis – implementado no Biomapper, difere de CCA ou RDA por considerar uma sp a cada vez. Somente dados de presença (animais).
Índice de marginalidade e tolerância situa o envelope ambiental da sp dentro de um envelope ambiental multidimensional definido pelo mapeamento de todas as unidades de estudo da área
MONOMAX – conjunto de algoritmos ajusta uma função monotônica de máxima verossimilhança através de processo iterativo
Problema: probabilidade da var. resposta é obtida de no máx 2 preditores por vezVantagem: nenhum pressuposto sobre a distr do dado, resíduo ou variância é necessário -> bom para análise exploratória
Ajuste do Modelo
4. Calibração do Modelo
Ajuste do modelo matemático que foi selecionado para um conjunto de dados específico
Melhorar a concordância entre a saída do modelo e o conj dados Seleção de variável explicativa – quais usar, estimar seus coeficientes
Seleção de preditores:Arbitrária (não recomendada)Automática – stepwise para LS, GLMs e CCASeguindo princípios fisiológicos ou seguindo regras de “shrinkage” (encolhimento??)
N preditores < m/10 (m= total de observações ou, para resposta binárias, observações para a categoria de menor representatividade)
Calibração do Modelo
Preditores – considerar também as transformações (termos polinomiais, função beta, eixos ordenados – difícil de explicar por não ter valor biológico associado)
Melhor selecionar os gradientes diretos e de recursos para calibrar o modelo, para otimizar significado ecológico e interpretabilidade
Transformação de variáveis – curvas resposta da sp aos gradientes ambientais. Tendo uma forma – modelo estatístico deverá reproduzir e formalizar esta forma.
Estimativa de parâmetros – disponível na maioria dos softs (SAS, S-Plus, SPSS, SYSTAT, etc)
Ajuste => medida da redução da variância (ou do desvio no caso da estimativa por Máx. Ver.)
Calibração do Modelo
GLMs – redução do desvio D2 (equivalente ao R2 do LS)D2= (desvio nulo – desvio residual)/ Desvio nulo
desvio nulo= desvio do modelo em relação ao interceptodesvio residual = desvio inexplicado após a inclusão de todas vars
Modelo perfeito não tem desvio residual e D2= 1D2 ajustado (equivalente ao R2 ajustado) D2adj= 1 – [(n-1)/(n-p)] x [1 - D2]
(n de observações, p de parâmetros)D2 ajustado permite comparar modelos com diferentes combinações de variáveis.
Deve ser testado para um nível de significância, de acordo com o método escolhido para estimar os coeficientes. Para GLMs –usa-se X2 para testar a diferença das variâncias e teste t para testar se o coeficiente difere significativamente de zero.
Calibração do Modelo
Métodos de classificação por árvores de decisãoModelo tenta prever o dado exatamente, e assim não precisa ajuste, pode fazer a avaliação do modelo após a calibraçãoÁrvores de regressão e classificação – número de nós quase igual ao de obs.Modelo não é tem redução de complexidade. Pode ser feita redução de terminais, combinada com validação cruzada. Replicações seriam aconselhadas para evitar a aleatoriedade dos resultados
Envelopes ambientaisAo invés de usar o mesmo conj de var ambientais para todas as spp(BIOCLIM), selecionar um sub-conjunto para usar no algoritmo CART
Este sub-conj define o envelope multidimensional que melhor engloba a ocorrência das sppO modelo de HABITAT divide o envelope global em sub-envelopes de tamanhos variadosA proporção de ocorrência da sp / total observações em cada sub-envelope dá uma medida do grau de pertinência de cada novo site para cada sub-envelope da sp.
Para o DOMAIN – há uma estimativa do grau de confiança para a classificação – não é probabilístico tb.
Calibração do Modelo
Métodos de ordenação – ou análise de gradiente ou ordenação diretaComo CCA – semelhante à calibração da regressão linearcritério de ajuste é minimizar a razão:
Média da soma dos quad. da var entre spp / var da soma dos quad. total
Variáveis selecionadas passo-a-passoApós a ordenação – cada eixo pode ser testado para significância através de permutações de Monte-Carlo. (e segue...)
Modelo BayesianoEquivale a calcular a probabilidade condicional de estado multivariado de cada entidade considerada, dando os valores dos preditores ambientaisSignificância de cada variável é medida por análise de frequência X2 -decidirá quais variáveis farão parte do modelo
Calibração do Modelo
Funções discriminantes – ou análise de gradiente ou ordenação direta
Calibradas usando estatística Wilk´s 8 de ajuste – medida equivalente ao R2 para a regressão
Durante a calibração do modelo a influência individual de cada observação pode ser avaliada graficamente
LS e GLMs – outliers, análise dos resíduosMétodo Jack-knife – deixando sempre uma observação de fora a cada vez e observando o resultado do ajuste do modelo => valores de influência empírica g para cada observação.
Plotados em função do número de observações para detectar outliers
5.Predições dos modelosUma vez calibrado o modelo, pode-se predizer a distribuição potencial da sp (ou comunidade)
Equivale a modelar seu habitat potencial => mapas de distr de habitat potencial, ou representação cartográfica de:
Probabilidade de ocorrência ( GLMs logísticos)
Predições dos modelosUma vez calibrado o modelo, pode-se predizer a distribuição potencial da sp (ou comunidade)
Equivale a modelar seu habitat potencial => mapas de distr de habitat potencial, ou representação cartográfica de:
Probabilidade de ocorrência ( GLMs logísticos)Distribuição de abundância mais provável (GLM ordinal)
Predições dos modelosUma vez calibrado o modelo, pode-se predizer a distribuição potencial da sp (ou comunidade)
Equivale a modelar seu habitat potencial => mapas de distr de habitat potencial, ou representação cartográfica de:
Probabilidade de ocorrência ( GLMs logísticos)Abundância mais provável (GLM ordinal)Ocorrência predita – métricas não probabilísticas (CCA) – Distribuição potencial
Predições dos modelosUma vez calibrado o modelo, pode-se predizer a distribuição potencial da sp (ou comunidade)
Equivale a modelar seu habitat potencial => mapas de distr de habitat potencial, ou representação cartográfica de:
Probabilidade de ocorrência ( GLMs logísticos)Abundância mais provável (GLM ordinal)Ocorrência prevista – métricas não probabilísticas (CCA)Entidade mais provável (das análises hierárquicas)
Predições dos modelos
Dificuldades de fazer modelagem diretamente em ambientes GIS
Ausência dos procedimentos estatísticos para a modelagem e calibração
Algumas opções são mais facilmente implementáveis (GLMs)
As classificações baseadas em regras são as mais facilmente realizadas - de sobreposição de mapas com regras condicionais
Alguns algoritmos de envelopes climáticos foram implementados com funcionalidades para visualização dos mapas
Maioria são implementados através de macros
TerraLib+OpenModeller
6. Avaliação dos modelos
Validação – medir a adequação entre o modelo predito e as observações de campo (~accuracy para RS)
Mas Validação = análise lógica dos modelos, o que chamou de formulação do modelo teórico.
Propõe termo avaliação – não avalia se é V ou F, mas testa hipóteses e predição de padrões biológicos
Avaliação – medida de adequação, depende do objetivo do projeto e do domínio de aplicação do modelo
Duas abordagens gerais:Usar um conj de dados para calibrar o modelo e depois avaliá-lo por validação cruzada (CV)Técnicas de bootstrap - dois data set independentes, um para calibrar e outro para avaliar
Primeiro passo - bootstrap e CV avaliam a estabilidade do modeloSegundo passo – se tiver dados independentes – a qualidade das predições do modelo pode ser avaliada
Avaliação dos modelos
Jack-knife, validação cruzada e BootstrapJack Knife - Swiss penknife fácil de carregar (1958) –abordagem genérica para testar hipóteses e calcular intervalos de confiança
Computado deixando de fora uma observação por vez
Cross-validation – verificar a replicabilidade dos resultados. Hipótese - se o resultado é replicável ou simplesmente aleatório.
Conhecido por usar parte das obs para ajustar o modelo e parte para testar o erro
Simples – computa $ para conj treinamento e computa o erro de predição com o de testeDupla – modelos para os dois conjuntos e ambas equações usadas para gerar a CVMulti CV- repete a dupla muitas vezes, selecionando sub-amostras aleatórias
Avaliação dos modelos
Jack-knife, validação cruzada e BootstrapUm conjunto de dados único para calibrar e avaliar
Poucos dados (melhor usar JK ou bootstrap), ou quer usar todas as obs para calibrar – neste caso não pode avaliar o modelo fora do intervalo de calibração.
Bootstrap – aborda o desvio da estimativa realizando re-amostragens múltiplas com reposição, dentro do conj dados de calibração. Remove os desvios para obter uma estimativa unbiased.
Bias – diferença entre a estimativa do parâmetro e o valor real da população.
Se a diferença entre o valor obtido e o corrigido para desvios émuito alta, a adequação do modelo deve ser questionada
Avaliação dos modelos
Avaliação por conjunto de dados independente
Dois conjuntos de dados independentes - calibrar e avaliar
Abordagem split-sample – um grande conjunto de dados é dividido para cada etapa
Inapropriado para pequenos conj de dados
Atraente quando se tem muitos dados – CV ou bootstrap
Se há dois conjuntos originais (amostragem e observacional) – não misturar em uma mesma análise estatística: calibração e avaliação
Interfere no desenho amostral, impedindo o ajuste adequado do modelo
1. Avaliar a predição com a mesma métrica de ajuste usada na calibração –medir ajuste entre predito e do conj dados de avaliação. (LS – calcular R2
para valores preditos e valores de campo)
2. Usar qualquer medida discreta de associaçãoassociação entre o predito e o observado.
Avaliação dos modelos
2. Usar qualquer medida discreta de associação entre o predito e o observado.
Se o resultado é probabilístico, deve-se transformar para a escala de obs real. Para dados binários – pode-se truncar as probabilidades em um certo limiar:
Ajustando limite ótimo – melhor concordância entre predito e obs do conj de validação
Predições probabilísticas em presença/ausência ou escala ordenada
Aplicando uma medida independente de limiar como ROC plot (Receiver Operating Characteristic)
Comparação final – tabela de contingência – Matriz de confusão
A escolha da melhor medida de associação depende
Tipo de var respostavar resposta está modelando (quantitativa e qualitativa, semi-quantitativa)
Objetivos do estudo
Avaliação dos modelos
Var resposta quantitativa – caso mais simplesSão dependentes de um limiar e difíceis de se ponderar
Se var tem distr normal -> Coef Correlação do momento-produto de Pearson. Caso contrário -> Coef Correlação *rank* não-paramétrico (J de Kendall ou D de Spearman)
Erro quadrático médio da predição (PMSE) e valor-G – (usa média amostral do conj de calibração como predição do modelo. 100% é um ajuste perfeito, 0% -melhor usar a média amostral apenas, valores negativos – erros sistemáticos na predição)
Var resposta qualitativa –Comparar as predições com as obs numa tabela de contingência e aplicar uma medida de associação adequada para escala nominal
Proporção de área corretamente classificada, % erro omissão/comissão, 6 , J ou 6de Foody
Se erros variam entre as unidades – ponderação de erros como 6 ponderado, ou matrizes de custos
Var resposta semi-quantitativaEscalas de abundância semi-logaritmica - tabela de contingência e medida de associação para escala ordinal : (, Dxy _Sommer, Kim, Wilson ou 6 ponderado
Avaliação dos modelos
Propagação de errosCombinação de vários layers heterogêneos em GIS ou rasterização de dados vetoriais ->ruídos para a interpretação dos resultadosNão avaliam a qualidade do modelo mas podem identificar fontes de erros caso as predições sejam insatisfatórias
Tendências espaciais das incertezasUm exemplo – modelo Bayesiano
Representação espacial das os erros e incertezas podem ajudar
identificar locais para amostragem e melhorar o modeloonde algum processo ecológico não considerado no modelo pode ocorrer
Credibilidade e aplicação do modelo
Interpretação de acurácia é subjetivaHá uma escala proposta (Monserud e Leemans 1992), baseada na avaliação das estatíticas:
Fair (justo, medíocre?): 6 = 0.5Excelente: 0.85 < 6 < 0.99
Deve-se incluir escala espacial e resolução (extent) do modelo
Modelo satisfatório quando as predições concordam total ou parcialmente com os padrões observados
Não se pode dizer que é bom ou ruim, mas deve-se discutir em função de seu contexto pré-definido
Importante para o caso de manejo e para determinar aplicabilidade
Credibilidade e qualificação (Ryckiel, 1996)
Credibilidade e aplicação do modelo
Credibilidade – nível de confiança subjetivo –qualificação relacionada a aplicabilidade do modelo: descobrir o domínio no qual um modelo validado pode ser usadoModelos estáticos, de acordo com o potencial para aplicação:
CenáriosPesquisaPlanejamento, monitoramento e avaliação (menos)Exemplos: manejo de spp raras, hot spots de biodiversidade, avaliação preliminar de impacto de mudanças climáticas sobre sp plantas, distr de comunidades ou riqueza, combinação destes.
Mudanças climáticas- inapropriado – já discutido. Porém a comparação de Modelos estáticos – alternativa para avaliar preliminarmente impactos sobre extensas áreas.
Perspectivas de pesquisa
Limitações - Acurácia e resolução dos mapas de entrada
Problema para dados como geologia, solo ou uso do solo –filtros para predições quantitativas primárias
Acurácia – problema para regiões montanhosas, veg em mosaicos e transições rígidas
Sensoriamento remoto poderia auxiliar com informações mais precisas de umidade, índice de vegetação, classes de uso do solo, etc.
Perspectivas de pesquisa
Limitações - Interações bióticasCompetição – grande desafio para modelagem de distr de spp
Modelos de spp -> modelos de comunidades
Uma Possibilidade para incluir competição/interação nos modelos estáticos – uso de sistemas integrados de equações de regressão simultâneas, ou GLMs
Sistema de regressões simultâneas (SSR) – cada presença ou abundância de uma sp ajustada é incluída como um preditor em todas as outras equações, até que o equilíbrio seja alcançado num processo iterativo.
Sistema modelado tem que estar no ou muito próximo do equilíbrio
Perspectivas de pesquisa
Limitações - CausalidadeComo desenvolver modelos estáticos mais mecanicistas Importante principalmente se o modelo estático será considerado para a construção de de modelos de processos espaço-temporalParâmetros fisiológicos (e.g. temp do mês mais quente) devem ser preferidos aos preditores fisiográficosIntegração entre ecofisiologistas e modeladores de sucessão dinâmica é necessário
Limitações - Avaliação dos dadosProblema – usar mesmo conj dados para calibrar e avaliar (CV). Melhor usar dados independentes para avaliar
Separar dado para calibração ou gerar novos dados para avaliar (mapeamento da vegetação – mas introduz novas incertezas por erros de mapeamento e resolução
Perspectivas de pesquisa
Limitações – Curvas de respostaA forma das respostas individuais de cada variável explicativa deveria ser analisada sistematicamente antes de incluí-la no modelo multivariado
Porém pode não ser de muita ajuda, uma vez que a interação entre os preditores pode modificar a forma da curva resposta
Alternativa- plot diagnóstico de resíduos- explorar a forma provável de cada preditor ou ainda avaliar se o parâmetro deve ser ajustado parametricamente ou não.
Perspectivas de pesquisa
Limitações - Fatores históricos (biogeográficos e evolutivos) – tentar incluir nos modelos estáticos de distr.
História do lugarIndivíduo não ocorre em lugares prováveis (adequados) eventos geológicos ou climáticos passados; barreiras físicas
História do organismoIntegrar com estudos de evolução (filogenia), genética de população – integridade genética das spp
Limitações - Desenho amostralEstratégias de amostragem para modelar (gradsect, estrat-aleatório)Reamostrar para incluir gradiente ambiental
Perspectivas de pesquisa
Limitações – Avaliação de incertezas explícitas no espaço
Qualidade do modelo (regressão e avaliação do modelo) –mas não tem avaliação das incertezas no espaço
Seria útil para novas campanhas de campo ou para atribuir credibilidade e aplicabilidade do modelo
Mapear as incertezas também
Limitações - Auto-correlação espacialPreocupação com com auto-correlação e variância espacialAgrupamentos acontecem independentemente das var biofísicas – dispersão, e devem ser incluídos nos modelos através de modelos auto-correlativos (?)
Perspectivas de pesquisa
Autômatos celulares – proposto para lidar com relações de vizinhança (correlação espacial) e ambientes dinâmicos
Células, seus estados e transições – usado para modelar distr de spp plantas em mudanças climáticas, simulação de migração de plantas ao longo de corredores de paisagens segmentadas
SDMs – Idealmente 6 Etapas
1. Formulação2. Preparação dos dados3. Ajuste do modelo4. Avaliação do modelo5. Predições espaciais6. Avaliação da aplicabilidade do modelo
IMPORTANTE: ter em mente os pressupostos assumidos e as limitações que as escolhas em cada etapa incorporam ao modelo.
Comparação entre as técnicasDiscutir diferenças entre as técnicas de modelagem estática –Vamos compartilhar a tarefa ??