Predictive habitat distribution models in ecology - DPI · Pressupostos – Postulado do...

Predictive habitat distribution models in ecology

Guisan, A. ; Thuiller, W. 2005, Predicting species distribution: offering more than simple habitat. Ecology Letters, 8:993-1009. Guisan, A. ; Zimmermann. 2000, Predictive habitat distribution models in ecology. Ecological Modelling, 135:147-186.

III Referata, Agosto de 2006

Proposta – Guisan & Thuiller

SDMs- amplamente utilizados para prever impactos antropogênicos nos padrões de biodiversidade

Limitações nas aplicações teóricas e práticas

Visão geral dos avanços, discutindo princípios ecológicos e pressupostos dos SDMs

Sugerindo incorporar migração de spp, dinâmica de população interações bióticas e ecologia de comunidade nos SDMs em múltiplas escalas

Contexto

Tudo começou com a quantificação das relações entre espécies e o ambiente, e evoluiu:

Quantificação não espacial baseada em dados empíricosJohnston (1924) – invasão de cactus na Austrália x clima

Hittinka (1963) – determinantes climáticas de spp européias

Modelagem espacial de distribuição de espécies (não estatítico nem empírico)

Nix et al. (1977) - predições espaciais de crops baseadas em nicho

Modelagem estatística, espacialmente explícita e empírica da distribuição das spp

Ferrier (1984) – simulações de distribuições de espécies (phD – aves)

+ Verner et al. (1986) – vertebrados terrestres; e Margules & Austin (1991) –conservação - survey e análise de dados

Muitas contribuições a partir de 1990...

ContextoRecentemente – SDMs como ferramenta para várias questões ecológicas:

Quantificação do nicho ambiental das spp

Testar hipóteses biogeográficas, ecológicas e evolutivas

Avaliar invasão e proliferação de espécies

Impacto de mudanças climáticas e de LUCC na distribuição de spp

Indicação de áreas para coleta de spp raras

Recuperação e re-introdução de spp

Planejamento de conservação e áreas prioritárias

Modelagem de comunidade (biod,composição) a partir de distribuição de spp individuais

Construção de regiões bio ou ecogeográficas

Cálculo da distância ecológica entre fragmentos na dinâmica de meta-populações na paisagem e modelos de fluxo genético

Objetivo Específico do trabalho – Guisan e Thuiller, 2005Apresentar os avanços na construção de modelos de distribuição de espécies e indicar algumas limitaçõesFoca na projeção do impacto de mudanças climáticas na distribuição da biodiversidade

SDMs- O que são e como funcionam?SDMs – modelos empíricos que relacionam observações de campo a variáveis ambientais preditoras, baseados em superfícies de respostas derivadas estatística ou teoricamente.

Dados das espécies: presença, presença-ausência, observações de abundância a partir de amostragem de campo aleatória ou estratificada, ou oportunistas – coleções

Preditores ambientais – efeitos diretos ou indiretos:Fatores limitantes (reguladores): controlam eco-fisiologia (temp, água, solo)Distúrbios: perturbações (naturais ou antropogênicas) no ambienteRecursos: todos componentes assimiláveis (energia, nutrientes, água)

Padrões espaciais diferenciados conforme a escala, hierarquicamente:

Distribuição gradual –grande extensão e resolução grosseira– controle por reguladores climáticos

Distribuição agrupada – pequena área e resolução fina – controle por distribuição agrupada de recursos (variação micro-topográfica ou fragmentação de habitat)

–

SDMs- O que são e como funcionam?SDMs – modelos empíricos que relacionam observações de campo a variáveis ambientais preditoras, baseados em superfícies de respostas derivadas estatística ou teoricamente.

Dados das espécies: presença, presença-ausência, observações de abundância a partir de amostragem de campo aleatória ou estratificada, ou oportunistas – coleções

Preditores ambientais – efeitos diretos ou indiretos:Fatores limitantes (reguladores): controlam eco-fisiologia (temp, água, solo)Distúrbios: perturbações (naturais ou antropogênicas) no ambienteRecursos: todos componentes assimiláveis (energia, nutrientes, água)

Padrões espaciais diferenciados conforme a escala, hierarquicamente:



–



SDMs- O que são e como funcionam?

–

SDMs - Teoria Ecológica e pressupostos

SDMs – saída Mapas de Adequação de Habitats – teoria ecológica nem sempre integrada aos modelos.

Teoria tem sido negligenciada.

Deveria estar em todas as fases da modelagem:Seleção dos preditores ambientais mais “causais” Escolha das curvas de respostas dos preditores mais ecologicamente realistas Determinação de conjunto restrito de modelos competitivos numa inferência multi-modeloDiscussão das causas prováveis e dos erros dos custos de prediçãoAvaliação da validade dos pressupostos dos modelos nas projeções climáticas futuras

SDMs – Idealmente 6 Etapas

1. Formulação2. Preparação dos dados3. Ajuste do modelo4. Avaliação do modelo5. Predições espaciais6. Avaliação da aplicabilidade do modelo

(Guisan & Zimmermann, 2000)


1. FormulaçãoTeoria e dados – modelo conceitual atualizado, objetivos claros, hipóteses de trabalho, estratégia para coleta de novos dados ou para complementar, escolha da resolução espaço-temporal e extensão geográfica

Métodos de modelagem – identificar método mais adequado e o framework (reamostragem x observações independentes) e a estatística necessária para avaliar a precisão preditiva do modelo

Decisões dependentes do grupo e diferentes aspectos estudados

Formulação do Modelo conceitual

Padrões gerais de distr de espécies Gradientes ecológicos, spp têm direções de stress físico e biológico

Realidade

GeneralidadePrecisão

Mecanicistas (fisiológico)

Baseado em processos

Analíticos teóricos

matemático

Empíricos fenômenos (ecológico) estatístico

Analíticos – Lotka-Volterra, Crescimento logístico

Mecanicistas – baseados em relações de causa-efeito

Empírico – condensar fatos empíricos

Modelos preditivos de vegetação –empíricos por natureza, mas pode incorporar fisiologia

Estão no eixo de “trade-off” entre precisão e generalidade

PreditoresMecanicista – parâmetros ecológicos causais=>dig mapsPrecisão das variáveis de entrada x generalidade

Fatores topográficos – dados precisos, modelam com alta resolução espacialFatores biofísicos – escalas mais gerais, topografia tem pouco poder preditivo

Gradientes ecológicos: recurso (consumo matéria e energia –nut, água, luz), direto (temp, pH) e indireto (elevação, declividade, aspecto, geologia, etc.)

Indiretos – sem relevância fisiológica, fácil medir, boa correlação com padrões das spp

extensão geográfica limitada. Em outro lugar a mesma posição topográfica pode revelar diferente combinações de gradientes diretos e recursos (Lei da constância relativa dos lugares)

Diretos e recursos - modelo mais geral e aplicável em outras áreas


Nicho

Nicho Fundamental x Realizado – Distr simulada decorre de restrições fisiológicas teóricas ou de observações de campo

Modelos mecanicistas – parametriza nicho fundamental + regras de competição para predizer nicho realizado

Modelos preditivos estáticos - baseados em observações (campo) empíricas – predição de nicho (ecológico) realizado

Podem acrescentar princípios fisiológicos e teóricos para predizer nicho fundamental


Conceito de Nicho

Conceitos de NichoDirecionado pelas demandas ambientais das spp como definido por Grinell ou Hutchinson

Abordagem auto-ecológica e fisiológica para nicho (nicho ambiental)Nicho Fundamental – sp ocupa toda área favorável Nicho Realizado – as relações bióticas limitam o nicho fundamental, é o observado na natureza

Direcionado pelo impacto que as spp podem ter em seu ambiente (Elton, MacArthur ou Levins)

Abordagem quanto aos níveis tróficos e cadeia alimentar (nicho trófico)

SDMs - baseam-se no conceito de nicho. - conceito das demandas e o nicho ambiental são considerados.

Simplificação - SDMs quantificam o nicho realizado de Hutchinson baseia-se na distribuição observada

Nicho fundamental - somente modelos mecanicistas (planta no lab) fisiologia e comportamento

Porém – nicho realizado dos SDMs são assumidos sem evidências ecológicas

Conceito de NichoOutra Simplificação – substituir nicho realizado por nicho potencial

Nicho potencial - definido como parte do fundamental disponível para as spp, restrito pelo ambiente realizado (Ackerly, 2003). Não existem todas as possibilidades de combinação das variáveis ambientais na área de estudo.

Pulliam (2000) propôs visões teóricas das relações nicho x distr.:a) Nicho Grinelliano – spp ocorre onde a condição ambiental é favorável

b) Nicho realizado de Hutchinson – competição ou predação reduz o fundamental

c) Dinâmica fonte-sumidouro – ocorrência depende da taxa de crescimento e migração nos habitats fontes e sumidouros

d) Situação limite por dispersão

Definir teoria a priori (a menos evidência campo/lab).

Para algumas spp o nicho fundamental completo jamais será capturado

Observações a partir de indivíduos com sucesso reprodutivo

Conceito de NichoConsiderações teóricas – incluir dispersão e dinâmica populacional como parâmetros dos modelos

Caso contrário – SDMs baseiam-se no nicho Grinelliano fundamental ou no nicho realizado de Hucthinson

Rhododendron (Vetaas, 2002)

Spp competitivamente dominantessofrem menos restrições bióticas -Pressupostos do nicho Grinelliano

Spp subordinadas sofrem limitações por competição –Pressupostos do nicho realizado de Hutchinson

Pressupostos – Postulado do Equilíbrio

Dados ambientais e das espécies referem-se a um tempo/espaço da amostragem => modelos são snapshot das relações spp x ambiente

Postulado: Spp modeladas estão em um pseudo-equilíbrio com seu ambiente.

Porém, poucas considerações sobre:Quão perto um ambiente modelado está do equilíbrio?Quanto tempo levaria para alcançar novo equilíbrio (depois de alguma mudança no ambiente)?Spp arbóreas européias (36/50)– Razão (Realizado/Potencial)<50% - controladas por dispersão, não devem estar em equilíbrioSpp invasoras não estão em equilíbrio com o ambiente, devem ser modeladas a partir de sua distribuição nativa

EquilíbrioModelos de Distr. Estáticos – assumem o equilíbrio ou o pseudo-equilíbrio entre o ambiente e os padrões das spp observados.

Não-equilíbrio seria mais realista. Mas para modelar:Modelo deve ser dinâmico e estocástico

Pressuposto de Equilíbrionecessário para modelos de distr de escala mais geralMenos restritivo para spp persistentes, resposta lenta; Vantagem: menos conhecimento da fisiologia e comportamentoInfluência humana, distúrbios, dinâmica sucessional – modelados com dificuldade

Alternativa – modelagem de simulação dinâmica Precisa conhecer muito bem a sp e relação com habitat – literatura -poucos modelos espaciais com simulação para escalas mais genérica


Espécie x ComunidadeGleasoniano (indivíduo) x Clementsiano (comunidade) –debate....

Evidências paleoecológicas – comunidades de plantas não têm sido estáveis, com a variação climática, comunidades modernas de spp não têm longas histórias, as comunidades não se movem como uma entidade seguindo mudanças climáticas

Modelar sp ao invés de comunidade – mais realístico

Alternativa para comunidade: simular seleção de spp dominantes para classificar a distr superposta, gerando mapas de comunidade simulados

Modelos de distr preditivos futuros (modelos estáticos, com mudanças climáticas) – sp ou comunidade – problema do equilíbrio -> ignora possibilidade de simular comportamento individual ou da spp – dispersão, migração, plasticidade, adaptação, etc.


Critérios para seleção de modelos - plantas

Precisão e escala global, ambiente atual =>modelo estáticoEscala local, topografia complexa -> melhor com variáveis indiretas


CC climatic Change

2. Preparação dos Dados

Amostragem e DadosEscolha da escala espacialEscolha de variáveis explicativas significantes (fisio) para o modelo preditivoDesenho amostral – baseado nos gradientes

Gradsect – (Gradient-Oriented Transect (Gradsect) Sampling)Estratificado-aleatório – sortear/sistematizar amostras em polígonos de condições ambientais homogêneas

Gradsect semelhante a amostragem estratificada-aleatória para padrões de riqueza de spp e ambos superiores a sistemática ou aleatória.Se dado foi coletado sem estratégia definida (observações) => amostrar sub-set fixo/ estrato ambiental Análise de auto-correlação para definir distância mínima entre amostras

Informação AmbientalDados de campo, mapeamentos sistemáticos, sensoriamento remoto, e resultantes de modelagem em GIS

DEM- importante pela correlação com outras variáveis, maior precisão, porém pode não ser de alto poder preditivo

Gradiente topográfico pode ser usado para verificar correspondência entre atributos digitais e aqueles observados no campo

Tarefa: Selecionar conjunto apropriado de dados para parametrizar o modelo

??? Como selecionar variáveis preditoras???

Preparação dos Dados

Formulação do Modelo estatístico:Escolha de um algoritmo adequado para predizer um tipo de variável-resposta e estimar os coeficientes do modelo

Escolha de uma abordagem estatística ótima para o contexto do modelo

A maioria dos modelos estatísticos é específica para um tipo de variável-resposta e está associada a uma distribuição de probabilidade específica.

Tem que testar se a variável (distr empírica) se comporta conforme a distribuição estatística

3. Ajuste do Modelo

Guisan & Zimmermann (2000)

Formulação do Modelo estatístico:Escolha de um algoritmo adequado para predizer um tipo de variável-resposta e estimar os coeficientes do modeloEscolha de uma abordagem estatística ótima para o contexto do modeloA maioria dos modelos estatísticos é específica para um tipo

de variável-resposta e está associada a uma distribuição de probabilidade específica.

Tem que testar se a variável (distr empírica) se comporta conforme a distribuição estatística

Regressões Generalizadas

Relacionam uma variável-resposta a uma única (simples) ou uma combinação (múltipla) de variáveis ambientais (preditoras)

Preditoras – as var ambientais ou componentes ortogonais derivados (evitar multicolinearidade) de análise multivariada (PCs).

Regressão clássica (RL) – válida qdo variável resposta tem distrnormal e variância não muda com a média (homocedasticidade)

Ajuste do Modelo

Regressões GeneralizadasGLMs – modelos de regressão mais flexíveis – var.resposta com outras distribuições e funções de variância não-constantes.

Combinação de preditores está relacionadada var.resposta através de uma função link, que possibilita:

Transformar para linearidadeManter as predições (var.resposta) dentro de um intervalo de valores coerentes Lida com distribuições Gaussiana, Poisson, Binomial ou Gamma com as funções identidade, logaritmica, logistica e inversa

Se a resposta não tem uma relação linear com o preditor, pode-se incluir um termo transformador para o preditor

Quando o modelo inclui termos de ordem maiores, é chamada de regressão polinomial Regressão polinomial de segunda ordem – simula resposta unimodal simétricaDe terceira ordem - simula respostas bimodais e com desvios, ou ambos Outras funções de transformação...

Ajuste do Modelo

Regressões GeneralizadasGAMs - Regressão Alternativa – baseadas em funções não-paramétricas de suavização do preditor

Médias-móveis, regressão ponderada pela localidade ou funções de densidade ponderadas localmente

Modelo aditivo generalizado – suaviza independentemente cada preditor e aditivamente calcula a var. respostaSmoothers Multidimensional - possíveis

Modelos de regressão podem incorporar processos ecológicos – dispersão ou conectividade

Ajuste do Modelo

Técnicas de Classificação Árvores de classificação (qualitativa) e regressão (quantitativa), classificação baseada em regras, e class. Máxima Verossimilhança.Técnicas que associam uma classe da variável resposta

(binomial ou multinomial) para cada combinação de preditoresambientais (nominais ou contínuos).

Não tem exemplos diretos com distr de plantas ou animais (?)

Construídos a partir da inter-relação de regras simples deduzidas do conhecimento prévio sobre o fenômeno a ser modelado – literatura, laboratório, etc.

Ajuste do Modelo

Envelopes ambientais BIOCLIM – cálculo de envelope mínimo retangular num espaço climático multi-dimensional

HABITAT – espaço mais restrito com envelopes polytopeconvexo (convex hull).

Resultados similares, classificação difere – árvore de decisão dicotômica ou com muitos nós terminais

DOMAIN – baseado em métrica de similaridade ponto a ponto (medidas de distância multivariadas). Mais adequado quando dados disponíveis são limitados

Ajuste do Modelo

Técnicas de Ordenação – spp ou comunidadesMaioria baseia-se em Análise de Correspondência Canônica

Análise direta de gradiente onde os eixos de ordenação principais são combinações lineares dos descritores ambientaisBaseia-se na média recíproca dos scores dos locais e das espécies Assume distr gaussina das spp, com limiar inf e sup de ocorrência e um ótimo ao longo do gradiente.Apropriado para conjunto de dados com muitas ausências. Método robusto.

Análise de Redundância menos usada para simular distr de comunidades ou taxa ambientalmente dependente Limita-se a gradientes ambientais curtos(truncados)

Ajuste do Modelo

Abordagem Bayesiana Combina uma probabilidade a priori de observar a sp ou comunidade com suas probabilidades condicionadas ao valor de cada preditor ambiental.

Probabilidade condicional pode ser freq relativa da ocorrência de uma sp dentro de uma classe discreta de um preditor nominal.

A P a priori pode ser baseada na literaturaNo mapeamento da vegetação a P a posteriori é calculada para cada unidade de vegetação, e a unidade com maior probabilidade é prevista para cada localidade candidata.

Ajuste do Modelo

Redes Neurais Recurso promissor – muitas referências para (ANN),poucas para predizer distr espacial de spp ou comunidades usando descritores biofísicos Mais poderoso que regressão múltipla para modelar relações não-linearesProblema – classificação processo não-paramétrico (“black art”)

Outras abordagensModelos em SIG – sobreposição de variáveis ambientais, medidas de variação, similaridade e regras regras para combinar probabilidadesAnálise de função discriminante

Ajuste do Modelo

Outras abordagensENFA – Ecological Niche-factor analysis – implementado no Biomapper, difere de CCA ou RDA por considerar uma sp a cada vez. Somente dados de presença (animais).

Índice de marginalidade e tolerância situa o envelope ambiental da sp dentro de um envelope ambiental multidimensional definido pelo mapeamento de todas as unidades de estudo da área

MONOMAX – conjunto de algoritmos ajusta uma função monotônica de máxima verossimilhança através de processo iterativo

Problema: probabilidade da var. resposta é obtida de no máx 2 preditores por vezVantagem: nenhum pressuposto sobre a distr do dado, resíduo ou variância é necessário -> bom para análise exploratória

Ajuste do Modelo

4. Calibração do Modelo

Ajuste do modelo matemático que foi selecionado para um conjunto de dados específico

Melhorar a concordância entre a saída do modelo e o conj dados Seleção de variável explicativa – quais usar, estimar seus coeficientes

Seleção de preditores:Arbitrária (não recomendada)Automática – stepwise para LS, GLMs e CCASeguindo princípios fisiológicos ou seguindo regras de “shrinkage” (encolhimento??)

N preditores < m/10 (m= total de observações ou, para resposta binárias, observações para a categoria de menor representatividade)

Calibração do Modelo

Preditores – considerar também as transformações (termos polinomiais, função beta, eixos ordenados – difícil de explicar por não ter valor biológico associado)

Melhor selecionar os gradientes diretos e de recursos para calibrar o modelo, para otimizar significado ecológico e interpretabilidade

Transformação de variáveis – curvas resposta da sp aos gradientes ambientais. Tendo uma forma – modelo estatístico deverá reproduzir e formalizar esta forma.

Estimativa de parâmetros – disponível na maioria dos softs (SAS, S-Plus, SPSS, SYSTAT, etc)

Ajuste => medida da redução da variância (ou do desvio no caso da estimativa por Máx. Ver.)


GLMs – redução do desvio D2 (equivalente ao R2 do LS)D2= (desvio nulo – desvio residual)/ Desvio nulo

desvio nulo= desvio do modelo em relação ao interceptodesvio residual = desvio inexplicado após a inclusão de todas vars

Modelo perfeito não tem desvio residual e D2= 1D2 ajustado (equivalente ao R2 ajustado) D2adj= 1 – [(n-1)/(n-p)] x [1 - D2]

(n de observações, p de parâmetros)D2 ajustado permite comparar modelos com diferentes combinações de variáveis.

Deve ser testado para um nível de significância, de acordo com o método escolhido para estimar os coeficientes. Para GLMs –usa-se X2 para testar a diferença das variâncias e teste t para testar se o coeficiente difere significativamente de zero.


Métodos de classificação por árvores de decisãoModelo tenta prever o dado exatamente, e assim não precisa ajuste, pode fazer a avaliação do modelo após a calibraçãoÁrvores de regressão e classificação – número de nós quase igual ao de obs.Modelo não é tem redução de complexidade. Pode ser feita redução de terminais, combinada com validação cruzada. Replicações seriam aconselhadas para evitar a aleatoriedade dos resultados

Envelopes ambientaisAo invés de usar o mesmo conj de var ambientais para todas as spp(BIOCLIM), selecionar um sub-conjunto para usar no algoritmo CART

Este sub-conj define o envelope multidimensional que melhor engloba a ocorrência das sppO modelo de HABITAT divide o envelope global em sub-envelopes de tamanhos variadosA proporção de ocorrência da sp / total observações em cada sub-envelope dá uma medida do grau de pertinência de cada novo site para cada sub-envelope da sp.

Para o DOMAIN – há uma estimativa do grau de confiança para a classificação – não é probabilístico tb.


Métodos de ordenação – ou análise de gradiente ou ordenação diretaComo CCA – semelhante à calibração da regressão linearcritério de ajuste é minimizar a razão:

Média da soma dos quad. da var entre spp / var da soma dos quad. total

Variáveis selecionadas passo-a-passoApós a ordenação – cada eixo pode ser testado para significância através de permutações de Monte-Carlo. (e segue...)

Modelo BayesianoEquivale a calcular a probabilidade condicional de estado multivariado de cada entidade considerada, dando os valores dos preditores ambientaisSignificância de cada variável é medida por análise de frequência X2 -decidirá quais variáveis farão parte do modelo


Funções discriminantes – ou análise de gradiente ou ordenação direta

Calibradas usando estatística Wilk´s 8 de ajuste – medida equivalente ao R2 para a regressão

Durante a calibração do modelo a influência individual de cada observação pode ser avaliada graficamente

LS e GLMs – outliers, análise dos resíduosMétodo Jack-knife – deixando sempre uma observação de fora a cada vez e observando o resultado do ajuste do modelo => valores de influência empírica g para cada observação.

Plotados em função do número de observações para detectar outliers

5.Predições dos modelosUma vez calibrado o modelo, pode-se predizer a distribuição potencial da sp (ou comunidade)

Equivale a modelar seu habitat potencial => mapas de distr de habitat potencial, ou representação cartográfica de:

Probabilidade de ocorrência ( GLMs logísticos)

Predições dos modelosUma vez calibrado o modelo, pode-se predizer a distribuição potencial da sp (ou comunidade)


Probabilidade de ocorrência ( GLMs logísticos)Distribuição de abundância mais provável (GLM ordinal)



Probabilidade de ocorrência ( GLMs logísticos)Abundância mais provável (GLM ordinal)Ocorrência predita – métricas não probabilísticas (CCA) – Distribuição potencial



Probabilidade de ocorrência ( GLMs logísticos)Abundância mais provável (GLM ordinal)Ocorrência prevista – métricas não probabilísticas (CCA)Entidade mais provável (das análises hierárquicas)

Predições dos modelos

Dificuldades de fazer modelagem diretamente em ambientes GIS

Ausência dos procedimentos estatísticos para a modelagem e calibração

Algumas opções são mais facilmente implementáveis (GLMs)

As classificações baseadas em regras são as mais facilmente realizadas - de sobreposição de mapas com regras condicionais

Alguns algoritmos de envelopes climáticos foram implementados com funcionalidades para visualização dos mapas

Maioria são implementados através de macros

TerraLib+OpenModeller

6. Avaliação dos modelos

Validação – medir a adequação entre o modelo predito e as observações de campo (~accuracy para RS)

Mas Validação = análise lógica dos modelos, o que chamou de formulação do modelo teórico.

Propõe termo avaliação – não avalia se é V ou F, mas testa hipóteses e predição de padrões biológicos

Avaliação – medida de adequação, depende do objetivo do projeto e do domínio de aplicação do modelo

Duas abordagens gerais:Usar um conj de dados para calibrar o modelo e depois avaliá-lo por validação cruzada (CV)Técnicas de bootstrap - dois data set independentes, um para calibrar e outro para avaliar

Primeiro passo - bootstrap e CV avaliam a estabilidade do modeloSegundo passo – se tiver dados independentes – a qualidade das predições do modelo pode ser avaliada

Avaliação dos modelos

Jack-knife, validação cruzada e BootstrapJack Knife - Swiss penknife fácil de carregar (1958) –abordagem genérica para testar hipóteses e calcular intervalos de confiança

Computado deixando de fora uma observação por vez

Cross-validation – verificar a replicabilidade dos resultados. Hipótese - se o resultado é replicável ou simplesmente aleatório.

Conhecido por usar parte das obs para ajustar o modelo e parte para testar o erro

Simples – computa $ para conj treinamento e computa o erro de predição com o de testeDupla – modelos para os dois conjuntos e ambas equações usadas para gerar a CVMulti CV- repete a dupla muitas vezes, selecionando sub-amostras aleatórias


Jack-knife, validação cruzada e BootstrapUm conjunto de dados único para calibrar e avaliar

Poucos dados (melhor usar JK ou bootstrap), ou quer usar todas as obs para calibrar – neste caso não pode avaliar o modelo fora do intervalo de calibração.

Bootstrap – aborda o desvio da estimativa realizando re-amostragens múltiplas com reposição, dentro do conj dados de calibração. Remove os desvios para obter uma estimativa unbiased.

Bias – diferença entre a estimativa do parâmetro e o valor real da população.

Se a diferença entre o valor obtido e o corrigido para desvios émuito alta, a adequação do modelo deve ser questionada


Avaliação por conjunto de dados independente

Dois conjuntos de dados independentes - calibrar e avaliar

Abordagem split-sample – um grande conjunto de dados é dividido para cada etapa

Inapropriado para pequenos conj de dados

Atraente quando se tem muitos dados – CV ou bootstrap

Se há dois conjuntos originais (amostragem e observacional) – não misturar em uma mesma análise estatística: calibração e avaliação

Interfere no desenho amostral, impedindo o ajuste adequado do modelo

1. Avaliar a predição com a mesma métrica de ajuste usada na calibração –medir ajuste entre predito e do conj dados de avaliação. (LS – calcular R2

para valores preditos e valores de campo)

2. Usar qualquer medida discreta de associaçãoassociação entre o predito e o observado.


2. Usar qualquer medida discreta de associação entre o predito e o observado.

Se o resultado é probabilístico, deve-se transformar para a escala de obs real. Para dados binários – pode-se truncar as probabilidades em um certo limiar:

Ajustando limite ótimo – melhor concordância entre predito e obs do conj de validação

Predições probabilísticas em presença/ausência ou escala ordenada

Aplicando uma medida independente de limiar como ROC plot (Receiver Operating Characteristic)

Comparação final – tabela de contingência – Matriz de confusão

A escolha da melhor medida de associação depende

Tipo de var respostavar resposta está modelando (quantitativa e qualitativa, semi-quantitativa)

Objetivos do estudo


Var resposta quantitativa – caso mais simplesSão dependentes de um limiar e difíceis de se ponderar

Se var tem distr normal -> Coef Correlação do momento-produto de Pearson. Caso contrário -> Coef Correlação *rank* não-paramétrico (J de Kendall ou D de Spearman)

Erro quadrático médio da predição (PMSE) e valor-G – (usa média amostral do conj de calibração como predição do modelo. 100% é um ajuste perfeito, 0% -melhor usar a média amostral apenas, valores negativos – erros sistemáticos na predição)

Var resposta qualitativa –Comparar as predições com as obs numa tabela de contingência e aplicar uma medida de associação adequada para escala nominal

Proporção de área corretamente classificada, % erro omissão/comissão, 6 , J ou 6de Foody

Se erros variam entre as unidades – ponderação de erros como 6 ponderado, ou matrizes de custos

Var resposta semi-quantitativaEscalas de abundância semi-logaritmica - tabela de contingência e medida de associação para escala ordinal : (, Dxy _Sommer, Kim, Wilson ou 6 ponderado


Propagação de errosCombinação de vários layers heterogêneos em GIS ou rasterização de dados vetoriais ->ruídos para a interpretação dos resultadosNão avaliam a qualidade do modelo mas podem identificar fontes de erros caso as predições sejam insatisfatórias

Tendências espaciais das incertezasUm exemplo – modelo Bayesiano

Representação espacial das os erros e incertezas podem ajudar

identificar locais para amostragem e melhorar o modeloonde algum processo ecológico não considerado no modelo pode ocorrer

Credibilidade e aplicação do modelo

Interpretação de acurácia é subjetivaHá uma escala proposta (Monserud e Leemans 1992), baseada na avaliação das estatíticas:

Fair (justo, medíocre?): 6 = 0.5Excelente: 0.85 < 6 < 0.99

Deve-se incluir escala espacial e resolução (extent) do modelo

Modelo satisfatório quando as predições concordam total ou parcialmente com os padrões observados

Não se pode dizer que é bom ou ruim, mas deve-se discutir em função de seu contexto pré-definido

Importante para o caso de manejo e para determinar aplicabilidade

Credibilidade e qualificação (Ryckiel, 1996)

Credibilidade e aplicação do modelo

Credibilidade – nível de confiança subjetivo –qualificação relacionada a aplicabilidade do modelo: descobrir o domínio no qual um modelo validado pode ser usadoModelos estáticos, de acordo com o potencial para aplicação:

CenáriosPesquisaPlanejamento, monitoramento e avaliação (menos)Exemplos: manejo de spp raras, hot spots de biodiversidade, avaliação preliminar de impacto de mudanças climáticas sobre sp plantas, distr de comunidades ou riqueza, combinação destes.

Mudanças climáticas- inapropriado – já discutido. Porém a comparação de Modelos estáticos – alternativa para avaliar preliminarmente impactos sobre extensas áreas.

Perspectivas de pesquisa

Limitações - Acurácia e resolução dos mapas de entrada

Problema para dados como geologia, solo ou uso do solo –filtros para predições quantitativas primárias

Acurácia – problema para regiões montanhosas, veg em mosaicos e transições rígidas

Sensoriamento remoto poderia auxiliar com informações mais precisas de umidade, índice de vegetação, classes de uso do solo, etc.


Limitações - Interações bióticasCompetição – grande desafio para modelagem de distr de spp

Modelos de spp -> modelos de comunidades

Uma Possibilidade para incluir competição/interação nos modelos estáticos – uso de sistemas integrados de equações de regressão simultâneas, ou GLMs

Sistema de regressões simultâneas (SSR) – cada presença ou abundância de uma sp ajustada é incluída como um preditor em todas as outras equações, até que o equilíbrio seja alcançado num processo iterativo.

Sistema modelado tem que estar no ou muito próximo do equilíbrio


Limitações - CausalidadeComo desenvolver modelos estáticos mais mecanicistas Importante principalmente se o modelo estático será considerado para a construção de de modelos de processos espaço-temporalParâmetros fisiológicos (e.g. temp do mês mais quente) devem ser preferidos aos preditores fisiográficosIntegração entre ecofisiologistas e modeladores de sucessão dinâmica é necessário

Limitações - Avaliação dos dadosProblema – usar mesmo conj dados para calibrar e avaliar (CV). Melhor usar dados independentes para avaliar

Separar dado para calibração ou gerar novos dados para avaliar (mapeamento da vegetação – mas introduz novas incertezas por erros de mapeamento e resolução


Limitações – Curvas de respostaA forma das respostas individuais de cada variável explicativa deveria ser analisada sistematicamente antes de incluí-la no modelo multivariado

Porém pode não ser de muita ajuda, uma vez que a interação entre os preditores pode modificar a forma da curva resposta

Alternativa- plot diagnóstico de resíduos- explorar a forma provável de cada preditor ou ainda avaliar se o parâmetro deve ser ajustado parametricamente ou não.


Limitações - Fatores históricos (biogeográficos e evolutivos) – tentar incluir nos modelos estáticos de distr.

História do lugarIndivíduo não ocorre em lugares prováveis (adequados) eventos geológicos ou climáticos passados; barreiras físicas

História do organismoIntegrar com estudos de evolução (filogenia), genética de população – integridade genética das spp

Limitações - Desenho amostralEstratégias de amostragem para modelar (gradsect, estrat-aleatório)Reamostrar para incluir gradiente ambiental


Limitações – Avaliação de incertezas explícitas no espaço

Qualidade do modelo (regressão e avaliação do modelo) –mas não tem avaliação das incertezas no espaço

Seria útil para novas campanhas de campo ou para atribuir credibilidade e aplicabilidade do modelo

Mapear as incertezas também

Limitações - Auto-correlação espacialPreocupação com com auto-correlação e variância espacialAgrupamentos acontecem independentemente das var biofísicas – dispersão, e devem ser incluídos nos modelos através de modelos auto-correlativos (?)


Autômatos celulares – proposto para lidar com relações de vizinhança (correlação espacial) e ambientes dinâmicos

Células, seus estados e transições – usado para modelar distr de spp plantas em mudanças climáticas, simulação de migração de plantas ao longo de corredores de paisagens segmentadas


1. Formulação2. Preparação dos dados3. Ajuste do modelo4. Avaliação do modelo5. Predições espaciais6. Avaliação da aplicabilidade do modelo

IMPORTANTE: ter em mente os pressupostos assumidos e as limitações que as escolhas em cada etapa incorporam ao modelo.

Comparação entre as técnicasDiscutir diferenças entre as técnicas de modelagem estática –Vamos compartilhar a tarefa ??

All models are wrong but some are useful !

(Box, 1979).

Obrigada!

Date post:	07-Feb-2019
Category:	Documents
Upload:	duongthu
View:	214 times
Download:	0 times

Predictive habitat distribution models in ecology - DPI · Pressupostos – Postulado do...

Documents