Modelagem de Nicho Ecológico e de Distribuição
Potencial de Espécies
Andrea Sánchez Tapia - doutoranda ENBT/JBRJ Felipe Sodré Barros – mestrando ENBT/JBRJ
Pesquisadora principal: Marinez Ferreira de Siqueira
Núcleo de Computação Científica e Geoprocessamento Jardim Botânico do Rio de Janeiro – JBRJ
LNCC, 12 de fevereiro de 2015
Como podemos representar a distribuição de uma espécie?
Traditional biogeographic approaches
The Volcano Rabbit (Romerolagus diazii)
Slide: Enrique Martinez_Meyer
Algoritmos de modelagem
(Bioclim, GLM, GAM, ANN, GARP, MaxEnt, etc.)
Temperature H
umid
ity
......
+
Input data
Registros de ocorrência
......
Mapas de distribuição potencial
Product
Outra maneira de se aproximar da distribuição geográfica das espécies é realizando a modelagem de seu nicho ecológico
Modificado de Enrique Martinez_Meyer
O conceito de nicho ecológico O termo nicho apareceu primeiramente nos trabalhos de Grinnell (1917, 1924) cujo foco está na distribuição geográfica dos indivíduos de uma espécie como uma resposta às variáveis ambientais (temperatura, precipitação, elevação etc).
Hutchinson
Elton (1927) muda o foco e coloca o nicho como um efeito da presença da espécie nas comunidades. A função ou posição de um organismo ou de uma população dentro de uma comunidade ecológica (Elton 1927). O foco está no papel da espécie dentro da cadeia trófica e suas relações com predadores e presas.
O conceito de nicho ecológico
Hutchinson define nicho como “a soma de todos os fatores ambientais que agem em um determinado organismo, definido como uma região no espaço hiper-dimensional (1944).
O conceito de nicho ecológico
Temperature
Hum
idity
G. Evelyn Hutchinson
In other words, the ecological niche of a species is the suite of environmental conditions under which it can maintain populations without immigration
Hutchinson distingue o nicho fundamental e o nicho realizado (Hutchinson 1957). Nicho Fundamental Condições ambientais abióticas Nicho Realizado Nicho Fundamental modificado pela interação entre espécies.
O conceito de nicho ecológico
G. Evelyn Hutchinson
Condições abióticas (A)
Soberón y Peterson 2005. Biodiv Inf 2: 1-14
Nicho fundamental
Condições bióticas
Nicho realizado
Relação entre nicho e distribuição geográfica
Condições abióticas (A)
Soberón y Peterson 2005. Biodiv Inf 2: 1-14
Nicho fundamental
Condições bióticas
Nicho realizado
As espécies ocupam o nicho realizado?
Relação entre nicho e distribuição geográfica
Condições abióticas (A)
Soberón y Peterson 2005. Biodiv Inf 2: 1-14
Nicho fundamental
Condições bióticas
Nicho realizado
Relação entre nicho e distribuição geográfica
Soberón y Peterson 2005. Biodiv Inf 2: 1-14
Áreas colonizáveis
A distribuição geográfica
Condições abióticas (A)
Soberón y Peterson 2005. Biodiv Inf 2: 1-14
A B
Condições bióticas
M
Áreas colonizáveis
A distribuição geográfica
O Diagrama BAM
Distribuição geográfica
• Em escala global/continental, a distribuição das espécies está condicionada a variáveis climáticas e topográficas.
• Em uma escala regional, outros fatores passam a ser importantes (riqueza do solo, pH, granulometria, quantidade de água disponível, tipo de vegetação etc,)
• Em uma escala local, as interações entre espécies passam a ter importância na distribuição das espécies.
Portanto, definir a escala no qual a distribuição está sendo analisada é de fundamental importância nos processos de modelagem.
Importância dos quatro tipos de fatores que afetam a distribuição das espécies através da escala espacial. Hortal et al., 2010).
Condições abióticas (A)
A
B
As condições bióticas são frequentemente ignoradas: • Agem em escalas mais finas • Ainda não são bem compreendidas
O “Ruido Eltoniano”
M
As áreas colonizáveis podem ser analisadas a posteriori ou fazer parte da pregunta inicial (ex. Invasões)
Queremos conhecer a distribuição geográfica a partir de uma subamostra desta (a ocorrência conhecida)
Na prática…
Trabalhamos entre dois espaços: o geográfico (G) e o ecológico (E). Um nicho é uma parte de E e a distribuição geográfica uma parte de G.
Espaço geográfico vs espaço ecológico: A dualidade de Hutchinson
Slide: Enrique Martinez_Meyer
Modelagens em diferentes contextos (diferentes propósitos e diferentes escalas) devem utilizar dados bióticos e abióticos que representem ou influenciem a distribuição da espécie, para a escala de trabalho proposta.
O processo de modelagem
+ Potential distribution in the native region
Temperature
Hum
idity
......
......
1. Equilíbrio: É esperada uma relação de equilíbrio entre as espécies e as condições ambientais que ocupam. Uma espécie está em equilibrio com as caracterís?cas @sicas se ela está ocorrendo em todas as áreas adequadas e estando ausente de todas as áreas não adequadas.
2. Suficiência amostral: Os registros de ocorrência da espécie representam uma amostra suficiente do espaço ambiental ocupado pela espécie. Limitações: poucos registros disponíveis, esforço de coleta limitado, baixa detectabilidade.
3. Conservação do nicho: a espécie mantém as caracterís?cas referentes a seu nicho ao longo do tempo e entre populações dis?ntas.
Três premissas básicas da modelagem de nicho
Dados bió@cos e abió@cos para modelagem
Obtenção de dados bió@cos e abió@cos
• Principais redes de acesso a registros de coletas de espécies: – Rede speciesLink (dados do Brasil) coleções biológicas: botânicas, zoológicas e microbiológicas: hSp://splink.cria.org.br/
– GBIF – Global Biodiversity Informa?on Facility (dados mundiais) coleções biológicas: hSp://www.gbif.org/
Acessando dados bió?cos pelo R
• Usaremos a função 'gbif' do pacote DISMO para acessar o banco de dados de ocorrência de espécies do Global Biodiversity. Facility (GBIF)
Acessando dados bió?cos pelo R
• Adquirindo os dados da espécie Solanum acaule:
Qualidade dos dados
– Qualidade taxonômica: • Nome correto? Sinônimos! • A identificação foi feita por um especialista? • Data de coleta/ultima atualização
– Qualidade de georeferenciamento • Ponto (individuo coletado - gps) • Área (fragmento de vegetação) • Localidade (fazenda, UCs, bairro, estrada) • Município
Qualidade dos dados
λ Armazenamento e difusão; - Arredondamentos automáticos em planilhas;
λ Manuseio dos dados; - As colunas estão corretamente identificadas? - Junção de dados de diferentes projetos,
diferentes objetivos, diferentes precisões...
Data quality
Limpeza dos dados
λ Processo de Validação; - Taxonômica
λ O nome da espécie trabalhada está correto; λ Os registros identificados por sinônimos estão
contemplados?
- Geográfica λ Os registros de ocorrência possuem coordenadas? λ Possui informações que possam ajudar na identificação
do local de coleta? λ Estão com o mesmo Sistema de Referência
Cartográfica?
Visualização das coletas no espaço geográfica/espacial
Visualização das coletas no espaço ambiental
?
e1
e2
Espaço geográfico Espaço ambiental
Viés de coleta Efeito museu / Estradas / Rios
Realizar uma análise prévia do dados para verificar se as informações dos pontos de ocorrência estão bem distribuídas no espaço geográfico e ambiental gerando tabelas cruzando os pontos de ocorrência (lat, long) e as variáveis ambientais utilizadas (temp, prec, elev etc).
Repositórios de dados climáticos: • Worldclim: http://www.worldclim.org/ • Climond: https://www.climond.org/ • IPCC: http://www.ipcc.ch/
Dados topográficos: • DEM 1km resolution USGS:
http://eros.usgs.gov/#/Find_Data/Products_and_Data_Available/gtopo30/hydro
• SRTM - Shuttle Radar Topographic Mission – 90m http://srtm.usgs.gov/ ; http://srtm.csi.cgiar.org/ Outros: http://www.dpi.inpe.br/Ambdata/ Brasil 1Km
Obtenção de dados abióticos
Aquisição dados abióticos pelo R
Usaremos a função ‘getData()’ do pacote ‘raster’ para fazer download dos dados abióticos dos principais projetos existentes: WorldClim, CMIP5, SRTM, GADM
Dados abióticos (mapas temáticos) • Verificar a procedência (metodologia e referências) • Verificar se a resolução (espacial) e a escala
(geográfica) são compatíveis com a pergunta. • Verificar a especificidade ambiental da espécie. Para
isso é importante utilizar o conhecimento da biologia/ecologia da espécie, consultar o especialista no grupo e/ou aplicar técnicas (de PCA, por exemplo) para seleção de variáveis.
Escolha e qualidade de dados abióticos
§ Selecionar variáveis preditoras para evitar sobrestimar a explicação dos modelos usando preditores correlacionados.
§ Verificar as informações ambientais correspondentes aos pontos de ocorrência para procurar possíveis vieses no espaço geográfico e ambiental.
Análises Pré-modelagem
Seleção de variáveis
Extração de variáveis ambientais nas ocorrências
O procedimento de modelagem
Como sabemos se um modelo é bom?
• Ajustamos o modelo às ocorrências • Vamos para o campo e buscamos novos
registros: independência estatística. • Perguntamos ao especialista na
biogeografia da espécie modelada • Ou fazemos uma partição dos dados em
conjunto de treino (ajuste) e teste do modelo.
• Dividir os dados em conjuntos de teste e de treino:
• Gerar modelo com o conjunto de dados de treino
• Aplicar o modelo ao conjunto de teste para saber como ele predisse os pontos de teste.
• Quantificar os componentes de erro através de uma matriz de confusão soprepondo os pontos de teste ao modelo gerado pelo conjunto de treino
Como sabemos se um modelo é bom?
Várias metodologias de partição
editado de Peterson & Martinez (2005)
2 conjuntos N = 100
treino
teste
E se houver viés por acaso? Repetir várias vezes!
5 partições N = 100
Treino 70
Teste 30
Bootstrapping: reamostrar com substituição
5 partições de 20 N = 100
K-fold cross-validation: partição sem substituição
Treino 80
Teste 20
Treino 4
Teste 1
Jacknife: k=n
No pacote dismo de R… group<- kfold(varfinal, 5)!!pres_train <- pequi[group != 1, ]!pres_test <- pequi[group == 1, ]!!Precisamos de ausências também: • Para avaliar o modelo (ele predisse bem as ausências?) • Para ajustar alguns algoritmos !backg <- randomPoints(vars, n=500)!group <- kfold(backg, 5)!backg_train <- backg[group != 1, ]!backg_test <- backg[group == 1, ]!
O seguinte passo é fazer o modelo J
Algoritmos de modelagem
• Um dos primeiros algoritmos de modelagem: BioClim.
• Lembram do nicho ecológico?
• Para cada variável ambiental: média e o desvio padrão, valores máximo e mínimo.
Cada pixel pode ser classificado como:
• Habitável: se todos os valores ambientais estiverem dentro do envelope calculado -> 1 • Tolerável: se um ou mais valores ambientais estiverem fora do envelope da média e desvio padrão mas dentro dos limites máximo e mínimo ->0.5 • Inabitável: se um ou mais valores associados estiverem fora dos valores limites máximos e mínimos das variáveis ambientais. ->0 (modelo categórico)
Envelopes Bioclimáticos
Envelopes Bioclimáticos
Distância Ambiental
Distância ambiental mínima ponto a ponto
Métrica mahalanobis Métrica euclidiana Métrica Gower - DOMAIN
Distância ambiental calculada para o centroide ambiental da distribuição
Modelos de ajuste estatístico
• Assumem ausências verdadeiras
• Média complexidade • Bom ajuste em geral • Boa transferibilidade • Interpretação
relativamente fácil: relações lineares
MaxEnt
• Segue o princípio de máxima entropia. Busca a distribuição mais uniforme possível que se ajuste às restrições (condições ambientais nos pontos de presença = 1) – Altamente usado – Boa performance – “Caixa preta” até pouco tempo atrás
Modelos de aprendizagem de máquina
• GARP – Gene?c Algorithm for Rule-‐set Produc?on
• Support vector machines (SVM) • Redes neurais
Vamos usar BioClim J
bc <- bioclim(varfinal, pres_train)!
No espaço ecológico: !plot(bc)!
No espaço geográfico
Os valores numéricos
Cortando modelos
• Como saber onde o modelo prediz presenças ou ausências se os outputs são coninuos?
• Precisamos cortar os modelos. • Avaliar o modelo binário vendo como ele prediz o conjunto de teste
Executar a linha de avaliação do modelo!!e <- evaluate(…)!
Modelo contínuo Modelo binário
Usa os pontos de teste para ver se o modelo predisse corretamente as presenças de teste. Usa as ausências de teste para ver se o modelo predisse corretamente as ausências de teste.
• Queremos que o modelo prediga corretamente onde a espécie está e onde a espécie não está.
Cortando modelos
ausência (predita) presença (predita)
registro de presença registro de ausência
ausência (predita) presença (predita)
registro de presença registro de ausência
8
2 7
3
Se a gente muda o limiar de corte estes valores mudam!
Distribuição conhecida da espécie
Sobreprevisão Omissão
Distribuição potencial (prevista pela modelagem
Sobrepredição vs. Omissão
O erro de omissão é considerado um erro grave porque em teoria as presenças da espécie correspondem à verdade. Em contraposição, o erro de sobrepredição não é necessariamente um erro, pois não se conhecem todas as presenças: 1. A área pode ser adequada (parte de A) mas não ser colonizável (não parte de M). 2. O esforço de coleta pode ser insuficiente ou a espécie é indetectável (parte de A e de M) 3. A área pode ser não adequada (não faz parte de A).
Sobrepredição vs. Omissão
Mudando o valor de corte
• Um modelo que prediz a área de estudo toda:
– não vai errar nenhuma presença de teste: zero omissão
– Vai errar muitas ausências: muita sobrepredição
• Um modelo muito ajustado aos pontos:
– Vai errar todas as presenças de teste: muita omissão
– não vai errar nenhuma ausência: zero sobrepredição
• Mas a gente prefere cometer sobrepredição!
0 100
100
Alta omissão Baixa sobreprevisão
Zero de omissão Grande área se sobreprevisão Baixa omissão
e sobreprevisão
Err
o de
om
issã
o (%
de
po
ntos
fora
da
área
pr
evis
ta p
elo
mod
elo )
Índice de sobreprevisão (% de área prevista como presente )
Registros de ocorrência da espécie
editado de Peterson & Martinez (2005)
plot(e, “TPR”) !TPR, true presence raCo = sensibilidade plot(e, “TNR”)!TNR, true negaCve raCo = especificidade
1. Minimum training presence (ou Lowest Presence Training =
Presença Mínima) 2. 10 percentile training presence 3. Equal training sensitivity and specificity 4. Maximum training sensitivity plus specificity 5. Equal test sensitivity and specificity 6. Maximum test sensitivity plus specificity 7. Balance training omission, predicted area and threshold value 8. Equate entropy of thresholded and original distributions
Diferentes thresholds u@lizados
AUC (cálculo da área sob a curva)
A Curva ROC é obtida plotando-se a sensibilidade no eixo y e o valor 1-especificidade no eixo x. Quanto mais próximo de 1 for a área sob a curva, mais distante o resultado do modelo é da previsão aleatória, ou seja, melhor o desempenho do modelo.
AUC
A pesar de ser muito utilizada no passado, hoje tem caído em desuso: • Dá igual importância aos erros
de omissão e comissão
• Varia com a prevalência da espécie, espécies mais especialistas têm AUC maiores porque acertar as ausências é fácil.
plot(e,”AUC”)!
plot(e@TPR+e@TNR)!Maximiza os acertos
Threshold que maximiza o TSS: 0.04030404, valor de TSS máximo: 0.6966667
Análises pós-‐modelagem
• Dependendo da pregunta inicial • Consideração de variáveis que não entraram na modelagem: uso da terra, cobertura etc.
• Interações bió?cas • Modelos mul?-‐espécie • Projeção no tempo e no espaço • O MNE não é o fim!
Native region
+ ......
......
Alternate region
Potential distribution in the alternate region
Potential distribution in the native region
Temperature
Hum
idity
Ecological niche modeling across space
+
Present
+ ......
......
Alternate climatic scenario (Past/Future)
Potential distribution in the alternate temporal scenario ...
...
Potential distribution in the present
Temperature
Hum
idity
Ecological niche modeling along time
Resumindo...
Passos de um projeto que involver MNE: 1. Definir a pergunta 2. Estabelecer a abrangência geográfica/ambiental do estudo 3. Verificar se a qualidade e a quantidade dos dados bióticos
e abióticos são suficientes 4. Verificar se as qualidades (dados bióticos x dados
abióticos) são compatíveis 5. Definir quais dados (bióticos e abióticos) serão usados 6. Escolher o(s) algoritmo(s) para modelagem 7. Fazer o desenho amostral do modelo para a avaliação
Top Related