Modelagem de Nicho Ecológico e de Distribuição ... · Modelagem de Nicho Ecológico e de...

Post on 01-Dec-2018

230 views 1 download

Transcript of Modelagem de Nicho Ecológico e de Distribuição ... · Modelagem de Nicho Ecológico e de...

Modelagem de Nicho Ecológico e de Distribuição

Potencial de Espécies

Andrea Sánchez Tapia - doutoranda ENBT/JBRJ Felipe Sodré Barros – mestrando ENBT/JBRJ

Pesquisadora principal: Marinez Ferreira de Siqueira

Núcleo de Computação Científica e Geoprocessamento Jardim Botânico do Rio de Janeiro – JBRJ

LNCC, 12 de fevereiro de 2015

Como podemos representar a distribuição de uma espécie?

Traditional biogeographic approaches

The Volcano Rabbit (Romerolagus diazii)

Slide: Enrique Martinez_Meyer

Algoritmos de modelagem

(Bioclim, GLM, GAM, ANN, GARP, MaxEnt, etc.)

Temperature H

umid

ity

......

+

Input data

Registros de ocorrência

......

Mapas de distribuição potencial

Product

Outra maneira de se aproximar da distribuição geográfica das espécies é realizando a modelagem de seu nicho ecológico

Modificado de Enrique Martinez_Meyer

O conceito de nicho ecológico O termo nicho apareceu primeiramente nos trabalhos de Grinnell (1917, 1924) cujo foco está na distribuição geográfica dos indivíduos de uma espécie como uma resposta às variáveis ambientais (temperatura, precipitação, elevação etc).

Hutchinson

Elton (1927) muda o foco e coloca o nicho como um efeito da presença da espécie nas comunidades. A função ou posição de um organismo ou de uma população dentro de uma comunidade ecológica (Elton 1927). O foco está no papel da espécie dentro da cadeia trófica e suas relações com predadores e presas.

O conceito de nicho ecológico

Hutchinson define nicho como “a soma de todos os fatores ambientais que agem em um determinado organismo, definido como uma região no espaço hiper-dimensional (1944).

O conceito de nicho ecológico

Temperature

Hum

idity

G. Evelyn Hutchinson

In other words, the ecological niche of a species is the suite of environmental conditions under which it can maintain populations without immigration

Hutchinson distingue o nicho fundamental e o nicho realizado (Hutchinson 1957). Nicho Fundamental Condições ambientais abióticas Nicho Realizado Nicho Fundamental modificado pela interação entre espécies.

O conceito de nicho ecológico

G. Evelyn Hutchinson

Condições abióticas (A)

Soberón y Peterson 2005. Biodiv Inf 2: 1-14

Nicho  fundamental  

Condições bióticas

Nicho  realizado  

Relação entre nicho e distribuição geográfica

Condições abióticas (A)

Soberón y Peterson 2005. Biodiv Inf 2: 1-14

Nicho  fundamental  

Condições bióticas

Nicho  realizado  

As espécies ocupam o nicho realizado?

Relação entre nicho e distribuição geográfica

Condições abióticas (A)

Soberón y Peterson 2005. Biodiv Inf 2: 1-14

Nicho  fundamental  

   

Condições bióticas

Nicho  realizado  

Relação entre nicho e distribuição geográfica

Soberón y Peterson 2005. Biodiv Inf 2: 1-14

Áreas colonizáveis

A distribuição geográfica

Condições abióticas (A)

Soberón y Peterson 2005. Biodiv Inf 2: 1-14

A   B  

Condições bióticas

M  

Áreas colonizáveis

A distribuição geográfica

O Diagrama BAM

Distribuição geográfica

•  Em escala global/continental, a distribuição das espécies está condicionada a variáveis climáticas e topográficas.

•  Em uma escala regional, outros fatores passam a ser importantes (riqueza do solo, pH, granulometria, quantidade de água disponível, tipo de vegetação etc,)

•  Em uma escala local, as interações entre espécies passam a ter importância na distribuição das espécies.

Portanto, definir a escala no qual a distribuição está sendo analisada é de fundamental importância nos processos de modelagem.

Importância dos quatro tipos de fatores que afetam a distribuição das espécies através da escala espacial. Hortal et al., 2010).

Condições abióticas (A)

A  

B  

As condições bióticas são frequentemente ignoradas: •  Agem em escalas mais finas •  Ainda não são bem compreendidas

O “Ruido Eltoniano”

M  

As áreas colonizáveis podem ser analisadas a posteriori ou fazer parte da pregunta inicial (ex. Invasões)

Queremos conhecer a distribuição geográfica a partir de uma subamostra desta (a ocorrência conhecida)

Na prática…

Trabalhamos entre dois espaços: o geográfico (G) e o ecológico (E). Um nicho é uma parte de E e a distribuição geográfica uma parte de G.

Espaço  geográfico  vs  espaço  ecológico:  A  dualidade  de  Hutchinson  

Slide: Enrique Martinez_Meyer

Modelagens em diferentes contextos (diferentes propósitos e diferentes escalas) devem utilizar dados bióticos e abióticos que representem ou influenciem a distribuição da espécie, para a escala de trabalho proposta.

O processo de modelagem

+ Potential distribution in the native region

Temperature

Hum

idity

......

......

1.  Equilíbrio:   É   esperada   uma   relação   de   equilíbrio   entre   as   espécies   e   as   condições  ambientais   que   ocupam.   Uma   espécie   está   em   equilibrio   com   as   caracterís?cas  @sicas     se  ela  está  ocorrendo  em  todas  as  áreas  adequadas  e  estando  ausente  de  todas  as  áreas  não  adequadas.    

2.  Suficiência   amostral:   Os   registros   de   ocorrência   da   espécie   representam   uma  amostra  suficiente  do  espaço  ambiental  ocupado  pela  espécie.   Limitações:  poucos  registros  disponíveis,  esforço  de  coleta  limitado,  baixa  detectabilidade.  

3.  Conservação  do  nicho:  a  espécie  mantém  as  caracterís?cas  referentes  a  seu  nicho  ao  longo  do  tempo  e  entre  populações  dis?ntas.  

Três premissas básicas da modelagem de nicho

Dados  bió@cos  e  abió@cos  para  modelagem  

Obtenção  de  dados  bió@cos  e  abió@cos  

•  Principais  redes  de  acesso  a  registros  de  coletas  de  espécies:  – Rede  speciesLink  (dados  do  Brasil)  coleções  biológicas:  botânicas,  zoológicas  e  microbiológicas:  hSp://splink.cria.org.br/  

– GBIF  –  Global  Biodiversity  Informa?on  Facility  (dados  mundiais)  coleções  biológicas:  hSp://www.gbif.org/  

Acessando  dados  bió?cos  pelo  R  

•  Usaremos  a  função  'gbif'  do  pacote  DISMO  para  acessar  o  banco  de  dados  de  ocorrência  de  espécies  do  Global  Biodiversity.  Facility  (GBIF)  

Acessando  dados  bió?cos  pelo  R  

•  Adquirindo  os  dados  da  espécie  Solanum  acaule:  

Qualidade  dos  dados  

– Qualidade taxonômica: •  Nome correto? Sinônimos! •  A identificação foi feita por um especialista? •  Data de coleta/ultima atualização

– Qualidade de georeferenciamento •  Ponto (individuo coletado - gps) •  Área (fragmento de vegetação) •  Localidade (fazenda, UCs, bairro, estrada) •  Município

Qualidade  dos  dados  

λ  Armazenamento e difusão;  -  Arredondamentos automáticos em planilhas;  

λ  Manuseio dos dados;  -  As colunas estão corretamente identificadas?  -  Junção de dados de diferentes projetos,

diferentes objetivos, diferentes precisões...  

Data  quality  

Limpeza dos dados

λ Processo de Validação; -  Taxonômica

λ  O nome da espécie trabalhada está correto; λ  Os registros identificados por sinônimos estão

contemplados?

-  Geográfica λ  Os registros de ocorrência possuem coordenadas? λ  Possui informações que possam ajudar na identificação

do local de coleta? λ  Estão com o mesmo Sistema de Referência

Cartográfica?

Visualização das coletas no espaço geográfica/espacial

Visualização das coletas no espaço ambiental

?

e1

e2

Espaço geográfico Espaço ambiental

Viés de coleta Efeito museu / Estradas / Rios

Realizar uma análise prévia do dados para verificar se as informações dos pontos de ocorrência estão bem distribuídas no espaço geográfico e ambiental gerando tabelas cruzando os pontos de ocorrência (lat, long) e as variáveis ambientais utilizadas (temp, prec, elev etc).

Repositórios de dados climáticos: •  Worldclim: http://www.worldclim.org/ •  Climond: https://www.climond.org/ •  IPCC: http://www.ipcc.ch/

Dados topográficos: •  DEM 1km resolution USGS:

http://eros.usgs.gov/#/Find_Data/Products_and_Data_Available/gtopo30/hydro

•  SRTM - Shuttle Radar Topographic Mission – 90m http://srtm.usgs.gov/ ; http://srtm.csi.cgiar.org/ Outros: http://www.dpi.inpe.br/Ambdata/ Brasil 1Km

Obtenção de dados abióticos

Aquisição dados abióticos pelo R

Usaremos a função ‘getData()’ do pacote ‘raster’ para fazer download dos dados abióticos dos principais projetos existentes: WorldClim, CMIP5, SRTM, GADM

Dados abióticos (mapas temáticos) •  Verificar a procedência (metodologia e referências) •  Verificar se a resolução (espacial) e a escala

(geográfica) são compatíveis com a pergunta. •  Verificar a especificidade ambiental da espécie. Para

isso é importante utilizar o conhecimento da biologia/ecologia da espécie, consultar o especialista no grupo e/ou aplicar técnicas (de PCA, por exemplo) para seleção de variáveis.

Escolha e qualidade de dados abióticos

§  Selecionar variáveis preditoras para evitar sobrestimar a explicação dos modelos usando preditores correlacionados.

§  Verificar as informações ambientais correspondentes aos pontos de ocorrência para procurar possíveis vieses no espaço geográfico e ambiental.

Análises Pré-modelagem

Seleção  de  variáveis  

Extração de variáveis ambientais nas ocorrências

O  procedimento  de  modelagem  

Como sabemos se um modelo é bom?

•  Ajustamos o modelo às ocorrências •  Vamos para o campo e buscamos novos

registros: independência estatística. •  Perguntamos ao especialista na

biogeografia da espécie modelada •  Ou fazemos uma partição dos dados em

conjunto de treino (ajuste) e teste do modelo.

•  Dividir os dados em conjuntos de teste e de treino:

•  Gerar modelo com o conjunto de dados de treino

•  Aplicar o modelo ao conjunto de teste para saber como ele predisse os pontos de teste.

•  Quantificar os componentes de erro através de uma matriz de confusão soprepondo os pontos de teste ao modelo gerado pelo conjunto de treino

Como sabemos se um modelo é bom?

Várias metodologias de partição

editado de Peterson & Martinez (2005)

2 conjuntos N = 100

treino

teste

E se houver viés por acaso? Repetir várias vezes!

5 partições N = 100

Treino 70

Teste 30

Bootstrapping: reamostrar com substituição

5 partições de 20 N = 100

K-fold cross-validation: partição sem substituição

Treino 80

Teste 20

Treino 4

Teste 1

Jacknife: k=n

No  pacote  dismo  de  R…  group<- kfold(varfinal, 5)!!pres_train <- pequi[group != 1, ]!pres_test <- pequi[group == 1, ]!!Precisamos  de  ausências  também:    •  Para  avaliar  o  modelo  (ele  predisse  bem  as  ausências?)  •  Para  ajustar  alguns  algoritmos  !backg <- randomPoints(vars, n=500)!group <- kfold(backg, 5)!backg_train <- backg[group != 1, ]!backg_test <- backg[group == 1, ]!      

O  seguinte  passo  é  fazer  o  modelo  J    

Algoritmos  de  modelagem  

•  Um  dos  primeiros  algoritmos  de  modelagem:  BioClim.    

•  Lembram  do  nicho  ecológico?  

•  Para cada variável ambiental: média e o desvio padrão, valores máximo e mínimo.

Cada pixel pode ser classificado como:

• Habitável: se todos os valores ambientais estiverem dentro do envelope calculado -> 1 • Tolerável: se um ou mais valores ambientais estiverem fora do envelope da média e desvio padrão mas dentro dos limites máximo e mínimo ->0.5 • Inabitável: se um ou mais valores associados estiverem fora dos valores limites máximos e mínimos das variáveis ambientais. ->0 (modelo categórico)

Envelopes Bioclimáticos

Envelopes Bioclimáticos

Distância Ambiental

Distância ambiental mínima ponto a ponto

Métrica mahalanobis Métrica euclidiana Métrica Gower - DOMAIN

Distância ambiental calculada para o centroide ambiental da distribuição

Modelos de ajuste estatístico

•  Assumem ausências verdadeiras

•  Média complexidade •  Bom ajuste em geral •  Boa transferibilidade •  Interpretação

relativamente fácil: relações lineares

MaxEnt  

•  Segue  o  princípio  de  máxima  entropia.  Busca  a  distribuição  mais  uniforme  possível  que  se  ajuste  às  restrições  (condições  ambientais  nos  pontos  de  presença  =  1)  –  Altamente  usado  –  Boa  performance  –  “Caixa  preta”  até  pouco  tempo  atrás  

Modelos  de  aprendizagem  de  máquina  

•  GARP  –  Gene?c  Algorithm  for  Rule-­‐set  Produc?on  

•  Support  vector  machines  (SVM)  •  Redes  neurais  

Vamos  usar  BioClim  J  

bc <- bioclim(varfinal, pres_train)!

No espaço ecológico: !plot(bc)!

No  espaço  geográfico  

Os valores numéricos

Cortando  modelos  

•  Como  saber  onde  o  modelo  prediz  presenças  ou  ausências  se  os  outputs  são  coninuos?  

•  Precisamos  cortar  os  modelos.  •  Avaliar  o  modelo  binário  vendo  como  ele  prediz  o  conjunto  de  teste  

Executar a linha de avaliação do modelo!!e <- evaluate(…)!

Modelo contínuo Modelo binário

Usa os pontos de teste para ver se o modelo predisse corretamente as presenças de teste. Usa as ausências de teste para ver se o modelo predisse corretamente as ausências de teste.

•  Queremos que o modelo prediga corretamente onde a espécie está e onde a espécie não está.

Cortando  modelos  

ausência (predita) presença (predita)

registro de presença registro de ausência

ausência (predita) presença (predita)

registro de presença registro de ausência

8

2 7

3

Se a gente muda o limiar de corte estes valores mudam!

Distribuição conhecida da espécie

Sobreprevisão Omissão

Distribuição potencial (prevista pela modelagem

Sobrepredição  vs.  Omissão  

O erro de omissão é considerado um erro grave porque em teoria as presenças da espécie correspondem à verdade. Em contraposição, o erro de sobrepredição não é necessariamente um erro, pois não se conhecem todas as presenças: 1. A área pode ser adequada (parte de A) mas não ser colonizável (não parte de M). 2. O esforço de coleta pode ser insuficiente ou a espécie é indetectável (parte de A e de M) 3. A área pode ser não adequada (não faz parte de A).

Sobrepredição  vs.  Omissão  

Mudando  o  valor  de  corte  

•  Um  modelo  que  prediz  a  área  de  estudo  toda:    

–   não  vai  errar  nenhuma  presença  de  teste:  zero  omissão  

–  Vai  errar  muitas  ausências:  muita  sobrepredição  

•  Um  modelo  muito  ajustado  aos  pontos:  

–  Vai  errar  todas  as  presenças  de  teste:  muita  omissão  

–  não  vai  errar  nenhuma  ausência:  zero  sobrepredição  

•  Mas  a  gente  prefere  cometer  sobrepredição!  

0 100

100

Alta omissão Baixa sobreprevisão

Zero de omissão Grande área se sobreprevisão Baixa omissão

e sobreprevisão

Err

o de

om

issã

o (%

de

po

ntos

fora

da

área

pr

evis

ta p

elo

mod

elo )

Índice de sobreprevisão (% de área prevista como presente )

Registros de ocorrência da espécie

editado de Peterson & Martinez (2005)

plot(e, “TPR”) !TPR,  true  presence  raCo  =  sensibilidade  plot(e, “TNR”)!TNR,  true  negaCve  raCo  =  especificidade      

1.  Minimum training presence (ou Lowest Presence Training =

Presença Mínima) 2.  10 percentile training presence 3.  Equal training sensitivity and specificity 4.  Maximum training sensitivity plus specificity 5.  Equal test sensitivity and specificity 6.  Maximum test sensitivity plus specificity 7.  Balance training omission, predicted area and threshold value 8.  Equate entropy of thresholded and original distributions

Diferentes  thresholds  u@lizados  

AUC (cálculo da área sob a curva)

A Curva ROC é obtida plotando-se a sensibilidade no eixo y e o valor 1-especificidade no eixo x. Quanto mais próximo de 1 for a área sob a curva, mais distante o resultado do modelo é da previsão aleatória, ou seja, melhor o desempenho do modelo.

AUC  

A pesar de ser muito utilizada no passado, hoje tem caído em desuso: •  Dá igual importância aos erros

de omissão e comissão

•  Varia com a prevalência da espécie, espécies mais especialistas têm AUC maiores porque acertar as ausências é fácil.

plot(e,”AUC”)!

plot(e@TPR+e@TNR)!Maximiza  os  acertos    

Threshold que maximiza o TSS: 0.04030404, valor de TSS máximo: 0.6966667

Análises  pós-­‐modelagem  

•  Dependendo  da  pregunta  inicial  •  Consideração  de  variáveis  que  não  entraram  na  modelagem:  uso  da  terra,  cobertura  etc.  

•  Interações  bió?cas  •  Modelos  mul?-­‐espécie  •  Projeção  no  tempo  e  no  espaço  •  O  MNE  não  é  o  fim!  

Native region

+ ......

......

Alternate region

Potential distribution in the alternate region

Potential distribution in the native region

Temperature

Hum

idity

Ecological niche modeling across space

+

Present

+ ......

......

Alternate climatic scenario (Past/Future)

Potential distribution in the alternate temporal scenario ...

...

Potential distribution in the present

Temperature

Hum

idity

Ecological niche modeling along time

Resumindo...  

Passos de um projeto que involver MNE: 1.  Definir a pergunta 2.  Estabelecer a abrangência geográfica/ambiental do estudo 3.  Verificar se a qualidade e a quantidade dos dados bióticos

e abióticos são suficientes 4.  Verificar se as qualidades (dados bióticos x dados

abióticos) são compatíveis 5.  Definir quais dados (bióticos e abióticos) serão usados 6.  Escolher o(s) algoritmo(s) para modelagem 7.  Fazer o desenho amostral do modelo para a avaliação