2011AffonsoMapas

download 2011AffonsoMapas

of 89

Transcript of 2011AffonsoMapas

  • 7/23/2019 2011AffonsoMapas

    1/89

    AUTARQUIA ASSOCIADA UNIVERSIDADE DE SO PAULO

    So Paulo2011

    Mapas Auto - organizveis de Kohonen (SOM) aplicados naavaliao dos parmetros da qualidade da gua

    Gustavo Sousa Affonso

    Dissertao apresentada comoparte

    dos requisitos para obteno doGraude Mestre em Cincias na reade Tecnologia Nuclear - Reatores

    Orientador:Prof. Dr. Roberto Navarro de Mesquita

  • 7/23/2019 2011AffonsoMapas

    2/89

    Autarquia associada universidade de So Paulo

    MAPAS AUTO - ORGANIZVEIS DE KOHONEN (SOM)

    APLICADOS NA AVALIAO DOS PARMETROS DA

    QUALIDADE DA GUA.

    GUSTAVO SOUSA AFFONSO

    Dissertao apresentada como partedos requisitos para obteno do Graude Mestre em Cincias na rea deTecnologia Nuclear Reatores

    Orientador:

    Dr. Roberto Navarro de Mesquita

    So Paulo2011

  • 7/23/2019 2011AffonsoMapas

    3/89

  • 7/23/2019 2011AffonsoMapas

    4/89

    INSTITUTO DE PESQUISAS ENERGTICAS E NUCLEARESAutarquia associada universidade de So Paulo

    MAPAS AUTO ORGANIZVEIS DE KOHONEN (SOM)

    APLICADOS NA AVALIAO DOS PARMETROS DAQUALIDADE DA GUA.

    GUSTAVO SOUSA AFFONSO

    Dissertao apresentada como parte

    dos requisitos para obteno do Grau

    de Mestre em Cincias na rea de

    Tecnologia Nuclear Reatores

    Orientador:

    Dr. Roberto Navarro de Mesquita

    So Paulo2011

  • 7/23/2019 2011AffonsoMapas

    5/89

    Aos meus pais e

    minha famlia.

  • 7/23/2019 2011AffonsoMapas

    6/89

    AGRADECIMENTOS

    Meus sinceros agradecimentos a todos que contriburam direta e indiretamente para a

    realizao deste trabalho.

    Ao Professor Doutor Roberto Navarro de Mesquita por sua orientao e especialmente

    pela compreenso e pacincia.

    Ao Professor Doutor Hlio Akira Furusawa por sua cooperao nos diversos aspectos

    que contemplam este trabalho, por sua disponibilidade e auxilio nos momentos difceis

    e por sua amizade.

    E ao Centro de Qumica e Meio Ambiente, pela colaborao na realizao deste projeto.

  • 7/23/2019 2011AffonsoMapas

    7/89

    MAPAS AUTO - ORGANIZVEIS DE KOHONEN (SOM)

    APLICADOS NA AVALIAO DOS PARMETROS DA

    QUALIDADE DA GUA.

    Gustavo Sousa Affonso

    RESUMO

    A atual crescente necessidade de anlise de colees de dados cada vez mais complexas

    e extensas, nas diversas reas da investigao cientfica, tem permitido o

    desenvolvimento de novas ferramentas para a melhoria da percepo de informaes

    que nem sempre so explcitas e visveis. Estudos de ferramentas matemticas que

    propiciem o destaque de algumas destas informaes, ou que inteligentemente

    reconheam padres associados aos diferentes conjuntos de dados, tm demonstrado

    resultados promissores. No entanto, o sucesso da escolha da metodologia apropriada

    para a anlise dos dados, est vinculado a vrios fatores como: a tecnologia disponvel

    para a prospeco destes dados, a adequada coleta e seleo das amostras, e

    principalmente, a capacidade do pesquisador em interagir com a nova tecnologia deexplorao. No presente projeto, proposta uma metodologia de anlise

    multidimensional dos dados de unidades de gerenciamento de recursos hdricos

    UGRHIs, localizadas no estado de So Paulo, por meio das redes neurais SOM (Mapas

    Auto-Organizveis). Estes mapas so utilizados para estudar e visualizar possveis

    correlaes entre as diversas variveis deste banco de dados relativas anlise de

    compostos inorgnicos e parmetros fsico qumicos referentes qualidade da gua

    nestas unidades.

  • 7/23/2019 2011AffonsoMapas

    8/89

    SELF - ORGANIZING MAPS OF KOHONEN (SOM) APPLIED IN

    THE EVALUATION OF PARAMETERS OF WATER QUALITY

    Gustavo Sousa Affonso

    ABSTRACT

    The current increasingly need for data analysis on larger and more complex data

    collections, in many different areas of scientific research, has induced the development

    of new tools for the perception improvement of information that not always is explicit

    and visible at first. Studies of mathematical tools which could enable the highlight of

    some of this information, or should intelligently recognize patterns associated with

    these different data collection, have been showing promising results. However, the

    success of the choice of the appropriate analysis method is associated with several

    factors: the available technology for this data exploration, the correct gathering and

    selection of samples, and mainly, the researcher ability to interact with the new

    exploration technology. In this project we propose a methodology for analyzing

    multidimensional data from Water Resources Management Units (WRMUs), which are

    located in So Paulo state, through Self - Organizing Maps (SOM) neural networks.

    These maps are used to study and visualize possible correlations between the different

    variables existent in this database, which are derived from analysis of inorganic andphysical - chemical parameters related to WRMUs water quality.

  • 7/23/2019 2011AffonsoMapas

    9/89

    SUMRIO

    Pgina

    1 INTRODUO...........................................................................................................1

    1.2 Objetivos................................................................................................................3

    2 REVISO DE LITERATURA...................................................................................4

    2.1 Conceitos sobre anlise estatstica multivariada...................................................4

    2.2 mtodos multivariados e SOM..............................................................................5

    3 FUNDAMENTAO TERICA..............................................................................8

    3.1 Redes Neurais........................................................................................................8

    3.1.1 Modelo biolgico................................................................................................8

    3.1.2 Breve Histrico das RNA................................................................................10

    3.1.3 O Multi-Layer Perceptron................................................................................13

    3.1.4 Algoritmos de Aprendizagem e Treinamento..................................................14

    3.1.4.1 Regra de correo de erro..............................................................................15

    3.1.4.2 Regra de gradiente descendente....................................................................15

    3.1.5 Mapas Auto Organizveis............................................................................... 16

    4 METODOLOGIA.......................................................................................................20

    4.1 Caractersticas dos parmetros fsico qumicos................................................20

    4.1.2 Organizao do Banco de Dados......................................................................21

    4.1.3Caractersticas das Unidades de Gerenciamento de Recursos

    hdricos......................................................................................................................24

    4.1.4Implementao da Metodologia........................................................................29

    4.1.5 Descrio do procedimento utilizado para o treinamento do SOM.................315 RESULTADO E DISCUSSO..................................................................................36

    5.1 Apresentao dos resultados SOM......................................................................36

    5.1 Estudo de similaridades entre pontos de coleta...................................................36

    5.2 Estudo de similaridade ente parmetros fsico-qumicos....................................36

    5.4 Grficos dos prottipos de vetores......................................................................49

    6 CONCLUSES...........................................................................................................55

    6.1 Matrizes para estudo de similaridade entre pontos de coleta..............................556.2 Matrizes para estudo de similaridade entre parmetros fsico-qumicos.............58

  • 7/23/2019 2011AffonsoMapas

    10/89

    6.3 Grficos dos prottipos de vetores......................................................................59

    6.3 Consideraes finais............................................................................................59

    ANEXO A.......................................................................................................................61

    ANEXO B.......................................................................................................................66

    REFERNCIAS BILIOGRFICAS...........................................................................73

  • 7/23/2019 2011AffonsoMapas

    11/89

    LISTA DE FIGURAS

    Pgina

    FIGURA 1 Modelo esquemtico do neurnio biolgico...............................................9FIGURA 2 - Modelo esquemtico do neurnio artificial...............................................10FIGURA 3 - Exemplo ilustrativo do Perceptron de Rosenblat.......................................11FIGURA 4 - Exemplos de classes linearmente separveis e inseparveis do algoritmo

    discriminante ..................................................................................................................12FIGURA 5 - Rede neural MPL........................................................................................14FIGURA 6 - Representaes das etapas competitiva e cooperativa de treinamento da

    SOM.................................................................................................................................18FIGURA 7 - Estrutura de SOM com topologia triangular..............................................19FIGURA 8 - Estrutura de SOM com topologia quadrtica ............................................19

    FIGURA 9 - Estrutura de SOM com topologia randmica.............................................19FIGURA 10 - Mapa da Localizao geogrfica da UGRH 01, regio de Mantiqueira e

    UGRH 02, regio de Paraba do Sul...............................................................................24FIGURA 11 - Mapa da localizao geogrfica da UGRH 4 Rio Pardo.........................25FIGURA 12 - Mapa da localizao geogrfica da UGRH 05, regio de Piracicaba,

    Capivari e Jundia...........................................................................................................26FIGURA 13 - Mapa da localizao geogrfica da UGRH 06, regio do Alto

    Tiet................................................................................................................................ 27FIGURA 14 - Diagrama da formatao da base de dados............................................29FIGURA 15 -Procedimento realizado do transporte das variveis para a gerao deresultados no SOM Toolbox............................................................................................31FIGURA 16 -Exemplo do ordenamento dos prottipos de vetores................................35FIGURA 17 - Mapa da matriz de distncia entre vetores com os rtulos......................37FIGURA 18 - Componentes planos gerados a partir da grande matriz.........................40FIGURA 19 -Mapa indicativo dos rtulos caractersticos (BMUs) dos pontos de coletana matriz principal..........................................................................................................42FIGURA 20 -Mapa com rotulagem sobreposta para destaque dos grupos...................43FIGURA 21-a -Apresentao do mapa das distncias vetoriais, por distribuio de

    frequencia de rtulos, da matriz modificada (257 linhas por 10 parmetros)...............44FIGURA 21-b-Apresentao por votao do mapa das distncias vetoriais com osrtulos da matriz modificada (257 linhas por 10 parmetros).......................................45

    FIGURA 21-c- Apresentao do mapa das distncias vetoriais com o mapa geralrotulado obtido da matriz modificada (257 linhas por 10 parmetros).........................46FIGURA 22 - Mapa geral rotulado obtido da matriz inversa........................................47FIGURA 23 -Mapa de distncia entre vetores da matriz transposta com os rtulos dos

    parmetros fsico qumicos..........................................................................................48FIGURA 24 - Mapa de distncia entre vetores da matriz transposta da matrizmodificada de 257 linhas por 10 parmetros.................................................................49FIGURA 25 - Grfico do prottipo de vetor mais caracterstico do cluster nomeadoPMnNKT.....................................................................................................................50FIGURA 26 - Grfico do prottipo de vetor mais caracterstico do cluster nomeadopHCLOD.....................................................................................................................51

    FIGURA 27 - Grfico do prottipo de vetor mais caracterstico do cluster nomeadoTemperaturas..............................................................................................................51

  • 7/23/2019 2011AffonsoMapas

    12/89

    FIGURA 28 - Grfico do prottipo de vetor mais caracterstico do cluster nomeadoCondutividade.............................................................................................................52FIGURA 29 - Grfico do prottipo de vetor mais caracterstico do cluster nomeadoTurbidez.........................................................................................................................52FIGURA 30 - Prottipo de vetor obtido a partir da matriz modificada referente aos

    dados da regio do Rio Capivari....................................................................................53FIGURA 31 - Prottipo de vetor obtido a partir da matriz modificada referente aosdados da regio do Rio Paraba da coleta do dia 19/08/2008.......................................53FIGURA 32 - Prottipo de vetor obtido a partir da matriz modificada referente aosdados da regio do Rio Pardo da coleta do dia 03/10/2000..........................................54FIGURA 33 -Mapa do estado de So Paulo com as 22 UGRHIs organizadas em 11grupos. (CETESB, 2001).................................................................................................57

  • 7/23/2019 2011AffonsoMapas

    13/89

    LISTA DE ABREVIATURAS

    ART Adaptive Ressonance Theory

    BMU Best Matching Unit

    CESTESB Companhia Ambiental do Estado de So Paulo

    CONAMA Conselho Nacional do Meio Ambiente

    CQMA Centro de Qumica e Meio Ambiente

    DBO Demanda Bioqumica de oxignio

    DQO Demanda Qumica de oxignioETA Estao de Tratamento de gua

    IA Inteligncia Artificial

    IAP ndice de Qualidade das guas Brutas para Fins de Abastecimento

    Pblico

    IPEN Instituto de Pesquisas Energticas e Nucleares

    KSOM Kohonen Self Organizing Maps

    LMS Least Mean Square AlgorithmMPL Multilayer Perceptron

    MS Ministrio da Sade

    NKT Nitrognio Kjeldahl total

    NSF National Sanitation Foundation

    OD Oxignio Dissolvido

    PCA Principal Components Analysis

    PFTHM Potencial de formao de trihalometanospH Potencial hidrogeninico

    RNA Rede Neural Artificial

    SABESP Companhia de Saneamento Bsico do Estado de So Paulo

    SOM Self Organizing Maps

    UGRH Unidade de Gerenciamento de Recursos Hdricos

  • 7/23/2019 2011AffonsoMapas

    14/89

    1

    1. INTRODUO

    A importncia do tratamento da informao atualmente reconhecida nos mais diversos

    campos das pesquisas cientificas e sociais, e tem proporcionado o desenvolvimento de

    novas ferramentas interdisciplinares No entanto, em uma coleo de dados quer seja

    exgua ou numerosa, a percepo do que representam estas informaes nem sempre

    direta. Assim, de grande valia o conhecimento sobre as tcnicas disponveis para

    manipulao desses dados que permitam o destaque de algumas das informaes ou que

    inteligentemente reconheam padres existentes e potencialmente relevantes. O sucesso da

    escolha da estratgia de prospeco dos dados est vinculado a vrios fatores, como

    tecnologia disponvel para esta prospeco, coleta e seleo apropriada das amostras, masprincipalmente ao conhecimento sobre a informao de interesse e capacidade que o

    pesquisador tem de interagir com a tecnologia de explorao. Esta interao, comum a

    qualquer pesquisa cientifica sistemtica, inclui a modificao da metodologia tanto em

    seus parmetros fundamentais quanto na utilizao apropriada das tcnicas de seleo do

    espao amostral. O desenvolvimento de tcnicas de inteligncia artificial nas ltimas

    dcadas tem disponibilizado novos recursos ao pesquisador no sentido de automatizar

    etapas dessas interaes. Assim, a interatividade no uso das tcnicas que extraiam relaese parmetros de interesse da base de dados pode ser melhorada e aperfeioada na medida

    em que a prpria estratgia e conhecimento do pesquisador sobre o problema so

    explicitados e sistematizados. Muitos dos trabalhos envolvendo tcnicas de inteligncia

    artificial resultaram na possibilidade de comparao objetiva entre diferentes metodologias

    e estratgias de tratamento dos dados, levando at mesmo ao estabelecimento de padres

    de referncia (benchmarks).

    Entre algumas das vantagens na metodologia h a capacidade que as tcnicas de

    inteligncia artificial apresentam em repetir exaustivamente tarefas associadas pequenas

    modificaes dos parmetros de explorao. Com a possibilidade de se utilizar diferentes

    ajustes operacionais experimentais da ferramenta exploratria, sem que necessariamente

    estas modificaes sejam parte implcita da ferramenta sendo utilizada. Em geral, a

    inteligncia artificial possibilita a automatizao de etapas e procedimentos envolvidos no

    processo de explorao ou minerao de dados.

  • 7/23/2019 2011AffonsoMapas

    15/89

    2

    Entre as diversas tcnicas de inteligncia artificial, est a tcnica dos mapas auto-

    organizveis de Kohonen (Self Organizing Maps, KSOM) para explorao de bases de

    dados multidimensionais. Tcnica que inicialmente foi estabelecida por Teuvo Kohonen,

    em 1981, e consiste em uma rede neural artificial interconectada e no supervisionada que

    permite um mapeamento auto ajustvel do espao de estados multidimensionais

    estudado. O SOM pode ser utilizado para um estudo mais amplo da correlao entre as

    mltiplas variveis existentes em um fenmeno sem previamente restringir o nmero de

    variveis a serem analisadas (COSTA e NETO, 2007, HONKELA, 2007). Esses mapas

    permitem uma visualizao rpida e ampla de determinadas correlaes existentes neste

    banco de dados, e tm sido empregados nas mais diversas reas de pesquisa.

    No campo da Inteligncia Artificial (IA), esta tcnica pode ser utilizada em conjunto com

    outras que possibilitem a automatizao de procedimentos de busca e minerao dos

    dados. Esta integrao de diferentes tcnicas de IA e a implementao de uma estratgia de

    prospeco que represente o conhecimento do especialista constitui a chamada

    implementao de heurstica.

    O desenvolvimento de metodologias de IA que incluam ou se comparem s anlisestradicionais so justificadas pela necessidade da manuteno de caractersticas do banco de

    dados original (caso contrrio, pode ocorrer alterao do comportamento do processo,

    induo gerao de modelos corrompidos, por exemplo). Com o objetivo de obter

    padres at ento desconhecidos, relativos ao comportamento da qualidade da gua, assim

    como da varincia relativa ao tempo (COSTA e NETTO, 2007). Em alguns trabalhos

    recentes tem sido realizada uma comparao sistemtica entre diferentes tcnicas de

    anlise multidimensional, incluindo o SOM, envolvendo grandes conjuntos de dados deindicadores qumicos da qualidade da gua (ASTEL et,al., 2007). Esses trabalhos tem

    apresentado aplicaes na avaliao da qualidade da gua, quer seja em sistemas naturais

    como rios ou associados a algum processo de alterao das caractersticas da gua. Em,

    2008 Kalteh et al., apresentaram um trabalho em que fazem uma reviso da aplicao do

    SOM em guas. Os autores reforam a idia de que o SOM, visto como uma rede neural,

    pode ser aplicado para a obteno de agrupamentos (clustering), classificao, estimao,

    predio e minerao de dados (data mining) visando o reconhecimento de sinais

    organizao de grande quantidade de dados, monitoramento e anlise de processos,

    modelamento assim como o tratamento das variveis ambientais. Eles ressaltam a

  • 7/23/2019 2011AffonsoMapas

    16/89

    3

    indicao que os vrios estudos sugerem que o SOM pode superar muitos outros mtodos

    aplicados em hidrologia.

    Este trabalho se insere neste contexto de desenvolvimento de tecnologias de prospeco de

    dados e busca contribuir no desenvolvimento de metodologias de anlise de qualidade da

    gua atravs da aplicao do SOM a um conjunto de matrizes ambientais com o auxlio de

    algumas ferramentas estatsticas.

    1.2 OBJETIVOS

    Propor uma metodologia utilizando mapas auto organizveis de Kohonen (SOM), para aanlise multidimensional de uma base de dados composta por valores de parmetros fsico-

    qumicos da qualidade da gua destinada ao consumo humano (domstico, industrial e

    rural) oriunda de pontos de coleta das unidades de gerenciamento de recursos hdricos de

    diversas regies do estado deSo Paulo.

    Objetivos Especficos

    Demonstrar o potencial da aplicao dos mapas auto-organizveis de Kohonen em base de

    dados de qualidade da gua;

    Analisar as correlaes entre os parmetros oriundos de anlises ambientais visando

    identificar potenciais correlaes.

    Identificar e avaliar as limitaes desta tecnologia;

    Estabelecer um procedimento bsico para futuras aplicaes.

  • 7/23/2019 2011AffonsoMapas

    17/89

    4

    2. REVISO DE LITERUTURA

    2.1 Conceitos sobre anlise estatstica multivariada.

    A estatstica multivariada consiste em um conjunto de mtodos estatsticos utilizados em

    situaes nas quais vrias variveis so medidas simultaneamente, em cada elemento

    amostral. Em geral as variveis so correlacionadas entre si e quanto maior o nmero de

    variveis, mais complexa torna-se a anlise por mtodos comuns de estatstica univariada.

    Embora historicamente o uso dos mtodos multivariados esteja em trabalhos na psicologia,

    cincias sociais e biolgicas, mais recentemente eles tm sido aplicados em um grandeuniverso de reas diferentes como: educao, geologia, qumica, fsica, engenharia, etc.

    Esta expanso na aplicao dessas tcnicas somente foi possvel graas ao grande avano

    da tecnologia e ao grande numero de softwares estatsticos com mdulos de anlise

    multivariada. Trabalhos realizados no Centro de Qumica e Meio Ambiente

    (CQMA/IPEN), (COTRIM, 2006; REIS, 2006; MARQUES, 2005; LEMES, 2001)

    utilizando a estatstica multivariada demonstraram a aplicabilidade da ferramenta na

    anlise de dados ambientais gerados de naturezas diversas (gua bruta e final, sedimento,iodo, entre outros).

    H duas principais tcnicas citados na literatura: - um grupo de tcnicas exploratrias de

    sintetizao (ou simplificao) da estrutura de variabilidade dos dados e um grupo de

    tcnicas de inferncia estatstica. Dentro do grupo de tcnicas exploratrias podem-se

    destacar a anlise de componentes principais, a anlise de correlaes cannicas, a anlise

    de agrupamentos, a anlise discriminante de correspondncia (MINGOTI, 2005).Do grupo de tcnicas de inferncia estatstica se destacam os mtodos de estimao de

    parmetros, testes de hipteses, anlise de varincia, covarincia e de regresso

    multivariada.

    De acordo com Echalar, 1991, uma base de dados multivariada pode ser interpretada como

    uma descrio das variabilidades em um sistema por meio das sries temporais das

    variveis medidas.

  • 7/23/2019 2011AffonsoMapas

    18/89

    5

    A anlise de componentes principais tem como principal aplicao a mensurao do grau

    de interrelaes existentes entre as variveis envolvidas no processo, e isto pode ser

    observado na repetitividade de certa caracterstica em uma srie temporal denotando que

    talvez essa informao derive de fatores subjacentes que causem a variabilidade.

    Na anlise de fatores principais, busca-se substituir a descrio dessa variabilidade de

    variveis medidas por outra com um menor nmero de variveis, independentes,

    combinaes lineares que representem esses fatores causais, no explcitos da variabilidade

    medida.

    2.2 mtodos multivariados e SOM.

    Um conjunto importante de aplicaes do SOM em anlise de qualidade da gua tem sido

    publicadas em anos recentes, demonstrando o interesse internacional na qualificao de

    novos mtodos de anlise que utilizam, em primeira instncia, os novos recursos de clculo

    e de interatividade disponibilizados pelo crescente avano dos computadores nas ltimas

    dcadas.

    Algumas revises importantes foram publicadas bem recentemente analisando osdiferentes mtodos de anlise multidimensional da qualidade da gua tanto em seus

    aspectos espaciais como temporais (Bierman et. al., 2011, Crghino e Park, 2009, Kalteh

    et. al, 2008). Os trabalhos analisados e citados por estas revises recentes ressaltam o

    potencial apresentado pelo SOM no estudo da qualidade da gua na visualizao e

    explorao de relaes lineares e no-lineares de dados multidimensionais, consideradas

    como ferramentas comprovadamente teis na avaliao da qualidade da gua (Crghino e

    Park, 2009).

    Entre os diversos mtodos multivariados disponveis para anlise de tendncias e padres

    espaciais e temporais em dados de qualidade da gua foram comparadas tcnicas como

    Anlise de Cluster, Anlise Discriminante, Anlise Fatorial e Anlise de Componentes

    Principais (Bierman et. al., 2011). Muitos destes mtodos estatsticos so utilizados em

    dados de amostras pontuais e so estendidos para dados adquiridos remotamente por

    sensoriamento e imageamento. Bierman et. al (2011) afirmam que o SOM, o

    Semivariograma e a Regresso Pesada Geograficamente (Geographically Weghted

  • 7/23/2019 2011AffonsoMapas

    19/89

    6

    Regression(GWR)) so mais apropriados para a anlise e representao espacial dos dados

    relativos qualidade da gua.

    Originalmente criada por Kohonen (1981a,b), o SOM foi inicialmente aplicado para

    reconhecimento de fala. Em 1996, foi aplicado pela primeira vez no estudo da gua (Chon

    et al., 1996) por meio do estudo de comunidades-padro de bentos em correntes de gua e

    desde ento tem sido aplicado com freqncia em diversos estudos relacionados dados

    ambientais multidimensionais.

    Tison et al., 2004 classificou dados biolgicos e ambientais baseado na aplicao do SOM

    em diatomceas (algas biolgicas).

    Num trabalho mais direcionado, Mustonen et al., 2008, apresentaram uma avaliao da

    qualidade da gua em uma estao piloto de tratamento de gua utilizando uma abordagem

    com mtodos multivariados de explorao de dados com o SOM. Os 7 parmetros que os

    autores monitoram foram pH, alcalinidade, dureza, DQO, cloreto, sulfato e ferro.

    A utilizao concomitante da anlise multivariada com a anlise de componentes

    principais (Principal Components Analysis, PCA) e da anlise com as redes neurais deKohonen pode possibilitar a comprovao e o desenvolvimento de modelos e metodologias

    que possibilitem uma melhora significativa deste tipo de estudo. Tobiszewski et. al., 2010

    se mostram otimistas quanto aos resultados obtidos pela utilizao da associao do SOM

    com um algoritmo especialista. Astel et. al., 2007 j havia feito uma comparao entre a

    aplicao de SOM para classificao de conjuntos de dados muito grandes com as anlise

    tradicionais como Anlise de Agrupamentos (cluster analysis) e PCA.

    Alguns estudos relacionados ao enfoque deste projeto foram publicados recentemente. A

    anlise de uma planta de tratamento de guas residuais municipais usando o SOM, em um

    estudo das complexas relaes existentes entre as variveis do processo da planta de

    tratamento de guas residuais, foi publicado por Hong et. al., em 2002.

    Os SOM tambm foram utilizados recentemente por Garcia e Gozalez, 2004, para estudo

    do tratamento e monitoramento de guas residuais, em que se propem o desenvolvimento

    de tcnicas de superviso para uma planta de tratamento de guas residuais.

  • 7/23/2019 2011AffonsoMapas

    20/89

    7

    O modelamento de uma planta de tratamento de gua residual municipal foi feito com

    algoritmos evolucionrios autoorganizveis por Hong e Bhamidimarri em 2003.

    A avaliao do desempenho da remoo dos metais pesados em um experimento

    construdo em zonas midas foi feita com a aplicao de mapas auto-organizveis para

    elucidar os mecanismos da remoo do metal pesado e para predizer as concentraes,

    desenvolvido por Lee e Scholz em 2006.

    A avaliao da sada de uma Estao de Tratamento de gua (ETA), em um rio no

    Mediterrneo usando uma rede neural KSOM e a modelagem de balano de massa foi

    publicado por Llorens et.al., em 2008, na qual propem a avaliao da ferramenta KSOM

    para auxiliar no controle de quantidade da gua e como ferramenta de superviso.

    Algumas outras aplicaes recentes do SOM na anlise da qualidade da gua, utilizando

    comunidades macro invertebradas tem sido objeto de publicaes recentes em biologia

    (SONG et. al., 2007; LEK e GIRAUDEL, 2001).

    Notase em um conjunto crescente de pesquisadores de dados ambientais e da qualidade

    da gua o uso de ferramentas mais sofisticadas e iterativas para a obteno de quadros decorrelao entre as variveis, determinao das variveis mais importantes e determinantes

    e a conseqente possibilidade de obteno de novos e melhores ndices de avaliao da

    qualidade ambiental. A viso da necessidade do desenvolvimento deste campo de pesquisa

    enfatizada por Crghino e Park, 2009, reconhecendo um certo atraso da aplicao de

    redes neurais artificiais no campo da pesquisa em pesquisa da gua e seus aspectos

    biolgicos e qumicos, estimulando que mais estudos de caso e trabalhos sejam coletados.

  • 7/23/2019 2011AffonsoMapas

    21/89

    8

    3. FUNDAMENTAO TERICA

    3.1 Redes Neurais.

    Estudos na rea de neurofisiologia no ltimo sculo estimularam cientistas de diversas

    reas na compreenso dos processos da mente humana e at mesmo, mimetiz-los no

    formato de algoritmos. Este campo de estudo e desenvolvimento, muitas vezes descrito

    como inteligncia artificial, gerou verses do neurnio biolgico que serviram como base

    de desenvolvimento de diversas tcnicas conhecidas como redes artificiais (BUENO,

    2006).

    A rede neural artificial (RNA) um sistema computacional constitudo, por um conjunto

    de unidades de processamento individuais (chamadas de neurnio artificial)

    interconectados entre si com pesos que podem ser modificados de acordo com os

    parmetros de qualidade que avaliam a proximidade entre a resposta desejada e a obtida.

    Resumidamente o neurnio artificial, possui entradas semelhantes aos dendritos do

    neurnio biolgico, captando as informaes provenientes do meio externo (figura 1), e

    sadas resultantes semelhantes ao axnio.

    A funo interna tambm semelhante ao soma do neurnio biolgico, desempenha a

    funo de transformar a informao de entrada em uma nova informao.

    A RNA tem a capacidade de aprender medida que os pesos das interconexes entre os

    neurnios so ajustados conforme a sada desejada. Assim, uma RNA pode ser utilizada na

    simulao e obteno de desempenhos e funes semelhantes as do crebro humano emrelao cognio e aprendizado.

    3.1.1 Modelo biolgico

    Na constituio do sistema nervoso biolgico, o neurnio pode ser definido como clula

    nervosa altamente especializada ou como as unidades de vias de conduo de estmulo

    nervoso, estimando-se que os seres humanos possuam a quantidade de bilhes de clulas

    nervosas interconectadas entre si.

  • 7/23/2019 2011AffonsoMapas

    22/89

    9

    Dos neurnios existentes, propemse uma diviso em seus chamados constituintes

    bsicos: o corpo celular, os dendritos e o axnio.

    Na captao dos sinais externos transmitidos na forma de impulsos por meio dos dentritos

    (canais de interconexo) h o processamento interno no corpo celular ou tambm chamado

    soma para a gerao de novas informaes. A interface interneural ocorre por meio de

    reaes qumicas e em regies especficas que realizam a comunicao, denominadas de

    sinapses.

    Em uma cadeia neural, a propagao dos estmulos nervosos percebidos pelos dentritos

    realizada por meio do filamento central como observado na figura 1 denominado deaxnio, o qual os conduz at os dentritos na terminao.

    A comunicao entre neurnios realizada por meio dos canais localizados no terminal

    axnico ou terminal de transmisso por filamentos sensveis que desempenham a funo de

    canais transmissores dos estmulos nervosos a outros neurnios, como mostrado na figura

    1.

    FIGURA 1 Modelo esquemtico do neurnio biolgico. (BADIN, 2011).

    Entre as terminaes axnicas dos neurnios e os dendritos h as regies de contato

    denominadas sinapses. A transmisso sinptica pode ser explicada por meio do principio

    da propagao do influxo nervoso como um processo excitatrio por meio da liberao de

  • 7/23/2019 2011AffonsoMapas

    23/89

    10

    substncias que estimulariam outros neurnios quando o impulso percebido pelo

    neurnio (RANSON, 1945).

    3.1.2 Breve Histrico das RNA

    Entre os mtodos de redes neurais artificiais desenvolvidos inicialmente, um dos mais

    citados e que pode ser considerado originrio de vrios outros modelos posteriores, o

    modelo tpico proposto por McMulloch e Pitts em 1943. Este modelo constitudo por um

    dispositivo com uma sada binria e entradas com ganhos arbitrrios, podendo ser

    excitatrios ou inibitrios. Na Figura 2, mostrado um esquema de um neurnio artificial

    tpico.

    FIGURA 2 - Modelo esquemtico do neurnio artificial (BUENO, 2006)

    Onde: X1, X2,...Xnso os sinais de entrada.

    Wk so os pesos sinpticos do neurnio k.

    uK o integrador linear de sada devido aos sinais de entrada.

    b o bias e y o sinal de sada do neurnio.

    O neurnio k pode ser descrito por meio das equaes 1 e 2.

    =

    +=

    p

    j

    kjkjk bxwU1

    (1)

    X

    X

    X

    (uK)

    W

    W

    W

    b

    Limiar

    u y

    Sada

    FunoAtivao

  • 7/23/2019 2011AffonsoMapas

    24/89

    11

    )( kk uy = (2)

    Onde x1,x2,...xpso os sinais de entrada; wk1,wk2,...wkpso pesos sinpticos do neurnio k;

    uk o integrador linear de sada devido aos sinais de entrada, bk o bias; (.) a funo de

    ativao; e yk o sinal de sada do neurnio. O bias tm a funo acrescer uma tendncia

    sada ukdo combinador linear do neurnio.

    No final da dcada de 1950, o projeto do Perceptron foi desenvolvido por Frank Rosenblatt

    na Universidade de Cornell, a partir dos estudos de McCulloch. Utilizando a proposta do

    algoritmo de treinamento da rede baseado no estudo do bilogo Donald Hebb de 1949, que

    usava o ajuste gradual dos pesos de um discriminador linear. Este projeto utilizava

    neurnios com pesos ajustveis para a classificao de padres linearmente separveis,

    inicialmente com 400 clulas fotoeltricas, e uma arquitetura que consistia de uma camada

    de neurnios de entrada. A rede era treinada para fornecer sadas de acordo com os dados

    do conjunto de treinamento, para padres vetoriais linearmente separveis.

    Esquematicamente o perceptron de uma nica camada pode ser representado conforme afigura 3.

    FIGURA 3 - Exemplo ilustrativo do Perceptron de Rosenblatt.

    Camada de inputs ou deentradas vetorias.

    Sadas

    Camadasimples comum neurnio

  • 7/23/2019 2011AffonsoMapas

    25/89

    12

    Em 1960 Bernard Widrow e Ted Hoff, desenvolveram um modelo neural linear

    denominado Adaline (Adaptive Linear Element) ou elemento linear adaptativo, e em 1962

    a composio de uma rede com mltiplos elementos adaptativos, denominada Madaline

    (Multiple Adaline) constituda. Eles tambm desenvolveram um algoritmo de

    aprendizado baseado no conceito de minimizao do desvio quadrtico mdio (Least Mean

    Square Algorithm LMS), tambm conhecido como regra delta ou mtodo do gradiente

    decrescente para a minimizao do erro. (ROSSI, 2001)

    Em 1969, Minsky e Papert publicam o livro intitulado Perceptrons no qual h a restrio a

    problemas elementares como o ou Exclusivo e o seu complemento, limitando o teorema

    desenvolvido por Rosenblatt a classe de problemas linearmente separveis, no modelo da

    figura 4 h exemplos ilustram as classes de limitao citadas.

    FIGURA 4 Exemplos de classes linearmente separveis e inseparveis do algoritmodiscriminante. (FILHO, 1998)

    Na dcada de 70 e inicio dos anos 80 houve uma diminuio na pesquisa e produo

    cientfica sobre redes neurais, entretanto apesar de pouca atividade de pesquisas, neste

    perodo alguns trabalhos tiveram um considervel destaque. Como os estudos apresentados

    por Stephen Grossberg, que baseado em trabalhos sobre o aprendizado competitivo em

    1987 junto com Carpenter, estabeleceram os princpios para uma nova classe de redes

    neurais denominadas de ART ouAdaptive Ressonance Theory.

    Soluo

    X1

    X2

    Soluo

    X1

    X2Sem soluo

    X1

    X2

  • 7/23/2019 2011AffonsoMapas

    26/89

    13

    Antes do modelo proposto por Stephen Grossberg haviam publicaes de modelos como o

    propostos por James Anderson baseados em modelos biolgicos da memria e de

    reconhecimento em 1968.

    Em 1982 Hopfield utilizou a idia de uma funo de energia para um novo modo de

    funcionamento das redes recorrentes com conexes sinpticas simtricas, onde os

    elementos so ligados buscando o aprendizado com um mnimo de energia, tendo como

    dados de origem as Redes de Hopfield. No mesmo ano, Teuvo Kohonen desenvolve o

    conceito das redes auto-organizveis na qual utiliza algoritmos competitivos.

    Com o desenvolvimento de modelos de memrias associativas, utilizando o conceito de

    aprendizado competitivo, nos quais as unidades competem para responder a determinada

    entrada e o elemento vencedor tem os pesos de sua entrada modificados, convergindo para

    responder com mais fora a valores prximos do desejado.

    Somente em 1986 houve reinicio, das atividades de desenvolvimento das redes neurais

    artificiais, com o desenvolvimento do algoritmo de retropropagao (backpropagation) porRumelhart, Hinton e Williams, embora este algoritmo j tivesse sido proposto

    anteriormente em 1974 por Werbos em sua tese de doutorado, por Parker e LeCun em

    1985. Com a publicao do livro intitulado Parallel Distributed Processing Explorations

    in the Microstructures of Cognition, editado por Rumelhart e McClelland, o qual

    apresentava o progresso das redes neurais ressurgiu o grande interesse pela tcnica.

    3.1.3 O Multi-Layer Perceptron

    O Multilayer Perceptron (MLP), ou rede de multicamadas MLP, uma sofisticao do

    modelo original do Perceptron com a ampliao do nmero de camadas interconectadas, e

    ampliou o espectro de problemas de classificao que podem ser resolvidas pela rede.

    Uma MPL pode ser definida como uma rede interconectada (conexes sinpticas) de

    neurnios disposta em neurnios de entrada (receptores do meio externo), neurnios da

    camada interna ou unidades de processamento ocultas (hidden) e neurnios de sada.

    (JUNIOR, 2005)

  • 7/23/2019 2011AffonsoMapas

    27/89

    14

    Na camada de neurnios de entrada, os vetores (dados) so recebidos e armazenados,

    dependendo da arquitetura da rede. Na camada mais interna entre a camada de neurnios

    de entrada e de sada pode haver uma camada intermediria, tambm chamada de oculta. A

    camada de sada tem a funo de armazenar as respostas obtidas pela rede. O nmero de

    neurnios nessa camada corresponde ao tamanho do vetor de sada. (BUENO, 2006,

    FILHO, 1998). Na figura 5 apresentada uma ilustrao de um exemplo de arquitetura de

    rede MPL.

    FIGURA 5 - Rede neural MPL.

    Este tipo de rede neural exemplifica como as RNAs procuram explorar os princpios

    adotados pelo crebro humano, apresentando um processamento altamente paralelo em sua

    estrutura, alm de uma capacidade de generalizar o aprendizado, obtendo respostas mais

    abrangentes do que os dados apresentados durante o treinamento. Estes dois aspectos

    fazem com que as redes neurais sejam capazes de solucionar problemas altamente

    complexos e no-lineares.

    3.1.4 Algoritmos de Aprendizagem e Treinamento

    Conceitualmente, a aprendizagem da rede neural pode ser definida como um processo

    adaptativo mediante a resposta aos estmulos externos rede apresentados durante a fase

    de treinamento. Quando as respostas desejadas aos dados de entrada so conhecidas, o

    processo de aprendizagem chamado de supervisionado, pois so apresentadas rede

    simultaneamente as entradas e as sadas desejadas para que ela se auto-configure atravs da

    atualizao de seus pesos. Esta atualizao feita principalmente por um algoritmo

    Camada deentrada

    Camadaexterna

    Camada desada

  • 7/23/2019 2011AffonsoMapas

    28/89

    15

    chamado de retro-propagao (back-propagation), que propaga para toda a rede o erro

    medido entre a resposta obtida e a resposta desejada (meta) da rede em questo. Devido

    variedade de algoritmos existentes para o treinamento de redes, so citados alguns dos

    algoritmos mais comuns encontrados na literatura em uma breve apresentao dos

    algoritmos de aprendizagem h a definio de classes conforme o emprego de cada regra.

    3.1.4.1 Regra de correo de erro

    Consistem no processo de modificao dos pesos em funo direta das sadas. estimado

    por meio do clculo da diferena entre a sada real gerada e a sada desejada, fornecida em

    um ensino supervisionado, matematicamente o princpio (LNCC, 2011) pode ser expressocomo na equao 3:

    kkk yde = (3)

    Onde para um estmulo k,

    e = sinal de erro;

    d = sada desejada apresentada durante o treinamento;

    y = sada real da rede aps a apresentao do estmulo de entrada.

    3.1.4.2 Regra de gradiente descendente

    Esta regra constitui-se de um processo de alterao dos pesos (w i), onde ocorre aminimizao do erro pelo mtodo do mnimo erro mdio quadrtico, e pode ser expressa

    pela equao 4:

    =2)(2

    1)( poi xxwE (4)

    Onde xo o valor observado e xp o valor previsto.

  • 7/23/2019 2011AffonsoMapas

    29/89

    16

    3.1.5 Mapas Auto Organizveis

    Os mapas autoorganizveis inicialmente inspirados no crtex cerebral humano, consistem

    em uma rede neural que gera como sada representaes bidimensionais (mapas) de banco

    de dados de alta dimensionalidade.

    Desenvolvidos por Teuvo Kohonen (KOHONEN, 1981a,b), estes algoritmos podem

    analisar dados por agrupamentos com o objetivo de descobrir estruturas e padres

    multidimensionais. Tambm pode ser considerada uma rede neural com aprendizado no

    supervisionado e competitiva, pois no necessita de um vetor de sada conhecido como

    vetor alvo (MESQUITA, 2002).

    Estes mapas foram consolidados como redes neurais por Kohonen em conferncia e artigos

    no comeo da dcada de 1980. Os mapas autoorganizveis podem ser definidos como

    sendo redes neurais competitivas com um alto grau de interconexo entre seus neurnios e

    que so aptas a formar mapeamentos preservando a topologia entre os espaos de entrada e

    de sada. Podem ser aplicados para problemas no lineares de alta dimensionalidade, tais

    como: extrao de caractersticas e classificao de imagens e padres acsticos, controleadaptativo de robs, equalizao, demodulao e transmisso de sinais assim como em

    aplicaes nas reas de estatstica, processamento de sinais, qumica e medicina.

    Com base no aprendizado competitivo, os neurnios de sada desta rede competem entre si

    para serem ativados com o resultado de que apenas um neurnio de sada (ou um neurnio

    por grupo) ser ativado em cada iterao. Um neurnio de sada que vence tal competio

    chamado neurnio vencedor (winner-takes-all neuron). Uma maneira de induzir tal tipode competio entre os neurnios de sada usar conexes inibitrias laterais entre eles (ou

    seja, caminhos de realimentao negativa), idia originalmente proposta por Rosenblat em

    1958.

    Os neurnios em uma rede SOM so posteriormente ordenados e apresentados em grficos

    gradeados (trelia ou lattice), normalmente mono ou bi-dimensionais. Mapas de dimenses

    maiores so tambm possveis, porm mais raros. Os neurnios se tornam seletivamente

    ajustados a vrios estmulos (padres de entrada) ou classes de padres de entrada ao

    longo de um processo competitivo de aprendizado. A localizao destes neurnios (que so

  • 7/23/2019 2011AffonsoMapas

    30/89

    17

    os neurnios vencedores) se torna ordenada entre si de tal forma que um sistema de

    coordenadas significativo criado na trelia, para diferentes caractersticas de entrada.

    O SOM , portanto, caracterizado pela formao de um mapa topogrfico dos padres de

    entrada, no qual as localizaes espaciais (ou coordenadas) dos neurnios na trelia so

    indicativas de caractersticas estatsticas (implcitas) contidas nos padres de entrada.

    Como modelo neural, as redes SOM, conceitualmente, podem ser definidas como uma

    conexo entre a adaptao dos neurnios e padres de seletividade de caractersticas.

    Sendo consideradas tambm como uma generalizao no linear da heurstica para anlise

    de componentes principais (MESQUITA, 2002).

    O funcionamento de um SOM pode ser compreendido em etapas distintas, a etapa

    competitiva na qual se define o neurnio mais adequado (Best Matching Unit). A escolha

    da melhor correspondncia entre o vetor de entrada e o vetor peso feita por meio do

    critrio da menor distncia (euclidiana) entre o vetor de pesos por ela armazenado e o vetor

    de entrada, matematicamente expresso pela equao 5.

    jwxxi = minarg)( j = 1,2,...n (5)

    Onde i(x) a representao do neurnio da entrada x, e wj o vetor peso;

    Entre as funes de distncias utilizadas para quantificar a semelhana entre os vetores da

    rede e, portanto, o quanto eles se aproximam do vetor de dados apresentado, uma das mais

    empregadas a distncia Euclideana (DE ), definida pela equao 6.

    21

    222

    211 )(...)()( nnE yxyxyxD +++= (6)

    Onde xn so as coordenadas dos vetores de entrada e yn so as coordenas dos vetores-

    prottipo (pesos das redes auto-organizveis).

    Outros tipos de distncias que podem ser citadas a similaridade mtrica de Minkowski, e

    distncia de Manhattan respectivamente, representadas pelas equaes 7 e 8.

  • 7/23/2019 2011AffonsoMapas

    31/89

    18

    p

    n

    k

    p

    kkMinkowski yxD = = 0 (7)

    Distncia mtrica de Minkowski, citada como uma generalizao da mtrica euclidiana emaplicaes na rea de psicologia.

    = YXDManhattan (8)

    Distncia de Manhattan.

    Na etapa cooperativa, so definidos os vizinhos dentro de uma distncia obtida a partir da

    BMU (Best Matching Unit) obtida na primeira etapa, competitiva. Sumariamente o

    processo de treinamento da rede, consiste na otimizao da distncia entre os neurnios.

    Na minimizao das distncias definida a vizinhana topolgica por meio da

    interatividade entre os neurnios (um neurnio ativado tende a excitar os neurnios em sua

    vizinhana imediata). Cada atribuio de novos valores e distncias abrangendo toda a

    rede chamada de poca. Pela repetio da adaptao de pesos (vetores-prottipo) possvel determinar o melhor nmero de pocas de treinamento para cada matriz, o que

    constitui a etapa adaptativa. Os neurnios nessa vizinhana so atualizados a cada iterao.

    FIGURA 6 - Representaes das Etapas Competitiva e Cooperativa de treinamento daSOM (VESANTO, 2009).

    Na figura 6 so ilustradas a formao de vizinhana a partir do neurnio vencedor em

    topologia hexagonal e retangular. Algumas opes de topologia podem ser vistas nasfigura 7 (triangular), figura 8 (quadrtica) e figura 9 (randmica).

  • 7/23/2019 2011AffonsoMapas

    32/89

    19

    FIGURA 7 Estrutura de SOM com topologia triangular (LCIS, 2011).

    FIGURA 8 Estrutura de SOM com topologia quadrtica (LCIS, 2011).

    FIGURA 9 Estrutura de SOM com topologia randmica (LCIS, 2011).

  • 7/23/2019 2011AffonsoMapas

    33/89

    20

    4. METODOLOGIA

    No presente trabalho so aplicados os mapas auto-organizveis na anlise de dados fsico-

    qumicos de guas que abastecem estaes de tratamento de gua da Sabesp relativas a

    algumas unidades de gerenciamento hdrico do Estado de So Paulo.

    Uma avaliao inicial das caractersticas desse conjunto de dados mostrou interessante

    potencialidade na aplicao da ferramenta para a busca de padres de comportamento e

    correlaes. Como estratgia, o banco de dados foi analisado visualmente em busca de

    eventuais falhas ou defeitos na seqncia dos dados que pudessem dificultar a aplicao

    da ferramenta. Essa avaliao discutida mais adiante.

    4.1 Caractersticas dos parmetros fsico-qumicos

    A despeito de existirem parmetros definidos em legislao (CONAMA,MS, 2005) para a

    qualidade de gua distribuda para consumo humano, essa qualidade por si s e

    independente de qualquer referncia legal, deve garantir a propriedade para o consumo.

    Parmetros como concentrao de metais, de substncias orgnicas, caractersticasorganolpticas (sabor, odor e cor), acidez/basicidade, presena de coliformes

    termotolerantes, constituem a maior parte do conjunto das referncias legais a serem

    atendidas. Com a finalidade de tornar mais prtico e gil a avaliao da qualidade da gua,

    alguns organismos de regulao e/ou controle adotam ndices de qualidade, considerando-

    se somente uma frao desses parmetros. A Companhia Ambiental do Estado de So

    Paulo, CETESB, (CETESB, 2008), por exemplo, adota os seguintes parmetros para

    compor o ndice de qualidade de gua bruta para fins de abastecimento pblico, IAP:temperatura da gua, pH, oxignio dissolvido, demanda bioqumica de oxignio,

    coliformes termotolerantes, nitrognio total, fsforo total, resduo total, turbidez, teste de

    Ames genotoxicidade, potencial de formao de trihalometanos PFTHM, nmero de

    clulas de cianobactrias, cdmio, chumbo, cromo total, mercrio, nquel, ferro, mangans,

    alumnio, cobre e zinco. Esses parmetros apresentam itens comuns com os adotados pela

    National Sanitation Foundation (NSF, 2008) e pela Comunidade Europia (Comunidade

    Europia, 1998).

  • 7/23/2019 2011AffonsoMapas

    34/89

    21

    Embora a relao disponibilidade/demanda seja positiva em muitas regies do Estado de

    So Paulo, no h como distribuir gua para consumo sem algum tipo de tratamento. As

    estaes de tratamento de gua, ETA, realizam esse tratamento configurando as condies

    das diversas etapas do processo em funo entre outras, das caractersticas da gua captada

    (gua bruta) e da projeo da qualidade da gua final que dever atender legislao. Em

    funo da forte correlao entre as caractersticas (rio, poo subterrneo, geomorfologia,

    clima, entre outras) dos locais de captao e as caractersticas fsicoqumicas da gua

    (COTRIM, 2006), cada ETA, em maior ou menor grau, apresenta uma identidade prpria

    que define, ento, o melhor processo para tratamento da gua. A aquisio dos dados

    inicialmente realizada por meio de relatrios pblicos disponibilizados pela CETESB,

    (CETESB, 2001) os resultados so dispostos em formato de planilhas e expressos emvalores ou em estimativas, conforme tabela no anexo 1.

    4.1.2 Organizao do Banco de Dados

    Conceitualmente matrizes ambientais so colees de resultados multidimensionais

    dinmicos de perfis comportamentais de constituintes de interesse legal. (CARVALHO,

    2003).

    Em anlises temporais, so comumente denotadas as dificuldades quanto variabilidade

    dos processos, e mencionadas como um limitante e at gerador de incertezas para as

    interpretaes.

    No intuito de se suprir estas dificuldades atualmente empregada uma gama variada de

    ferramentas matemticas e estatsticas propostas para manipulaes de dados com apreservao das informaes relevantes. No entanto h restries quanto interpretao

    dos resultados devido natureza dos dados originais e incompatibilidades das ferramentas.

    Os mapas auto organizveis consistem em tcnica RNA de reconhecimento de

    correlaes e inter-relaes em bancos multidimensionais e mesmo sendo uma tcnica de

    RNA tambm possui a restrio aos dados originais. No presente trabalho, h a imposio

    de uma limitao lgica restringindo sobremaneira a manipulao e transformao dos

    dados de interesse. Originalmente a obteno dos dados foi realizada para o atendimento a

    um requisito legal (CONAMA 357 e atualizaes e Decreto Estadual 8468/76). So

  • 7/23/2019 2011AffonsoMapas

    35/89

    22

    resultados de anlises qumicas que, por conseguinte, so limitados tecnolgica, financeira

    e operacionalmente. No processo de excluso dos valores do banco de dados original

    proposto para o presente trabalho so apresentados os critrios adotados, admitindo-se que

    por razes do comprometimento final da anlise, haja condies que garantam a qualidade

    da integridade:

    Descontinuidade da anlise ou alterao temporal do parmetro, gerando truncamento na

    seqncia;

    Grande quantidade de valores faltantes, originando em vazios de dados;

    Grande quantidade de valores inferiores aos limites impostos pelas tcnicas analticas.

    Resumidamente o modelo de controle da qualidade da gua adotado para o abastecimento

    pblico, pode ser compreendido como a adaptao de processos para o atendimento de

    critrios de interesse legal visando o estabelecimento de novos critrios, a anlise crtica e

    desenvolvimento de novas metodologias. (COTRIM, 2006)

    A CETESB realiza a monitorao do ndice de qualidade de gua atualmente em 22

    Unidades de Gerenciamento de Recursos Hdricos (UGRH), em aproximadamente 136

    pontos de coleta subdivididos conforme tabela 1.

  • 7/23/2019 2011AffonsoMapas

    36/89

    23

    TABELA 1 - Pontos de coleta com sua respectiva numerao.

    UGRHI 01

    UGRHI 02

    MANTIQUEIRA

    PARABA DO SUL

    UGRHI 03 LITORAL NORTE

    UGRHI 04 PARDO

    UGRHI 05 PIRACICABA, CAPIVARI E JUNDIA

    -Bacia do Rio Capivari.-Bacia do Rio Jundia.

    -Bacia do Rio Piracicaba.

    UGRHI 06 ALTO TIET

    -Bacia do Rio Tiet Alto Cabeceiras.

    -Bacia do Reservatrio Billings.-Bacia do Reservatrio Guarapiranga.

    -Bacia do Rio Cotia.-Bacia do Rio Tiet Alto - Zona

    Metropolitana.UGRHI 07 BAIXADA SANTISTA

    UGRHI 08 SAPUCA/GRANDE

    UGRHI 09 MOGI-GUAU

    UGRHI 010 SOROCABA/MDIO TIET

    Bacia do Rio Tiet Mdio-SuperiorBacia do Rio Sorocaba

    UGRHI 011 RIBEIRA DE IGUAPE/LITORAL SUL

    UGRHI 012 BAIXO PARDO/GRANDE

    UGRHI 013 TIET/JACAR

    UGRHI 014 ALTO PARANAPANEMA

    UGRHI 015 TURVO/GRANDE

    UGRHI 016 TIET/BATALHAUGRHI 017 MDIO PARANAPANEMA

    UGRHI 018 SO JOS DOS DOURADOS

    UGRHI 019 BAIXO TIET

    UGRHI 020 AGUAPE

    UGRHI 021 PEIXE

    UGRHI 022 PONTAL DO PARANAPANEMA

    Fonte: Relatrio CETESB 2001.

  • 7/23/2019 2011AffonsoMapas

    37/89

    24

    4.1.3 Caractersticas das Unidades de gerenciamento de Recursos hdricos

    Para o presente trabalho foram utilizados dados pblicos de cinco unidades de

    gerenciamento de recursos hdricos das regies de Mantiqueira, Paraba do Sul, Pardo,

    Capivari e de Biritiba Mirim, no estado de So Paulo. Estes pontos foram selecionados

    inicialmente sem a utilizao de critrios pr - estabelecidos.

    A unidade de gerenciamento de recursos hdricos 01 (UGRH), da regio de Mantiqueira

    est localizada a leste do estado de So Paulo, composta por 3 municpios e tem como

    principais atividades: agricultura e industrial com proximidade a UGRH 02 da regio de

    Paraba do Sul.

    Na figura 10 so mostradas as localizaes da UGRH 01, e UGRH 02 de acordo com asdelimitaes da CETESB.

    FIGURA 10 Mapa da Localizao geogrfica da UGRH 01, regio de Mantiqueira e

    UGRH 02, regio de Paraba do Sul (CETESB, 2001).

  • 7/23/2019 2011AffonsoMapas

    38/89

    25

    A UGRH 04 est situada ao Norte do estado de So Paulo, composta por 23 municpios,

    e tem como principais atividades o desenvolvimento agrcola e de segmentos industriais,

    apresentada na figura 11.

    FIGURA 11 Mapa da localizao geogrfica da UGRH 4 Rio Pardo (CETESB, 2001).

    A UGRH 05 est localizada na regio metropolitana do estado So Paulo composta por

    57 municpios e h nessa regio intensa atividade industrial, conforme os relatrios da

    CETESB.

  • 7/23/2019 2011AffonsoMapas

    39/89

    26

    FIGURA 12 Mapa da localizao geogrfica da UGRH 05, regio de Piracicaba,Capivari e Jundia (CETESB,2001).

    E a UGRH 06 de acordo com a subdiviso adotada pela CETESB das bacias hdricas, para

    avaliao da qualidade da gua, a distribuio da UGRH est localizada na regio

    metropolitana, composta por 34 municpios e intensa atividade industrial, como atividade

    primria desenvolvida, como observado na figura 13.

  • 7/23/2019 2011AffonsoMapas

    40/89

    27

    FIGURA 13 Mapa da localizao geogrfica da UGRH 06, regio do Alto Tiet(CETESB, 2001).

    Com a adoo de uma coleta de amostra bimensal em um perodo de 9 anos ao todo (2000

    a 2008), portanto com um tamanho amostral 54 dias. Na anlise dos resultados das coletas

    h informaes de 43 indicadores (parmetros fsicos, qumicos, hidrobiolgicos,

    microbiolgicos e ecotoxicolgicos) utilizados segundo relatrios (CETESB, 2000).

    A restrio do nmero de parmetros avaliados no presente trabalho est na capacidade de

    correlao e de interpretao final dos resultados pelo analista e imposta como medida de

    controle no desempenho da ferramenta.

    Na tabela 2 est uma descrio sumaria dos aspetos de relevncia para o presente trabalho

    dos parmetros, dispostos em grupos conforme a terminologia adotada pela CETESB.

  • 7/23/2019 2011AffonsoMapas

    41/89

    28

    TABELA 2 Descrio de parmetros.

    I. Parmetros fsicos

    (campo)

    Descrio

    Potencial hidrogeninico

    (pH)

    Temperatura do ar

    Temperatura da gua

    Turbidez

    Condutividade

    Grupo de parmetros de importncia para sustentabilidade

    do meio aqutico e tambm utilizados em correlaes para

    identificao de possveis fontes de contaminaes

    antropogenicas (fontes de poluentes de origem humana).

    * A condutividade em especfico uma expressonumrica da capacidade de conduo de corrente eltrica

    na gua, e pode sofrer influncias das concentraes

    inicas e da temperatura.

    II. Parmetros qumicos Descrio

    OD

    DBODQO

    Para controle de processos em sistemas aquticos naturais e

    de uso em estaes de tratamento para o estabelecimentode condies mnimas para a manuteno do meio

    aqutico.

    III. Compostos inorgnicos Descrio

    Cloreto

    Fenis

    FsforoMangans

    NKT

    Nitrognio Kjeldahl total

    Indicadores de toxidez possuem relao com outros

    parmetros tais como: pH, temperatura da gua e turbidez

    so de interesse legal (tanto para avaliao como ocumprimento da legislao vigente), e em alguns casos

    possuem associao com produtos oriundos de atividades

    humanas (contaminante antropogenico). * Obs: o

    nitrognio Kjeldahl total um parmetro obtido por meio

    de cculo, pela soma das formas de nitrognio orgnico e

    amoniacal, oriundos de atividades biolgicas naturais, e

    utilizado na avaliao do nitrognio disponvel para as

    atividades biolgicas

    Fonte - COTRIM, 2006

  • 7/23/2019 2011AffonsoMapas

    42/89

    29

    A coleta em diferentes perodos realizada para a incluso de dados com diferenas

    sazonais, (perodos de chuva e seca) com o objetivo da incorporao de um modelo real o

    qual demonstra as alteraes dos dados por influencias externa.

    A denominao perodos de seca e de chuva so classificaes adotadas conforme o ndice

    de precipitao pluviomtrica (parmetro no utilizado) e das variaes de temperaturas e

    so correlacionadas com as estaes do ano.

    A variao dos resultados amostrais dos parmetros fsico-qumicos referentes s UGRHs

    correspondentes apresentada no anexo B conforme os resultados das anlises fsico-qumicas mostradas em tabela no anexo A.

    4.1.4 Implementao da Metodologia SOM.

    O processo de implementao do sistema de anlise dos dados ambientais utilizando o

    SOM realizado seguindo etapas de formatao e insero dos dados nas bases de

    treinamento, conforme o diagrama apresentado na figura 14.

    FIGURA 14 - Diagrama da formatao da base de dados.

    Inicialmente a escolha das variveis que seriam utilizadas no estudo seguiu o critrio do

    uso do maior nmero de variveis aptas a serem inseridas numericamente na rede SOM, de

    forma a possibilitar a investigao do mais amplo espectro de possveis correlaes. A

  • 7/23/2019 2011AffonsoMapas

    43/89

    30

    formatao dos dados uma etapa fundamental e necessria para a correta utilizao da

    ferramenta de anlise a ser utilizada: MATLAB (MATHWORKS, 2004),

    Na organizao dos dados em formato de planilhas eletrnicas consideram-se o ponto de

    coleta, data da anlise, e os parmetros fsico-qumicos que sero descritos adiante. Depois

    de formatada a planilha transportada para o espao de trabalho do MATLAB por meio de

    um plug-in (programa adicional ao Matlab) chamado de Excel Link que possibilita a

    transformao da planilha em uma matriz multidimensional que pode ento ser manipulada

    e trabalhada pelas funes do Matlab e pelo toolbox SomToolbox (SOM TOOLBOX,

    2005). A partir deste conjunto de funes possvel escolher uma seqncia de comandos

    que efetuaro as etapas necessrias ao treinamento da rede neural Som que gerar comosada o chamado Mapa de Prottipos ou Mapa de Kohonen. Este aplicativo adicional

    (Excel Link) possibilita uma conexo gil e interativa entre os dois programas (Excel e

    Matlab) de forma que se possa atualizar e fazer a anlise pretendida com matrizes

    multidimensionais.

    O SOM Toolbox possui uma interface visual que possibilita a escolha dos parmetros de

    treinamento, incluindo o erro almejado. A rede neural ento treinada e aps a verificaodos parmetros de qualidade do treinamento, possvel a visualizao dos resultados

    iniciais que podem ser avaliados de acordo com grficos gerados pelo prprio aplicativo,

    onde se pode avaliar com grande agilidade o grau de interrelao entre as variveis

    utilizadas.

    A figura 15 apresenta um diagrama de blocos das etapas do procedimento executadas no

    programa MATLAB com o recurso do SOM Toolbox.

  • 7/23/2019 2011AffonsoMapas

    44/89

    31

    FIGURA 15 - Procedimento realizado do transporte das variveis para a gerao de

    resultados no SOM Toolbox.

    4.1.5 Descrio do procedimento utilizado para o treinamento do SOM .

    O procedimento do treinamento do SOM inicialmente realizado com o transporte e

    transformao da planilha eletrnica previamente organizada em uma matriz bidimensional

    no espao de trabalho do programa Matlab pelo Excel Link, como comentado na insero

    dos dados. A partir de uma varivel gerada pertencente a uma classe do Matlab

    denominada data struct que tem como funo o armazenamento da estrutura de

    informaes presentes na planilha original. A varivel pode armazenar outras variveis

    como, por exemplo: double", inteiro, string e outras, concatenadas por campos que

    definem diferentes tipos de informao de interesse. O toolbox Somtoolbox tem funes

    de treinamento que atuam diretamente sobre este tipo de varivel. Por meio do comando:

    >>Smatrix = som_data_struct(matrix);

    A matriz matrix importada pelo Excel Link para o espao de trabalho do Matlab

    transformada em (Smatrix), varivel da classe estrutura e abriga em si campos de

    informao apropriados (mesmo que inicialmente vazios), para a manipulao pela funo

    de treinamento da rede presente no Somtoolbox. Na etapa de normalizao da matriz de

    dados, etapa necessria otimizao do treinamento da rede, possibilitando com que o

    algoritmo de treinamento convirja mais rapidamente e ao mesmo tempo, que a sada possa

  • 7/23/2019 2011AffonsoMapas

    45/89

    32

    ser apresentada visualmente se comparando a variabilidade proporcional da varivel, e no

    seus valores absolutos. Assim, o comportamento da varincia dos parmetros que compe

    a base de dados pretende ser graficamente estabelecido, possibilitando uma rpida

    observao de correlaes importantes. O algoritmo de treinamento da rede neural

    minimiza a distncia entre os vetores-prottipo existentes em cada clula de rede SOM.

    Experimentalmente definido, o processo de normalizao de dados para a presente matriz

    denominado logistic e adotado pelos critrios de menor erro de quantificao e de

    menor erro topogrfico. Esta normalizao obtida com o seguinte comando:

    >>Smatrix = som_normalize(Smatrix,logistic);

    Onde a varivel Smatrix normalizada escalando todos os vetores para valores no

    intervalo entre zero e um de acordo com a funo logistic definida por duas operaes

    algortmicas (iterativas) definidas nas equaes 9 e 10.

    )())((

    antigoantigoantigo

    escalado xxmdiax

    x

    = (9)

    )exp(1(1

    escaladonovo x

    x+

    = (10)

    Aps a etapa de normalizao, inicia-se a identificao dos dados da matriz conforme os

    parmetros fisico qumico e de abreviaturas que indiquem as regies e as informaes de

    interesse como: regio e data de coleta, realizada pela modificao do campo label e

    comp_names presentes na varivel estrutural Smatrix, por meio de comandos do tipo:

    >>Smatrix.comp_names{1,1}=pH;

    >>Smatrix.labels{1,1}=MANT1A;

    Na compreenso das abreviaturas utilizadas na rotulagem dos vetores prottipos tomando

    como exemplo, o elemento da matriz localizado na primeira linha e primeira coluna com o

    rtulo MANT, referente ao ponto de coleta de Mantiqueira, 1, referente ao ano de2001 e a letra A referente ao primeiro ms de coleta. Sistema de nomenclatura o qual

  • 7/23/2019 2011AffonsoMapas

    46/89

    33

    adotado para a rpida visualizao dos agrupamentos por pontos de coleta, anos e meses,

    que so os vetores de entrada com 13 ordenadas identificados pelos parmetros fsico

    qumicos.

    Nas opes disponveis de mtodos de inicializao dos prottipos no Somtoolbox, h a

    inicializao randmica (aleatria) ou a inicializao linear. A opo entre os

    mtodos pode ser usada para definio de parmetros tais como de qualidade do

    treinamento como a velocidade. No treinamento da rede h duas opes de algoritmos

    diferentes disponveis: o treinamento seqencial ou o treinamento em batelada. Sendo que

    a opo de treinamento de rede seqencial recomendada para grandes matrizes ou que

    ofeream alguma dificuldade de processamento pelo custo computacional necessrio. Nopresente projeto a escolha da inicializao foi randmica e com o treinamento dos dados

    em batelada, devido s caractersticas da matriz de dados, que apesar de ampla no exigia

    do algoritmo um tempo de treinamento muito prolongado que justificasse um treinamento

    seqencial.

    O treinamento tradicional de um SOM passa por duas etapas, uma primeira mais grosseira

    denominada originalmente de rough onde um nmero inicial grande de raio devizinhana (neurnios vizinhos ao neurnio vencedor best match unit (BMU))

    utilizado, modificando de uma s vez uma quantidade proporcionalmente alta dos

    neurnios que compe a rede. Aps esta primeira etapa, segue-se a fase mais refinada

    (finetuning)que utiliza um raio menor de vizinhana, modificando menos neurnios por

    iterao. O treinamento da rede um processo contnuo de comparao entre os vetores-

    prottipos de cada neurnio e os vetores-amostra que compe a base de dados. Esta

    comparao utiliza diferentes definies de distncia entre os vetores, e a mais utilizada(default) a que utiliza a distncia euclidiana. Assim em iteraes sucessivas se encontra

    o BMU e se modifica esta unidade e seus vizinhos de forma proporcional distncia

    medida entre a a amostra e o prottipo. O comando bsico utilizado para iniciar o

    treinamento :

    >>Smatrixmap = som_make(Smatrix);

    Utilizado com mais opes para alterar os modos e parmetros de treinamento na

    verificao da qualidade do erro final de quantificao e do erro topogrfico, parmetros de

  • 7/23/2019 2011AffonsoMapas

    47/89

    34

    controle de qualidade da rede entre os parmetros existentes como definio do tamanho

    da rede, especificao do nmero de pocas de treinamento e do treinamento das variveis

    em batelada ou randmica, etc.

    No relatrio do treinamento, so reportados os seguintes parmetros: tamanho do mapa

    utilizado (dimenses da matriz de prottipos otimizada pelo algoritmo de acordo com o

    tamanho da matriz de amostras e da variabilidade apresentada por ela), o nmero de pocas

    de treinamento e o tempo de treinamento para cada fase de treinamento, rough e

    finetune, o erro final de quantificao e o erro final topogrfico.

    Ao final da etapa de treinamento da rede, na visualizao do mapa so apresentados osmapas resultantes por meio do comando:

    >> som_show (Smatrixmap);

    Com o qual so gerados 13 mapas dos chamados componentes planos e um mapa, auxiliar

    da matriz de distncia dos prottipos presentes em cada neurnio. Este comando tem

    muitas possibilidades de utilizao, ativando diferentes formas de apresentao dos mapasj treinados e presentes na varivel Smatrixmap. Pode-se visualizar desde as matrizes de

    distncia vetorial representadas por umat, como tambm a seleo de variveis que se

    deseje observar.

    Entre as opes de visualizao e apresentao de resultados alm do comando descrito

    acima pode se tambm, utilizar o comando para visualizao dos rtulos por distribuio

    de freqncia:

    >>som_show_add(label,Smatrixmap_freq):

    Obtm-se a distribuio por freqncia, uma importante ferramenta para a rpida

    visualizao do nmero de vetores presentes no mesmo grupo com seus referentes rtulos

    e qual a freqncia por repetio no mapa, conforme exemplo na figura 34-a nos resultados

    de mapa por distribuio por freqncia.

  • 7/23/2019 2011AffonsoMapas

    48/89

  • 7/23/2019 2011AffonsoMapas

    49/89

    36

    5.0 Resultados e Discusso

    5.1 Apresentao dos resultados SOM

    Na anlise dos mapas proposto um estudo comparativo do conjunto de mapas obtidos

    aplicando ao mapa um algoritmo de agrupamento, para o reconhecimento do nmero de

    clusters mais representativos presentes no mapa.

    Na anlise dos dados, so empregadas diferentes estruturas de dados, em duas abordagensdistintas, inicialmente com uma matriz de 257 linhas agrupados em 13 parmetros

    (ordenadas), com um total de 3341 elementos. E em uma abordagem posterior com uma

    matriz de 257 linhas em 10 parmetros

    Devido ao nmero de resultados para apresentao, no presente trabalho proposta uma

    diviso em: Matrizes para estudo de similaridades entre pontos de coleta, Matrizes para

    estudo de similaridades entre parmetros fisico-qumicos, e Grficos dos prottipos devetores no intuito de se proporcionar nas concluses um ordenamento.

    5.2 Estudo de similaridades entre pontos de coleta.

    Os prottipos de vetores de 13 ordenadas, (parmetros), inicializado randomicamente,

    apesar de no se empregar pr-tratamento, os dados so normalizados, e treinados em 200

    pocas. A escala de cores para visualizao dos clusters no mapa pode ser definida entreopes disponibilizadas no toolbox (LCIS, 2011).

    O tamanho do mapa auto-organizvel definido por critrios pr-estabelecidos no

    algoritmo, com relao com o tamanho do banco de dados de treinamento. Alguns

    parmetros para treinamento como o estudo de variao dos mesmos para otimizao do

    erro final de quantificao e erro final de topogrfico, (parmetros utilizados para controle

    de qualidade da rede e dos resultados), so experimentais.

  • 7/23/2019 2011AffonsoMapas

    50/89

    37

    A rotulagem dos prottipos realizada conforme a base de treinamento, no presente

    trabalho adotam se as iniciais de acordo com as regies de coleta, ano da coleta e meses.

    Alm da matriz de dados uma matriz de rtulos e treinada.

    Aps o treinamento, na figura 17, apresentado o mapa da matriz de distncia entre

    vetores como um dos resultados principais com tabelas auxiliares de legendas 3 a 5, para as

    concluses finais.

    U-matrix

    MA8F

    RP5D

    MA8B

    MA7B

    MA4A

    MA1F

    MA1C

    MA3B

    MA4F

    MA3C

    MA3F

    RC4C

    RP5C

    RP4C

    MA7C

    BM1C

    PB6C

    PB3E

    MA6D

    MA2F

    MA1B

    RC1D

    RP0D

    RP3C

    RP7D

    PB0C

    PB0D

    PB3C

    MA6E

    MA2D

    RC1C

    RC0C

    RC0D

    RP0C

    RP2D

    PB6D

    PB2C

    PB4B

    PB4A

    MA1A

    RC5C

    RC1F

    RC3D

    RP0E

    RP0A

    RP0B

    BM0B

    PB6E

    PB2A

    PB3F

    PB4D

    BM5F

    RC4E

    RC5B

    RC3E

    RP0F

    BM4F

    RP2F

    BM2A

    PB8E

    PB8B

    PB3A

    PB5A

    RC3A

    RC6D

    RC1E

    RP2E

    RP3B

    RP3F

    BM0A

    PB8D

    PB6A

    PB1B

    PB0A

    PB7F

    RC0B

    RC0A0.1

    0.15

    0.2

    0.25

    0.3

    0.35

    FIGURA 17 - Mapa da matriz de distncia entre vetores com os rtulos.

  • 7/23/2019 2011AffonsoMapas

    51/89

    38

    TABELA 3 - Legenda para as regies de coleta:

    Regio de coleta Nome abreviado

    Mantiqueira MA

    Biritiba Mirim BM

    Rio Capivari RC

    Rio Paraba PB

    Rio Pardo RP

    TABELA 4 - Legenda para os meses de coleta

    Meses

    *(perodo compreendido entre meses) Letra

    Janeiro - Fevereiro AMaro - Abril B

    Maio - Junho C

    Julho - Agosto D

    Setembro - Outubro E

    Novembro - Dezembro F

    * Obs: Aos meses so atribudos perodos conforme a data de amostragem diferenciada.

  • 7/23/2019 2011AffonsoMapas

    52/89

    39

    TABELA 5 - Legenda para os anos

    Anos Inicial abreviada

    2000 0

    2001 1

    2002 2

    2003 3

    2004 4

    2005 5

    2006 6

    2007 7

    2008 8

    Do mapa da matriz da figura 17 so gerados como sadas 84 prottipos de vetores em uma

    topologia hexagonal de 7 colunas por 12 linhas, com o perfil mdio dos pontos de coleta(prottipo de vetor gerado a partir dos dados de entrada).

    Os erros de quantificao e topolgico obtidos experimentalmente so de 0.330 e 0.012

    respectivamente (menores ndices apontados com o uso da funo de normalizao

    logistic.)

    Entre as opes de visualizao de resultado h a opo da apresentao dos componentesplanos juntamente com a matriz de distncia vetorial, nessa opo, os prottipos de vetores

    podem ser visualizados individualmente conforme os parmetros, como apresentado na

    figura 18.

  • 7/23/2019 2011AffonsoMapas

    53/89

    40

    U-matrix

    0.0891

    0.232

    0.376PH

    d

    6.36

    6.77

    7.18TAGUA

    d

    16

    20.9

    25.8TAR

    d

    18.3

    24.2

    29.8

    CL

    d

    3.23

    10.3

    19.7COND

    d

    52

    124

    222DBO

    d

    2.03

    4.52

    7.27DQO

    d

    14.3

    32.8

    49.5

    FEN

    d

    0.00104

    0.00234

    0.00363P

    d

    0.054

    0.241

    0.457

    MN

    d

    0.0332

    0.125

    0.24NKT

    d

    0.368

    1.61

    2.87

    OD

    d

    3.86

    5.89

    7.74

    SOM 31-Mar-2011

    Turbidez

    d

    7.9

    59.5

    117

    FIGURA 18 - Componentes planos gerados a partir da grande matriz.

    Como pode ser observado na figura 18, no campo dos ttulos os nomes dos parmetros

    fsico-qumicos so substitudos por iniciais abreviadas de acordo com a (tabela 6 Legenda

    dos parmetros fsico-qumicos).

  • 7/23/2019 2011AffonsoMapas

    54/89

    41

    TABELA 6 Legenda de parmetros fsico qumicos

    Lista de Parmetros fsico qumicos.

    PH = Potencial hidrogenionico,

    TAGUA = Temperatura da gua,

    TAR = Temperatura do ar,

    CL = Cloreto,

    COND = Condutividade,

    DBO = Demanda bioqumica de oxignio

    DQO = Demanda qumica de oxignio,

    FEN = Fenis,

    P = Fsforo,

    MN = Mangans,

    NKT = Nitrognio Kjeldahl Total,

    OD = Oxignio dissolvido

    A escala de gradao (barra lateral) na figura 18, de cada mapa mostra a variao de cadaparmetro (no normalizado) de acordo com a base de treinamento.

    Alm da matriz de distncia vetorial em estudo, gerada a matriz universal (U-matriz)

    para complementao da anlise dos agrupamentos. Neste mapa so escolhidos os rtulos

    relativos s melhores correspondncias (BMUs) entre o vetor e o prottipo da clula

    (neurnio) da matriz. Assim, o mapa das BMUs apresentado na figura 19.

  • 7/23/2019 2011AffonsoMapas

    55/89

    42

    FIGURA 19 - Mapa indicativo dos rtulos caractersticos (BMUs) dos pontos de coleta na

    matriz principal.

    No presente trabalho a definio do melhor nmero de clusters distintos para o

    agrupamento obtido pela funo mtrica Davies-Bouldin, com a aplicao de um

    algoritmo de clusterizao (k-means) ao mapa e utilizando o nmero otimizado. Pode-se

    visualizar clusters delimitados conforme a figura 20 do mapa, com rotulagem sobreposta

    para destaque dos agrupamentos. (DAVIES, 1979)

  • 7/23/2019 2011AffonsoMapas

    56/89

    43

    FIGURA 20 - Mapa com rotulagem sobreposta para destaque dos grupos

    Na figura 20 pode-se observar os cinco grupos em destaque em diferentes cores, apenas

    para diferenciao dos clusters e para determinao de suas respectivas delimitaes.

    Na matriz alterada so excluidos trs parmetros da matriz original de dados (Fenis, DQO

    e DBO) resultando em uma nova matriz com as seguintes dimenses: 257 linhas em 10

    colunas (total de 2570 elementos), a nova base de dados treinada conservando-se os

    mesmos parmetros do primeiro experimento.

    Nas sadas so gerados 80 prottipos de vetores (ver figura 21-c) e aps treinada a rede o

    erro final de quantificao de 0.254, e o erro final topogrfico de 0.012.

    Os novos resultados da matriz de distncia vetorial so apresentados com uso de diferentes

    recursos como na figura 21-a por distribuio por frequencia e por distribuio por votao

    na figura 21-b.

  • 7/23/2019 2011AffonsoMapas

    57/89

    44

    SOM 19-Apr-2011

    U-matrix

    RP5DRP5D(1)

    BIR0C(1)

    BIR0D(1)

    BIR1D(1)

    BIR3D(1)

    BIR3E(1)

    BIR8C(1)BIR1E

    BIR1E(1)

    BIR4D(1)

    MAN7D

    MAN7D(1)

    MAN8C(1)

    BIR7D(1)MAN1C

    MAN1C(1)

    MAN1E(1)

    MAN4D(1)

    MAN5C(1)

    MAN6C(1)

    MAN7A(1)

    MAN1F

    MAN1F(1)

    MAN3A(1)

    MAN3B(1)

    MAN4F(1)

    MAN5A(1)

    MAN5B(1)MAN6A(1)MAN2BMAN2B(1)

    MAN8B(1)

    MAN8F(1)MAN2E

    MAN2E(1)

    MAN3C(1)

    MAN3D(1)

    MAN3E(1)

    MAN8D(1)MAN1D

    MAN1D(1)

    MAN3F(1)

    MAN5D(1)

    CAP4C

    CAP4C(1)

    CAP5C(1)

    CAP7C(1)

    CAP8C(1)

    CAP8E(1)

    BIR2C

    BIR2C(1)

    BIR2D(1)

    BIR6C(1)

    BIR8D(1)

    RP4C

    RP4C(1)

    RP5C(1)

    MAN4B

    MAN4B(1)

    MAN6D(1)

    MAN6B

    MAN6B(1)

    MAN4C

    MAN4C(1)

    MAN1BMAN1B(1)

    MAN5E(1)

    MAN8A(1)

    MAN4E

    MAN4E(1)

    MAN7E(1)

    MAN7F(1)

    MAN8E(1)

    CAP2D

    CAP2D(1)

    CAP4D(1)

    CAP6C(1)

    CAP8D(1)

    RP3D

    RP3D(1)

    RP4D(1)

    BIR3C(1)

    BIR7E(1)RP3E

    RP3E(1)

    RP7D(1)

    RP8E(1)

    BIR1C(1)

    PAR6C

    PAR6C(1)

    BIR3F(1)

    BIR4C(1)

    MAN2A

    MAN2A(1)

    MAN2C(1)

    MAN4A

    MAN4A(1)

    MAN7B(1)

    BIR5D(1)

    BIR5E(1)

    BIR7C(1)MAN6E

    MAN6E(1)

    MAN2F

    MAN2F(1)

    MAN5F(1)

    MAN6F(1)

    CAP1C

    CAP1C(1)

    CAP2A(1)

    CAP0C

    CAP0C(1)

    CAP1D(1)

    CAP7D(1)CAP0D

    CAP0D(1)

    CAP3C(1)

    CAP3D(1)

    CAP4B(1)

    CAP5D(1)

    RP0CRP0C(1)

    RP0D(1)

    RP6C(1)

    RP7C(1)

    BIR2E(1)

    BIR5C(1)

    BIR6D(1)

    BIR6E(1)PAR0D

    PAR0D(1)

    MAN7C(1)

    RP3C

    RP3C(1)

    BIR6F

    BIR6F(1)

    PAR3D

    PAR3D(1)

    PAR3E(1)

    PAR7D(1)

    PAR5C

    PAR5C(1)

    BIR5F

    BIR5F(1)

    CAP8B

    CAP8B(1)

    CAP1F

    CAP1F(1)

    CAP2C(1)

    CAP5B(1)

    CAP6B(1)CAP3E

    CAP3E(1)

    CAP5A(1)

    CAP5E(1)

    CAP5F(1)

    CAP6E(1)

    CAP7E(1)

    CAP8F(1)

    RP0E

    RP0E(1)

    RP2C(1)

    RP4F(1)

    RP6D(1)

    MAN2D(1)

    BIR8E(1)RP2D

    RP2D(1)

    RP5F(1)

    BIR8F(1)

    PAR1C

    PAR1C(1)

    BIR4E(1)

    BIR7F(1)

    PAR2C

    PAR2C(1)

    PAR2D(1)

    BIR3B(1)PAR3C

    PAR3C(1)

    PAR5B(1)

    PAR6D(1)

    PAR6E(1)

    PAR7C(1)

    PAR4A

    PAR4A(1)

    PAR4B(1)PAR4C(1)

    PAR5E(1)

    PAR5F(1)

    PAR7E(1)

    PAR8C(1)PAR4D

    PAR4D(1)

    MAN1A

    MAN1A(1)

    CAP6D

    CAP6D(1)

    CAP6F(1)

    CAP1E

    CAP1E(1)

    CAP2E(1)

    CAP3B(1)

    CAP7A(1)

    CAP7F(1)

    RP0ARP0A(1)

    RP0B(1)

    RP2B(1)

    RP4E(1)

    RP8A(1)

    RP8B(1)

    BIR8B(1)RP4B

    RP4B(1)

    RP5A(1)

    BIR6A(1)

    BIR7B(1)

    PAR0C

    PAR0C(1)

    BIR0E(1)

    BIR7A(1)

    PAR5D

    PAR5D(1)

    BIR0B(1)

    PAR8E

    PAR8E(1)

    BIR2A(1)

    BIR3A(1)

    PAR2APAR2A(1)

    PAR2F(1)

    BIR0F(1)

    PAR3F

    PAR3F(1)

    CAP2F

    CAP2F(1)

    CAP0A

    CAP0A(1)

    CAP1A(1)

    CAP1B(1)

    CAP3F(1)

    CAP6A(1)

    CAP8A(1)

    RP0F

    RP0F(1)

    RP2A(1)

    RP3A(1)

    RP5E(1)

    RP7B(1)

    RP8C(1)

    RP2F

    RP2F(1)

    BIR1B(1)

    BIR4F(1)

    BIR8A(1)

    BIR1F

    BIR1F(1)

    BIR2B(1)

    PAR6B

    PAR6B(1)

    BIR5A(1)

    PAR3B

    PAR3B(1)

    PAR4E(1)

    PAR4F(1)

    PAR7A(1)

    PAR7B(1)

    PAR8B(1)

    PAR8F(1)PAR8D

    PAR8D(1)

    CAP0E

    CAP0E(1)

    CAP0F(1)

    RP2E

    RP2E(1)

    RP6A(1)

    RP6B(1)

    RP6E(1)

    RP7A(1)

    RP8D(1)

    RP3B

    RP3B(1)

    RP4A(1)

    RP5B(1)

    RP6F(1)

    RP7E(1)

    RP7F(1)

    PAR0E(1)

    BIR6B(1)RP3F

    RP3F(1)

    PAR1D(1)

    BIR1A(1)BIR0A

    BIR0A(1)

    BIR2F(1)

    BIR4A(1)

    BIR4B(1)

    BIR5B(1)

    PAR0A

    PAR0A(1)

    PAR1A(1)

    PAR1B(1)PAR1E(1)

    PAR1F(1)

    PAR2B(1)

    PAR2E(1)

    PAR6A(1)

    PAR8A(1)

    PAR0F

    PAR0F(1)

    PAR3A(1)

    PAR5A(1)

    PAR6F(1)

    PAR0B

    PAR0B(1)

    PAR7F(1)

    CAP0B

    CAP0B(1)

    CAP2B(1)

    CAP3A(1)

    CAP4A(1)

    CAP4E(1)

    CAP4F(1)

    CAP7B(1)

    0.1

    0.15

    0.2

    0.25

    0.3

    0.35

    0.4

    FIGURA 21-a - Apresentao do mapa das distncias vetoriais, por distribuio defrequencia de rtulos, da matriz modificada (257 linhas por 10 parmetros)

  • 7/23/2019 2011AffonsoMapas

    58/89

    45

    SOM 19-Apr-2011

    U-matrix

    RP5D

    BIR1E

    MAN7D

    MAN1C

    MAN1F

    MAN2B

    MAN2E

    MAN1D

    CAP4C

    BIR2C

    RP4C

    MAN4B

    MAN6B

    MAN4C

    MAN1B

    MAN4E

    CAP2D

    RP3D

    RP3E

    PAR6C

    MAN2A

    MAN4A

    MAN6E

    MAN2F

    CAP1C

    CAP0C

    CAP0D

    RP0C

    PAR0D

    RP3C

    BIR6F

    PAR3D

    PAR5C

    BIR5F

    CAP8B

    CAP1F

    CAP3E

    RP0E

    RP2D

    PAR1C

    PAR2C

    PAR3C

    PAR4A

    PAR4D

    MAN1A

    CAP6D

    CAP1E

    RP0A

    RP4B

    PAR0C

    PAR5D

    PAR8E

    PAR2A

    PAR3F

    CAP2F

    CAP0A

    RP0F

    RP2F

    BIR1F

    PAR6B

    PAR3B

    PAR8D

    CAP0E

    RP2E

    RP3B

    RP3F

    BIR0A

    PAR0A

    PAR0F

    PAR0B

    CAP0B

    0.1

    0.15

    0.2

    0.25

    0.3

    0.35

    0.4

    FIGURA 21-b - Apresentao por votao do mapa das distncias vetoriais com os rtulosda matriz modificada (257 linhas por 10 parmetros).

  • 7/23/2019 2011AffonsoMapas

    59/89

    46

    U-matrix

    0.0664

    0.237

    0.407

    SOM 19-Apr-2011

    labels

    RP5D

    BIR1E

    MAN7D

    MAN1C

    MAN1F

    MAN2B

    MAN2E

    MAN1D

    CAP4C

    BIR2C

    RP4C

    MAN4B

    MAN6B

    MAN4C

    MAN1B

    MAN4E

    CAP2D

    RP3D

    RP3E

    PAR6C

    MAN2A

    MAN4A

    MAN6E

    MAN2F

    CAP1C

    CAP0C

    CAP0D

    RP0C

    PAR0D

    RP3C

    BIR6F

    PAR3D

    PAR5C

    BIR5F

    CAP8B

    CAP1F

    CAP3E

    RP0E

    RP2D

    PAR1C

    PAR2C

    PAR3C

    PAR4A

    PAR4D

    MAN1A

    CAP6D

    CAP1E

    RP0A

    RP4B

    PAR0C

    PAR5D

    PAR8E

    PAR2A

    PAR3F

    CAP2F

    CAP0A

    RP0F

    RP2F

    BIR1F

    PAR6B

    PAR3B

    PAR8D

    CAP0E

    RP2E

    RP3B

    RP3F

    BIR0A

    PAR0A

    PAR0F

    PAR0B

    CAP0B

    FIGURA 21-c - Apresentao do mapa das distncias vetoriais com o mapa geral rotuladoobtido da matriz modificada (257 linhas por 10 parmetros)

    5.3 Estudo de similaridades entre parmetros fisico-qumicos.

    Na reorganizao da disposio inicial da matriz em uma disposio transposta, a ordem de

    insero alterada, resultando em uma matriz de 13 linhas por 257 parmetros, paraanlise de correlaes entre os parmetros fsicos qumicos,

    Priorizando a anlise dos parmetros, no so gerados os mapas dos componentes planos.

    O reordenamento proposto realizado no prprio Matlab por meio do comando:

    >> Smatrixg = Smatrixg;

    Onde a varivel Smatrixg a transposta de Smatrixg.

  • 7/23/2019 2011AffonsoMapas

    60/89

    47

    Na anlise da matriz inversa so estudadas as correlaes dos parmetros fsico qumicos

    por meio do comportamento amostral, conforme figuras 22 e 23, e obtidos conservando os

    parmetros iniciais de treinamento .

    FIGURA 22 - Mapa geral rotulado obtido da matriz inversa.

  • 7/23/2019 2011AffonsoMapas

    61/89

    48

    FIGURA 23 - Mapa de distncia entre vetores da matriz transposta com os rtulos dosparmetros fsico qumicos.

    Na descrio figuras 22 e 23 os mapas gerados tm as seguintes caractersticas: dimenses

    de 3 x 7 clulas, (figura 35) e 5 x 13(figura 36)