Gerência de Dados na Web: Especial Big Data ONDUXHadoop: Extração de dados em BigData...
Transcript of Gerência de Dados na Web: Especial Big Data ONDUXHadoop: Extração de dados em BigData...
![Page 1: Gerência de Dados na Web: Especial Big Data ONDUXHadoop: Extração de dados em BigData Universidade Federal do Amazonas Instituto de Computação André Porto.](https://reader034.fdocumentos.tips/reader034/viewer/2022042714/552fc13b497959413d8d9881/html5/thumbnails/1.jpg)
Gerência de Dados na Web: Especial Big Data
ONDUXHadoop: Extração de dados em BigData
Universidade Federal do AmazonasInstituto de Computação
André Porto
![Page 2: Gerência de Dados na Web: Especial Big Data ONDUXHadoop: Extração de dados em BigData Universidade Federal do Amazonas Instituto de Computação André Porto.](https://reader034.fdocumentos.tips/reader034/viewer/2022042714/552fc13b497959413d8d9881/html5/thumbnails/2.jpg)
Roteiro IntroduçãoMotivaçãoONDUXONDUXHadoopResultados ObtidosConclusãoHands on
![Page 3: Gerência de Dados na Web: Especial Big Data ONDUXHadoop: Extração de dados em BigData Universidade Federal do Amazonas Instituto de Computação André Porto.](https://reader034.fdocumentos.tips/reader034/viewer/2022042714/552fc13b497959413d8d9881/html5/thumbnails/3.jpg)
IntroduçãoAbundância de registros não estruturados na
Web em forma textual.Endereços postais.Citações Científicas.Anúncios de Imóveis.Artigos Científicos.Ofertas de produtos.Etc…
![Page 4: Gerência de Dados na Web: Especial Big Data ONDUXHadoop: Extração de dados em BigData Universidade Federal do Amazonas Instituto de Computação André Porto.](https://reader034.fdocumentos.tips/reader034/viewer/2022042714/552fc13b497959413d8d9881/html5/thumbnails/4.jpg)
DesafiosEnorme quantidade de dados
Dados semi-estruturados
Domínios diversificados
Grande esforço humano
![Page 5: Gerência de Dados na Web: Especial Big Data ONDUXHadoop: Extração de dados em BigData Universidade Federal do Amazonas Instituto de Computação André Porto.](https://reader034.fdocumentos.tips/reader034/viewer/2022042714/552fc13b497959413d8d9881/html5/thumbnails/5.jpg)
Pra que extrair isso tudo??
![Page 6: Gerência de Dados na Web: Especial Big Data ONDUXHadoop: Extração de dados em BigData Universidade Federal do Amazonas Instituto de Computação André Porto.](https://reader034.fdocumentos.tips/reader034/viewer/2022042714/552fc13b497959413d8d9881/html5/thumbnails/6.jpg)
![Page 7: Gerência de Dados na Web: Especial Big Data ONDUXHadoop: Extração de dados em BigData Universidade Federal do Amazonas Instituto de Computação André Porto.](https://reader034.fdocumentos.tips/reader034/viewer/2022042714/552fc13b497959413d8d9881/html5/thumbnails/7.jpg)
![Page 8: Gerência de Dados na Web: Especial Big Data ONDUXHadoop: Extração de dados em BigData Universidade Federal do Amazonas Instituto de Computação André Porto.](https://reader034.fdocumentos.tips/reader034/viewer/2022042714/552fc13b497959413d8d9881/html5/thumbnails/8.jpg)
![Page 9: Gerência de Dados na Web: Especial Big Data ONDUXHadoop: Extração de dados em BigData Universidade Federal do Amazonas Instituto de Computação André Porto.](https://reader034.fdocumentos.tips/reader034/viewer/2022042714/552fc13b497959413d8d9881/html5/thumbnails/9.jpg)
![Page 10: Gerência de Dados na Web: Especial Big Data ONDUXHadoop: Extração de dados em BigData Universidade Federal do Amazonas Instituto de Computação André Porto.](https://reader034.fdocumentos.tips/reader034/viewer/2022042714/552fc13b497959413d8d9881/html5/thumbnails/10.jpg)
Motivação Informações Textuais
Ricas de informações e não estruturadasNecessidade de recuperar informaçõesEstruturar em bancos de dadosMineração de Dados.Comparação de Registros.FiltrosConsulta complexas
![Page 11: Gerência de Dados na Web: Especial Big Data ONDUXHadoop: Extração de dados em BigData Universidade Federal do Amazonas Instituto de Computação André Porto.](https://reader034.fdocumentos.tips/reader034/viewer/2022042714/552fc13b497959413d8d9881/html5/thumbnails/11.jpg)
Como extrair?ONDUX(Cortez@SIGMOD`10)
Método de extração de informação Segmentação do texto. Método probabilístico. Utiliza Base de Conhecimento.
![Page 12: Gerência de Dados na Web: Especial Big Data ONDUXHadoop: Extração de dados em BigData Universidade Federal do Amazonas Instituto de Computação André Porto.](https://reader034.fdocumentos.tips/reader034/viewer/2022042714/552fc13b497959413d8d9881/html5/thumbnails/12.jpg)
ONDUXEntradas
Registros que se deseja classificar.Base de Conhecimento.
SaídasRegistros rotulados.Possibilidade de armazenamento em
arquivos estruturados(CSV e XML).
![Page 13: Gerência de Dados na Web: Especial Big Data ONDUXHadoop: Extração de dados em BigData Universidade Federal do Amazonas Instituto de Computação André Porto.](https://reader034.fdocumentos.tips/reader034/viewer/2022042714/552fc13b497959413d8d9881/html5/thumbnails/13.jpg)
Exemplo de registro Smartphone Moto G Colors Edition Dual Chip Desbloqueado
3G Câmera 5MP 16GB Android 4.3 R$ 799,00
Smartphone Dual Chip Samsung Galaxy Trend Lite Duos Desbloqueado Branco Android 4.1 3G/Wi-Fi Câmera 3MP R$ 579,00
Smartphone Nokia Lumia 520 Desbloqueado TIM Preto Windows Phone 8 Câmera 5MP 3G Wi-Fi Memória Interna 8G GPS R$ 499,00
Smartphone Samsung Galaxy S4 Zoom Preto Android 4.2 3G Desbloqueado - Câmera 16MP Câmera Wi-Fi GPS Memória 8GB R$ 1.499,00
![Page 14: Gerência de Dados na Web: Especial Big Data ONDUXHadoop: Extração de dados em BigData Universidade Federal do Amazonas Instituto de Computação André Porto.](https://reader034.fdocumentos.tips/reader034/viewer/2022042714/552fc13b497959413d8d9881/html5/thumbnails/14.jpg)
Exemplo de Base de ConhecimentoXML
Par (Atributo, Exemplo de Valor)
<outros> Conectividade USB Bluetooth 4.0 Wi-Fi 802.11 bgn </outros>
<processador> Processador Single Core </processador>
<processador> Quad Core </processador>
<sistema_operacional> Android 4.3 </sistema_operacional>
<modelo> Galaxy SIII I9300 </modelo>
<modelo> Optimus Hub E510 </modelo>
<cor> Preto </cor>
<marca> Nokia </marca>
<marca> LG </marca>
![Page 15: Gerência de Dados na Web: Especial Big Data ONDUXHadoop: Extração de dados em BigData Universidade Federal do Amazonas Instituto de Computação André Porto.](https://reader034.fdocumentos.tips/reader034/viewer/2022042714/552fc13b497959413d8d9881/html5/thumbnails/15.jpg)
Funcionamento
![Page 16: Gerência de Dados na Web: Especial Big Data ONDUXHadoop: Extração de dados em BigData Universidade Federal do Amazonas Instituto de Computação André Porto.](https://reader034.fdocumentos.tips/reader034/viewer/2022042714/552fc13b497959413d8d9881/html5/thumbnails/16.jpg)
Blocking
Smartphone
Smartphone Samsung Galaxy Note III Branco Android 4.3 Câmera de 13 MP Wi-Fi 4G Por: R$ 2.899,00
Samsung Galaxy Note III
Branco
Android 4.3
Câmera de 13MP
Wi-Fi
4G Por: R$ 2.899,00
![Page 17: Gerência de Dados na Web: Especial Big Data ONDUXHadoop: Extração de dados em BigData Universidade Federal do Amazonas Instituto de Computação André Porto.](https://reader034.fdocumentos.tips/reader034/viewer/2022042714/552fc13b497959413d8d9881/html5/thumbnails/17.jpg)
Matching
Smartphone
Smartphone Samsung Galaxy Note III Quad Core Branco Android 4.3 Câmera de 13 MP Wi-Fi 4G Por: R$ 2.899,00
Samsung Galaxy Note III
Branco
Android 4.3
Câmera de 13MP
Wi-Fi4G Por: R$ 2.899,00
Categoria
Marca Modelo Cor
??? Câmera Processador
Outros Preço
Quad Core
???
![Page 18: Gerência de Dados na Web: Especial Big Data ONDUXHadoop: Extração de dados em BigData Universidade Federal do Amazonas Instituto de Computação André Porto.](https://reader034.fdocumentos.tips/reader034/viewer/2022042714/552fc13b497959413d8d9881/html5/thumbnails/18.jpg)
Modelo
PSM
Categoria
Marca
Cor
???Câmera
Processador
Outros
Preço
Início
Fim
90%
65%
82%
57%35%
90% 12%
21%55%
9%
45%17%
67% 44%
8%
98%
78%55%
94%
35%
13%
![Page 19: Gerência de Dados na Web: Especial Big Data ONDUXHadoop: Extração de dados em BigData Universidade Federal do Amazonas Instituto de Computação André Porto.](https://reader034.fdocumentos.tips/reader034/viewer/2022042714/552fc13b497959413d8d9881/html5/thumbnails/19.jpg)
Reinforcement
Smartphone
Smartphone Samsung Galaxy Note III Quad Core Branco Android 4.3 Câmera de 13 MP Wi-Fi 4G Por: R$ 2.899,00
Samsung Galaxy Note III
Branco
Android 4.3
Câmera de 13MP
Wi-Fi4G Por: R$ 2.899,00
Categoria
Marca Modelo Cor
SO Câmera Processador
Outros Preço
Quad Core
Outros
![Page 20: Gerência de Dados na Web: Especial Big Data ONDUXHadoop: Extração de dados em BigData Universidade Federal do Amazonas Instituto de Computação André Porto.](https://reader034.fdocumentos.tips/reader034/viewer/2022042714/552fc13b497959413d8d9881/html5/thumbnails/20.jpg)
ONDUX HadoopPossibilidade de utilizar BigData
Melhoria na extração de dados
Foco na etapa Matching e ReinforcementGeração de blocosDetectar AmbiguidadePSM sem ruídos
![Page 21: Gerência de Dados na Web: Especial Big Data ONDUXHadoop: Extração de dados em BigData Universidade Federal do Amazonas Instituto de Computação André Porto.](https://reader034.fdocumentos.tips/reader034/viewer/2022042714/552fc13b497959413d8d9881/html5/thumbnails/21.jpg)
ONDUX HadoopHadoop Single Node
Versão 1.2.1
Framework MapReduceEntrada: Blocos rotuladosSaída: Montagem de registros filtrados
![Page 22: Gerência de Dados na Web: Especial Big Data ONDUXHadoop: Extração de dados em BigData Universidade Federal do Amazonas Instituto de Computação André Porto.](https://reader034.fdocumentos.tips/reader034/viewer/2022042714/552fc13b497959413d8d9881/html5/thumbnails/22.jpg)
ONDUX HadoopMatching gera entrada do Hadoop
smartphone-categoria-0-1:0 android 41-sistema_operacional-4-0.81:0 3g-atributos-1-0.51:1 proc quad core-processador-10-0.75:1 …
valorBloco – atributo – posição – score : id_registro
![Page 23: Gerência de Dados na Web: Especial Big Data ONDUXHadoop: Extração de dados em BigData Universidade Federal do Amazonas Instituto de Computação André Porto.](https://reader034.fdocumentos.tips/reader034/viewer/2022042714/552fc13b497959413d8d9881/html5/thumbnails/23.jpg)
MapReduceMAP
IDRegistro : quádrupla
Reduce ID Registro : Registro Filtrado Gera registro sem unmatch e maior que
limiar(0.15) Remove ruídos no PSM
![Page 24: Gerência de Dados na Web: Especial Big Data ONDUXHadoop: Extração de dados em BigData Universidade Federal do Amazonas Instituto de Computação André Porto.](https://reader034.fdocumentos.tips/reader034/viewer/2022042714/552fc13b497959413d8d9881/html5/thumbnails/24.jpg)
ONDUXHadoop
ONDUX
Dados Extraídos
![Page 25: Gerência de Dados na Web: Especial Big Data ONDUXHadoop: Extração de dados em BigData Universidade Federal do Amazonas Instituto de Computação André Porto.](https://reader034.fdocumentos.tips/reader034/viewer/2022042714/552fc13b497959413d8d9881/html5/thumbnails/25.jpg)
MapReduceReduce
![Page 26: Gerência de Dados na Web: Especial Big Data ONDUXHadoop: Extração de dados em BigData Universidade Federal do Amazonas Instituto de Computação André Porto.](https://reader034.fdocumentos.tips/reader034/viewer/2022042714/552fc13b497959413d8d9881/html5/thumbnails/26.jpg)
Avaliação 150 registros
51 registros modificados como novo PSMTotal de 164 rotulações82 blocos por implementação
Avaliação ManualGanho de 65%!
Implementação Corretos Errados
Normal 7 75
Hadoop 20 62
![Page 27: Gerência de Dados na Web: Especial Big Data ONDUXHadoop: Extração de dados em BigData Universidade Federal do Amazonas Instituto de Computação André Porto.](https://reader034.fdocumentos.tips/reader034/viewer/2022042714/552fc13b497959413d8d9881/html5/thumbnails/27.jpg)
Trabalhos Futuros Gerar mais de um bloco por termo para detectar
ambiguidades
Construir vários PSM`s e utilizar um classificador capaz de escolher o melhor grafo para um registro específico.
Realizar mais experimentos de acordo com a variação de limar e comparação de desempenho
Desenvolver Matching dentro do Hadoop
![Page 28: Gerência de Dados na Web: Especial Big Data ONDUXHadoop: Extração de dados em BigData Universidade Federal do Amazonas Instituto de Computação André Porto.](https://reader034.fdocumentos.tips/reader034/viewer/2022042714/552fc13b497959413d8d9881/html5/thumbnails/28.jpg)
ConclusãoGrandes possibilidades de melhoria do ONDUX
PSM sem ruído consegue melhorar a extração de dados
Implementação em Hadoop possibilita utilização em grande escala de dados
![Page 29: Gerência de Dados na Web: Especial Big Data ONDUXHadoop: Extração de dados em BigData Universidade Federal do Amazonas Instituto de Computação André Porto.](https://reader034.fdocumentos.tips/reader034/viewer/2022042714/552fc13b497959413d8d9881/html5/thumbnails/29.jpg)
Obrigado.
![Page 30: Gerência de Dados na Web: Especial Big Data ONDUXHadoop: Extração de dados em BigData Universidade Federal do Amazonas Instituto de Computação André Porto.](https://reader034.fdocumentos.tips/reader034/viewer/2022042714/552fc13b497959413d8d9881/html5/thumbnails/30.jpg)
Hands On