Big Data, JVM e Redes Sociais

Big Data, JVM e Redes Sociais

José Renato Pequeno

Zé Pequeno?

Objetivos

• Explosão de dados

• O que Big Data não é

• O que é Big Data?

• Por quê Big Data?

• Estudo de Caso

• Quais são as técnicas e tecnologias que envolvem Big Data?

• MapReduce (Hadoop)

• NoSQL (HBase)

• Machine Learning (Mahout/OpenNLP)

• Experimento e Resultados

• Conclusão

Mídias Sociais

Explosão de Dados

Fonte : http://www.thebigdatainsightgroup.com/site/article/big-data-infographic

http://www.thebigdatainsightgroup.com/site/article/big-data-infographic

Explosão de Dados

Explosão de DadosPropaganda da IBM

Fonte : http://www.youtube.com/watch?v=4MHCH56QRcU

http://www.youtube.com/watch?v=4MHCH56QRcU

Explosão de DadosCena do Filme “Controle Absoluto”

Fonte : http://www.youtube.com/watch?v=QkQ5jjpvhU0

http://www.youtube.com/watch?v=QkQ5jjpvhU0

Explosão de Dados

O que Big Data não é!

• Um Produto.

• Uma plataforma.

• Uma solução.

• Algo tangível.

• Data Warehouse

• Business Inteligence

Estudo de Caso

Fonte : http://info.abril.com.br/noticias/ti/big-data-ajudou-obama-a-ganhar-eleicoes-15012013-25.shl

Estudo de Caso

Fonte : http://www.twistsystems.com/blog/2012/08/06/voce-sabe-o-que-e-big-data/#.U0yMC8eLdPo

Quais são as profissões, técnicas e tecnologias que envolvem Big Data?

• Para extrair todas as possibilidades do big data, você precisaaprimorar suas técnicas ou mesmo desenvolver novastécnicas para conseguir desbloquear o potencial dos dados.Hoje o potencial é superior ao que havia antes, pois os dadosem tempo real não estruturado é enorme.

• "Qualquer tolo pode saber... o ponto é entender”, AlbertEinstein.

• O ponto principal é entender, para PREVER. É disso que oconhecimento se trata. Isso se chama Inteligência Preditiva.

Uma nova Profissão – Cientista de Dados

Analista de Negócio

Profissional de TI

O Momento Big Data

Fonte:http://www.gartner.com/newsroom/id/2575515

Falta de Profissionais

Recentes pesquisas estimam que por volta de 2015 big data demandará cerca de 4,4 milhões de profissionais em todo o mundo e que apenas 1/3 destes cargos poderá ser preenchido com as capacitações disponíveis hoje em dia.

Fonte: http://imasters.com.br/banco-de-dados/as-novas-profissoes-que-a-disseminacao-do-big-data-trara-para-o-mercado/

Brasil precisa formar profissionais para Big Data, diz Gartner

Área vai gerar 4,4 milhões de vagas em todo o mundo até 2015, sendo que 500 mil oportunidades serão geradas no País, prevê a consultoria.

Fonte: http://computerworld.com.br/especiais/2012/10/29/brasil-precisa-formar-profissionais-para-big-data-diz-gartner/

Quais são as profissões, técnicas e tecnologias que envolvem Big Data?

MapReduce

• Criado pela equipe do Google em 2004.

• Objetivo :

É uma técnica, que mapeia um problema e seus dadosassociados, para um grande número de computadores(paralelismo), estejam eles procurando por texto ou realizandocálculos. Os sistemas retornam os resultados (MAP) e ainformação é, então, “reduzida” (Reduce) para as respostas quequem definiu o problema estava procurando.

Hadoop

• Projeto Open Source

• Criado pela Yahoo em 2005

• Licenciado pela Apache

• É a combinação de dois projetos :

Hadoop MapReduce (HMR)

Hadoop Distributed File System (HDFS)

Hadoop

Apache Hadoop é um framework que permite o processamento de grandes volumes de dados através de clusters. É um sistema distribuído usando uma arquitetura Master-Slave armazenando informações através do Hadoop Distributed File System (HDFS) e implementa algoritmos de MapReduce.


• O HMR é a implementação do Hadoop do MapReduce, software que Google usa para acelerar as pesquisas endereçadas ao seu buscador.

Fonte : https://developers.google.com/appengine/docs/python/dataprocessing/overview

Hadoop Distributed File System (HDFS)

• O HDFS é um sistema de arquivos distribuídos otimizados para atuar em dados não estruturados e é também baseado na tecnologia do Google, neste caso o Google File System.

Eco Sistema Hadoop

• Em torno do Hadoop, a comunidade Apache mantém diversos projetos relacionados, como o Hbase, que é um banco de dados NoSQL que trabalha em cima do HDFS.

• Utilizado pelo Facebook para suportar seu sistema de mensagens e os seus serviços de informações analíticas em tempo real.

• É um sistema de captura de dados e framework de análise que trabalha com o Hadoop para processar e analisar grandes volumes de logs. Possui um conjuntos de ferramentas para visualizar e monitorar os dados capturados.

Fonte : http://incubator.apache.org/chukwa/

http://incubator.apache.org/chukwa/

• É um sistema distribuído para capturar de forma eficiente, agregar e mover grandes quantidades de dados de log de diferentes origens (servidores) para um repositório central, simplificando assim o processo de novas coletas dos dados para posterior análise pelo Hadoop. Flume e Chukwa são projetos parecidos, a principal diferença entre eles é que o Chukwa é utilizado para processamento batch.

Fonte : http://flume.apache.org

http://flume.apache.org/

• É um sistema de Data Warehouse para Hadoop que facilita a agregação dos dados, queries e análise de grandes datasetsarmazenados no Hadoop. Hive proporciona métodos de consulta de dados com uma linguagem parecida com o SQL, chamado de HiveQL. Possui interfaces JDBC/ODBC para integração com ferramentas de BI.

Fonte : http://hive.apache.org/

http://hive.apache.org/

• É um projeto que permite criar aprendizado automático e data mining usando Hadoop. Através do Apache Mahout, padrões podem ser descobertos através de grandes datasets. Possui algoritmos de identificação e classificação.

Fonte : http://mahout.apache.org/

http://mahout.apache.org/

• É uma ferramenta utilizada para transferir de forma eficiente grandes quantidades de dados entre o Hadoop e sistemas de armazenamento de dados estruturados, como base de dados relacionais.

• Permite importar tabelas individuais ou bases de dados entre o HDFS.

• Gera classes Java que permitem manipular os dados importados.

Fonte : http://sqoop.apache.org

http://sqoop.apache.org/

• É um projeto Apache que proporciona uma infraestrutura centralizada de serviços que permitem a sincronização dos clusters.

Fonte : http://zookeeper.apache.org

• É uma ferramenta de desenvolvimento, permite que os usuário de Hadoop se concentrem na análise dos dados e não em desenvolvimento de programas MapReduce. A análise é simplificada através de uma linguagem procedural de alto nível.

Fonte :http://pig.apache.org/

http://pig.apache.org/

Jaql

• É uma linguagem de consulta funcional e declarativa que facilita a exploração de informações no forma JSON (JavascriptObject Notation) e arquivos semi-estruturado de texto. Projeto iniciado na IBM, o Jaql permite fazer select, join, group by e filtrar dados armazenados em HDFS.

Fonte :https://code.google.com/p/jaql/

https://code.google.com/p/jaql/

• É um sistema de serialização de dados. Os projetos Hadoopmanipulam grande quantidade de dados e a serialização destes dados tem que ser uma excelente performance. Esta serialização pode ser de texto, json e em formato binário. Com Avro podemos armazenar e ler dados facilmente através de diferentes linguagens de programação.

Fonte :http://avro.apache.org

http://avro.apache.org/

• Apache UIMA (Unstructured Information Management Applications) É um framework para análise de grande volume de dados não estruturados, como texto, vídeo, audio, etc, obtendo conhecimento que pode ser relevante para uma determinada situação.

Fonte :http://uima.apache.org/

http://uima.apache.org/

O que é Big Data?Segundo a Wikipedia:

“Big Data consiste em datasets que crescem em uma escala tãogrande e complexa que fica difícil de processar utilizando asferramentas de gerenciamento de banco de dados tradicionais.As dificuldades incluem captura, armazenamento, busca,compartilhamento, analise e visualização.”

O que é Big Data?

Referências

• Aditya B. Patel, Manashvi Birla, Ushma Nair (2012), Addressing Big Data Problem Using Hadoop and Map Reduce.

• Kapil Bakshi (2012), Considerations for Big Data: Architecture and Approach.

• Sachchidanand Singh(2012), Big Data Analytics.• https://www.ibm.com/developerworks/community/blogs/ctaurion/entry/

conhecendo_hadoop?lang=en• http://manifestonaweb.wordpress.com/2009/06/02/entendendo-

mapreduce/

• http://mentablog.soliveirajr.com/2012/12/intro-to-parallel-processing-with-mapreduce/

• http://static.googleusercontent.com/external_content/untrusted_dlcp/research.google.com/en//archive/mapreduce-osdi04.pdf

• https://developers.google.com/appengine/docs/python/dataprocessing/overview#Determining_When_a_MapreducePipeline_Job_is_Complete

https://www.ibm.com/developerworks/community/blogs/ctaurion/entry/conhecendo_hadoop?lang=en

http://manifestonaweb.wordpress.com/2009/06/02/entendendo-mapreduce/

http://mentablog.soliveirajr.com/2012/12/intro-to-parallel-processing-with-mapreduce/

http://static.googleusercontent.com/external_content/untrusted_dlcp/research.google.com/en/archive/mapreduce-osdi04.pdf

Big Data, JVM e Redes Sociais

Technology

Transcript of Big Data, JVM e Redes Sociais