Big Data - IIMAecmshow.com.br/apresentacoes_2013/df2013/04_irineu...tecnologias GED/ECM Irineu...

Post on 23-Aug-2020

5 views 0 download

Transcript of Big Data - IIMAecmshow.com.br/apresentacoes_2013/df2013/04_irineu...tecnologias GED/ECM Irineu...

Big Data

Como utilizar melhor e mais rápido seus dados e

informações utilizando metodologias e

tecnologias GED/ECM

Irineu Granato, CDIA+

CBPP, AIIM (ECMp, ECMs, IOAp, BPMs, ERMs)

AIIM Professional Member

Big Data

A Representativdade do Big Data ?

O que é o Big Data ?

Big data se trata de um conceito, no qual o foco é o grande armazenamento de dados oriundo

de todos os meios, aliados a maior velocidade de crescimento destas informações.

Começou a ser sentido e consolidado na última década com o aumento relevante na utilização

de computadores, notebook e todos os tipos de device, principais geradores e replicadores de

dados.

”Estamos na era onde todas as ações realizadas pela humanidade geram dados registrados”

Porque chamam de Big Data e não Big Information ?

Por conceito: Um dado só passa ser informação quando processado ou colocado dentro de

um contexto.

Dados analisados e interpretados sob determinada ótica, e a partir de análise, se torna

possível qualificar, classificar, medir, quantificar, etc…

Cliente A Cliente B Cliente C Cliente D Cliente E

O que motiva o conceito “Big Data” no Mundo ?

É a oportunidade de usar os dados coletivos “Big” com a possibilidade de

prever e reconhecer padrões e comportamentos para aumentar a

receita e otimizar resultados a seus processos de negócios.

Volumes do Big Data através do mundo

Variedade nos meios de geração de Big Data através do mundo

Velocidade na geração de Big Data através do mundo

Desafios mundiais na utilização do conceito de “Big Data” ?

•  Os desafios decorrem as exigências para eDiscovery, governança, conformidade de

privacidade e armazenamento, aumento contínuo de regulamentos, legislações, ISO, SOX,

etc...

“Quanto mais dados, mais controles serão necessários”

•  Crescente de dados exponencial que já preocupam os especialistas pela falta de espaço:

•  Segundo a IBM em 2008 foram produzidos cerca de 2,5 quintilhões de bytes todos

os dias;

•  90% dos dados no mundo foram criados nos últimos dois anos;

•  Crescentes formatos de dados, mídia rica, línguas diferentes, nuvens e arquivos locais são

desafios para serem tratados

Saiba o que está procurando e como ivestigar

Encontrar sem saber exatamente o que procurar, mas sempre com padrão:

•  Análise de conteúdo, tais como mineração de texto, difere da busca tradicional. Análise

de texto por relevância pode ser o início.

A análise de texto faz toda a diferença, pois é particularmente interessante em áreas

onde os usuários devem descobrir idéias novas e desconhecidas, pois desconhecem o

seu próprio contexto do Big Data.

•  Antes de iniciar é necessário saber que padrões ou percepções estamos querendo com

o contexto de Big Data. Se é níveis hierárquicos, documentos correlacionais, padrões

geográficos, etc..

É necessário compreender quais resultados poderão ser obtidos com o Big Data

existente em termos de possibilidades.

Técnicas de extração de informações geralmente são agrupados da seguinte forma

•  Extração de arquivos do sistema: extração de propriedades do arquivo, como nome do arquivo,

tamanho, data de modificação, data de criação, atributos, tipo mime, etc

extração de propriedades Documento: extração de propriedades de documentos específicos,

dependendo do formato do documento, como título, autor, editora, versão, etc

•  Extração de propriedades Email: extração de propriedades comuns, tais como e-mail do remetente,

destinatário, Enviado Data, Assunto, tópico de conversação e outras propriedades, como cabeçalhos

de Internet, o remetente original, etc

•  ECM Plataformas: extrações de todas as propriedades de documento no ECM como estes são

armazenados com o documento, incluindo as configurações de segurança.

•  Cálculo Hash: cálculo de valores de hash para efeitos de identificação, suporte a vários tipos de hash

como MD5 e SHA1.

•  Detecção duplicado: calcular os valores de hash com base no conteúdo de mensagens de e-mail ou

binários para outros tipos de arquivo para encontrar e detectar documentos duplicados.

•  Detecção de idioma: a detecção de idioma do documento, o suporte para mais de 400 idiomas.

•  Extração Conceito: extração de pré-definido (texto completo) consultas que identificam documento

e conteúdo de informação com combinações específicas de palavras-chave ou (fuzzy e curinga)

padrões palavra dentro

•  Extração Entidade: extração de entidades de base que podem ser encontrados em um texto, tais

como: pessoas, empresas, locais, produtos, países e cidades.

Técnicas de extração de informações geralmente são agrupados da seguinte forma

•  Extração Fato: essas são as relações entre as entidades, por exemplo, uma relação contratual entre

uma empresa e uma pessoa.

•  Extração de Atributos: extração das propriedades das entidades encontradas, como o título da

função, a idade de uma pessoa e número de segurança social, endereços de locais, quantidade de

produtos, números de matrícula do carro, e do tipo de organização.

•  Extração de Eventos: são eventos interessantes ou atividades que envolvam entidades, tais como:

"uma pessoa fala para outra pessoa", "uma pessoa viaja para um local", e "uma empresa transfere o

dinheiro para outra empresa”.

•  Detecção Sentimento: encontrar documentos que expressam um sentimento e determinar a

polarização e a importância do sentimento expresso.

•  Processamento de linguagem estendida natural: Part-de-Speech (POS) para a marcação de pronome,

co-referência e anáfora resolução, a normalização semântica, agrupamento limite entidade, e co-

ocorrência de resolução.

Como fazer extração de informações e enriquecê-las

Um dos métodos para identificar entidades nomeadas é com a ajuda de expressões regulares, que

permitem que os dados, números de telefone, endereços de Internet, números de contas bancárias e

números de segurança social a ser bastante precisão identificados. Um bom exemplo de uma expressão

regular para encontrar um endereço de e-mail é:

\ b [A-Z0-9._% + -] + @ [A-Z0-9 -.]. + \ [A-Z] {2,4} \ b

http://en.wikipedia.org/wiki/Regular_expression

Coleta de Dados Automatizada a partir de múltiplas origens

Estruturação da Informação

Como fazer extração de informações e enriquecê-las

Como fazer extração de informações e enriquecê-las

Relacionamento entre dados e informações

Podemos coletar facilmente ótimas informações extraídas que permite a visualização de dados

avançados, tais como a árvore de estrela ou um mapeamento geográfica.

Lembre-se: Todos ligados a Big Data da companhia, oriundo de diversos legados e conteúdos externos

da Internet vinculados a períodos e datas, se necessário.

Mineração dos dados transformando em informação:

Coleta e estruturação dos dados:

Análise Cronológica da Informação:

Georeferenciamento da informação:

Análise de relacionamento da Informação:

Perguntas ?

Irineu Granato, AIIM ECMp, ECMs,AIIM IOAp, AIIM ERMs, BPMp, CBPP, CDIA+