Uma introdução a Big Data - intel.com.br · de valor agregado e serviços (como gestão,...

16
Guia de Planejamento Introdução à Big Data Como avançar com uma implantação bem-sucedida Junho de 2014 Por que ler este documento Este guia de planejamento fornece informação valiosa e etapas práticas para gerentes de TI que desejam planejar e implementar iniciativas analíticas Big Data, incluindo: O cenário atual de TI para Big Data e os desafios e oportunidades associados a esta força desagregadora Tecnologias de Big Data, com foco na estrutura do Apache Hadoop* e na analítica na memória A importância de colocar a infra-estrutura certa em vigor para uma implantação de Big Data ideal Três "próximas etapas" básicas e uma lista de verificação para ajudar os gerentes de TI a avançar com o planejamento e a implementação de seu próprio projeto de Big Data

Transcript of Uma introdução a Big Data - intel.com.br · de valor agregado e serviços (como gestão,...

Guia de Planejamento

Introdução à Big Data Como avançar com uma implantação bem-sucedida

Junho de 2014

Por que ler este documento Este guia de planejamento fornece informação valiosa e etapas práticas para gerentes de TI que desejam planejar e implementar iniciativas analíticas Big Data, incluindo:

• O cenário atual de TI para Big Data e os desafios e oportunidades associados a esta força desagregadora

• Tecnologias de Big Data, com foco na estrutura do Apache Hadoop* e na analítica na memória

• A importância de colocar a infra-estrutura certa em vigor para uma implantação de Big Data ideal

• Três "próximas etapas" básicas e uma lista de verificação para ajudar os gerentes de TI a avançar com o planejamento e a implementação de seu próprio projeto de Big Data

Índice 3 O cenário atual de TI para analítica de Big Data

4 Entendendo tecnologias de Big Data

6 Implantação de soluções de Big Data

11 Introdução à analítica de Big Data: três etapas básicas

14 Recursos Intel para aprender mais

3 Intel IT Center Guia de Planejamento | Introdução à Big Data

Cenário atual de TI para analítica de Big Data

O novo burburinho sobre Big Data mudou de exagerada para uma conversa mais ponderada. Tecnologias ainda em amadurecimento, escassez de recursos e mudanças na forma como TI e os negócios trabalham juntos são a nova realidade: Explorar Big Data não é simples.

Ainda assim, o caso de negócios de Big Data permanece convincente. Apesar de uma reação contrária de céticos queficaramdesiludidoscomaspromessaseconômicasde Big Data, as organizações estão progredindo de forma contínua. Por exemplo, a pesquisa da Intel de 2013 sobre Big Data com 200 gerentes de TI nos Estados Unidos concluiu que mais da metade dos entrevistados já haviam implementado ou estão atualmente implementando uma distribuição Apache Hadoop*.1 Manter o status quo representa um risco muito grande de ser deixado para trás pela concorrência.

Hoje, os fornecedores oferecem um número crescente de plataformas e soluções abrangentes e prontas para a empresa baseadas em inovações tecnológicas. A conversa passou de "Há valor em Big Data?" para "Como posso usar isso para criar valor e vantagem competitiva para minha organização?"

O que vem por aí para Big Data: analítica preditiva e a Internet das coisas Big Data deriva a maior parte de seu valor de insights que produz quando analisado — ajudando as organizações a descobrirpadrões,encontrarsignificado,tomardecisõese,finalmente,responderaomundocominteligência.Àmedida que a tecnologia amadurece e a conversa continua a evoluir, as organizações irão desenvolver novas maneiras de obter insight operacionalizando abordagens de Big Data que, em geral, têm estado fora do alcance para os negócios tradicionais.

Por exemplo, as organizações estão se voltando para a analítica preditiva para ajudá-las a se aprofundar no compromisso com os clientes, otimizar processos e reduzir custosoperacionais.Acombinaçãodefluxosdedadosem tempo real e analítica preditiva — por vezes referida como processamento que nunca para — tem o potencial deprovervantagemcompetitivasignificativaparaosnegócios. Para obter uma visão geral da analítica preditiva, inclusive por que é importante e como os negócios podem operacionalizar isso, consulte Analítica preditiva 101: Inteligência de Big Data da próxima geração.

A Internet das coisas (IoT)— dispositivos habilitados para a Internet que fazem uma rede e se comunicam uns com os outros e com a nuvem — também está direcionando a inovação da analítica de Big Data. O IDC estima que a IoT envolverá 212 bilhões de "coisas" até o final de 2020,2 gerando enormes quantidades de dados em um fluxo de dados em rápida movimentação. A maioria desses dados será gerada por máquinas através de sensores integrados e acionadores ligados por meio de redes com e sem fio que se comunicam usando o mesmo protocolo que se conecta à Internet. Dados gerados por humanos a partir de dispositivos, como celulares e tablets, também serão parte da mistura. Esses dados podem ser usados para desbloquear as correlações entre eventos, automatizar sistemas inteligentes e fornecer a introspecção para resolver problemas sociais e comerciais novos e mais complexos. Saiba mais sobre a perspectiva da Intel em dados gerados por máquina em Mineração de dados distribuídos e Big Data.

Aumento da pressão sobre o TI Com tanta coisa em jogo para os negócios, as iniciativas de Big Data não podem acontecer em um vácuo. O TI deve firmarumaforteparceriacomlíderesdenegóciosparaidentificaroportunidadesdeBigDataeseguiremfrentecom o apoio necessário. Big Data também exige novos conjuntos de habilidades técnicas, analíticas e de negócios para ajudar a modelar problemas de negócios complexos e descobrir insights, integrar sistemas, construir bancos de dados enormes e administrar estruturas de software distribuído.

O que é exatamente "Big Data"?

Big Data refere-se a grandes conjuntos de dados que estão em ordens de magnitudes maiores (volume), maisdiversificadas,incluindodadosestruturados,semiestruturados e não estruturados (variedade), e chegando mais rapidamente (velocidade) do que você ou sua organização já viram. Essa avalanche de dados é gerada por dispositivos conectados — de PCs e smartphones a sensores, como leitores de RFID e câmeras de trânsito. Além disso, é heterogênea e vem em muitos formatos, incluindo texto, documentos, imagens, vídeos, weblogs, transações e muito mais.

4 Intel IT Center Guia de Planejamento | Introdução à Big Data

Uma adoção plena da analítica de Big Data envolve três etapas básicas de alto nível. A ordem é importante, embora as atividades serão sobrepostas conforme você avançar:

1. Trabalhar com líderes de negócios para determinar os limites culturais da sua implementação — interna e externamente.

2. Adquirir os conjuntos de habilidades de negócios, tecnologia e analítica que você precisa, como cientistas de dados, arquitetos de sistemas e engenheiros de dados.

3. Identificarosrequisitosdetecnologiaeimplementarapilha de solução.

Embora todas as três etapas sejam essenciais para seu sucesso, este guia concentra-se na etapa 3: implementação de soluções de Big Data. O International Institute for Analytics (Instituto Internacional para Analítica) é uma excelente fonte de recursos para as duas primeiras etapas.

Entendendo tecnologias de Big Data

Asferramentaseinfraestruturatradicionaisnãosãoeficientespara trabalhar com conjuntos de dados maiores, variados e rapidamente gerados. Para que as organizações realizem o pleno potencial de Big Data, elas devem encontrar uma nova abordagem para capturar, armazenar e analisar dados.

As tecnologias de Big Data usam o poder de uma grade distribuída de recursos de computação e "arquitetura de nada compartilhado", estruturas de processamento distribuído e bancosdedadosnãorelacionaispararedefiniramaneiracomodados são gerenciados e analisados. As inovações de servidores e soluções de analítica na memória de expansão tornam possível otimizaropoderdecomputação,escalabilidade,confiabilidadee custo total de propriedade para as mais exigentes cargas de trabalho de analítica.

A pilha de solução de Big Data Dependendo do caso de uso, sua pilha de solução de Big Data inclui uma infraestrutura de alto rendimento que confere poder a uma combinação de estruturas de processamento distribuído, como software Apache Hadoop, bancos de dados analíticos relacionais e não relacionais e aplicativos analíticos.

Do ponto de vista funcional, essas tecnologias se complementam e trabalham juntas como uma plataforma flexíveldeBigDataquetambémpodetirarproveitoda arquitetura de gerenciamento de dados existente. Por exemplo, a análise histórica de Hadoop* pode ser movida para bancos de dados analíticos ou integrada a dados estruturados em data warehouses corporativos tradicionais (EDWs) para análise adicional.

Software Apache Hadoop* O software Apache Hadoop é uma estrutura completa de código-fonte aberto para Big Data e emergiu como uma das melhores abordagens para processamento de conjuntos de

dados grandes e variados. A estrutura do Hadoop fornece um modelo de programação simples para processamento distribuído de grandes conjuntos de dados. Inclui o Apache* Hadoop Distributed File System (HDFS*), uma estrutura para planejamento de tarefas chamada Apache Hadoop YARN e uma estrutura de processamento paralelo chamada Apache Hadoop MapReduce. Diversos componentes suportam a ingestão de dados (o serviço Apache Flume*), consultas e análise (software Apache Pig*,ApacheHive*eApacheHBase*)ecoordenaçãodosfluxosde trabalho (Apache Oozie), assim como o gerenciamento e o monitoramento do cluster de servidor subjacente (software Apache Ambari*). Combinados, os componentes de software Apache são uma estrutura poderosa para processamento e análise de dados distribuídos em lote para análise histórica.

Ouça os especialistas do Apache Hadoop*

Uma maneira de aprender sobre o software Apache Hadoop* e seus componentes é ouvir diretamente de especialistas profundamente engajados na comunidade de código-fonte aberto e seu trabalho de desenvolvimento. Escute os podcasts de entrevistas com líderes da comunidade para Apache Hadoop MapReduce, the Apache* Hadoop* Distributed File System (HDFS*), Apache Hive*, Apache Pig* e HCatalog, descrevendo como cada um funciona, onde se encaixa na pilha de Hadoop e planos de desenvolvimento contínuo. PDFs acompanham cada podcast.

5 Intel IT Center Guia de Planejamento | Introdução à Big Data

A estrutura do Hadoop está disponível através da comunidade de código-fonte aberto ou como uma distribuição em pacote de fornecedores que incluem software de valor agregado e serviços (como gestão, treinamento e suporte). Muitas dessas distribuições podem se integrar a EDWs, sistemas de gerenciamento de banco de dados relacionais (RDBMs) e a outros sistemas de gerenciamento de dados para que dados possam ser movidos entre clusters do Hadoop e outros ambientes para expandir o conjunto de dados a processar ou consultar.

Analítica na memória A computação na memória tem o potencial de afetar significativamente o poder e a velocidade da analítica de Big Data. Gartner reconhece seu valor estratégico, identificandoacomputaçãonamemóriacomoumadas10principais tendências de tecnologia estratégica para 2013, com a capacidade de fornecer oportunidades de negócios transformacionais.3 Com a computação na memória, a tomada de decisão em tempo real baseada em dados torna-se possível.

A computação na memória elimina uma das principais limitações para muitas soluções de Big Data — a alta latência e gargalos de E/S causados pelo acesso aos dados a partir do armazenamento baseado em disco. A computação na memória mantém todos os dados relevantes na memória principal do sistema de computador. Os dados podem ser acessados em ordens de magnitudes mais rápidas, tornando-os disponíveis para análise imediata — e insights de negócios estarão disponíveis quase que instantaneamente. Com a computação na memória, data marts e data warehouses inteiros podem ser movidos para DRAM para análise rápida de todo o conjunto de dados.

A analítica na memória integra aplicativos analíticos e bancos de dados na memória em servidores dedicados. Isso é ideal para cenários analíticos com requisitos de computação pesados e processamento de dados em tempo real. Exemplos de soluções de banco de dados na memória incluem a plataforma SAP HANA* (desenvolvida em conjunto pela Intel e SAP), Oracle* Database In-Memory Option for Oracle 12c, sistemas IBM* na memória com BLU Acceleration e SAS* In-Memory Analytics.

Para saber mais sobre as soluções atuais na memória de fornecedores e como a inovação de computação na memória está mudando a maneira como as empresas analisam Big Data, leia o white paper Mudando a maneira como as empresas computam e competem com a analítica.

Intel e Cloudera unem forças Emmarçode2014,aIntelanunciouumpatrimôniosubstancial (US$ 740 milhões) e investimento em propriedade intelectual na Cloudera, fornecedora da versão do software Apache Hadoop* mais popular no mercado. A Intel também anunciou que iria sair do mercado de software de analítica de Big Data com a sua própria distribuição e trabalhar com a Cloudera para integrar otimizações do Intel® Distribution for Apache Hadoop (também chamada de Plataforma de Dados da Intel) à distribuição da Cloudera, incluindo o Apache Hadoop (CDH).

Juntas, Intel e Cloudera continuam a inovar por meio de tecnologias de código-fonte aberto, com foco na segurança, rendimento, gerenciamento e aplicativos. A Cloudera também trabalha em parceria com a Intel para certificar-sedequeseusprodutosfazemomelhorusodas tecnologias do data center da Intel. A colaboração de tecnologia da Intel com a Cloudera também combina esforços em tecnologias fundamentais do Hadoop* para ajudar a avançar a estrutura de software e encorajar os desenvolvedores de código-fonte aberto a inovar na e com base na plataforma.

Para obter mais informações sobre o CDH, visite cloudera.com.

Computação na memória: mais potência e velocidade

A computação na memória já existe há algum tempo na forma de grades de dados distribuídos e instalações grandes e caras. No entanto, os sistemas na memória de hoje são mais rápidos, mais potentes e com melhor eficiênciadecusto.Porquê?ConformeprevistopelaLei de Moore, o custo de memória continua a cair — oscustosdememóriaflashDRAMeNANDcaíramdrasticamente — e, ao mesmo tempo, o número de processadores por chip está aumentando. Com a família do processador Intel® Xeon® E7 v2, um servidor dequatrosocketspodeserconfiguradocomaté6terabytes (TB) de memória e um servidor de oito socketscomaté12TB,suficienteparamantermuitosdos maiores bancos de dados de hoje na memória de um único servidor.

Isso, combinado com as inovações de servidor, como melhorias de rendimento (por exemplo, a tecnologia hyperthreading) e o amadurecimento de plataformas de software analítico, tornam as arquiteturas de banco de dados na memória de expansão mais acessíveis.

6 Intel IT Center Guia de Planejamento | Introdução à Big Data

Bancos de dados NoSQL Esses bancos de dados não relacionais vêm em quatro tipos diferentesdearmazenamentos—valorchave,colunar,gráficooudocumento — e fornecem armazenamento de alto desempenho e alta disponibilidade em escala da web. Eles são úteis para a manipulaçãodeenormesfluxosdedadosetiposdeesquemasedadosflexíveiscomtemposderespostarápidos.Osbancosde dados NoSQL usam uma arquitetura distribuída e tolerante afalhas,queforneceescalabilidadeeconfiabilidadedosistema.Exemplos de bancos de dados NoSQL incluem software Apache HBase, Apache Cassandra*, MongoDB* e Apache CouchDB*.

Bancos de dados analíticos colunares Esses bancos de dados baseados em grade armazenam dados usando colunas em vez de linhas, reduzindo o número de elementos de dados a serem lidos durante o processamento de consultas e fornecendo rendimento rápido para a execução de um grande número de consultas simultâneas. Os bancos de dados analíticos colunares são ambientes somente leitura que fornecem vantagens de desempenho e escalabilidade com relação ao preço sobre RDBMSs convencionais. São usados para EDWs e outros aplicativos com consultas

intensivas e otimizados para armazenamento e recuperação de analítica avançada. As plataformas analíticas SAP* Sybase* IQ, ParAccel* Analytic Platform e HP* Vertica* dependem de bancos de dados analíticos colunares.

Bancos de dados gráficos e ferramentas de analítica OsbancosdedadosgráficossãoumtipodebancodedadosNoSQL cada vez mais importante. Esses bancos de dados são especialmente úteis para dados altamente conectados, em que as relações são mais numerosas ou mais importante queasentidadesindividuais.Asestruturasdedadosgráficossãoflexíveisefacilitamaconexãoemodelagemdedados.São mais rápidas de consultar e mais intuitivas para modelar e visualizar. Grande parte do crescimento em Big Data é de naturezagráfica.

Bancosdedadosgráficostrabalhamsozinhosouemconjuntocomoutrasferramentasgráficas,comovisualizaçõesdegráficos,analíticadegráficoseaprendizadodemáquina.Porexemplo, com a aprendizagem de máquina, bancos de dados gráficospodemserusadosparaminerarepreverrelaçõesparasolucionar uma série de problemas.

Implantação de soluções de Big Data

As implantações de Big Data podem ter necessidades de grandes infraestruturas. As escolhas de hardware e software feitas no momento do design podem ter um impacto significativonorendimentoenocustototaldepropriedade.O TI pode obter o máximo de uma implantação de Big Data assegurando que a infraestrutura esteja em vigor para o seu casodeusoespecíficoequeosoftwareHadoopedeanalíticaestejam otimizados e ajustados para melhor rendimento.

Uma plataforma de Big Data flexível e extensível ComumaplataformadeBigDataflexíveleextensível,oTIpode construir os recursos necessários para os negócios enquantoescolheossistemascommelhoreficiênciadecusto para lidar com cada caso de uso. Os três modelos de uso a seguir são baseados uns nos outros para prover maior valor.

Extrair, transformar e carregar (ETL) Extrair, transformar e carregar (ETL) agrega, pré-processa e armazena dados, mas as soluções ETL tradicionais não conseguem lidar com o volume, velocidade e variedade que caracterizam Big Data. Como a plataforma Hadoop

armazena e processa dados em um ambiente distribuído, o Hadoop divide dados recebidos em partes e lida com o processamento de grandes volumes em paralelo. A escalabilidade inerente do Hadoop acelera tarefas ETL para queotempoparaanálisesejasignificativamentereduzido.Saiba mais sobre ETL usando o software Hadoop no white paper Extrair, transformar e carregar Big Data com o Apache Hadoop*.

Consultas interativas Combinar a estrutura do Hadoop com um moderno EDW baseado na arquitetura de processamento paralelo massivo (MPP) amplia sua plataforma de Big Data para lidar com consultas interativas e analítica mais avançada. O Hadoop pode ingerir e processar grandes volumes de dados de streamingdiversificadosecarregá-losnoEDWparaconsultas,análise e emissão de relatórios Structured Query Language (SQL) ad hoc. Como o Hadoop processa uma grande variedade de tipos de dados, o EWD é enriquecido com dados que não são geralmente possíveis de armazenar em EDWs tradicionais. Além disso, os dados armazenados na infraestrutura do Hadoop podem persistir por muito mais tempo, permitindo que você forneça mais dados granulares detalhadospormeiodoEDWparaanálisedealtafidelidade.

7 Intel IT Center Guia de Planejamento | Introdução à Big Data

Analítica preditiva A analítica preditiva extrai maior valor de dados usando dados históricos para prever o que pode acontecer no futuro. O TI da Intel recomenda combinar um EWD baseado na arquitetura MPP que pode realizar analítica preditiva complexa rapidamente com um cluster Hadoop para ETL rápido, escalável e acessível. O cluster Hadoop também pode ser estendido com ferramentas e outros componentes para executar processamento adicional de dados e funções analíticas. Para obter mais detalhes sobre esse modelo de uso, leia o white paper Executar analítica preditiva e consultas interativas em Big Data.

Plataforma de Big Data de TI da Intel Como o TI da Intel tem trabalhado com os negócios para desenvolver casos de uso de Big Data, eles combinaram elementos dos primeiros dois modelos de uso com analítica preditivaparaumainfraestruturadeanalíticaflexívelhíbrida.

O IT da Intel usa o Hadoop para descarregar a ingestão, transformação e integração de dados não estruturados de mídias sociais, tráfego da web e logs de sensores em um EDW baseado na arquitetura MPP. A vantagem aqui é que, adicionando estrutura aos dados heterogêneos no Hadoop durante a extração e transformação e, em seguida, carregando-os no EWD, os usuários podem aplicar inteligência de negócios tradicional (BI) e ferramentas de analítica para consultas interativas e outras análises avançadas.

O TI da Intel implanta o software Hadoop em execução na família do processador Intel® Xeon® E5 para ingestão de dados heterogêneos, armazenamento em cache, indexação da web e analíticademídiassociais.OsoftwareHadoopfiltraosdadosconforme necessário para análise e move os mesmos para um dispositivo de data warehouse.

O dispositivo de data warehouse é baseado na arquitetura MPP e é usado para executar rapidamente analíticas preditivas complexas e exploração de dados interativos, com resultados quase em tempo real. O dispositivo de data warehouse é uma solução de terceiros construída na família do processador Intel Xeon E7 v2 para prover alto desempenho e disponibilidade a um custo relativamente baixo. O dispositivo integra-se às soluções de BI existentes e fornece suporte a ferramentas de analítica avançada, como o pacote estatístico R.

O TI da Intel estendeu ainda mais sua plataforma de Big Data desenvolvendo um mecanismo de analítica preditiva para fornecer serviços preditivos em andamento. Um primeiro caso de uso é a implementação de um serviço de recomendação em tempo real. Para este serviço, a equipe de BI desenvolveu algoritmos preditivos usando a biblioteca de mineração de dados Apache Mahout*. Esses algoritmos agem sobre dados históricos armazenados no Hadoop e, em seguida, transferem os resultados para o banco de dados NoSQL Cassandra*. O software Cassandra fornece a recuperação de dados rápida de baixa latência necessária para cenários de uso em tempo real. Durante uma interação do usuário online, os resultados são recuperados do banco de dados Cassandra e combinados aos dados contextuais (entrada do usuário e localização, por exemplo) para fornecer recomendações de melhor ajuste em tempo real.

Para prover a capacidade de resposta de consulta extrema necessária para análise em tempo real de conjuntos de dados de grande volume, o TI da Intel conduziu testes para determinar a plataforma ideal para uma solução de BI na memória de alto desempenhocomeficiênciadecusto.ConsulteConfigurando uma plataforma de BI na memória para desempenho extremo para melhores práticas relacionadas a combinar velocidade do servidor, número de núcleos de processadores, tamanho de cache e memória para servidores baseados em processadores Intel Xeon padrão da indústria.

8 Intel IT Center Guia de Planejamento | Introdução à Big Data

Infraestrutura para os Servidores de Estrutura Hadoop* A estrutura do Hadoop funciona segundo o princípio de mover a computação para mais perto de onde os dados residem e a estrutura normalmente é executada em clusters de servidores grandes construídos usando hardware padrão. A estrutura é facilmente escalada em servidores baseados em processadores Intel Xeon. A combinação da estrutura Hadoop com plataformas de servidores padrão fornece a base para uma plataforma de analítica de alto desempenho comeficiênciadecustoparaaplicativosemparalelo.

Numa perspectiva de custo-benefício, dois servidores de socket baseados na família do processador Intel Xeon E5 são a escolha ideal para a maioria das cargas de trabalho do Apache Hadoop. Esses servidores são geralmente mais eficientesparaambientesdecomputaçãodistribuídadoque plataformas de multiprocessadores em grande escala. Eles oferecem desempenho excepcional e proporcionam maioreficiênciaembalanceamentodecargaerendimento

paralelo em comparação a servidores menores de socket único.Astecnologiasparaaceleraracriptografia,reduzira latência e aumentar a largura de banda estão integradas aos processadores.

AlgumascargasdetrabalhodeETL,comoaclassificaçãodedados simples, não requer o poder de processamento dos processadores Intel Xeon. Nesse caso, você pode ser capaz de executar tais cargas de trabalho leves de forma mais eficienteemmicroservidores baseados na família do produto processador Intel Atom™ C2000. Esses processadores de classe de servidor fornecem alta densidade e consumo de energia extremamente baixo (tão pouco quanto 6 watts).

Tanto processadores Intel Xeon quanto Intel Atom oferecem suporte à memória de código de correção de erros (ECC), que automaticamente detecta e corrige erros de memória, uma fonte comum de corrupção de dados e inatividade do servidor. Um cluster Apache Hadoop tem muita memória (normalmente cerca de 64 gigabytes [GB] ou mais por servidor), tornando a memória ECC um recurso crítico.

Plataforma de Big Data flexível de TI da IntelÀmedidaquenovoscasosdeusosãodesenvolvidos,oTIdaIntelpodeestenderaplataformadeBigDatadaempresa.Conformeosrecursoscrescem,oTIdaInteltemaflexibilidadeparaexecutarcargasdetrabalhonaarquiteturademenorcusto.

Massively ParallelProcessing Platform

Apache Hadoop* Framework

PredictiveAnalytics Engine

• Third-party solution• Faster processing than traditional systems• Built on Intel® Xeon® processor E7 family

• Developed in-house• Enables real-time, ongoing predictive service

• Built on Intel Xeon processor E7 family

• Optimized for Intel Xeon processor E5 family, Intel Solid-State Drives, and Intel 10 gigabit Ethernet

• Distributed file system that can scale linearly • Apache HBase* NoSQL database

9 Intel IT Center Guia de Planejamento | Introdução à Big Data

Processadores Intel® para a Estrutura Apache Hadoop*

Família do processador Intel® Xeon® E5 v2

• Construído na microarquitetura Ivy Bridge usando a tecnologia líder de mercado da Intel do transistor de 22 nanômetros (nm) 3D Tri-Gate para rendimento superior e eficiência energética

• Escala elástica para adaptar-se às flutuações de carga de trabalho e aumentar as demandas de rede e de armazenamento

• Aprimoramentos de rendimento e E/S para melhorar e equilibrar o rendimento geral do sistema e aumentar a eficiência do servidor

• Alta largura de banda, baixa latência para aplicativos de computação de alto desempenho

• Permite rápida criptografia e descriptografia para incentivar a proteção de dados generalizada

• Memória de códigos de correção de erros (ECC)

• Suporte para rede integrada de 10 gigabit Ethernet (10 GbE) e infraestrutura de data center simplificada

• Monitoramento e gerenciamento de energia no nível do servidor e do data center para otimizar o consumo de energia

• Rendimento para aplicativos com thread simples e múltiplo, incluindo computação de alto rendimento

• Suporte para soluções abertas e interoperáveis

Família de processadores Intel Atom™ • Rendimento para cargas de trabalho leves e expansivas

• Sistema em um chip (SoC) oferece extrema densidade que maximiza o espaço em rack

• Consumo de energia muito baixo, com envelopes de energia tão baixos quanto 6 watts

• Memória ECC

A Intel oferece opções flexíveis para implantações do Apache Hadoop* de alto desempenho com eficiência de custo.

Redes e armazenamento AsplataformasdeservidoresdeBigDatasãobeneficiadaspor melhorias drásticas em recursos de computação e armazenamento de mainstream, complementadas por soluções de 10 gigabit Ethernet (10 GbE) para um sistema equilibrado. A largura de banda aumentada associada a 10 GbE é fundamental para a importação e replicação de grandes conjuntos de dados entre servidores. As soluções Intel 10 gigabit Ethernet fornecem conexões de alta taxa de transferência, e os Intel Solid-State Drives (SSDs) são unidades de disco rígido de alto rendimento e alta taxa de transferência para o armazenamento bruto.

Paraaumentaraeficiência,oarmazenamentoprecisaoferecersuportearecursosavançados,comocompactação,criptografia,hierarquização de dados automatizada, deduplicação de dados,eliminaçãodecodificaçãoethinprovisioning—todoscompatíveis com a família do processador Intel Xeon E5 hoje.

Saibamaissobreconstruçãoequilibrada,comeficiênciadecusto de clusters Hadoop em 10 GbE.

A Intel tem feito testes consideráveis usando servidores baseados na família do processador Intel Xeon E5 como a plataforma de servidor de linha de base para clusters Hadoop. Uma equipa de peritos em Big Data, rede e armazenamento da Intel mediu os resultados do rendimento do Apache Hadoop para diversas combinações de componentes de rede e de armazenamento. O equilíbrio dos recursos de computação, armazenamento e rede forneceram uma vantagem de rendimentosignificativa—deacordocomcritériosdereferência TeraSort, o tempo de processamento foi reduzido de 4 horas para 12 minutos— resultados quase em tempo real.4, 5, 6 Para obter mais informações sobre clusters Hadoop de alto desempenho em tecnologias Intel, consulte o white paper Tecnologias de Big Data para resultados quase em tempo real.

10 Intel IT Center Guia de Planejamento | Introdução à Big Data

Infraestrutura para soluções de analítica na memória Servidores Enquanto o software Hadoop pode ingerir e preparar grandes conjuntos de dados heterogêneos, a analítica avançada (monitoramento, consultas interativas, análise preditiva) requer uma infraestrutura mais poderosa. As plataformas de data warehouse MPP modulares são oferecidas como um dispositivo por diversos fornecedores. Esses dispositivos são fornecidos com software pré-integrado para implantação simplificadaeapresentamprocessamento,memória,E/Se armazenamento altamente otimizados. As ferramentas integradas de gerenciamento de dados e analítica avançada fornecem novas maneiras de trabalhar com seus dados. Muitas soluções também podem ser compatíveis com o seu ambiente de BI e analítica existente.

Os requisitos de rendimento extremo podem exigir um dispositivo de analítica na memória que combine banco de

dados e analítica em um sistema dedicado. Esses sistemas são ideais para processamento de eventos complexos (CEP) e outros aplicativos em tempo real. Os servidores baseados na família de produtos do processador Intel Xeon E7 v2 fornecem a memória, osrecursosdeexecuçãoeaconfiabilidadenecessáriosparatais soluções de memória de escala corporativa exigentes. Por exemplo, a capacidade de memória é até três vezes maior do que a geração anterior,7 e você pode aumentar o desempenho do banco de dados em até 148 vezes (14.700 por cento) usando as soluções de memória no IBM DB2 10.5 com BLU Acceleration para consultas responsivas.4, 8 Os servidores de quatro sockets podemserconfiguradoscomaté6terabytes(TB)dememóriaeos servidores com oito sockets com até 12 TB.

Além disso, como os sistemas na memória geralmente lidam com conjuntos de dados maiores e cargas de trabalho mais escaláveis por servidor do que as soluções tradicionais, eles fornecem integridade de dados e alta disponibilidade necessárias para apoiar os processos de críticos para a missão.

Processadores Intel® para analítica na memória

A família do processador Intel® Xeon® E7 v2 acelera a analítica para cargas de trabalho de expansão intensivas de dados e bancos de dados na memória.

• Construídonatecnologiadotransistorde22nanômetros(nm)3DTri-GatelíderdemercadodaIntelpararendimentosuperioreeficiênciadeenergia

• Grande capacidade de memória:

- Configuraçõesdequatroeoitosocketscomaté1,5terabytes(TB)dememóriaporsocketparaaté6TBou12TBde memória por servidor

- Até três módulos de memória em linha duplos (DIMMs) por canal (DPC) e até oito canais (total de até 24 DIMMs), com capacidade individual DIMM de até 64 gigabytes (GB) de DIMMs com carga reduzida (LR)

- Escalabilidade além de oito sockets usando um controlador de nó de terceiros (OEM)

• Maior cache com até 37,5 megabytes (MB) de cache de terceiro nível por processador

• Até 50 por cento mais núcleos e threads do que a geração anterior de processadores (até 60 núcleos e 120 threads em um servidor de quatro sockets para rápida execução de transações simultâneas e consultas grandes e complexas)

• Até quatro vezes maior largura de banda§ de E/S com relação à geração anterior de processadores

• Rendimento para aplicativos com thread simples e múltiplo, incluindo computação de alto rendimento de expansão e aplicativos técnicos

• CapacidadeeflexibilidadeextrasparaarmazenamentoeconexõesderedecomportasPCIExpress*integradas(PCIe)3.0, que melhora a largura de banda e suporta unidades de estado sólido baseadas em PCIe

• Recursosavançadosdeconfiabilidade,disponibilidadeefacilidadedemanutenção(RAS)paramelhoraraintegridadedosdados e tempo de atividade para cargas de trabalho analíticas essenciais para a missão com tecnologia Intel Run Sure‡

§Nenhumsistemadecomputadorpodefornecerconfiabilidade,disponibilidadeoufacilidadedemanutençãoabsoluta.RequerumsistemahabilitadoparaaTecnologiaIntel®RunSure,incluindoumprocessadorIntelativadoetecnologia(s)ativada(s).Osrecursosdeconfiabilidadeintegradosdisponíveisemalgunsprocessadores Intel podem exigir software, hardware, serviços adicionais e/ou uma conexão com a Internet. Os resultados podem variar dependendo da configuração.Consulteoseufabricantedesistemasparaobtermaisdetalhes.

‡Reivindicação de até 4 x a largura de banda de E/S com base em estimativas internas do rendimento da família de produtos do processador Intel Xeon E7-4890 v2 normalizado com relação às melhorias sobre a família de produtos do processador Intel Xeon E7-4870 com Hub de E/S (IOH) duplo usando uma ferramenta de largura de banda interna da Intel executando o teste de 1R1W.

Intel IT Center Guia de Planejamento | Introdução à Big Data11

Otimização e ajuste para melhor rendimento A Intel é um dos principais colaboradores de iniciativas de código-fonte aberto, como softwares Linux*, OpenStack*, KVM e Xen*. A Intel também tem dedicado recursos para análise, testes e caracterizações de rendimento do Hadoop, tanto internamente quanto com os colegas viajantes como HP, Super Micro e Cloudera. Por meio desses esforços técnicos, a Intel tem observado muitas compensações práticas emconfiguraçõesdehardware,softwareesistemaquetêmimplicações no data center. Projetar a pilha de solução para maximizar a produtividade, limitar o consumo de energia e reduzir o custo total de propriedade pode ajudar a otimizar a utilização de recursos, minimizando os custos operacionais.

AsconfiguraçõesparaoambientedoHadoopsãoumfator-chave no sentido de obter o pleno benefício do resto do hardware e das soluções de software. Baseado em testes de referência extensos no laboratório e em sites de clientes usando arquitetura baseada em processador Intel, as recomendações de otimização e ajuste da Intel para o sistema HadooppodeajudaraconfiguraregerenciarseuambienteHadoop para desempenho e custo.

Acertasasconfiguraçõesexigeumtempoinicialsignificativo,porque os requisitos para cada sistema Hadoop corporativo irão variar dependendo da tarefa ou da carga de trabalho. O tempo gasto para otimizar suas cargas de trabalho específicasserárecompensadonãosóemummelhorrendimento, mas também em um menor custo total de propriedade para o ambiente Hadoop. Consulte Otimizando implantações do Hadoop*paraconfiguraçõesespecíficas.

Rendimento de parâmetros de referência (benchmark) Os parâmetros de referência (benchmark) são a base quantitativa paramediraeficiênciadequalquersistemadecomputador.A Intel desenvolveu um suite HiBench como um conjunto abrangente de testes de benchmark para ambientes Hadoop.9 Medidas individuais representam 10 cargas de trabalho importantes do Hadoop com uma mistura de características de uso do hardware. O HiBench inclui microrreferências, bem como aplicativos Hadoop do mundo real representantes de uma ampla gama de analítica de dados, como indexação de pesquisa, aprendizagem de máquina e consultas. O HiBench 2.2 está disponível agora como software de código-fonte aberto sob a Apache License 2.0. Você pode baixar o software, saber mais sobrecargasdetrabalhoespecíficasedescobrircomocomeçarem https://github.com/intel-hadoop/HiBench.

Se você leu até aqui, você agora tem uma boa compreensão do cenário de TI para Big Data, seu valor potencial para as organizações e as tecnologias que podem ajudar a obter insights de recursos de dados estruturados, semiestruturados e não estruturados. Além disso, você tem uma boa visão geral dos princípios básicos para colocar a infraestrutura certa em vigor e funcionando perfeitamente para apoiar suas iniciativas de Big Data.

Você pode começar com seu projeto de análise de Big Data seguindo as três etapas básicas que descrevemos nas primeiras páginas deste guia. Embora este guia tenha se concentrado na tecnologia e na etapa 3, você pode usar a seguinte lista de verificaçãoparaajudá-loatrabalharnasatividadescríticasemtodasastrêsetapas.

Etapa 1: Entender como Big Data afetará culturalmente a sua organização.

• Desenvolva um entendimento do valor que a analítica de Big Data pode trazer para sua organização.

a Converse com seus colegas de TI e de negócios.

a Tire proveito dos recursos do Intel IT Center para Big Data para se atualizar sobre as tecnologias.

a Entenda as ofertas de fornecedores.

a Faça tutoriais e examine a documentação de usuário oferecida pelo Apache.

Introdução à analítica de Big Data: três etapas básicas

Intel IT Center Guia de Planejamento | Introdução à Big Data12

• Colabore com a liderança de negócios em uma estratégia e abordagem de Big Data. Desenvolva:

a O caso de negócios para Big Data – Como a analítica de Big Data trará valor para o seu negócio? Quais são os principais desafiosdosnegóciosqueiráabordar?

a Objetivos de curto, médio e longo prazo – Quais são as fases-chave para alcançar os seus objetivos de Big Data?

a Estado atual e futuro de sua infraestrutura de TI – Seu data center pode oferecer suporte à plataforma de Big Data? Avalie sua tecnologia atual de data center e descreva, se necessário, seu plano de atualização de recursos de computação, armazenamento e rede.

a Fontes de dados e qualidade de dados – Quais são as fontes de dados principais internamente? Que dados adicionais você pode comprar? Como você irá garantir a qualidade?

a Plataforma de Big Data e ferramentas – Qual plataforma você usará para construir a sua solução? Que software e ferramentas são necessários para atingir seu objetivo?

a Métricas para medir o sucesso – Como você vai medir o rendimento do sistema? Baseie seu sucesso em quantas tarefas sãoenviadas,processadasemparaleloeconcluídasdeformaeficiente.

• Trabalhe com os usuários de negócios para articular as grandes oportunidades.

a Identifiqueecolaborecomosusuáriosdenegócios(analistas,cientistasdedados,profissionaisdemarketing,etc.)paraencontrar as melhores oportunidades de negócios para analítica de Big Data em sua organização. Por exemplo, considere um problema de negócios existente — especialmente um que seja difícil, caro ou impossível de realizar com seus sistemas atuais de fontes de dados e analítica. Ou considere um problema que nunca foi resolvido antes porque as fontes de dados são novas e não estruturadas.

a Priorize sua lista de oportunidades e selecione um projeto com um aparente retorno sobre o investimento. Para determinar o melhor projeto, considere suas respostas a estas perguntas:

- O que eu estou tentando fazer?

- Este projeto se alinha aos objetivos de negócios estratégicos?

- Posso obter suporte da gerência para o projeto?

- A análise de Big Data mantém uma promessa exclusiva de insight com relação à analítica mais tradicional?

- Quais ações posso executar com base nos resultados do meu projeto?

- Qual é o retorno em potencial sobre o investimento para o meu negócio?

- Pode entregar este projeto com um tempo de 6 a 12 meses para valorização?

- Os dados que eu preciso estão disponíveis? O que eu possuo? O que preciso comprar?

- Os dados são coletados em tempo real ou são dados históricos?

Etapa 2: Contratar as habilidades que você precisa.

• Entenda e planeje as habilidades que você precisa para os negócios e para TI.

a Que habilidades você precisa para realizar com sucesso a iniciativa? Esses recursos existem internamente?

a Você vai desenvolver habilidades de dentro da empresa? Contratar novos talentos? Terceirizar?

a Onde estes indivíduos residem no negócio? Em TI?

13 Intel IT Center Guia de Planejamento | Introdução à Big Data

Etapa 3: Implementar a solução de Big Data.

• Desenvolva um caso de uso para o seu projeto.

a Identifiqueoscasosdeusonecessáriospararealizaroseuprojeto.

a MapeieosfluxosdedadosparaajudaradefinirqualtecnologiaerecursosdeBigDatasãonecessáriospara resolver o problema de negócios.

a Decidaquedadosincluireoquedeixardefora.Identifiqueapenasosdadosestratégicosquelevarãoa uminsightsignificativo.

a Determine como os dados se relacionam e a complexidade das regras de negócios.

a Identifiqueasconsultasanalíticaseosalgoritmosnecessáriosparagerarassaídasdesejadas.

a Considere se você precisa de suporte analítico avançado, como consultas interativas ou analítica preditiva, ousuporteafluxosdedadosemtemporeal.

• Identifique as lacunas entre as capacidades do estado atual e futuro.

a Quais exigências de qualidade de dados adicionais você terá para coleta, limpeza e agregação de dados em formatos utilizáveis?

a Quaispolíticasdegovernançadedadosprecisarãoestaremvigorparaclassificardados,definirsuarelevância,earmazenar, analisar e acessar os mesmos?

a Quais recursos de infraestrutura precisam estar em vigor para garantir escalabilidade, baixa latência e rendimento, incluindo recursos de computação, armazenamento e rede?

a Você precisa adicionar componentes especializados como um banco de dados NoSQL para pesquisas de baixa latência em grandes volumes de dados heterogêneos?

a Sevocêplanejaprocessarumfluxoconstantededadosemtemporeal,quaisrecursosdeinfraestruturaememóriaadicionais você precisará? Você precisará de um dispositivo analítico na memória MPP? Uma solução CEP?

a Você está considerando computação em nuvem para o seu modelo de entrega? Que tipo de ambiente de nuvem você usará? Privado, híbrido, público?

a Como os dados serão apresentados aos usuários? Os resultados precisam ser entregues de uma forma fácil de entenderparaumavariedadedeusuáriosdenegócios,dealtosexecutivosaprofissionaisdainformação.

• Desenvolva um ambiente de teste para uma versão de produção.

a Adapte arquiteturas de referência para sua empresa. A Intel está trabalhando com os principais parceiros para desenvolver arquiteturas de referência que podem ajudar como parte do programa Intel Cloud Builders com casos de uso de Big Data.

a Definaacamadadeapresentação,camadadeaplicativoanalítico,armazenamentodedadose,seforocaso,gerenciamento de dados em nuvem privado ou público.

a Determineasferramentasqueosusuáriosprecisamparaapresentarosresultadosdeumaformasignificativa. Aadoçãodeferramentaspelousuárioiráinfluenciarsignificativamentenosucessoglobaldoseuprojeto.

14 Intel IT Center Guia de Planejamento | Introdução à Big Data

Além dos recursos já citados neste artigo, consulte o seguinte para obter mais conteúdo interessante.

Websites

Para recursos adicionais sobre: • Big Data: intel.com/bigdata • Família do processador Intel Xeon E5: intel.com/xeone5 Família do processador Intel Xeon E7: intel.com/xeone7

Sobre plataformas de Big Data

Accelerate Big Data Analysis with Intel® Technologies Este artigo destaca tecnologias disponíveis da Intel que as empresas podem usar para expandir clusters Apache Hadoop para lidar com o crescente volume, variedade e velocidade de dados. Usando menos e mais poderosos servidores, as empresas podem reduzir significativamenteoscustosoperacionais.intel.com/content/www/us/en/big-data/big-data-analysis-intel-technologies-paper.html

Big Data Mining in the Enterprise for Better Business Intelligence Este white paper da Intel descreve como a Intel está colocando em vigor os sistemas e habilidades para analisar Big Data para impulsionaraeficiênciaoperacionalevantagemcompetitiva.OTIdaIntel,emparceriacomgruposdenegóciosdaIntel,estáimplantando várias provas de conceito para uma plataforma de Big Data, incluindo detecção de malware, validação de projetos de chips, inteligência de mercado e um sistema de recomendação. intel.com/content/www/us/en/it-management/intel-it-best-practices/mining-big-data-In-the-enterprise-for-better-business-intelligence.html

Extract Business Value from Big Data Este resumo da solução descreve como a estrutura Apache Hadoop fornece uma base que você pode implementar hoje para valor alvo e depois expandir para atender às necessidades crescentes. http://software.Intel.com/sites/default/files/article/402151/Extract-Business-Value-from-Big-Data.pdf

Pesquisa de pares: Big Data Analytics (2013) Leia o relatório completo dos resultados da pesquisa de 2013 da Intel com 200 gerentes de TI fornecendo insights sobre como as organizaçõesestãousandoanalíticadeBigDatahoje,incluindooqueasorganizaçõesprecisamavançareoqueapesquisasignificapara a indústria de TI. Os destaques são relatados no vídeo “IT Managers Speak Out about Big Data Analytics.” Esta pesquisa estende os resultados da pesquisa de 2012 da Intel sobre Big Data. Intel.com/content/www/us/en/Big-data/Big-data-Analytics-2013-peer-Research-Report.html

Predictive Analytics: Use All Your Data to Compete and Win Como você analisa Big Data é tão importante quanto os dados em si. Este resumo da solução descreve como as organizações podem implementarcomeficiênciadecustoumaplataformadeBigDataextensívelparaanalíticadescritiva,consultasinterativaseanalíticapreditiva. software.intel.com/sites/default/files/article/486773/sb-use-all-your-data-to-compete-and-win.pdf

Turn Big Data into Big Value: A Practical Strategy As inovações da Intel em silício, sistemas e software podem ajudá-lo a implantar três modelos de uso (ETL usando software Apache Hadoop,consultasinterativaseanalíticapreditivanaplataformaHadoop)eoutrassoluçõesdeBigDatacomeficiênciadeenergia,custo e desempenho ideal. software.intel.com/sites/default/files/article/402150/turn-big-data-into-big-value.pdf

Recursos Intel para aprender mais

15 Intel IT Center Guia de Planejamento | Introdução à Big Data

1. Pesquisa de pares: Analítica de Big Data: Intel’s 2013 IT Manager Survey on How Organizations Are Using Big Data. Intel (Agosto de 2013). intel.com/content/www/us/en/big-data/big-data-analytics-2013-peer-research-report.html

2. “The Internet of Things Is Poised to Change Everything, Says IDC.” Business Wire (3 de outubro de 2013). businesswire.com/news/home/20131003005687/en/Internet-Poised-Change-IDC#.UvFfLfldXzg

3. Elliott, Timo. “Why In-Memory Computing Is Cheaper and Changes Everything.” Business Analytics (blog) (17 de abril de 2013). http://timoelliott.com/blog/2013/04/why-in-memory-computing-is-cheaper-and-changes-everything.html

4. O Software e as cargas de trabalho utilizadas nos testes de desempenho podem ter sido otimizados para desempenho apenas em microprocessadores Intel. Testes de desempenho tais como SYSmark* e MobileMark* utilizam sistemas, componentes,software,operaçõesefunçõesespecíficas.Qualquer alteração em um desses fatores poderá ocasionar resultados variados. Consulte outras informações e testes de rendimento para ajudá-lo a avaliar amplamente o produto que pretende adquirir, incluindo o rendimento desse produto quando combinado com outros produtos.

5. Referências TeraSort efetuadas pela Intel em dezembro de 2012.Configuraçõescustomizadas:mapred.reduce.tasks=100emapred.job.reuse.jvm.num.tasks=-1.Paraobtermaisinformações, visite http://hadoop.apache.org/docs/current/api/org/apache/hadoop/examples/terasort/package-summary.html.

6. Configuraçãodecluster:Umnodeprincipal(nodedenome,rastreador de trabalho), 10 trabalhadores (nodes de dados, rastreadores de tarefas), comutador Cisco Nexus* 5020 de 10 Gigabit. Worker node da linha de base: Servidores SuperMicro* SYS-1026T-URF 1U com dois processadores Intel® Xeon® X5690 @ 3,47 GHz, discos rígidos SATA de 48 GB RAM, 700 GB 7200 RPM, Intel® Ethernet Server Adapter I350-T2, Apache Hadoop* 1.0.3, Red Hat Enterprise Linux* 6.3, Oracle Java* 1.7.0_05. Upgrade de processador e sistema básico no worker node: Servidores Dell PowerEdge* R720 2U com dois processadores Intel® Xeon® E5-2690 @ 2.90 GHz,

128 GB RAM. Upgrade de armazenamento no worker node: Intel® Solid-State Drive 520 Series. Upgrade de adaptador de rede no worker node: Adaptador de rede convergente Ethernet X520-DA2 da Intel. Upgrade de software no worker node: Software Intel Distribution for Apache Hadoop* 2.1.1.

7. Em uma plataforma de quatro sockets nativamente conectada: A família do processador Intel® Xeon® E7 suporta 64 DIMMS, máximo de memória por DIMM de 32 GB DIMM registrado (RDIMM); a família do processador Intel® Xeon® E7 v2 suporta 96 DIMMs, máximo de memória por DIMM de 64 GB RDIMM. Isto permite um aumento de 3x na memória.

8. O rendimento do banco de dados usando a solução de memória, resultados de referência com base em uma referência de Prova de Desempenho e Escalabilidade (POPS) de um banco de dados interno de 10 TB: intel.com/content/www/us/en/big-data/big-data-xeon-e7-v2-unlock-the-value-ibm-paper.html. Números de melhoria de desempenho são acumulativos de todas as consultas na carga de trabalho. Os resultados individuais variam de acordo as condições, configuraçõesecargasdetrabalhoindividuais.Comumatodasastrêsconfigurações:SUSE*LinuxEnterpriseServer11 SP3 x86-64, 1.024 GB de memória, armazenamento IBM XIV* Storage System Gen3 conectado com 8 Gbps Fibre Channel (FC) através de comutador SAN de 8 GB com espaço bruto total de 111 TB (2 TB x 12 discos/pModule x 11módulosXIV).Configuraçãodelinhadebasedesoftware"Software de geração anterior": IBM DB2 10.1 mais de família de produtos do processador Intel Xeon E7-4870 de quatro sockets usando a solução IBM XIV Storage System Gen3 FC SAN, completando as consultas em cerca de 3,75 horas para a novaconfiguraçãode"Novageração":IBMDB210.5comBLUAcceleration mais a família de produtos do processador Intel Xeon E7-4890 de quatro sockets usando tabelas de memória (total de 1 TB) completando as mesmas perguntas em cerca de 90 segundos.

9. Huang, Shengsheng, Jie Huang, Jinquan Dai, Tao Xie, Bo Huang. The HiBench Benchmark Suite: Characterization of the MapReduce-Based Data Analysis. IEEE (março de 2010).

Notas de rodapé

Osresultadosforamsimuladosesãofornecidosapenasparafinsinformativos.Osresultadosforamobtidoscomsimulaçõesexecutadasemumsimuladoroumodelodearquitetura.Qualquerdiferençaemprojetoouconfiguraçãodehardwareousoftwaredesistemapoderáafetarorendimento real.

O rendimento relativo a cada benchmark é calculado a partir do valor de 1,0 como linha de base para o resultado real da primeira plataforma testada, em seguida dividindo-se o resultado real do benchmark da plataforma de linha de base entre cada um dos resultados de benchmark específicosdecadaumadasoutrasplataformaseatribuindoaelesumnúmerodedesempenhorelativoquesecorrelacioneaosaumentosdedesempenho reportados.

Os compiladores da Intel podem ou não otimizar com o mesmo grau microprocessadores não Intel para otimizações que não são exclusivas dos microprocessadores Intel. Essas otimizações incluem SSE2, SSE3 e conjuntos de instruções SSSE3 e outras otimizações. A Intel não garante a disponibilidade, funcionalidade ou efetividade de qualquer otimização em microprocessadores não fabricados pela Intel. As otimizações deste produtodependentesdemicroprocessadoressãodestinadasparausocommicroprocessadoresIntel.Algumasotimizaçõesnãoespecíficasdamicroarquitetura Intel são reservadas para microprocessadores Intel. Consulte os Guias de Referência e do Usuário do produto aplicáveis para maisinformaçõessobreosconjuntosdeinstruçõesespecíficasabrangidospelapresentenota.Notaderevisão#20110804.

Os números dos processadores Intel não representam uma medida de desempenho. Os números dos processadores diferenciam os recursos de acordo com cada família de processadores, e não entre as famílias de processadores. Visite intel.com/content/www/us/en/processors/processor-numbers.html.

Mais sobre o Intel® IT Center Guia de Planejamento: Introdução à Big Data é trazido a você pelo Intel® IT Center. O Intel IT Center é projetado para fornecerinformaçõessimpleseimparciaisqueajudemosprofissionaisdeTIaimplementaremprojetosestratégicosna ordem do dia, incluindo virtualização, projeto de data center, Big Data, nuvem e segurança de infraestrutura e cliente. Visite o Intel IT Center para ter acesso a:

• Guias de planejamento, pesquisa colaborativa e outros recursos para ajuda-lo na implementação de projetos importantes

• Estudosdecasoreaisquemostramcomoseuscolegaslidaramcomosmesmosdesafiosquevocêenfrenta

• Informações sobre como a própria empresa de TI da Intel está implementando a nuvem, virtualização, segurança e outras iniciativas estratégicas

• Informações sobre eventos, nos quais você pode ouvir especialistas de produtos Intel, bem como dos profissionaisdeTIdaprópriaIntel

Saiba mais em intel.com/ITCenter.

Compartilhe com seus colegas

Legal Esteartigoserveapenasparafinsinformativos.ESTEDOCUMENTOÉFORNECIDO“NOESTADOEMQUESEENCONTRA”,SEMQUAISQUERGARANTIAS,INCLUINDO QUALQUER GARANTIA DE COMERCIABILIDADE, NÃO VIOLAÇÃO, ADEQUAÇÃO A QUALQUER FIM ESPECÍFICO OU QUALQUER GARANTIA PROVENIENTE DE UMA PROPOSTA, ESPECIFICAÇÃO OU AMOSTRA. A Intel se isenta de toda e qualquer responsabilidade, incluindo a responsabilidade por violação de quaisquer direitos de propriedade, relacionados ao uso desta informação. Nenhuma licença, explícita ou implícita, por embargo ou outra forma, a quaisquer direitos de propriedade intelectual é concedida por meio deste instrumento.

Copyright © 2014 Intel Corporation. Todos os direitos reservados. Intel, o logotipo Intel, Intel Atom, o logotipo Look Inside. e Xeon são marcas registradas da Intel Corporation nos Estados Unidos e/ou em outros países.

*Outros nomes e marcas podem ser considerados propriedades de terceiros.

0614/RF/ME/PDF-USA 330278-001