20
Prof. Carlos Eduardo Santana Novembro de 2014 Alexandre Nicolau RM 46346 Alan Drummond RM 46467 José Mario Queiroz RM 46231 Leandro Navarro RM 46437 Rafael Cavazin RM 46474 MBA em Big Data Ingestão de Dados

Ingestão de Dados

Embed Size (px)

Citation preview

Page 1: Ingestão de Dados

Prof. Carlos Eduardo Santana

Novembro de 2014

Alexandre Nicolau RM 46346Alan Drummond RM 46467José Mario Queiroz RM 46231Leandro Navarro RM 46437Rafael Cavazin RM 46474

MBA em Big Data

Ingestão de Dados

Page 2: Ingestão de Dados

2MBA em Big Data (Data Science) Ingestão de Dados

Sumário

1. Introdução1.1. Problema1.2. Justificativa1.3. Objetivo da Pesquisa1.4. Metodologia de Pesquisa

2. Tema2.1. O Apache Storm2.2. Fluxo de Dados2.3. Arquitetura (macro visão)2.4. Comparativo

3. Parecer dos Integrantes4. Conclusões5. Referências

Page 3: Ingestão de Dados

3MBA em Big Data (Data Science)

Introdução – Problema

Como atender às necessidades de novos consumidoresque buscam o atendimento omni-channel com umaarquitetura capaz de processar informações em temporeal e também em processos batch?

Ingestão de Dados

Page 4: Ingestão de Dados

4MBA em Big Data (Data Science)

Introdução – Justificativa

Ingestão de Dados

No atual cenário de volumetria e variedade de dados, o feedback rápido aocliente se torna cada vez mais importante para a manutenção e expansão dacarteira.

Melhorar a experiência do cliente frequentemente traz maior confiança,fidelização e consequentemente retenção, principalmente para a nova geração deconsumidores que advindos da nova era digital procuram experiências omni-channel.

Page 5: Ingestão de Dados

5MBA em Big Data (Data Science)

Introdução – Objetivo da Pesquisa

Ingestão de Dados

A pesquisa tem por objetivo identifica uma solução de mercado que estejaintegrada com a necessidade de ingestão de dados em tempo real (ou quase emtempo real) para o tratamento de informações em canais de mídia social.

Essa solução também deve ser capaz de realizar a ingestão de dados de outrasfontes que não sejam através de streaming. Para isso uma solução hibrida podeser adotada.

Por consequência a adoção de uma arquitetura capaz de atender àscaracterísticas de um ambiente Big Data, respeitando seus princípios de volume,velocidade, variedade, veracidade e valor.

Page 6: Ingestão de Dados

6MBA em Big Data (Data Science)

Introdução – Metodologia Pesquisa

A metodologia empregada pra confecção deste estudo baseou-seem pesquisa bibliográfica em websites de grandes empresas, artigosacadêmicos e estudos de caso.

Ingestão de Dados

Page 7: Ingestão de Dados

7MBA em Big Data (Data Science)

Apache Storm

Ingestão de Dados

O Apache Storm é uma plataforma escalável, distribuída e tolerante a falhas paraprocessamento de conjuntos de dados, incluindo análise em tempo real deinformações, aprendizado de máquina e computação contínua, da FundaçãoApache (http://www.apache.org/).

Esse sistema faz com que seja fácil de processar de forma confiável streamsilimitados de dados, fazendo para o processamento em tempo real o que fez oHadoop para o processamento em lote.

Page 8: Ingestão de Dados

8MBA em Big Data (Data Science)

Apache Storm

Ingestão de Dados

O Apache Storm pode estar conectado a diversos produtores de dados incluindoserviços de mensageria, por exemplo Apache Kafka.

Em nossa solução foram adotados ambos os conceitos, conectado diretamente auma API do Twitter, o Apache Storm é capaz de processar twittes em tempo real.Já conectado ao serviço de mensageria Apache Kafka, é capaz de consumirinformações muito próximo ao tempo real ou em processamentos batch.

As topologias de fontes de dados são chamados Spouts, responsáveis peladistribuição e paralelização do fluxo de dados, que são encaminhados aos nós deprocessamento chamados de Bolts.

Os Bolts podem realizar cálculos sofisticados arbitrariamente sobre os dados,chamar outros Bolts, armazenar os dados e chamar outros serviços.

Page 9: Ingestão de Dados

9MBA em Big Data (Data Science)

Apache Storm

Ingestão de Dados

Empresas utilizam o Storm para evitar resultados negativos e para otimizar seusobjetivos. Abaixo alguns exemplos de casos de uso.

Prevenção Otimização

Serviços Financeiros

Segurança anti-fraude. Violação de conformidade.

Precificação de taxas.

Telecomunicações Falhas de segurança. Interrupção de rede.

Alocação de banda. Atendimento ao cliente.

Varejo Encolhimento. Ruptura de estoque.

Ofertas. Preço.

Manufatura Falhas de máquina. Garantia de qualidade.

Cadeia de suprimentos. Melhoria contínua.

Transporte Monitorização condutores. Manutenção preventiva.

Rotas. Preço.

Web Falhas nas aplicações. Questões operacionais.

Conteúdo personalizado.

Fonte: http://br.hortonworks.com/hadoop/storm/

Page 10: Ingestão de Dados

10MBA em Big Data (Data Science)

Fluxo de Dados

Ingestão de Dados

Page 11: Ingestão de Dados

11MBA em Big Data (Data Science)

Arquitetura

Ingestão de Dados

Foi selecionada para aarquitetura proposta adistribuição Hadoop daempresa Hortonworks.

Arquitetada, desenvolvida econstruída completamentede maneira aberta, aHortonworks Data Platform(HDP) fornece umaplataforma de dados prontoempresa que permite que asorganizações a adotar umaarquitetura de dadosmoderna.

Page 12: Ingestão de Dados

12MBA em Big Data (Data Science)

Comparativo

Ingestão de Dados

FlumeFlume é sistema distribuído para a coleta de dados de muitas fontes,

agregando-os, e escrevendo-os em HDFS. Ele é projetado para ser confiável ealtamente disponível, baseada em streaming de fluxos de dados.

SqoopÉ uma ferramenta concebida para a transferência eficiente de dados em

massa entre o Hadoop e armazenamentos de dados estruturados, tais comobancos de dados relacionais. Dispõe de replicação bidirecional instantânea eatualizações incrementais.

StormÉ um sistema de processamento de evento, usa um conjunto de serviços

para dar escalabilidade e confiabilidade. É executado continuamente ao longo deum fluxo de dados de entrada e pode armazenar sua saída em diversasarquiteturas, como HDFS, mensageria em Kafka, RDBMS e outras aplicações.

Page 13: Ingestão de Dados

13MBA em Big Data (Data Science)

Parecer dos Integrantes

Ingestão de Dados

Alexandre Nicolau

Entendo que as ferramentas Flume e Storm tenham sido concebidasoriginalmente para tarefas diferentes sendo o Flume um serviço confiável paracoletar, agregar e mover grandes volumes de dados de uma origem para umdestino (HDFS) e o Storm para computação em tempo real (análise de streaming),capaz de analisar os dados “on-the-fly”, tomar decisões e armazenar emdiferentes locais de acordo com sua necessidade.

Para o contexto em questão, o Apache Storm é capaz de permitir a umaorganização uma reação mais rápida e assertiva para seus clientes, provendo umaexperiência inovadora.

Page 14: Ingestão de Dados

14MBA em Big Data (Data Science)

Parecer dos Integrantes

Ingestão de Dados

Alan Drummond

A implementação de uma arquitetura para processamento em tempo realutilizando a solução Apache Storm se torna mais fácil se entendermos que podeser realizada em diversas linguagens como Java, Clojure, Scala, Python, Ruby,entre outras.

Essa solução é capaz de atender aos desafios propostos, por suacapacidade de escalabilidade e sua alta performance de processamentoparalelizado.

Page 15: Ingestão de Dados

15MBA em Big Data (Data Science)

Parecer dos Integrantes

Ingestão de Dados

José Mario Queiroz

A solução proposta é capaz de atender às necessidades do novoconsumidor, impulsionado pela Web 2.0 e que demanda um tempo de respostamais rápido e eficiente para seus problemas ou desejos.

Ser capaz de um implantar uma ferramenta centralizadora deprocessamento de dados coletados dos diversos canais de atendimento (chat, callcenter, e-mail e redes sociais) e aplica-los a um mesmo algoritmo de aprendizadode máquina (Mahout) e de resposta em tempo real (ou quase) é um desafio queo Apache Storm está apto para solucionar.

Com o Storm é possível implementar speed layer (processamento emtempo real) e batch layer (armazenamento no HDFS) para processamento paraum segundo momentos. Como essa arquitetura é nova, existem poucos projetosinviabilizando demonstrar casos de sucesso.

Page 16: Ingestão de Dados

16MBA em Big Data (Data Science)

Parecer dos Integrantes

Ingestão de Dados

Leandro Navarro

Existe um diversidade muito grande de ferramentas e arquiteturas para oprocessamento de dados em tempo real e para um ingestão de grande volume dedados com confiabilidade e velocidade.

Das ferramentas estudadas durante as pesquisas para formulação destetrabalho, entendo que escolhemos uma solução capaz de solucionar o problemaproposto de resposta em tempo real.

O Apache Storm é uma solução que pode ser implantada em conjunto comdiversas outras ferramentas, inclusive com bancos de dados relacionais e quesuporta uma diversidade de fontes de dados diversificadas. Com isso propusemosuma arquitetura completa e passível de instalação.

Page 17: Ingestão de Dados

17MBA em Big Data (Data Science)

Parecer dos Integrantes

Ingestão de Dados

Rafael Cavazin

Em Database Marketing e CRM é de extrema importância que a empresaconheça seu público-alvo e suas informações cadastrais, contextuais e deinterações.

Dito isso, ser capaz de capturar os dados que são gerados através dosmúltiplos canais estabelecidos entre a empresa e seu consumidor se torna odiferencial estratégico que levará ao maior conhecimento e consequentementeao atendimento personalizado dos consumidores, cada vez mais exigentes.

Empresas que não se preocuparam em melhor conhecer os consumidores,através de arquiteturas de Big Data capazes de gerir essa avalanche de dados,podem diminuir seu Market Share.

Page 18: Ingestão de Dados

18MBA em Big Data (Data Science)

Conclusões

Garantir que seja identificado em tempo real o sentimento do cliente sobre um produtoou serviço e integrar aos processos de negócio da empresa, melhorando o tempo deresposta aos clientes insatisfeitos e também conquistar outros consumidoresinteressados na marca.

Identificados os modelos comportamentais dos consumidores, através de uma análisedas bases de dados históricas (armazenadas em RDBMS e HDFS), com base nasinterações em tempo real é possível prever as intenções dos consumidores e tomarações promocionais de retenção para controlar a Churn Rate.

Identificar os nós centrais de divulgação de determinada marca, com a finalidade deoferecer-lhes produtos e serviços de melhor qualidade para que ajudem a divulgar umamelhor imagem da empresa/marca.

Como atender às necessidades de novos consumidores que buscam oatendimento omni-channel com uma arquitetura capaz de processarinformações em tempo real e também em processos batch?

Ingestão de Dados

Page 19: Ingestão de Dados

19MBA em Big Data (Data Science)

Referências

THE APACHE SOFTWARE FOUNDATION. Apache Storm: Distributed and fault-tolerant realtimecomputation. 2014. Disponível em: < https://storm.apache.org/ >. Acesso em: 26 nov. 2014.

THE APACHE SOFTWARE FOUNDATION. Apache Kafka: A high-throughput distributed messagingsystem. 2014. Disponível em: < http://kafka.apache.org/documentation.html >. Acesso em: 26 nov.2014.

HORTONWORKS INC. Apache Storm: A system for processing streaming data in real time. 2014.Disponível em: < http://br.hortonworks.com/hadoop/storm/ >. Acesso em: 26 nov. 2014.

JOSÉ R PEQUENO. C4Media Inc. (Comp.). O Apache Software Foundation anuncia o Apache Stormcomo um projeto Top-Level. 2014. Disponível em: < http://www.infoq.com/br/news/2014/10/apache-storm-top-level >. Acesso em: 27 nov. 2014.

TIM JONES. iMaster (Comp.). Processe big data em tempo real com Twitter Storm. 2013. Disponívelem: < http://imasters.com.br/infra/linux/processe-big-data-em-tempo-real-com-twitter-storm/ >.Acesso em: 27 nov. 2014.

Page 20: Ingestão de Dados

20MBA em Big Data (Data Science)

Referências

FABIANE NARDON. C4Media Inc. (Comp.). Data Science em Tempo Real com Storm. 2014. Disponívelem: < http://www.infoq.com/br/presentations/data-science-tempo-real >. Acesso em: 30 nov. 2014.

HORTONWORKS INC. Hortonworks Data Platform: A plataforma de dados Apache Hadoop totalmenteem código aberto, desenvolvida para empresas. 2014. Disponível em: <http://br.hortonworks.com/hdp/ >. Acesso em: 30 nov. 2014.

CHRISTOPHE MARCHAL. Loading data in Hadoop 2 with Sqoop and Flume. 2013. Disponível em: <http://pt.slideshare.net/toff63/big-data-loading-with-flume-and-sqoop >. Acesso em: 30 nov. 2014.