Big Data - Conceitos Básicos

Embed Size (px)

Citation preview

Big Data

Big Data
A nova cincia dos dados

Christiano [email protected]

Quem sou?

Desenvolvedor e arquiteto de dados, trabalha com grandes volumes de acesso e informao desde o incio da internet comercial no Brasil;

Participou da criao do primeiro e-mail gratuito do Brasil: Zipmail;

Contribui com diversos projetos de Software Livre;

Palestra sobre arquitetura de dados nos principais eventos de tecnologia;

Big Data?

Big data se trata de um conceito onde o foco grande armazenamento de dados e maiorvelocidades.

Os 5 V's

1. Velocidade2. Volume3. Variedade4. Veracidade5. Valor

Velocidade

Em muitos casos, as respostas precisam serrpidas, praticamente em tempo real para otratamento de um volume massivo de dados;

Para um sistema anti-fraude, 2 minutos podeser muito tempo.

Volume

Empresas podem facilmente produzir GB emais GB de informaes por dia.

O Twitter pode facilmente produzir diariamentealguns TB de informaes pertinentes paraanlise de sentimento;

Variedade

So informaes de diversas fontes, comoimagens, tuites e outros resultados de redessociais, textos, etc. Os dados no seguem umamodelagem padro;

Veracidade

A maioria dos gestores no confiam 100% nasinformaes que recebem para tomada deDecises;

Ao organizar as informaes e usar filtrosapropriados, possvel aumentar aconfiabilidade dos dados;

Valor

Depois que os dados so tratados e filtrados,podem representar um valor inestimvel paraempresa, seja para tomada de decises oudefinies de novos produtos;

Como funciona?

Big data capaz de capturar, armazenar eprocessar um massivo volume de informaesque podem ser espalhados em diversoshardware de commodity;

Uma vez capturado, os dados podem serprocessados atravs de dezenas de ferramentas;

Exemplos de uso

Decodificar o genoma humano demorava cerca de 10 anos; atualmente, pode ser processado em uma frao desse tempo com big data;

Walmart processa milhes de transaes de clientes por dia, com big data, consegue identificar padres de fraudes quase que imediatamente;

FICO (inclui sistema de deteo de fraudes em carto de crdito) consegue processar mais de 2 bilhes de transaes por dia;

A nova cincia dos dados

Quantos bytes dirios de informao eram Produzidos em 1980?

E em 1990?

E em 2000?

E nos dias atuais?

Quantos bytes produzimos em toda nossa vida?

Nos ltimos anos, produzimos mais dados que toda histria da humanidade

J imaginou que a maioria dos dispositivos eletrnicos j possuem um endereo de IP?

Quando voc opera esse dispositivo, alguma informao gerada.

Isso vai ficar gravado em algum lugar.

O mundo possui aproximadamente 7 bilhes de pessoas.

Estamos gerando informao o tempo todo

Utilizando avio

Pagando contas online

Comprando pela internet

Acessando redes sociais

Assistindo TV (sim, SmartTV)

Consultando um mdico

Realizando ligaes telefnicas

At quando morremos

Arquitetura

Inmeros sistemas legados;

Falta de padronizao dos dados;

Cada produto tem um objetivo e guarda os dados no seu formato;

Dificuldade de um produto conversar com outro;

Arquitetura

Quando existe a necessidade de buscar informaes de diversas fontes, geralmente o trabalho manual;

Algum centraliza as informaes de diferentes ferramentas fazendo um copy & paste;

Trabalho lento, pode ter falha humana;

Arquitetura

Solues de Big Data podem automatizar esse trabalho...

No apenas automatizar, mas colocar inteligncia...

Identificar novos padres...

Aumentar a preciso das informaes

Fazer o gestor enxergar novas possibilidades.

Algumas tecnologias de Big Data

Hadoop

Pig

Hive

Hbase

Storm

Solr

Ambari

Zookeeper, etc...

O cientista de dados precisa entender como as informaes esto armazenadas e escolher as melhores ferramentas para atingir o objetivo final

Hadoop

Um framework que fornece uma maneira simples e escalvel para processos distribudos em diversos servidores;

Hadoop open source e inclui diversas ferramentas, como sistema de arquivos distribudo e Map/Reduce.

Big data Analytics

Informaes em diversos formatos: Comoas informaes no precisam seguir umamodelagem, nenhuma informao perdida;

Escalvel: Hadoop j provou ser muitoescalvel, Facebook e Yahoo! so doiscases de sucesso;

Novas descobertas: Pela flexibilidade emcruzar informaes, simples conseguirnovos insights, algo complicado quando estpreso a uma modelagem;

Escalabilidade

A maioria das aplicaes apresentamdificuldade para escalar ou exigemconfiguraes complexas. O Hadoop escalafacilmente, usando hardware comum, semnenhuma necessidade de configuraescomplexas.

Alta Disponibilidade

O fato de ter sistema de arquivos distribudo,(HDFS) onde os dados no esto restritos emapenas um servidor, j faz o sistema com altadisponibilidade.

Empresas que investiram em Hadoop

1. Yahoo! - grande investidora de Hadoop;

2. Facebook - Utiliza para cruzar informaes da rede social

3. Twitter - Utiliza para cruzar informaes da rede social;

4. Adobe - Utiliza em seus sistemas de publicao online;

5. e-Bay - Utiliza para identificar tendncias de compras;

Quem adota Big Data?

Empresas de sade

Portais de servio

Redes Sociais

Empresas financeiras

Mineradoras

Empresas de Segurana Pblica

Casos de sucesso

Muito obrigado!

Christiano [email protected]