Big Data
Big Data
A nova cincia dos dados
Christiano [email protected]
Quem sou?
Desenvolvedor e arquiteto de dados, trabalha com grandes volumes de acesso e informao desde o incio da internet comercial no Brasil;
Participou da criao do primeiro e-mail gratuito do Brasil: Zipmail;
Contribui com diversos projetos de Software Livre;
Palestra sobre arquitetura de dados nos principais eventos de tecnologia;
Big Data?
Big data se trata de um conceito onde o foco grande armazenamento de dados e maiorvelocidades.
Os 5 V's
1. Velocidade2. Volume3. Variedade4. Veracidade5. Valor
Velocidade
Em muitos casos, as respostas precisam serrpidas, praticamente em tempo real para otratamento de um volume massivo de dados;
Para um sistema anti-fraude, 2 minutos podeser muito tempo.
Volume
Empresas podem facilmente produzir GB emais GB de informaes por dia.
O Twitter pode facilmente produzir diariamentealguns TB de informaes pertinentes paraanlise de sentimento;
Variedade
So informaes de diversas fontes, comoimagens, tuites e outros resultados de redessociais, textos, etc. Os dados no seguem umamodelagem padro;
Veracidade
A maioria dos gestores no confiam 100% nasinformaes que recebem para tomada deDecises;
Ao organizar as informaes e usar filtrosapropriados, possvel aumentar aconfiabilidade dos dados;
Valor
Depois que os dados so tratados e filtrados,podem representar um valor inestimvel paraempresa, seja para tomada de decises oudefinies de novos produtos;
Como funciona?
Big data capaz de capturar, armazenar eprocessar um massivo volume de informaesque podem ser espalhados em diversoshardware de commodity;
Uma vez capturado, os dados podem serprocessados atravs de dezenas de ferramentas;
Exemplos de uso
Decodificar o genoma humano demorava cerca de 10 anos; atualmente, pode ser processado em uma frao desse tempo com big data;
Walmart processa milhes de transaes de clientes por dia, com big data, consegue identificar padres de fraudes quase que imediatamente;
FICO (inclui sistema de deteo de fraudes em carto de crdito) consegue processar mais de 2 bilhes de transaes por dia;
A nova cincia dos dados
Quantos bytes dirios de informao eram Produzidos em 1980?
E em 1990?
E em 2000?
E nos dias atuais?
Quantos bytes produzimos em toda nossa vida?
Nos ltimos anos, produzimos mais dados que toda histria da humanidade
J imaginou que a maioria dos dispositivos eletrnicos j possuem um endereo de IP?
Quando voc opera esse dispositivo, alguma informao gerada.
Isso vai ficar gravado em algum lugar.
O mundo possui aproximadamente 7 bilhes de pessoas.
Estamos gerando informao o tempo todo
Utilizando avio
Pagando contas online
Comprando pela internet
Acessando redes sociais
Assistindo TV (sim, SmartTV)
Consultando um mdico
Realizando ligaes telefnicas
At quando morremos
Arquitetura
Inmeros sistemas legados;
Falta de padronizao dos dados;
Cada produto tem um objetivo e guarda os dados no seu formato;
Dificuldade de um produto conversar com outro;
Arquitetura
Quando existe a necessidade de buscar informaes de diversas fontes, geralmente o trabalho manual;
Algum centraliza as informaes de diferentes ferramentas fazendo um copy & paste;
Trabalho lento, pode ter falha humana;
Arquitetura
Solues de Big Data podem automatizar esse trabalho...
No apenas automatizar, mas colocar inteligncia...
Identificar novos padres...
Aumentar a preciso das informaes
Fazer o gestor enxergar novas possibilidades.
Algumas tecnologias de Big Data
Hadoop
Pig
Hive
Hbase
Storm
Solr
Ambari
Zookeeper, etc...
O cientista de dados precisa entender como as informaes esto armazenadas e escolher as melhores ferramentas para atingir o objetivo final
Hadoop
Um framework que fornece uma maneira simples e escalvel para processos distribudos em diversos servidores;
Hadoop open source e inclui diversas ferramentas, como sistema de arquivos distribudo e Map/Reduce.
Big data Analytics
Informaes em diversos formatos: Comoas informaes no precisam seguir umamodelagem, nenhuma informao perdida;
Escalvel: Hadoop j provou ser muitoescalvel, Facebook e Yahoo! so doiscases de sucesso;
Novas descobertas: Pela flexibilidade emcruzar informaes, simples conseguirnovos insights, algo complicado quando estpreso a uma modelagem;
Escalabilidade
A maioria das aplicaes apresentamdificuldade para escalar ou exigemconfiguraes complexas. O Hadoop escalafacilmente, usando hardware comum, semnenhuma necessidade de configuraescomplexas.
Alta Disponibilidade
O fato de ter sistema de arquivos distribudo,(HDFS) onde os dados no esto restritos emapenas um servidor, j faz o sistema com altadisponibilidade.
Empresas que investiram em Hadoop
1. Yahoo! - grande investidora de Hadoop;
2. Facebook - Utiliza para cruzar informaes da rede social
3. Twitter - Utiliza para cruzar informaes da rede social;
4. Adobe - Utiliza em seus sistemas de publicao online;
5. e-Bay - Utiliza para identificar tendncias de compras;
Quem adota Big Data?
Empresas de sade
Portais de servio
Redes Sociais
Empresas financeiras
Mineradoras
Empresas de Segurana Pblica
Casos de sucesso
Muito obrigado!
Christiano [email protected]