Palestra Big Data SCTI

View
112
Download
3
Category

Technology

Preview:

DESCRIPTION

Por: Christiano Anderson

Citation preview

Big DataA nova ciência dos dados

SCTI/UENF 2014

Christiano Andersonchris@christiano.me

Twitter: @dumpBlog: http://christiano.me

Christiano Andersonchris@christiano.me

Twitter: @dumpBlog: http://christiano.me

Quem sou?

● Desenvolvedor e arquiteto de dados, trabalha com grandes volumes de acesso e informação desde o início da internet comercial no Brasil;

● Participou da criação do primeiro e-mail gratuito do Brasil: Zipmail;● Ex-engenheiro do Terra Networks;● Trabalhou em algumas startups;● Contribui e já contribuiu com diversos projetos de Software Livre:

– MongoDB (atual)

– Python / Django (atual)

– Free Software Foundation (GNU Project)

– Projeto Debian

● Palestra sobre arquitetura de dados nos principais eventos de tecnologia;

Contatos

● E-mail: chris@christiano.me● Twitter: @dump● Blog: http://christiano.me● Nas Redes Sociais (Facebook, LinkedIn, etc):

Christiano Anderson● Escrevo bastante sobre NoSQL e Big Data nas

redes sociais

mailto:chris@christiano.me

http://christiano.me/

Big Data?

Big data se trata de um conceito onde o foco égrande armazenamento de dados e maior

velocidades.

Os 5 V's

1. Velocidade2. Volume3. Variedade4. Veracidade5. Valor

Velocidade

Em muitos casos, as respostas precisam serrápidas, praticamente em tempo real para o

tratamento de um volume massivo de dados;

Para um sistema anti-fraude, 2 minutos podeser muito tempo.

Volume

Empresas podem facilmente produzir GB emais GB de informações por dia.

O Twitter pode facilmente produzir diariamentealguns TB de informações pertinentes para

análise de sentimento;

Variedade

São informações de diversas fontes, comoimagens, tuites e outros resultados de redes

sociais, textos, etc. Os dados não seguem umamodelagem padrão;

Veracidade

A maioria dos gestores não confiam 100% nasinformações que recebem para tomada de

Decisões;

Ao organizar as informações e usar filtrosapropriados, é possível aumentar a

confiabilidade dos dados;

Valor

Depois que os dados são tratados e filtrados,podem representar um valor inestimável paraempresa, seja para tomada de decisões ou

definições de novos produtos;

Como funciona?

Big data é capaz de capturar, armazenar eprocessar um massivo volume de informações

que podem ser espalhados em diversoshardware de commodity;

Uma vez capturado, os dados podem serprocessados através de dezenas de ferramentas;

Exemplos de uso

● Decodificar o genoma humano demorava cerca de 10 anos; atualmente, pode ser processado em uma fração desse tempo com big data;

● Walmart processa milhões de transações de clientes por dia, com big data, consegue identificar padrões de fraudes quase que imediatamente;

● FICO (inclui sistema de deteção de fraudes em cartão de crédito) consegue processar mais de 2 bilhões de transações por dia;

A nova ciência dos dados

Quantos bytes diários de informação eram Produzidos em 1980?

E em 1990?

E em 2000?

E nos dias atuais?

Quantos bytes produzimos em toda nossa vida?

Nos últimos anos, produzimos mais dados que toda história da humanidade

Já imaginou que a maioria dos dispositivos eletrônicos já possuem um endereço de IP?

Quando você opera esse dispositivo, alguma informação é gerada.

Isso vai ficar gravado em algum lugar.

O mundo possui aproximadamente 7 bilhões de pessoas.

Estamos gerando informação o tempo todo

● Utilizando avião● Pagando contas

online● Comprando pela

internet● Acessando redes

sociais

● Assistindo TV (sim, SmartTV)

● Consultando um médico

● Realizando ligações telefônicas

● Até quando morremos

Arquitetura

● Inúmeros sistemas legados;● Falta de padronização dos dados;● Cada produto tem um objetivo e guarda os

dados no seu formato;● Dificuldade de um produto “conversar” com

outro;

Arquitetura

● Quando existe a necessidade de buscar informações de diversas fontes, geralmente o trabalho é manual;

● Alguém centraliza as informações de diferentes ferramentas fazendo um “copy & paste”;

● Trabalho é lento, pode ter falha humana;

Arquitetura

● Soluções de Big Data podem automatizar esse trabalho...

● … Não apenas automatizar, mas colocar inteligência...

● … Identificar novos padrões...● … Aumentar a precisão das informações …● … Fazer o gestor enxergar novas

possibilidades.

Algumas tecnologias de Big Data

● Hadoop● Pig● Hive● Hbase● Storm● Solr● Ambari● Zookeeper, etc...

O cientista de dados precisa entender como as informações estão armazenadas e escolher as

melhores ferramentas para atingir o objetivo final

Hadoop

● Um framework que fornece uma maneira simples e escalável para processos distribuídos em diversos servidores;

● Hadoop é open source e inclui diversas ferramentas, como sistema de arquivos distribuído e Map/Reduce.

Big data Analytics

Informações em diversos formatos: Comoas informações não precisam seguir umamodelagem, nenhuma informação é perdida;

Escalável: Hadoop já provou ser muitoescalável, Facebook e Yahoo! são doiscases de sucesso;

Novas descobertas: Pela flexibilidade emcruzar informações, é simples conseguirnovos insights, algo complicado quando estápreso a uma modelagem;

Escalabilidade

A maioria das aplicações apresentamdificuldade para escalar ou exigem

configurações complexas. O Hadoop escalafacilmente, usando hardware comum, semnenhuma necessidade de configurações

complexas.

Alta Disponibilidade

O fato de ter sistema de arquivos distribuído,(HDFS) onde os dados não estão restritos emapenas um servidor, já faz o sistema com alta

disponibilidade.

Empresas que investiram em Hadoop

● 1. Yahoo! - grande investidora de Hadoop;● 2. Facebook - Utiliza para cruzar informações da rede

social● 3. Twitter - Utiliza para cruzar informações da rede

social;● 4. Adobe - Utiliza em seus sistemas de publicação

online;● 5. e-Bay - Utiliza para identificar tendências de

compras;

Quem adota Big Data?

● Empresas de saúde● Portais de serviço● Redes Sociais● Empresas financeiras● Mineradoras● Empresas de Segurança Pública

Por onde começar?

Hortonworks Sandbox

● Baixe a máquina virtual da HortonWorks Sandbox;

● Possui uma distribuição Hadoop completa para começar a testar;

● Siga os tutoriais● http://br.hortonworks.com/products/hortonwork

s-sandbox/

http://br.hortonworks.com/products/hortonworks-sandbox/

O que aprender primeiro?

● Importar massa de dados para o HDFS;● Utilizar uma lingagem como Pig ou Hive para

trabalhar esses dados;● Compreender os componentes básicos;● Utilizar técnicas mais avançadas, como Map

Reduce puro para trabalhar os dados;● Desenvolver soluções integradas ao Hadoop;

Hortonworks Sandbox

Casos de sucesso

Muito obrigado!

Christiano AndersonTwitter: @dump

chris@christiano.me

Recommended

CIMEC - PALESTRA BIG BROTHER FISCAL - Gestão Contábil e ... · Controle eletrônico de Produção de Estoque; 6.66..6.Amarração e Cruzamentos Fiscais; Amarração e Cruzamentos

Documents

PROLACTINOMA Natalia Mendes. FISIOLOGIA DA PROLACTINA Diversidade estrutural Little prolactin, Big prolactin, Big big prolactin, prolactina glicosilada

Documents

Palestra Big Data SCTI

Technology

Proposal A4 - BiG

Cases big data

Big data Nas Eleicoes - Palestra Câmara Municipal de Curitiba

Palestra Introdução a Big Data

Portefólio BIG Arquitectura

Guia Big Viagem

Big Data or Big Analytics? - repositorio.pucp.edu.pe

CIMEC - PALESTRA BIG BROTHER FISCAL - Gestão Contábil e ... · Controle eletrônico de Produção de Estoque; 6.66..6.Amarração e Cruzamentos Fiscais; Amarração e Cruzamentos

Palestra Big Festival 03072015 Monetização

Big X Picanha

SCTI LINE 4

Big images / Big Type

Palestra: Cientista de Dados – Dominando o Big Data com Software Livre

PROLACTINOMA Natalia Mendes. FISIOLOGIA DA PROLACTINA Diversidade estrutural Little prolactin, Big prolactin, Big big prolactin, prolactina glicosilada

BIG. CARTOON 10

Little big planet

Big data Instituto Big Data Brasil Crie

Palestra Big Data - TDC 2015

Meu primeiro app nativo para Android - Minicurso SCTI UENF

[SCTI 2011] - CLI: sobrevivendo na linha de comando