17
Luciano Vargas Especialista em Governança de TI Programador aos 17 anos (Basic, Pascal, C/C++, Clipper, Cobol) Experiência em TI Corporativa, programação, arquitetura, infraestrutura, segurança da informação, gerência de projetos, administração de ERP, analista de informações e analista de BI Experiência profissional: CVI Refrigerantes (13 anos) UNIPAMPA (1 ano) Consultoria* DBA Oracle, SQL-Server, DB2 IBM, MySQL Delphi/Java/PHP/Progress 4GL Salient Margin Minder/Qlik View Geração X - “Adapt or die” (1960-1970) [email protected] (55)8158-4196

BIG DATA na UFSM

Embed Size (px)

DESCRIPTION

Essa apresentação foi exibida na Semana Acadêmica 2014 da UFSM (SAINF 2014). Ela explica o funcionamento do BigData, qual o papel do Apache Hadoop, e como os dados são coletados e analisados pelas grandes companhias de mineração de dados.

Citation preview

Page 1: BIG DATA na UFSM

Luciano Vargas

• Especialista em Governança de TI

• Programador aos 17 anos (Basic, Pascal, C/C++, Clipper, Cobol)

• Experiência em TI Corporativa, programação, arquitetura, infraestrutura, segurança da informação, gerência de projetos, administração de ERP, analista de informações e analista de BI

• Experiência profissional:• CVI Refrigerantes (13 anos)• UNIPAMPA (1 ano)• Consultoria*• DBA Oracle, SQL-Server, DB2 IBM, MySQL• Delphi/Java/PHP/Progress 4GL• Salient Margin Minder/Qlik View

• Geração X - “Adapt or die” (1960-1970)

[email protected] (55)8158-4196

Page 2: BIG DATA na UFSM
Page 3: BIG DATA na UFSM

Fonte: http://www.tecmundo.com.br/internet/42483-o-que-acontece-na-internet-em-60-segundos-.htm

Page 4: BIG DATA na UFSM

http://oglobo.globo.com/infograficos/bigdata/

Page 5: BIG DATA na UFSM

http://www.ibmbigdatahub.com/tag/587

velocidade, volume, variedade, veracidade (*valor)

Page 6: BIG DATA na UFSM

Uma investigação, feita pela Universidade de Cambridge, que, após analisar as páginas

do Facebook de 58 mil pessoas, descobriu que pessoas com alto Quociente de Inteligência apre-

ciam a voz do actor Morgan Freeman.

Ninguém sabe por quê.

A análise do Big Data pode estabelecer uma correlação, mas não é capaz de apontar

uma causa.

Page 7: BIG DATA na UFSM

Moneyball, 2011.

O filme é baseado no livro Moneyball: The Art of Winning an Unfair Game de Michael Lewis, que por sua vez é baseado na história verdadeira de Billy Beane, gerente geral do time de basebol do Oakland Athletics.

Moneyball se foca nas tentativas de Beane de criar um time competitivo para a temporada de 2002 de Oakland, apesar da situação financeira desfavorável da equipe, usando uma sofisticada análise estatística dos jogadores.

http://pt.wikipedia.org/wiki/Moneyball

Page 8: BIG DATA na UFSM
Page 9: BIG DATA na UFSM

http://www.baguete.com.br/noticias/29/10/2014/twitter-abre-dados-para-ibm

“Segundo dados divulgados pela rede social esta semana, o Twitter conta com cerca de 284 milhões de usuários ativos.”

“Em caso que vocês se estejam se perguntando porque diabos uma fabricante de fritadoras quer saber do Twitter, a resposta é que a companhia busca queixas sobre batata frita mal feita para poder despachar técnicos para o local.”

“As empresas quiseram ter acesso ao que o consumidor está pensando desde sempre. Com esse acordo, já não será necessário inferir isso.”

Page 10: BIG DATA na UFSM

Database

X

Escalabilidade (petabytes de dados, milhares de servidores)

Flexibilidade para aceitartodos os formatos de dados (schema)

Eficiência e tolerância a falhas transparente

Hardware/software comocommodity (inexpressivo)

Performance (milhares de índices, tuning, dicionário, storage...)

Regras ACID (Atomicidade, Consistência, Isolamento e Durabilidade)

Tolerância a falhas não é transparente (não-simples)

H/W extremamente significativo!

Page 11: BIG DATA na UFSM

• Hadoop é um framework de software para processamento distribuído, paralelo e em grade - de dados gigantes em clusters de computadores

• Qual o tamanho?• Datasets gigantes: Terabytes ou petabytes de dados• Clusters gigantes: centenas ou milhares de máquinas!

• Implementação open-source do Google MapReduce

• Utiliza um modelo de programação extremamente simples conhecidocomo “MapReduce”

• É baseado em um modelo “único” de dados, capaz de armazenarqualquer tipo de informação

• Alto nível de abstração tecnológica (ex: driver/S.O/protocolo, etc)

Page 12: BIG DATA na UFSM

O framework Hadoop framework contém apenas duascamadas:

• Distributed file system (HDFS)• Execution engine (MapReduce)

Page 13: BIG DATA na UFSM

HDSF = Hadoop Distributed File System. Sistema de arquivos distribuído nativo, embutido na solução. Armazenae sincroniza grandes volumes de dados em hardware barato.

Gigante: cada instância de um nó HDFS pode contercentenas ou milhares de máquinas, cada uma armazenandouma parte dos dados

Replicação: os dados são replicados várias vezes (default é 3)

Falhas: uma falha é um evento normal, não uma exceção

Tolerância a falha: o processo de detecção de falhas é extremamente rápido, e promove recuperação automática(transparente). Essa característica é a mais importante da arquitetura HDFS

Nós: cada nó é constantemente monitorado para detectarfalhas

Page 14: BIG DATA na UFSM

• Arquitetura de software introduzida pelo Google

• É a combinação de dois processos chamados Map e Reduce

• Implementa programação paralela e distribuída de forma transparente

• No processo Map, o nó mestre recebe a informação, divide-a em subtarefas menores e distribui essas tarefas para nós funcionais. O nó funcional processa essa tarefa menor e devolve a resposta ao nó mestre.

• No processo Reduce, o nó mestre recebe as respostas de todas as subtarefas e as combina de modo a obterem a saída, que é o resultado da tarefa original.

• Vantagem: distribuição do processamento e tolerância a falhas

• É altamente dependente do nó “mestre”, eficiente apenas para volumes de dados muito grandes

Page 15: BIG DATA na UFSM

SGBD Distribuído Hadoop

Modelocomputacional

- Controle de transações- Transação é a unidade de trabalho

- Controle de tarefas- Tarefa é a unidade de trabalho

Modelo de dados - Dados estruturados com esquema esquema conhecido

- Operações Read/Write- Dados estruturados

- Dados se encaixam em esquema “livre”

- Operação ReadOnly- Dados estruturados ou não

Custo - Servidores caros - Servidores baratos

Tolerância a falhas - Falhas são raras- Mecanismos de recuperação

- Falhas são comuns emmilhares de máquinas

- Tolerância a falhas simples, mas eficiente

Características-chave

- Eficiência, otimização, ajuste fino(tunning)

- Escalabilidade, flexibilidade, tolerância a falhas

Apache Hadoop Foundation - http://hadoop.apache.org/

Page 16: BIG DATA na UFSM

• BigData favoreceu o cloud computing• Permite administrar o ambiente sem interrupções• Busca e mineração de muita informação em pouco tempo• Simplificou operações (tolerância a falhas/programação paralela)

• Respostas para a coisa “internet”• Ferramenta sempre disponível• Oferece informações relevantes em tempo real• Mais informação, “menos” tecnologia

Conclusão

Page 17: BIG DATA na UFSM

Artigo: http://www.ibm.com/developerworks/br/linux/library/au-cloud_apache/Yi Ming Huang, Software Engineer, IBMZhao Hui Nie, Software Engineer, IBM

Hitachi Data Systems, 2012Hitachi Data Systems Hadoop Solutionhttp://www.hds.com/solutions/big-data/

Apache Hadoop: conceitos teóricos e práticos, evolução e novas possibilidadesAlfredo Goldman, Fabio Kon, Francisco Pereira Junior, Ivanilton Polato e Rosangela de Fátima PereiraBiblioteca Digital Brasileira de Computação: http://www.lbd.dcc.ufmg.br/bdbcomp/servlet/Trabalho?id=12577

Apache Hadoop Foundationhttp://hadoop.apache.org/

Big Data - Como Extrair Volume, Variedade, Velocidade e Valor da Avalanche de Informação Cotidiana. Autores: Cukier, KennethMayer-schönberger, ViktorEdt. CAMPUS, 2013