47
Big Data e Mineração de Dados Prof. Paulo Cesar de Carvalho Dias [email protected]

Palestra big data_e_mineracao_dedados_5agosto13-versaoslideshare

  • Upload
    pccdias

  • View
    1.489

  • Download
    0

Embed Size (px)

DESCRIPTION

Big Data: Palestra apresentada dia 05 de setembro de 2013 no Centro Univ. UniSEB em Ribeirão Preto

Citation preview

Page 1: Palestra big data_e_mineracao_dedados_5agosto13-versaoslideshare

Big Data e Mineração de

Dados

Prof. Paulo Cesar de Carvalho Dias

[email protected]

Page 2: Palestra big data_e_mineracao_dedados_5agosto13-versaoslideshare

Sumário Geral

• Parte 1 - Big Data e Mineração de

dados

• Parte 2 - Pós-Graduação em Banco

de Dados e Mineração de Dados

UniSEB

• Parte 4 - Exemplo de aplicação (Prof.

Reginaldo)

Page 3: Palestra big data_e_mineracao_dedados_5agosto13-versaoslideshare

BIG DATA

Parte 1 -

Page 4: Palestra big data_e_mineracao_dedados_5agosto13-versaoslideshare

Parte 1 - Big Data: Sumário

• O fenômeno e as histórias que a mídia

apresenta

• O que é Big Data.

• Big Data: a infraestrutura

Page 5: Palestra big data_e_mineracao_dedados_5agosto13-versaoslideshare

Big Data na Mídia

• Ultimamente há diversas histórias sobre

Big Data:

You Tube: http://youtu.be/LsMt5jp1a9k

Page 6: Palestra big data_e_mineracao_dedados_5agosto13-versaoslideshare

Big Data na Mídia

http://www.forbes.com/sites/kashmirhill/2012/02/16/how-target-figured-out-a-teen-girl-was-pregnant-before-her-father-did/

http://youtu.be/XH1wQEgROg4

Page 7: Palestra big data_e_mineracao_dedados_5agosto13-versaoslideshare

Big Data na Mídia

http://www.fivethirtyeight.com/

http://blogs.scientificamerican.com/cocktail-party-physics/2012/11/07/why-math-is-like-the-honey-badger-nate-silver-ascendant/

Page 8: Palestra big data_e_mineracao_dedados_5agosto13-versaoslideshare

Big Data na Mídia

http://www.forbes.com/sites/kashmirhill/2012/02/16/how-target-figured-out-a-teen-girl-was-pregnant-before-her-father-did/

Page 9: Palestra big data_e_mineracao_dedados_5agosto13-versaoslideshare

Os 3Vs do Big Data

• Big Data é qualquer fonte de dados

que possui no mínimo três

características comuns:

– Volume extremamente elevado;

– Velocidade extremamente elevada;

– Variedade extremamente elevada.

Page 10: Palestra big data_e_mineracao_dedados_5agosto13-versaoslideshare

Os 3Vs do Big Data

Fonte: ibm http://www.ibm.com/midmarket/br/pt/img/ssa_img_ibm_bigdata_110612.jpg

Page 12: Palestra big data_e_mineracao_dedados_5agosto13-versaoslideshare

Volume maior de dados...

Fonte: ibm http://www.ibm.com/midmarket/br/pt/img/ssa_img_ibm_bigdata_110612.jpg

Page 14: Palestra big data_e_mineracao_dedados_5agosto13-versaoslideshare

O que gera tanta

quantidade de dados?

• Computadores e dispositivos: informações geradas por máquinas sem a intervenção humana

• Humanos: através de sua interação com as máquinas e computadores

Page 15: Palestra big data_e_mineracao_dedados_5agosto13-versaoslideshare

Variedade dos dados: •Dados com comprimento e tipo

definidos.

•Exemplos: números, datas, strings, etc

Dados estruturados

•Dados sem um formato específico.

•Exemplos: imagens de satélite, dados científicos, fotos, vídeos, documentos, mídia social, Web, etc

Dados não estruturados

•Dados que não são aderentes a um esquema fixo mas podem ser auto-definídos.

•Exemplos: JSON, EDI, XML

Dados semiestruturados

Page 16: Palestra big data_e_mineracao_dedados_5agosto13-versaoslideshare

Velocidade dos dados

• A revolução das tecnologias de

comunicação aumentou muito a

velocidade de transmissão de dados.

Page 17: Palestra big data_e_mineracao_dedados_5agosto13-versaoslideshare

Componentes Tecnológicos

do Big Data

Inte

rfa

ce

s e

alim

en

tad

ore

s d

e/p

ara

in

tern

et

Infraestrutura física redundante

Infraestrutura de segurança

Dispositivos (computadores, notebooks, tablets,

smarphones)

Banco de dados Operacional (estruturado, não

estruturado e semiestruturado)

“Organização” de banco de dados e ferramentas

Datawarehouses e Data Marts analiticos

Relatórios e visualização

Aplicações Big Data

Ferramentas analíticas

Inte

rfac

es e

alim

en

tad

ore

s de

/pa

ra a

plic

õe

s

Page 18: Palestra big data_e_mineracao_dedados_5agosto13-versaoslideshare

Infraestrutura física

• Requisitos:

– Desempenho: um parâmetro importante é a

latência e o tempo de resposta.

– Disponibilidade: uptime, tempo médio entre

falhas.

– Escalabilidade: quão fácil a infra estrutura pode

ser ampliada ou reduzida em função da

dinâmica do negócio.

– Flexibilidade: quão rapidamente a infraestrutura

pode ser alterada e recuperar-se de falhas.

– Custo: quer pagar quanto??

Page 19: Palestra big data_e_mineracao_dedados_5agosto13-versaoslideshare

Infraestrutura física

• Computação em nuvem pode ser uma boa

alternativa

– Definição de computação em nuvem: é um

método de fornecer um conjunto de recursos

computacionais incluindo aplicativos,

armazenamento, rede, ambientes de

desenvolvimento, plataformas de implantação e

processos de negócio.

Page 20: Palestra big data_e_mineracao_dedados_5agosto13-versaoslideshare

Infraestrutura física

• Modelos de computação em nuvem

– Infrastructure as a Service (IaaS): fornecimento

de serviços computacionais incluindo hardware,

rede, armazenamento e espaço em

datacenters por aluguel de recursos.

– Platform as a Service (PaaS): combina IaaS com

um conjunto abstrato de serviços de

middleware, ferramentas de desenvolvimento

de software, ferramentas de implantação as

quais permitem à organização ter um modo

consistente de criar implantar aplicações na

nuvem.

Page 21: Palestra big data_e_mineracao_dedados_5agosto13-versaoslideshare

Infraestrutura física

• Modelos de computação em nuvem

– Software as a Service (SaaS): aplicações criadas

e hospedadas por um provedor. O cliente paga

por serviço por usuário em contratos mensais ou

anuais.

– Data as a Service (DaaS): serviço independente

da plataforma que conecta o cliente com a

nuvem para armazenar e recuperar dados.

Page 22: Palestra big data_e_mineracao_dedados_5agosto13-versaoslideshare

Infraestrutura física

• Exemplos de nuvens:

Page 23: Palestra big data_e_mineracao_dedados_5agosto13-versaoslideshare

Componentes Tecnológicos

do Big Data

Inte

rfa

ce

s e

alim

en

tad

ore

s d

e/p

ara

in

tern

et

Infraestrutura física redundante

Infraestrutura de segurança

Dispositivos (computadores, notebooks, tablets,

smarphones)

Banco de dados operacional (estruturado, não

estruturado e semiestruturado)

“Organização” de banco de dados e ferramentas

Datawarehouses e Data Marts analiticos

Relatórios e visualização

Aplicações Big Data

Ferramentas analíticas

Inte

rfac

es e

alim

en

tad

ore

s de

/pa

ra a

plic

õe

s

Page 24: Palestra big data_e_mineracao_dedados_5agosto13-versaoslideshare

Infraestrutura de segurança

• A segurança envolve diversos

aspectos:

– Acesso aos dados

– Acesso aos aplicativos

– Criptografia de dados

– Detecção de ameaças

Page 25: Palestra big data_e_mineracao_dedados_5agosto13-versaoslideshare

Infraestrutura de segurança

• A segurança envolve diversos

aspectos:

– Acesso aos dados

– Acesso aos aplicativos

– Criptografia de dados

– Detecção de ameaças

Page 26: Palestra big data_e_mineracao_dedados_5agosto13-versaoslideshare

Bancos de dados

operacionais • Bancos de dados relacionais

• Bancos de dados Not Only SQL

(NoSQL)

Page 27: Palestra big data_e_mineracao_dedados_5agosto13-versaoslideshare

Bancos de dados

operacionais

• Bancos de dados relacionais

– Dados estruturados

– ACID (Atomicidade, Consistência,

Isolamento e Durabilidade)

Page 28: Palestra big data_e_mineracao_dedados_5agosto13-versaoslideshare

Bancos de dados

operacionais • Bancos de dados Not Only SQL

(NoSQL)

– Não são baseados no modelo tradicional de tabelas e chaves dos RDBMs.

– Escaláveis

– Modelos próprios de dados e queries

– Alguns possuem consistência eventual: em vez de ACID e alguns são BASE (Basically Available, Soft state, and Eventual Consistency)

Page 29: Palestra big data_e_mineracao_dedados_5agosto13-versaoslideshare

Bancos de dados

operacionais • Bancos de dados Not Only SQL

(NoSQL)

– Banco de dados chave-valor (key-value)

– Banco de dados de documentos

Page 30: Palestra big data_e_mineracao_dedados_5agosto13-versaoslideshare

Bancos de dados

operacionais • Bancos de dados Not Only SQL

(NoSQL)

– Banco de dados de grafos:

– Banco de dados espaciais

Page 31: Palestra big data_e_mineracao_dedados_5agosto13-versaoslideshare

Bancos de dados

operacionais • Bancos de dados Not Only SQL

(NoSQL)

– Banco de dados em colunas:

HBase é um banco de dados distribuido open-source orientado

a coluna, modelado a partir do Google BigTable e escrito

em Java.

O Hbase tem fácil integração com o Hadoop, sendo assim,

pode utilizar o MapReduce para distribuir o processamento dos

dados, podendo processar facilmente vários terabytes de

dados.

Page 32: Palestra big data_e_mineracao_dedados_5agosto13-versaoslideshare

Organização de banco de

dados e ferramentas • Esta parte da infraestrutura captura,

valida e monta vários elementos de

big data em coleções relevantes.

• Tecnologias envolvidas: – Sistemas de arquivos distribuídos.

– Serviços de serialização para persistência de

dados e chamadas remota de procedimentos

– Serviços de coordenação: para possibilitar

aplicações distribuídas.

Page 33: Palestra big data_e_mineracao_dedados_5agosto13-versaoslideshare

Organização de banco de

dados e ferramentas • A tecnologia mais conhecida desta

parte do framework é o MapReduce

• MapReduce é um modelo de programação para o processamento

de grandes conjuntos de dados com

um algoritmo distribuído paralelo em

um cluster.

Page 34: Palestra big data_e_mineracao_dedados_5agosto13-versaoslideshare

Organização de banco de

dados e ferramentas • Um programa de MapReduce

compreende: – um map () procedimento que realiza a filtragem

e ordenação (como classificação os alunos pelo

primeiro nome em filas, uma fila para cada

nome) e

– Reduce () procedimento que executa uma

operação de resumo (como a contagem do

número de alunos em cada fila, produzindo

freqüências nome).

Page 35: Palestra big data_e_mineracao_dedados_5agosto13-versaoslideshare

Organização de banco de

dados e ferramentas • MapReduce:

Page 36: Palestra big data_e_mineracao_dedados_5agosto13-versaoslideshare

Organização de banco de

dados e ferramentas

• Apache Hadoop é um framework de software open-source que suporta aplicações intensivas de dados distribuídos, licenciado sob a licença Apache v2.

Page 37: Palestra big data_e_mineracao_dedados_5agosto13-versaoslideshare

Organização de banco de

dados e ferramentas

• Ele suporta a execução de aplicações em grandes aglomerados de hardware commodity.

• Hadoop MapReduce foi obtido a partir do Google e do sistema de arquivo do Google (GFS).

Page 38: Palestra big data_e_mineracao_dedados_5agosto13-versaoslideshare

Mineração de dados

• Mineração de dados envolve a exploração e análise de grande

quantidade de dados com o objetivo

de encontrar padrões

Page 39: Palestra big data_e_mineracao_dedados_5agosto13-versaoslideshare

Mineração de dados

• Mineração de dados utiliza técnicas

estatísticas e de inteligência artificial.

• O objetivo da mineração de dados

pode ser feita para:

– Classificar elementos de um conjunto de

dados.

– Prever valores de variáveis aleatórias.

Page 40: Palestra big data_e_mineracao_dedados_5agosto13-versaoslideshare

Mineração de dados

• Mineração de dados utiliza técnicas

estatísticas e de inteligência artificial.

• O objetivo da mineração de dados

pode ser feita para:

– Classificar elementos de um conjunto de

dados.

– Prever valores de variáveis aleatórias.

Page 41: Palestra big data_e_mineracao_dedados_5agosto13-versaoslideshare

Mineração de dados

• Exemplos de algoritmos utilizados na mineração de dados:

– Árvores de classificação

– Regressão logística

– Redes neurais

– Técnicas de agrupamento (clustering)

Page 42: Palestra big data_e_mineracao_dedados_5agosto13-versaoslideshare

PÓS-GRADUAÇÃO EM BANCO

DE DADOS E MINERAÇÃO DE DADOS UNISEB

Parte 2 -

Page 43: Palestra big data_e_mineracao_dedados_5agosto13-versaoslideshare

Introdução

• Justificativa do curso:

– Grande número de empresas de software

na região;

– Crescimento do setor e grande demanda

por profissionais qualificados na área de TI;

– Aumento da concorrência entre as

empresas que necessitam de profissionais

cada vez mais capacitados e atualizados

43

Page 44: Palestra big data_e_mineracao_dedados_5agosto13-versaoslideshare

Objetivo do curso

• Geral:

– O UNISEB COC formará especialistas na área de Banco de Dados e Mineração de Dados com domínio da técnica e capacidade de identificar problemas, oportunidades e propor soluções

inovadoras para o armazenamento, disponibilização e mineração de dados de empresas de pequeno, médio e

grande porte.

44

Page 45: Palestra big data_e_mineracao_dedados_5agosto13-versaoslideshare

Metodologia:

• Aulas Teóricas: – Serão expositivo-dialogadas e utiliza-se das

técnicas de dinâmicas de grupo, estudo dirigido e seminários, sempre articulando os saberes teóricos aos saberes práticos dos atores envolvidos no processo.

– Para apoio do curso existe um ambiente virtual em que algumas informações e material bibliográfico são disponibilizados, além da possibilidade do agendamento de chat.

• Aulas Práticas: – Aulas práticas serão desenvolvidas em sala de

aula e laboratório de informática.

45

Page 46: Palestra big data_e_mineracao_dedados_5agosto13-versaoslideshare

Pós-Graduação em Banco de Dados e Mineração de Dados

• Contato comercial: 3603-9803

Page 47: Palestra big data_e_mineracao_dedados_5agosto13-versaoslideshare

EXEMPLO DE APLICAÇÃO

(PROF. REGINALDO)

Parte 3 -