Aprendizado de Máquina e Grandes Conjuntos de Dados

Preview:

DESCRIPTION

Pequena introdução às áreas de Machine Learning (ML) e big data

Citation preview

Aprendizado de Máquinae

Grandes Conjuntos de Dados

Thomas de Araujo Buck

Tipos de algoritmos● Determinísticos (ou clássicos, convencionais)● Adaptativos (ou estocásticos, "avançados")

Algoritmos determinísticos● Detecção de colisão● Fatoração de números primos● Inversão de matrizes (esparsas)● Ordenação (quicksort, mergesort)● Page Rank● Um pouco mais avançados

● A*● Árvore de jogos

Árvore de jogos● Jogo da velha

● Qual a quantidade total de possibilidades?● 9 * 8 * … * 2 * 1 = 9! = 362.880

● Para pensar!● Jogo de damas● Batalha Naval● Reversi

Xadrez

● Quem se lembra da disputa homem (Garry Kasparov) contra máquina (IBM Deep Blue) ?

● Mais uma pergunta: xadrez é, neste sentido, o jogo mais "difícil" já criado pelo homem?

● Go

● Há sinais de esperança

A faxineira eletrônica● O equipamento

● Exemplos de recintos●

● Qual o algoritmo que garanta a limpeza?

Algoritmos adaptativos● O que é um programa "inteligente"?● É um programa "que aprende"?● Seguem alguns exemplos

● Análise de crédito● Navegação autônoma● Reconhecimento de faces

● Diagnóstico médico● Projeção financeira (prognóstico)● Sistemas de recomendação● Logística

● Text processing● Spam● News● Plágio

Aprendizado de máquina● Supervisionado (aprende com exemplos), que

possui 2 fases: treinamento e operação● NN● Classificação (Discriminante Linear - DL)● Regressão

● Não supervisionado (aprende sozinho), que só possui a fase de operação● Análise de aglomeração (K-means clustering)

Exemplos de algoritmos● NN● k-NN● Dimensão do vetor de características: 2● Quantidade de classes: 2

Dados (qualidade boa)

Dados (qualidade ruim)

A enorme avalanche de dados● Matéria da revista The Economist

Data centers

● Google

● Facebook

Tratamento dos dados● O que fazer com esses dados? Apenas

armazenar? Indexar?● Ou deve-se extrair informação útil? Como?

Manualmente?

Problemas muito difíceis para serem programados

● A competição DARPA Grand Challenge●

● Urban Challenge

● A experiência Google Car

● Mais alguns detalhes

● Oooops: um pequeno problema

Grandes conjuntos de dados● Análise de dados

● Manual● Automática

KDD

Imagens● Acesso por conteúdo

● PhotoLib

● Games with a purpose (GWAP)

● Pixazza - Luminate● Semantics● Learning

Área médica● Mamografia● Colonoscopia

● As gerações dos equipamentos de tomografia computadorizada

Big Data tem valor de negócio

US Economy

Um experimento recente● IBM Watson

Como ter certeza?

Smarter Planet + Big Data + Cloud = Analytics

Uma outra oportunidade tem início● Dados públicos: New York, Chicago, ...● Rio de Janeiro (?)

Conclusões● Tratamento computacional de grandes

quantidades de dados é uma oportunidade, segundo a consultoria McKinsey

Para reflexão

ObrigadoThomas de Araujo Buckthomasbuck@gmail.com

www.facebook.com/ThomasABuck@ThomasABuck

Recommended