Aprendizado de Máquinae
Grandes Conjuntos de Dados
Thomas de Araujo Buck
Tipos de algoritmos● Determinísticos (ou clássicos, convencionais)● Adaptativos (ou estocásticos, "avançados")
Algoritmos determinísticos● Detecção de colisão● Fatoração de números primos● Inversão de matrizes (esparsas)● Ordenação (quicksort, mergesort)● Page Rank● Um pouco mais avançados
● A*● Árvore de jogos
Árvore de jogos● Jogo da velha
● Qual a quantidade total de possibilidades?● 9 * 8 * … * 2 * 1 = 9! = 362.880
● Para pensar!● Jogo de damas● Batalha Naval● Reversi
Xadrez
● Quem se lembra da disputa homem (Garry Kasparov) contra máquina (IBM Deep Blue) ?
●
●
●
●
●
●
● Mais uma pergunta: xadrez é, neste sentido, o jogo mais "difícil" já criado pelo homem?
● Go
● Há sinais de esperança
A faxineira eletrônica● O equipamento
● Exemplos de recintos●
●
●
●
●
● Qual o algoritmo que garanta a limpeza?
Algoritmos adaptativos● O que é um programa "inteligente"?● É um programa "que aprende"?● Seguem alguns exemplos
● Análise de crédito● Navegação autônoma● Reconhecimento de faces
● Diagnóstico médico● Projeção financeira (prognóstico)● Sistemas de recomendação● Logística
● Text processing● Spam● News● Plágio
Aprendizado de máquina● Supervisionado (aprende com exemplos), que
possui 2 fases: treinamento e operação● NN● Classificação (Discriminante Linear - DL)● Regressão
● Não supervisionado (aprende sozinho), que só possui a fase de operação● Análise de aglomeração (K-means clustering)
Exemplos de algoritmos● NN● k-NN● Dimensão do vetor de características: 2● Quantidade de classes: 2
Dados (qualidade boa)
Dados (qualidade ruim)
A enorme avalanche de dados● Matéria da revista The Economist
Data centers
Tratamento dos dados● O que fazer com esses dados? Apenas
armazenar? Indexar?● Ou deve-se extrair informação útil? Como?
Manualmente?
Problemas muito difíceis para serem programados
● A competição DARPA Grand Challenge●
●
●
●
●
●
●
● Urban Challenge
● A experiência Google Car
● Mais alguns detalhes
● Oooops: um pequeno problema
Grandes conjuntos de dados● Análise de dados
● Manual● Automática
KDD
Imagens● Acesso por conteúdo
● PhotoLib
● Games with a purpose (GWAP)
● Pixazza - Luminate● Semantics● Learning
Área médica● Mamografia● Colonoscopia
● As gerações dos equipamentos de tomografia computadorizada
Big Data tem valor de negócio
US Economy
Um experimento recente● IBM Watson
Como ter certeza?
Smarter Planet + Big Data + Cloud = Analytics
Uma outra oportunidade tem início● Dados públicos: New York, Chicago, ...● Rio de Janeiro (?)
Conclusões● Tratamento computacional de grandes
quantidades de dados é uma oportunidade, segundo a consultoria McKinsey
Para reflexão
ObrigadoThomas de Araujo [email protected]
www.facebook.com/ThomasABuck@ThomasABuck