16
Web Data mining com R: aprendizagem de m´ aquina Fabr´ ıcio Jailson Barth Faculdade BandTec e VAGAS Tecnologia Junho de 2013

Web Data Mining com r: aprendizagem de máquina

Embed Size (px)

DESCRIPTION

Web Data Mining com r: aprendizagem de máquina

Citation preview

Page 1: Web Data Mining com r: aprendizagem de máquina

Web Data mining com R:aprendizagem de maquina

Fabrıcio Jailson Barth

Faculdade BandTec e VAGAS Tecnologia

Junho de 2013

Page 2: Web Data Mining com r: aprendizagem de máquina

Sumario

• O que e Aprendizagem de Maquina?

• Hierarquia de aprendizado.

• Exemplos de aprendizagem supervisionada (modelos

preditivos).

• Exemplos de aprendizagem nao supervisionada

(modelos descritivos).

• Referencias e exercıcios.

Web Data mining com R: aprendizagem de maquina — Sumario 2

Page 3: Web Data Mining com r: aprendizagem de máquina

Contexto e exemplos

• Data Mining: grandes bases de dados tem crescido

com a automatizacao de alguns processos e com o

advento da Web, por exemplo: web click data,

registros medicos, dados biologicos, dados capturados

a partir de sensores.

• Aplicacoes que nao podem ser programadas “na

mao”: por exemplo, helicopteros autonomos,

reconhecedor de escrita, processadores de linguagem

natural e sistemas de visao computacional.

• Aplicacoes personalizaveis: Amazon, Netflix.

• Compreensao do aprendizado humano.

Web Data mining com R: aprendizagem de maquina — Contexto e exemplos 3

Page 4: Web Data Mining com r: aprendizagem de máquina

O que e Aprendizagem de Maquina?

• Area de estudo que fornece aos computadores a

habilidade de aprender sem serem explicitamente

programados [Arthur Samuel (1959)].

• Definicao bem formada: A computer program is said

to learn from experience A with respect to some task

T and some performance measure P, if its performance

on T, as measured by P, improves with experience E

[Tom Mitchell (1998)].

Web Data mining com R: aprendizagem de maquina — O que e Aprendizagem de Maquina? 4

Page 5: Web Data Mining com r: aprendizagem de máquina

Exercıcio

O que cada uma das sentencas abaixo descreve segundo a

definicao do Tom Mitchell?

• Classificar e-mails como spam ou nao spam.

• Verificar quais e-mails o usuario classifica como spam.

• O numero (ou fracao) de e-mails corretamente

classificados como spam ou nao spam.

Web Data mining com R: aprendizagem de maquina — Exercıcio 5

Page 6: Web Data Mining com r: aprendizagem de máquina

Hierarquia de aprendizado

Classificação Regressão

Supervisionada

Modelos preditivos

AssociaçãoSumarização Agrupamento

Não supervisionada

Modelos descritivos

Aprendizagem

Web Data mining com R: aprendizagem de maquina — Hierarquia de aprendizado 6

Page 7: Web Data Mining com r: aprendizagem de máquina

Exemplos de aprendizagem supervisionada

• Estimar o preco de uma casa.

? atributos: tamanho, posicao geografica, material.

? classe: preco (regressao).

• Determinar se uma pessoa tem cancer benigno ou

maligno.

? atributos: tamanho do tumor, formato do tumor,

idade do paciente.

? classe: tumor benigno ou tumor maligno

(classificacao).

Web Data mining com R: aprendizagem de maquina — Exemplos de aprendizagem supervisionada 7

Page 8: Web Data Mining com r: aprendizagem de máquina

• Determinar se e um texto publicado em uma rede

social e inadequado ou nao.

? atributos: quantidade de palavras encontradas no

texto, quantidade de palavras proibidas

encontradas no texto, quantidade de textos ja

criados pelo usuario, idade do usuario no sistema,

quantidade de textos criados pelo usuario e

moderados, ...

? classe: texto adequado ou nao (classificacao).

? classes: texto adequado, texto inadequado, texto

com propaganda (classificacao com multiplas

classes).

Web Data mining com R: aprendizagem de maquina — Exemplos de aprendizagem supervisionada 8

Page 9: Web Data Mining com r: aprendizagem de máquina

Exemplo de dataset com classe

Idade Miopia Astigmat. Lacrimej. Lentes

jovem mıope nao reduzido nenhuma

jovem mıope nao normal fraca

jovem mıope sim reduzido nenhuma

jovem mıope sim normal forte

· · · · · · · · · · · · · · ·

adulto mıope nao reduzido nenhuma

Web Data mining com R: aprendizagem de maquina — Exemplo de dataset com classe 9

Page 10: Web Data Mining com r: aprendizagem de máquina

Exercıcios

Que problema deve ser tratado como problema de

regressao e que problema deve ser tratado como problema

de classificacao?

• A sua empresa possui 1.000 itens identicos em

estoque. Voce quer predizer quantos destes itens serao

vendidos nos proximos tres meses.

• Voce quer examinar clientes seus e para cada um

decidir se ele ira pagar todo o financiamento ou nao.

Web Data mining com R: aprendizagem de maquina — Exercıcios 10

Page 11: Web Data Mining com r: aprendizagem de máquina

Exemplos de aprendizagem naosupervisionada

• Dado conjuntos de itens adquiridos na mesma compra,

identificar padroes de compra.

• Identificar padroes de navegacao em sites.

• Agrupar notıcias semelhantes publicadas por varias

fontes de informacao.

• Numa rede social, identificar sub-grupo de pessoas.

Web Data mining com R: aprendizagem de maquina — Exemplos de aprendizagem nao supervisionada 11

Page 12: Web Data Mining com r: aprendizagem de máquina

Exemplos de aprendizagem naosupervisionada

Table 1: Exemplo de tabela com as transacoes dos usuarios

usuario categoria1 categoria2 categoria3 · · · categoriam

user1 0 2 0 · · · 1

user2 1 1 0 · · · 0

user3 2 0 1 · · · 0

user4 0 1 0 · · · 0

· · · · · · · · · · · · · · · · · ·usern 1 1 0 · · · 1

Web Data mining com R: aprendizagem de maquina — Exemplos de aprendizagem nao supervisionada 12

Page 13: Web Data Mining com r: aprendizagem de máquina

Exemplo de identificacao de grupos emredes sociais

Web Data mining com R: aprendizagem de maquina — Exemplo de identificacao de grupos em redes sociais 13

Page 14: Web Data Mining com r: aprendizagem de máquina

Exercıcios

Quais dos problemas abaixo voce iria resolver com uma

abordagem nao supervisionada de aprendizagem?

• Dado e-mails rotulados como spam e nao spam,

desenvolver um filtro de spam.

• Dado um conjunto de notıcias encontradas na

Internet, agrupa-las em conjunto de notıcias que

tratam do mesmo assunto.

Web Data mining com R: aprendizagem de maquina — Exercıcios 14

Page 15: Web Data Mining com r: aprendizagem de máquina

• Dado uma base de clientes, descobrir segmentos de

clientes.

• Dado uma base de pacientes diagnosticados com

diabetes ou nao, aprender a classificar novos pacientes

com diabetes ou nao.

Web Data mining com R: aprendizagem de maquina — Exercıcios 15

Page 16: Web Data Mining com r: aprendizagem de máquina

Material de consulta

• Tom Mitchell. Machine Learning, 1997.

• Iah H. Witteh and Eibe Frank. Data Mining: Practical

Machine Learning Tools and Techniques (Third

Edition), 2011.

• Andrew Ng. http://www.ml-class.org

• Faceli, Lorena, Gama, Carvalho. Inteligencia Artificial:

uma abordagem de aprendizado de maquina, 2011.

Web Data mining com R: aprendizagem de maquina — Material de consulta 16