30
Mineração de Dados aplicada à Gestão de Negócios Aula 1 Introdução - Mineração de Dados Prof. Dr. Sylvio BarbonJunior [email protected]

Aula 1 Introdução -Mineração de Dados · Mineração de Dados aplicada à Gestão de Negócios 1) Mineração de Dados Assuntos ultimamente tratados pela Mineração de Dados:

Embed Size (px)

Citation preview

Mineração de Dadosaplicada à Gestão de Negócios

Aula 1Introdução - Mineração de DadosIntrodução - Mineração de Dados

Prof. Dr. Sylvio Barbon Junior

[email protected]

Mineração de Dadosaplicada à Gestão de Negócios

Sumário1) Mineração de Dados

1) Atividades Relacionadas;

2) Desafios;

3) Exemplos de aplicativos;

4) Últimos assuntos;4) Últimos assuntos;

5) Projeto de Mineração de Dados;

2) Mineração de Texto

3) Classificação

4) Visualização de Dados

5) Exercício.

Mineração de Dadosaplicada à Gestão de Negócios

1) Mineração de DadosData Mining pode ser definido de diversas maneiras em várias áreas, a definição

mais tradicional para o meio acadêmico é “The non-trivial extraction of

implicit, previosly unknown, and potentially useful information from data”

(Frawley, 1991).

Visualização do Modelo

Dis

cove

ry in

Dat

abas

esFornecimento dos Dados

Seleção e Amostragem

Preparação de Dados

Transformação dos Dados

Construção de Modelo

Avaliação do Modelo

Visualização do Modelo

DATA MINING

Knowledge Discovery in Databases Kn

ow

led

geD

isco

very

in D

atab

ases

Mineração de Dadosaplicada à Gestão de Negócios

1) Mineração de DadosMotivação:

1) Aumentar a capacidade de processamento e armazenamento;

2) Inviabilidade de análise manual dos dados

Mineração de Dadosaplicada à Gestão de Negócios

1) Mineração de DadosMaiores atividades da Mineração de Dados:

1) Análise exploratória de Dados;

2) Modelagem descritiva dos dados:

a) Determinação das distribuições das informações;

b) Modelagem da relação entre os dados;b) Modelagem da relação entre os dados;

c) Particionamento das informações em grupos.

3) Modelagem Preditiva:

a) Classificação;

b) Regressão;

4) Descoberta de Padrões e Regras;

5) Recuperação de conteúdo;

Mineração de Dadosaplicada à Gestão de Negócios

1) Mineração de DadosQuadro comparativo:

Coleção de Dados

Acesso aos Dados

Data Warehousing e Ferramenta de Sup. a Decisão

Data Mining

Questão de Gerencial“Qual foi meu lucro

ano passado?”

“Quais foram minhas vendas em Londrina

em Março”

“Quais foram as vendas em Londrina

comparadas com Curitiba?”

“Qual a minha expectativa de venda em Curitiba mês que

vem?”

Questão TecnológicaDiscos de

armazenamentoBanco de dados relacionais e SQL

Banco de dados Multidimensionais

Algoritmos avançados e bases

maciças

CaracterísticaEntrega resumos e

documentos estáticos

Entrega documentos dinâmicos

Entrega documentos dinâmicos em

múltiplos níveis

Prospecção proativa de entrega de

informação

Mineração de Dadosaplicada à Gestão de Negócios

1) Mineração de DadosOs maiores desafios da Mineração de Dados:

Uso de dados de banco de dados transacionais para a mineração

Redução de DadosRedução de Dados

Transformação de Dados

Limpeza dos Dados

“Sparsity” dos Dados

Lidar com dados raros

Mineração de Dadosaplicada à Gestão de Negócios

1) Mineração de DadosExemplos de Aplicações em Mineração de Dados:

1) Previsão de vendas;

2) Gerenciamento de estoques e armazenamento;

3) Descobertas científicas;3) Descobertas científicas;

4) Jogos;

5) Esportes;

6) Gestão de Relacionamento com o Consumidor;

7) Aquisição de Consumidores;

Mineração de Dadosaplicada à Gestão de Negócios

1) Mineração de DadosAssuntos ultimamente tratados pela Mineração de Dados:

1) Mineração em diferentes tipos de base (documentos, planilhas, BDR);

2) Mineração interativa com diferentes níveis de abstração;

3) Incorporação de informação de background;3) Incorporação de informação de background;

4) Linguagem de consulta para Data Mining;

5) Apresentação e visualização de resultados de Data Mining;

6) Tratamento de ruído e bases incompletas;

7) Avaliação de Padrões – “interestingness”;

8) Algoritmos eficientes e escaláveis para mineração de dados;

9) Manipulação de dados complexos;

Mineração de Dadosaplicada à Gestão de Negócios

1) Mineração de DadosProjeto de Mineração de Dados:

Mineração de Dadosaplicada à Gestão de Negócios

1) Mineração de DadosProjeto de Mineração de Dados (Compreender os Dados):

Aquisição dos Dados

Acesso aos Dados

Integração dos Dados

Descrição dos Dados

Qualidade na Avaliação dos Dados

Coleção Inicial dos Dados

Variáveis

Estatísticas Descritivas

Relatórios com a descrição dos dados

Valores perdidos

Outliers e Qualidade dos Dados

Mineração de Dadosaplicada à Gestão de Negócios

1) Mineração de DadosProjeto de Mineração de Dados (Compreender os Dados):

Data Transformation Como expressar as variáves dos dados?

Data Imputation Como lidar com informações que estão faltando?

Data Weighting Todos os casos devem ser tratados da mesma forma?Data Weighting Todos os casos devem ser tratados da mesma forma?

Data Filtering Como tratar outliers e dados inexperados?

Data Abstraction Como lidar com informações temporais (séries temporais)?

Data Reduction Como reduzir a base para os primeiros experimentos:1) Eliminar Registros? (Amostragem de Dados)2) Diminuir a Dimensão? (Redução de Dimensionalidade)3) Modificar Valores? (Discretização dos Dados)

Data Derivation Posso criar novas variáveis?

Mineração de Dadosaplicada à Gestão de Negócios

2) Mineração de TextoÉ a pesquisa por informação em documentos virtualmente não estruturados.

Segundo McKnight é o processo de descoberta de algo novo, preciosamente desconhecido, potencialmente útil originário de documentos de negócios, comentários de clientes, páginas de internet e aquivos xml.comentários de clientes, páginas de internet e aquivos xml.

Assim, a Mineração de Texto pode ser aplicada em muitas aplicações e campos, incluindo:

1. Marketing;

2. Segurança Nacional e das corporações;

3. Medicas e biomédicas;

4. Legais e casos que envolvam a lei;

5. Finanças corporativas;

6. Relações Públicas.

Mineração de Dadosaplicada à Gestão de Negócios

2) Mineração de TextoSoftwares comerciais e abertos para Text Mining:

1) SAS-Text Mining;

2) SPSS-Text Mining e Text Analysis para questionários;

3) STATISTICA Text Miner;

4) GATE – Natural Languagem Open Source;4) GATE – Natural Languagem Open Source;

5) RapidMiner;

6) R-Language programming text mining;

7) Practical – text mining com Perl;

8) ODM – Oracle Data Mining;

9) Megaputer´s Text Analyst;

Mineração de Dadosaplicada à Gestão de Negócios

2) Mineração de TextoEstudo de Caso – Redes Sociais:

1) As “Social Medias” tem dominado a Internet, modificando o comportamento e a maneira de comunicação das pessoas.

2) Facebook alcançou um bilhão de usuários;

3) Twitter conta com duzentos milhões de usuários;3) Twitter conta com duzentos milhões de usuários;

4) As análises nas redes sociais proporcionam:

a) Reconhecimento de pessoas importantes/influentes;

b) Subgrupos e usuários conectados;

c) Como rumores sobre doenças, eventos e catástrofes se espalham.

d) O impacto de produtos e assuntos;

e) Avaliação de problemas para assistência a clientes;

f) Identificação e compreensão da opinião da população sobre diversos temas.

Mineração de Dadosaplicada à Gestão de Negócios

2) Mineração de TextoEstudo de Caso – Redes Sociais:

- Indexação Tradicional:- TF-IDF (Term Frequency–Inverse Document Frequency)

- LSI (Latent Smantic Indexing)

- Predição de Link:- “Recomendação de Amizade”

- Considera os vértices desconectados entre pares de nós (arestas) por meio de pontuação:

- Sendo w a pontuação (peso), m a probabilidade de um nó representar a mesma pessoa, u é a chance de um atributo em comum.

)2ln(

)ln(u

m

w =

Mineração de Dadosaplicada à Gestão de Negócios

2) Mineração de TextoEstudo de Caso – Redes Sociais:

- Predição de Link:- O calculo é feito no momento do inicio da sessão do usuário;

- Para muitas bases tal calculo pode ser muito caro;

- Diversas formas de predição de sugestão são estudados para minimizar a árvore de possibilidades;possibilidades;

- O usuário quando submete que não é amigo de “tal pessoa” auxilia exponencialmente o algoritmo;

- Combinando diversas características e outros atributos, é possível ter um mecanismo eficiente de sugestão de amigos.

- Contas duplicadas:- Sistemas de vendas como eBay e Amazon são utilizados como ferramentas de vendas;

- Uma forma de garantir uma boa compra e a qualidade dos serviços prestados é avaliar a reputação do vendedor.

- Muitos usuários com reputação baixa criando outras contas.

- O desafio é encontrar contas duplicadas de vendedores;

- Para tal, faz-se o uso da mineração de dados para reconhecer tais perfis.

Mineração de Dadosaplicada à Gestão de Negócios

3) Classificação

- Classificação é a operação de separar diversas entidades em classes;

- As classes podem ser funções matemáticas, regras de negócios ou limites de

problemas;

- Quando a classificação é baseada em características definidas e se conhecem - Quando a classificação é baseada em características definidas e se conhecem

alguns exemplos, chama-se esta classificação de supervisionada.

- Quando não se conhece exemplos da classe que está sendo avaliada, chama-

se de não supervisionada.

- Uma abordagem tradicional de redes não supervisionadas é o clustering.

Mineração de Dadosaplicada à Gestão de Negócios

3) ClassificaçãoExemplos de Métodos de Classificação

1) Árvores de Decisão (Decision Trees)

2) CHAID (Chi-squared Automatic Interaction Detection)

3) Random Forests e Boosted Trees

4) Regressão Logística4) Regressão Logística

5) Redes Neurais Artificiais

6) K-nearest neighbor

7) Naïve Baysesian classifier.

Mineração de Dadosaplicada à Gestão de Negócios

4) Visualização de DadosEntre os vários mecanismos de visualização dos dados, o Grafo é popularmente

utilizado e agrega diversas avaliações.

- Os dados podem ser tratados como nós (nodes), ligações (edges ou links) e apresentam diversas medidas.apresentam diversas medidas.

- Em um grafo, podemos tratar o resultado como sendo um conjunto de vértices e arestas que podem formar árvores e florestas.

- As arestas (ligações) podem ser rotuladas e terem pesos (grafos ponderados), que são utilizados para encontrar caminhos e descrever soluções com baixo custo ou alto lucro.

Mineração de Dadosaplicada à Gestão de Negócios

4) Visualização de Dados- Bacon Number:

- Grafo não direcionado;

- As ligações são criadas

em participações em filmesem participações em filmes

e eventos;

- Por exemplo, Elvis Presley

tem o “Bacon Number” igual a 2.

Mineração de Dadosaplicada à Gestão de Negócios

4) Visualização de Dados

Mineração de Dadosaplicada à Gestão de Negócios

4) Visualização de Dados

vérticearesta Relação de

adjacência simétricavértice

Grafo Direcionado (dirigido) Grafo não Direcionado

aresta

Mineração de Dadosaplicada à Gestão de Negócios

4) Visualização de Dados

Vértice de grau 1Vértice de grau 0

Grau 3

7777

Grafo isoladoou não conectado

Grafo conectado

Grau 2

Mineração de Dadosaplicada à Gestão de Negócios

4) Visualização de Dados

Grafos G Grafos G’, que é subgrafode G

Mineração de Dadosaplicada à Gestão de Negócios

4) Visualização de DadosRepresentação de Grafos (redes):

1) Lista de Adjacência

Mineração de Dadosaplicada à Gestão de Negócios

4) Visualização de DadosRepresentação de Grafos (redes):

2) Matriz de Adjacência

Mineração de Dadosaplicada à Gestão de Negócios

4) Visualização de DadosEstruturas Básicas e Propriedades

- Clique: Grupo de vértices de qualquer tamanho cujos nós estão totalmente conectados;

- Cluster: São como os Cliques, mas nem todos os nós estão conectados e é observável a ligação entre outros agrupamentos densos.observável a ligação entre outros agrupamentos densos.

Clique 3 Clusters

Mineração de Dadosaplicada à Gestão de Negócios

4) Visualização de DadosEstruturas Básicas e Propriedades

- Redes Egocêntricas

Mineração de Dadosaplicada à Gestão de Negócios

5) Exercício

1) Crie uma lista com 20 amigos do Facebook, será uma lista de adjacência que descreva as conexões. Visualize as conexões no Gephi e responda as seguintes questões:questões:

a) Qual o amigo com o maior grau?

b) Qual amigo é o mais centralizado?

c) Foi possível detectar clusters óbvios?

d) Algum nó pode ser considerado um outlier?