Mineração de Dados: caso da editora E-papers EDSON GONÇALVES JUNIOR

Mineração de Dados: caso da editora E-papers

EDSON GONÇALVES JUNIOR

Introdução do Problema

História: A E-papers é uma empresa que surgiu em 1999 na incubadora de empresas da COPPE / UFRJ. Seu principal objetivo é difundir conhecimento técnico-científico gerado por universidades e instituições de ensino, buscando qualidade tecnológica e melhor resultado gráfico e editorial, onde seu o principal canal de comunicação com a clientela é através da internet em sua página:

•http:\www.e-papers.com.br


Descrição do Problema: baseado na amostra de encomendas durante o ano de 2007 da editora E-papers, objetivamos traçar um perfil de seus consumidores, bem como verificar possíveis regras de consumo entre eles. Para tanto, vamos inicialmente, ajustar um modelo através de uma Análise de Associação, visto que temos um dados categóricos e desejamos perceber e ou definir regras de consumo dos clientes da E-papers.


Fonte e Descrição dos Dados: para efetuar a proposta acima vamos analisar as seguintes variáveis abaixo: •o código da encomenda _ numérica;•o pessoa física _ categórica;•o pessoa jurídica _ categórica;•o código do produto _ categórico; •o frequência de compra _ categórica;

Regras de Associação (market basket analysis)

Uma Regra de associação representa um padrão de relacionamento entre itens de dados do domínio da aplicação que ocorre com uma determinada freqüência na base de dados.

• parte significativa das compras de homens, às sextas-feiras à noite, que inclui fraldas, inclui também cerveja.

{fralda} {cerveja}

• o cliente que compra pão e manteiga, 80% das vezes compra leite.

{pão, manteiga} {leite}

• muitos pacientes aidético que contraem a doença candidíase também têm pneumonia.

{candidíase} {pneumonia}

Regras de Associação (market basket analysis)

Regras de associação são extraídas a partir de bases de dados que contêm transações - formadas por conjuntos de itens do domínio da aplicação.

Id-Transação (TID) Itens Comprados 1 leite, pão, refrigerante 2 cerveja, carne 3 cerveja, fralda, leite, refrigerante 4 cerveja, fralda, leite, pão 5 fralda, leite, refrigerante

{fralda} {cerveja} confiança de 66% (suporte médio){fralda} {leite} confiança de 100% (suporte alto){leite} {fralda} confiança de 75% (suporte alto){carne} {cerveja} confiança de 100% (suporte baixo)

Tratamento dos dados

População; Triagem dos dados e criação de variáveis; Amostragem; Transformação de dados;

(Não necessário); Ajuste e Treinamento; Validação; Implementação; ROI _ Retorno de Investimento.

População

Vamos usar dados de consumo de produtos por tipo de cliente (pessoa física, não classificado ou jurídica) do movimento de 2007 da empresa “E-papers”.

Triagem dos dados e criação de variáveis

Dados faltantes (pessoa física e jurídica); solução: foi observado dados faltantes na variável

NATUREZA DO CLIENTE. Optamos por usar todos os dados, denominando estes faltantes como nova categoria “não declarada”. A variável NATUREZA serviu para determinar as proporções na amostra de treinamento e validação;

Excluir a categoria código da encomenda;

Amostragem

Para que tenhamos uma amostra de validação e outra de treinamento, respectivamente vamos dividir essa amostra inicial em 70% (treinamento) e 30% (validação) de maneira que a primeira será selecionada de forma estratificada, respeitando as proporções da categoria natureza do consumidor da amostra inicial, ou seja, 45.40% para o tipo “pessoa física”, 2.04% para o tipo “pessoa jurídica” e 52.56% para o tipo “não declarado” .

Ajuste e Treinamento

Os resultados obtidos no sistema STATISTICS produziu regras onde identificou-se que as principais regras são 16 (Revista ECO-PÓS) 2 (Comunicação), e vice-versa. Esta regra ocorre quase 50% das operações, conforme fator de suporte, e mais de 80% conforme o fator de confiança, o que valida a regra. A alavancagem ficou em torno de 84%. Os valores de suporte e confiança mínimos pré-definidos são respectivamente de 10% (assim como a correlação mínima).

Os resultados obtidos estão no slide a seguir:


Summary of association rules (editora_internet)Min. support = 10,0%, Min. confidence = 10,0%, Min. correlation = 10,0%Max. size of body = 10, Max. size of head = 10Body ==> Head Support(%) Confidence(%) Correlation(%)

123456

0, ==> 3, 14,39754 31,71182 54,892700, ==> 39, 10,06430 22,16749 45,947683, ==> 0, 14,39754 95,01845 54,89270

16, ==> 2, 45,79256 85,80409 84,379582, ==> 16, 45,79256 82,97872 84,37958

39, ==> 0, 10,06430 95,23810 45,94768


Abaixo segue os resultados obtidos pelo sistema WEKA:

confiança: do inglês confidence, foi introduzida na mineração de dados através do modelo suporte-confiança, por Agrawal, Imielinski e Srikant (1993). Esta medida indica a ocorrência de transações em que todos os itens da regra aparecem, em relação às transações em que os itens do antecedente estão presentes.

Os modelos que foram rodados tinham medidas CONFIANÇA e de ALAVANCAGEM (LIFT _ WEKA). O modelo escolhido registrou 20 regras, com suporte mínimo de 0,1 a 0,9. As regras geradas tem CONFIANÇA que variam de 96% a 100%, e ALAVANCAGEM foi de 1,85 _ positivamente dependente (LIFT > 1).


=== Run information === Scheme: weka.associations.Apriori -N 20 -T 2 -C 0.1 -D 0.05 -U 0.9 -M 0.1 -S -1.0 Relation: editora_internet_treinamento2.csv-weka.filters.unsupervised.attribute.Remove-R1 Instances: 2504 Attributes: 35 Best rules found: 5. cat2='2 1351 ==> cat1='16 1321 conf:(0.98) lift:(1.85) < lev:(0.24) [606]> conv:(128659477.94) 6. cat1='16 1325 ==> cat2='2 1321 conf:(1) lift:(1.85) < lev:(0.24) [606]> conv:(765084680)

Validação Esta parte do projeto serve, como o próprio nome diz, para

validar os resultados obtidos na etapa anterior. Realmente as regras 16 2 (e vice-versa) foram confirmadas o que demonstra que a modelagem utilizada na amostra para a validação atingiu o objetivo de ser representativa para ambas as etapas. Como também era esperado os índices de CONFIANÇA e de ALAVANCAGEM (lift), foram menores, mas se manteve a conclusão obtida na etapa anterior;

Como nos modelos de treinamento, o modelo abaixo de VALIDAÇÃO foi rodado com o uso da medida CONFIANÇA e de ALAVANCAGEM, onde esta última avalia o grau de dependência do conseqüente em relação ao dependente (LIFT). Foram solicitadas no sistema até 20 regras, “Lower Bound Min Support” de 0,1 até 0,9 e “Upper Bound Min Support” de 0,5 a 1,0. O modelo, no meu parecer, que deu melhor retorno esta a seguir, que registrou 20 regras, com suporte mínimo de 0,1 a 0,9, e alavancagem maior que 1, ou seja, positivamente DEPENDENTE o conseqüente em relação ao dependente da regra. As regras geradas tem CONFIANÇA que variam de 53% a 95%, e de 1,78 para ALAVANCAGEM (LIFT positivamente dependente).

Validação

=== Run information === Scheme: weka.associations.Apriori -N 20 -T 2 -C 0.1 -D 0.05 -U 0.9 -M 0.1 -S -1.0 Relation: editora_internet_validação.csv-weka.filters.unsupervised.attribute.Remove-R1 Instances: 1073 Attributes: 35 Best rules found: 7. cat2='2 320 ==> cat1='16 305 conf:(0.95) lift:(1.78) < lev:(0.12) [133]> conv:(10708540) 8. cat1='16 574 ==> cat2='2 305 conf:(0.53) lift:(1.78) < lev:(0.12) [133]> conv:(1717682.24)

Validação

Identificou-se que as principais regras são 16 (Revista ECO-PÓS) 2 (Comunicação), e vice-versa, confirmando o resultado obtido na etapa de treinamento. Outras regras foram identificadas, mas também participava destas os itens mencionados na regra acima. Foi feita uma avaliação das regras para cada uma das naturezas de clientes (pessoa física, jurídica e não declarada), tanto no arquivo de treinamento como o de validação. Como as regras encontradas foram iguais (16 (Revista ECO-PÓS) 2 (Comunicação), e vice-versa) as encontradas com estes dados de natureza em conjuntamente, não disponibilizamos os resultados.

Implementação

Variáveis de ENTRADA: A variável natureza foi inicialmente usada para determinar

as proporções que cada tipo de cliente (foram três no total: pessoa física, pessoa jurídica e não declarado) nas amostras de treinamento e validação, sendo que a separação foi feita na primeira amostra e a segunda se deu por conjunto complementar do conjunto de dados originais. A amostra de treinamento teve 2504 de tamanho de amostra e a de validação 1073. Após este passo, entramos no sistema WEKA com o arquivo contendo apenas as compras efetuadas por cada cliente. No conjunto de dados original, 35 artigos diferentes foi o máximo de compras efetuado por um cliente. Desta maneira, foram analisadas 35 variáveis denominadas respectivamente de “CAT” + o número de ordem de 1 a 35, conforme a primeira compra, segunda ..., até a trigésima quinta compra efetuada.

Implementação

Variáveis de ENTRADA: O arquivo de entrada deve ser de extensão “.CSV” ou “.TXT” que é

mais fácil de trabalhar devido a poder ser manipulado pelo EXCEL; Abre-se o WEKA, e escolhe no menu inicial a opção EXPLORER; No menu WEKA EXPLORER é que abre-se o arquivo de dados pelo

“open file” na aba “PREPROCESS”. Depois de aberto, seleciona-se a aba “ASSOCIATE”, para que se possa selecionar os parâmetros iniciais

Os parâmetros iniciais do sistema do sistema WEKA para o estudo das Regras de Associação foram:

20 regras no máximo; CONFIANÇA e SUPORTE mínimo no intervalo de 0,1 a 0,9; Para determinar a ALAVANCAGEM (dependência entre os objetos da

regra _ dependente e conseqüente), foi solicitado no sistema para o calculo do LIFT, com valor mínimo no sistema de 0,1;

O sistema usou Associação APRIORI;

Implementação

Variáveis de SAIDA: A resposta do sistema WEKA foi a regra de associação

que comentamos nas etapas de TREIANEMENTO e VALIDAÇÃO (16 (Revista ECO-PÓS) 2 (Comunicação) e vice-versa). Com esta regra evidenciada é que pode-se perceber o foco de intenção de compra de compra do cliente da E-papers. Desta maneira, pode-se oferecer a todo cliente que comprar artigos Revista ECO-PÓS, artigos de Comunicação e vice-versa, sabendo que é grande a possibilidade de efetuar com sucesso esta venda casada por parte da equipe de venda.

O exemplo de execução e resultado do sistema pode ser evidenciado pelo slide anterior número 16.

Implementação

A utilização do sistema WEKA é bem simples, é escrito em JAVA e tem distribuição gratuita, que é a sua maior vantagem em função do alto custo de outros sistemas de mineração de dados. No site descrito abaixo:

http://www.cs.waikato.ac.nz/ml/weka

Além disso é um sistema bem leve e pode rodar com eficiência em uma configuração bastante modesta de computador.

ROI Retorno de Investimento

ROI: é o impacto financeiro do projeto calculado em termos de percentagem do custo do projeto.

[(RECEITA – DESPESA) / DESPESA] X 100 Sem modelo

(16) _ regra 13 freqüência 432 Receita (ano) 30,00 x 432 = 12.960,00 Despesas (ano) 30% x 12.960,00 = 3.888,00 ROI ((12.960,00-3.888,00) / 3.888,00)% =

233,33%

(2) freqüência 0 Despesas (ano) 0,00 Receita 0,00 ROI 0,00%

ROI Retorno de Investimento

Com modelo (162) _ regra 8 freqüência 305 Receita (ano) 30,00 x 305 = 9.150,00 Despesas (ano) 30% x 9.150,00 = 2.745,00 ROI ((9.150,00-2.745,00) / 2.745,00)% =

233,33%

(216) _ regra 7 freqüência 305 Receita (ano) 30,00 x 305 = 9.150,00 Despesas (ano) 30% x 9.150,00 = 2.745,00 ROI ((9.150,00-2.745,00) / 2.745,00)% =

233,33%

Conclusões

Identificou-se que as principais regras são 16 (Revista ECO-PÓS) 2 (Comunicação), e vice-versa;

Na análise do ROI não encontramos vendas isoladas para o tipo de produto 2 (Comunicação), somente encontrando para o produto 16 (Revista ECO-PÓS). O mesmo valor de ROI foi encontrado para a venda isolada de 16 (Revista ECO-PÓS), como para a venda casada após Análise de Associação, mesmo assim, concluímos que mesmo os resultados sem o modelo levar ao mesmo valor de ROI que com o modelo, vale usar o modelo pela aquisição de informação e cultura da maneira de comprar do cliente da E-papers. Fora isso, se um maior cuidado for dado ao preenchimento das informações de compra e mais detalhes destes clientes forem disponibilizados para análise maior e melhor serão os resultados.

Documents

Mineração de Dados: caso da editora E-papers EDSON GONÇALVES JUNIOR