40
Empresa de Seguros Mineração de Dados Carlos Eduardo Silva de Moura Prof:Luis Paulo 23 de Junho de 2008

Empresa de Seguros Mineração de Dados Carlos Eduardo Silva de Moura Prof:Luis Paulo 23 de Junho de 2008

Embed Size (px)

Citation preview

Page 1: Empresa de Seguros Mineração de Dados Carlos Eduardo Silva de Moura Prof:Luis Paulo 23 de Junho de 2008

Empresa de SegurosMineração de Dados

Carlos Eduardo Silva de Moura

Prof:Luis Paulo

23 de Junho de 2008

Page 2: Empresa de Seguros Mineração de Dados Carlos Eduardo Silva de Moura Prof:Luis Paulo 23 de Junho de 2008

Agenda

Descrição do Problema

Categorização

Fonte e Descrição dos Dados

Extração de características e realce

Plano de Prototipagem

Validação

Implementação

ROI ( Análise Financeira)

Page 3: Empresa de Seguros Mineração de Dados Carlos Eduardo Silva de Moura Prof:Luis Paulo 23 de Junho de 2008

Descrição do Problema

Empresa de Seguros

O Problema consiste em tomar uma decisão de enviar por mala direta uma proposta de apólice de seguro para todos os clintes da seguradora ou só para os clientes que tem uma chance maior de fazer o seguro. A empresa identificando estes clientes potenciais conseguirá reduzir o custo e assim evitar desperdício nas vendas.

Page 4: Empresa de Seguros Mineração de Dados Carlos Eduardo Silva de Moura Prof:Luis Paulo 23 de Junho de 2008

Agenda

Descrição do Problema

Categorização

Fonte e Descrição dos Dados

Extração de características e realce

Plano de Prototipagem

Validação

Implementação

ROI ( Análise Financeira)

Page 5: Empresa de Seguros Mineração de Dados Carlos Eduardo Silva de Moura Prof:Luis Paulo 23 de Junho de 2008

Categoria do Problema

Classificação (Supervisionada ) ou predição categórica

Classificação (supervisionada) ou predição categóricaTem por objetivo a criação de modelos para predizer as classes a quepertencem objetos desconhecidos. Determinar uma regra que possa

ser usada para classificar de forma otimizada uma nova observação a uma classe já rotulada.

Nosso objetivo final será predizer baseado nos dados de cada cliente quais tem maior chance de adquirir uma apólice de seguros.

Page 6: Empresa de Seguros Mineração de Dados Carlos Eduardo Silva de Moura Prof:Luis Paulo 23 de Junho de 2008

Agenda

Descrição do Problema

Categorização

Fonte e Descrição dos Dados

Extração de características e realce

Plano de Prototipagem

Validação

Implementação

ROI ( Análise Financeira)

Page 7: Empresa de Seguros Mineração de Dados Carlos Eduardo Silva de Moura Prof:Luis Paulo 23 de Junho de 2008

Empresa de Seguros ( Fonte dos Dados)

Os dados foram obtidos de uma competição internacional (Coil challenge 2000 dataming competion),

porém são baseados em dados reais fornecidos pela Dutch datamining company Sentient Machine Research*.

* Para informações sobre o datasets ver homepage: http://www.wi.leidenuniv.nl/~putten/library/cc2000/

Page 8: Empresa de Seguros Mineração de Dados Carlos Eduardo Silva de Moura Prof:Luis Paulo 23 de Junho de 2008

Empresa de Seguros ( Descrição dos Dados)

Foram informados 86 variavéis sobre os clientes dentre essas tinham dados sócio-demográficos e relativos a seguros. A base de treinamento do modelo contém 5826 clientes e inclui a informação se o cliente tinha ou não uma apólice de seguro. Para testar o modelo foram fornecidos dados de 4000 clientes com as mesmas informações, exceto se tinha ou não uma apólice de seguro. Sendo a variável alvo a que diz se comprou ou não seguro.

Page 9: Empresa de Seguros Mineração de Dados Carlos Eduardo Silva de Moura Prof:Luis Paulo 23 de Junho de 2008

Empresa de Seguros ( Descrição dos Dados)

1 MOSTYPE Customer Subtype see L0 30 MHHUUR Rented house 59 PBRAND Contribution fire policies2 MAANTHUI Number of houses 1 – 10 31 MHKOOP Home owners 60 PZEILPL Contribution surfboard policies3 MGEMOMV Avg size household 1 – 6 32 MAUT1 1 car 61 PPLEZIER Contribution boat policies4 MGEMLEEF Avg age see L1 33 MAUT2 2 cars 62 PFIETS Contribution bicycle policies5 MOSHOOFD Customer main type see L2 34 MAUT0 No car 63 PINBOED Contribution property insurance policies6 MGODRK Roman catholic see L3 35 MZFONDS National Health Service 64 PBYSTAND Contribution social security insurance policies7 MGODPR Protestant ... 36 MZPART Private health insurance 65 AWAPART Number of private third party insurance 1 - 128 MGODOV Other religion 37 MINKM30 Income < 30.000 66 AWABEDR Number of third party insurance (firms) ...9 MGODGE No religion 38 MINK3045 Income 30-45.000 67 AWALAND Number of third party insurane (agriculture)10 MRELGE Married 39 MINK4575 Income 45-75.000 68 APERSAUT Number of car policies11 MRELSA Living together 40 MINK7512 Income 75-122.000 69 ABESAUT Number of delivery van policies12 MRELOV Other relation 41 MINK123M Income >123.000 70 AMOTSCO Number of motorcycle/scooter policies13 MFALLEEN Singles 42 MINKGEM Average income 71 AVRAAUT Number of lorry policies14 MFGEKIND Household without children 43 MKOOPKLA Purchasing power class 72 AAANHANG Number of trailer policies15 MFWEKIND Household with children 44 PWAPART Contribution private third party insurance see L4 73 ATRACTOR Number of tractor policies16 MOPLHOOG High level education 45 PWABEDR Contribution third party insurance (firms) ... 74 AWERKT Number of agricultural machines policies17 MOPLMIDD Medium level education 46 PWALAND Contribution third party insurane (agriculture) 75 ABROM Number of moped policies18 MOPLLAAG Lower level education 47 PPERSAUT Contribution car policies 76 ALEVEN Number of life insurances19 MBERHOOG High status 48 PBESAUT Contribution delivery van policies 77 APERSONG Number of private accident insurance policies20 MBERZELF Entrepreneur 49 PMOTSCO Contribution motorcycle/scooter policies 78 AGEZONG Number of family accidents insurance policies21 MBERBOER Farmer 50 PVRAAUT Contribution lorry policies 79 AWAOREG Number of disability insurance policies22 MBERMIDD Middle management 51 PAANHANG Contribution trailer policies 80 ABRAND Number of fire policies23 MBERARBG Skilled labourers 52 PTRACTOR Contribution tractor policies 81 AZEILPL Number of surfboard policies24 MBERARBO Unskilled labourers 53 PWERKT Contribution agricultural machines policies 82 APLEZIER Number of boat policies25 MSKA Social class A 54 PBROM Contribution moped policies 83 AFIETS Number of bicycle policies26 MSKB1 Social class B1 55 PLEVEN Contribution life insurances 84 AINBOED Number of property insurance policies27 MSKB2 Social class B2 56 PPERSONG Contribution private accident insurance policies 85 ABYSTAND Number of social security insurance policies28 MSKC Social class C 57 PGEZONG Contribution family accidents insurance policies 86 CARAVAN Number of mobile home policies 0 - 129 MSKD Social class D 58 PWAOREG Contribution disability insurance policies

Variaveis Originais

As variáveis de 1 a 43 são referentes a dados sócio-demográficos e as variáveis de 44 a 86 são referentes a seguros.

Page 10: Empresa de Seguros Mineração de Dados Carlos Eduardo Silva de Moura Prof:Luis Paulo 23 de Junho de 2008

Empresa de Seguros ( Descrição dos Dados)

1 High Income, expensive child Renda Alta/despesa com criança

2 Very Important Provincials Morador de província muito importante

3 High status seniors Senior de alta renda

4 Affluent senior apartments Senior com apartamento grande

5 Mixed seniors Mora com várias pessoas seniors

6 Career and childcare Carreira e voluntário

7 Dinki's (double income no kids) Sem crianças e duas fonte de renda

8 Middle class families Famílias de classe média

9 Modern, complete families Famílias completas e modernas

10 Stable family Famílias estáveis

11 Family starters Famílias recém formadas

12 Affluent young families Jovens famílias prósperas

13 Young all american family Famílias de jovens americanos

14 Junior cosmopolitan Joven cosmopolita

15 Senior cosmopolitans Senior cosmopolita

16 Students in apartments Estudantes em apartamentos

17 Fresh masters in the city Professor novo em cidade

18 Single youth Jovem solteiro

19 Suburban youth Jovem suburbano

20 Etnically diverse Etnia diversa

21 Young urban have-nots Jovem urbanos sem posses

22 Mixed apartment dwellers Morador de repúblicas

23 Young and rising Jovem e próspero

24 Young, low educated Jovem com baixa educação

25 Young seniors in the city Seniors jovens na cidade

26 Own home elderly Casa própia usada

27 Seniors in apartments Seniors em apartamentos

28 Residential elderly Residência Antiga

29 Porchless seniors: no front yard Casa sem quintal

30 Religious elderly singles Idoso solteiro religioso

31 Low income catholics Católicos com baixa renda

32 Mixed seniors Mora com várias pessoas seniors

33 Lower class large families Famílias grandes com baixa renda

34 Large family, employed child Famílias grandes com crianças trabalhando

35 Village families Famílias de vila

36 Couples with teens 'Married with children' Casais adolescentes com filhos

37 Mixed small town dwellers Habitantes de cidades pequenas misturados

38 Traditional families Famílias Tradicionais

39 Large religous families Grandes famíllias religiosas

40 Large family farms Fazenda de grandes famílias

41 Mixed rurals Pessoas rurais misturadas

1 MOSTYPE Customer Subtype

L1:

1 20-30 years

2 30-40 years

3 40-50 years

4 50-60 years

5 60-70 years

6 70-80 years

L2:

1 Successful hedonists

2 Driven Growers

3 Average Family

4 Career Loners

5 Living well

6 Cruising Seniors

7 Retired and Religeous

8 Family with grown ups

9 Conservative families

10 Farmers

L3:

0 0%

1 1 - 10%

2 11 - 23%

3 24 - 36%

4 37 - 49%

5 50 - 62%

6 63 - 75%

7 76 - 88%

8 89 - 99%

9 100%

L4:

0 f 0

1 f 1 – 49

2 f 50 – 99

3 f 100 – 199

4 f 200 – 499

5 f 500 – 999

6 f 1000 – 4999

7 f 5000 – 9999

8 f 10.000 - 19.999

9 f 20.000 - ?

Page 11: Empresa de Seguros Mineração de Dados Carlos Eduardo Silva de Moura Prof:Luis Paulo 23 de Junho de 2008

Agenda

Descrição do Problema

Categorização

Fonte e Descrição dos Dados

Extração de características e realce

Plano de Prototipagem

Validação

Implementação

ROI ( Análise Financeira)

Page 12: Empresa de Seguros Mineração de Dados Carlos Eduardo Silva de Moura Prof:Luis Paulo 23 de Junho de 2008

Mostype Customer Subtype –Extraindo características e realce

Frequencia %Percentual

1 High Income, expensive child Renda Alta/despesa com criança 124 2%

2 Very Important Provincials Morador de província muito importante 82 1%

3 High status seniors Senior de alta renda 249 4%

4 Affluent senior apartments Senior com apartamento grande 52 1%

5 Mixed seniors Mora com várias pessoas seniors 45 1%

6 Career and childcare Carreira e voluntário 119 2%

7 Dinki's (double income no kids) Sem crianças e duas fonte de renda 44 1%

8 Middle class families Famílias de classe média 339 6%

9 Modern, complete families Famílias completas e modernas 278 5%

10 Stable family Famílias estáveis 165 3%

11 Family starters Famílias recém formadas 153 3%

12 Affluent young families Jovens famílias prósperas 111 2%

13 Young all american family Famílias de jovens americanos 179 3%

14 Junior cosmopolitan Joven cosmopolita 0 0%

15 Senior cosmopolitans Senior cosmopolita 5 0%

16 Students in apartments Estudantes em apartamentos 16 0%

17 Fresh masters in the city Professor novo em cidade 9 0%

18 Single youth Jovem solteiro 19 0%

19 Suburban youth Jovem suburbano 3 0%

20 Etnically diverse Etnia diversa 25 0%

21 Young urban have-nots Jovem urbanos sem posses 15 0%

22 Mixed apartment dwellers Morador de repúblicas 98 2%

23 Young and rising Jovem e próspero 251 4%

24 Young, low educated Jovem com baixa educação 180 3%

25 Young seniors in the city Seniors jovens na cidade 82 1%

26 Own home elderly Casa própia usada 48 1%

27 Seniors in apartments Seniors em apartamentos 50 1%

28 Residential elderly Residência Antiga 25 0%

29 Porchless seniors: no front yard Casa sem quintal 86 2%

30 Religious elderly singles Idoso solteiro religioso 118 2%

31 Low income catholics Católicos com baixa renda 205 4%

32 Mixed seniors Mora com várias pessoas seniors 141 2%

33 Lower class large families Famílias grandes com baixa renda 810 14%

34 Large family, employed child Famílias grandes com crianças trabalhando 182 3%

35 Village families Famílias de vila 214 4%

36 Couples with teens 'Married with children' Casais adolescentes com filhos 225 4%

37 Mixed small town dwellers Habitantes de cidades pequenas misturados 132 2%

38 Traditional families Famílias Tradicionais 339 6%

39 Large religous families Grandes famíllias religiosas 328 6%

40 Large family farms Fazenda de grandes famílias 71 1%

41 Mixed rurals Pessoas rurais misturadas 205 4%

1 MOSTYPE Customer Subtype

%Percentual de resposta assinaladas

-2%

0%

2%

4%

6%

8%

10%

12%

14%

16%

-1 1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41

Devido ao número baixo de pessoas que responderam e as suas características as variáveis14,15,16,17,18,19, 20, 21 e 28 foram eliminadas, além da variável 5 que é repetida. As variáveis 3,8,12,23,24,33 foram eliminadas devido a relação com outras variáveis como classe social,renda e idade.

Page 13: Empresa de Seguros Mineração de Dados Carlos Eduardo Silva de Moura Prof:Luis Paulo 23 de Junho de 2008

5 MOSHOOFD Customer main type - Extraindo características e realce

A variável 5 é definida como o tipo principal de clientes que a seguradora procura.Está variável vai ser desmembrada em 10 variáveis novas do tipo dummy na parte de protipagem.

Frequência %Percentual

1 Successful hedonists Hendonista de sucesso 552 9%

2 Driven Growers Morador do tralier 502 9%

3 Average Family Família média 886 15%

4 Career Loners Autônomo 52 1%

5 Living well Aventureiro 569 10%

6 Cruising Seniors Maduros de gostam de viajar 205 4%

7 Retired and Religeous Terceira idade reservado 550 9%

8 Family with grown ups Família com adultos 1563 27%

9 Conservative families Famílias conservadoras 667 11%

10 Farmers Fazendeiros 276 5%

5 MOSHOOFD (Tipo principal de cliente)

%Percentual de respostas assinaladas

0%

5%

10%

15%

20%

25%

30%

0 2 4 6 8 10

Page 14: Empresa de Seguros Mineração de Dados Carlos Eduardo Silva de Moura Prof:Luis Paulo 23 de Junho de 2008

Variáveis do grupo 1 ( 1 ao 24)

Variáveis Média Máximo Minimo Moda Nº de vezes que aparece a moda Percentil 95% Total de observações2 MAANTHUI Number of houses 1 – 10 1,11 10 1 1 5267 2 5822

3 MGEMOMV Avg size household 1 – 6 2,68 5 1 3 2646 4 5822

4 MGEMLEEF Avg age see L1 2,99 6 1 3 3000 4 5822

5 MOSHOOFD Customer main type see L2 5,77 10 1 8 1563 9 5822

6 MGODRK Roman catholic see L3 0,70 9 0 0 3228 2 5822

7 MGODPR Protestant ... 4,63 9 0 4 1607 7 5822

8 MGODOV Other religion 1,07 5 0 1 2014 3 5822

9 MGODGE No religion 3,26 9 0 3 1453 6 5822

10 MRELGE Married 6,18 9 0 7 1683 9 5822

11 MRELSA Living together 0,88 7 0 0 2448 2 5822

12 MRELOV Other relation 2,29 9 0 2 1756 5 5822

13 MFALLEEN Singles 1,89 9 0 0 1757 5 5822

14 MFGEKIND Household without children 3,23 9 0 3 1498 6 5822

15 MFWEKIND Household with children 4,30 9 0 4 1137 8 5822

16 MOPLHOOG High level education 1,46 9 0 0 2147 5 5822

17 MOPLMIDD Medium level education 3,35 9 0 4 1426 6 5822

18 MOPLLAAG Lower level education 4,57 9 0 5 1009 9 5822

19 MBERHOOG High status 1,90 9 0 0 1524 5 5822

20 MBERZELF Entrepreneur 0,40 5 0 0 4171 2 5822

21 MBERBOER Farmer 0,52 9 0 0 4176 3 5822

22 MBERMIDD Middle management 2,90 9 0 2 1491 6 5822

23 MBERARBG Skilled labourers 2,22 9 0 2 1382 5 5822

24 MBERARBO Unskilled labourers 2,31 9 0 2 1439 5 5822

As variáveis de 7 a 24 são baseadas na região onde o cliente reside,ou seja , são atribuídos porcentagens de tal individuo possuir tal característica ou não, varia de 0% a 100%.Estas informações são retiradas do censo demográfico.Vide tabela ao lado. A variável 21 será eliminada devido a semelhança com a variável 5 atributo 10.

Atributo Porcentagem0 0%

1 1- 10%

2 11-23%

3 24 - 36%

4 37 - 49%

5 50 - 62%

6 63 - 75%

7 76 - 88%

8 89 - 99%

9 100%

Page 15: Empresa de Seguros Mineração de Dados Carlos Eduardo Silva de Moura Prof:Luis Paulo 23 de Junho de 2008

Variáveis socioeconômicas: grupo 2 ( 25 ao 43)

Variáveis25 MSKA Social class A26 MSKB1 Social class B127 MSKB2 Social class B228 MSKC Social class C29 MSKD Social class D30 MHHUUR Rented house31 MHKOOP Home owners32 MAUT1 1 car33 MAUT2 2 cars34 MAUT0 No car35 MZFONDS National Health Service37 MINKM30 Income < 30.00038 MINK3045 Income 30-45.00039 MINK4575 Income 45-75.00040 MINK7512 Income 75-122.00041 MINK123M Income >123.00042 MINKGEM Average income43 MKOOPKLA Purchasing power class

Através do resultado da regressão logística, chegou-se a eliminação das variáveis 30,31,33,34 e 43 do grupo 2.

Variáveis Atributo P- valor30 MHHUUR Rented house 0 74%30 MHHUUR Rented house 1 55%30 MHHUUR Rented house 2 16%30 MHHUUR Rented house 3 0%30 MHHUUR Rented house 4 95%30 MHHUUR Rented house 5 92%30 MHHUUR Rented house 6 0%30 MHHUUR Rented house 7 88%30 MHHUUR Rented house 8 0%31 MHKOOP Home owners 2 88%31 MHKOOP Home owners 4 92%31 MHKOOP Home owners 5 95%33 MAUT2 2 cars 0 36%33 MAUT2 2 cars 1 36%33 MAUT2 2 cars 2 31%33 MAUT2 2 cars 3 21%33 MAUT2 2 cars 4 35%33 MAUT2 2 cars 5 29%34 MAUT0 No car 0 11%34 MAUT0 No car 1 15%34 MAUT0 No car 2 7%34 MAUT0 No car 3 5%34 MAUT0 No car 4 19%34 MAUT0 No car 5 9%34 MAUT0 No car 7 100%34 MAUT0 No car 8 100%43 MKOOPKLA Purchasing power class 1 20%43 MKOOPKLA Purchasing power class 2 66%43 MKOOPKLA Purchasing power class 3 69%43 MKOOPKLA Purchasing power class 4 40%43 MKOOPKLA Purchasing power class 5 94%43 MKOOPKLA Purchasing power class 6 43%43 MKOOPKLA Purchasing power class 7 0%

Page 16: Empresa de Seguros Mineração de Dados Carlos Eduardo Silva de Moura Prof:Luis Paulo 23 de Junho de 2008

Variáveis relativas a seguro: grupo 3 ( 44 ao 85)

As variáveis relativas a seguro apresentam uma correlação muito grande, por isso serão eliminadas as variáveis da coluna excluídas.

Inclui Excluidas Correlações44 PWAPART Contribution private third party insurance 65 AWAPART Number of private third party insurance 1 - 12 0,9845 PWABEDR Contribution third party insurance (firms) ... 66 AWABEDR Number of third party insurance (firms) ... 0,9046 PWALAND Contribution third party insurane (agriculture) 67 AWALAND Number of third party insurane (agriculture) 0,9947 PPERSAUT Contribution car policies 68 APERSAUT Number of car policies 0,9248 PBESAUT Contribution delivery van policies 69 ABESAUT Number of delivery van policies 0,9049 PMOTSCO Contribution motorcycle/scooter policies 70 AMOTSCO Number of motorcycle/scooter policies 0,9050 PVRAAUT Contribution lorry policies 71 AVRAAUT Number of lorry policies 0,9551 PAANHANG Contribution trailer policies 72 AAANHANG Number of trailer policies 0,9752 PTRACTOR Contribution tractor policies 73 ATRACTOR Number of tractor policies 0,9353 PWERKT Contribution agricultural machines policies 74 AWERKT Number of agricultural machines policies 0,9154 PBROM Contribution moped policies 75 ABROM Number of moped policies 0,9755 PLEVEN Contribution life insurances 76 ALEVEN Number of life insurances 0,8556 PPERSONG Contribution private accident insurance policies 77 APERSONG Number of private accident insurance policies 0,9057 PGEZONG Contribution family accidents insurance policies 78 AGEZONG Number of family accidents insurance policies 0,9858 PWAOREG Contribution disability insurance policies 79 AWAOREG Number of disability insurance policies 0,9559 PBRAND Contribution fire policies 80 ABRAND Number of fire policies 0,8760 PZEILPL Contribution surfboard policies 81 AZEILPL Number of surfboard policies 0,8761 PPLEZIER Contribution boat policies 82 APLEZIER Number of boat policies 0,9062 PFIETS Contribution bicycle policies 83 AFIETS Number of bicycle policies 0,9463 PINBOED Contribution property insurance policies 84 AINBOED Number of property insurance policies 0,8864 PBYSTAND Contribution social security insurance policies 85 ABYSTAND Number of social security insurance policies 0,97

Atributo Contribuição($)

0 0

1 1 – 49

2 50 – 99

3 100

4 200

5 500

6 1000

7 5000

8 10000

9 20000

Page 17: Empresa de Seguros Mineração de Dados Carlos Eduardo Silva de Moura Prof:Luis Paulo 23 de Junho de 2008

Variáveis

Tabela com as variáveis que serão usados no ajuste do modelo.

1 Mostype1 High Income, expensive child 34 MOSHOOFD6 67 MZFONDS National Health Service

2 Mostype2 Very Important Provincials 35 MOSHOOFD7 68 MINKM30 Income < 30.000

3 Mostype4 Affluent senior apartments 36 MOSHOOFD8 69 MINK3045 Income 30-45.000

4 Mostype6 Career and childcare 37 MOSHOOFD9 70 MINK4575 Income 45-75.000

5 Mostype7 Dinki's (double income no kids) 38 MOSHOOFD10 71 MINK7512 Income 75-122.000

6 Mostype9 Modern, complete families 39 MGODRK Roman catholic see L3 72 MINK123M Income >123.000

7 Mostype10 Stable family 40 MGODPR Protestant ... 73 MINKGEM Average income

8 Mostype11 Family starters 41 MGODOV Other religion 74 MKOOPKLA Purchasing power class

9 Mostype13 Young all american family 42 MGODGE No religion 75 PWAPART Contribution private third party insurance

10 Mostype22 Mixed apartment dwellers 43 MRELGE Married 76 PWABEDR Contribution third party insurance (firms) ...

11 Mostype25 Young seniors in the city 44 MRELSA Living together 77 PWALAND Contribution third party insurane (agriculture)

12 Mostype26 Own home elderly 45 MRELOV Other relation 78 PPERSAUT Contribution car policies

13 Mostype27 Seniors in apartments 46 MFALLEEN Singles 79 PBESAUT Contribution delivery van policies

14 Mostype29 Porchless seniors: no front yard 47 MFGEKIND Household without children 80 PMOTSCO Contribution motorcycle/scooter policies

15 Mostype30 Religious elderly singles 48 MFWEKIND Household with children 81 PVRAAUT Contribution lorry policies

16 Mostype31 Low income catholics 49 MOPLHOOG High level education 82 PAANHANG Contribution trailer policies

17 Mostype32 Mixed seniors 50 MOPLMIDD Medium level education 83 PTRACTOR Contribution tractor policies

18 Mostype34 Large family, employed child 51 MOPLLAAG Lower level education 84 PWERKT Contribution agricultural machines policies

19 Mostype35 Village families 52 MBERHOOG High status 85 PBROM Contribution moped policies

20 Mostype36 Couples with teens 'Married with children' 53 MBERZELF Entrepreneur 86 PLEVEN Contribution life insurances

21 Mostype37 Mixed small town dwellers 54 MBERMIDD Middle management 87 PPERSONG Contribution private accident insurance policies

22 Mostype38 Traditional families 55 MBERARBG Skilled labourers 88 PGEZONG Contribution family accidents insurance policies

23 Mostype39 Large religous families 56 MBERARBO Unskilled labourers 89 PWAOREG Contribution disability insurance policies

24 Mostype40 Large family farms 57 MSKA Social class A 90 PBRAND Contribution fire policies

25 Mostype41 Mixed rurals 58 MSKB1 Social class B1 91 PZEILPL Contribution surfboard policies

26 MAANTHUI Number of houses 1 – 10 59 MSKB2 Social class B2 92 PPLEZIER Contribution boat policies

27 MGEMOMV Avg size household 1 – 6 60 MSKC Social class C 93 PFIETS Contribution bicycle policies

28 MGEMLEEF Avg age 61 MSKD Social class D 94 PINBOED Contribution property insurance policies

29 MOSHOOFD1 62 MHHUUR Rented house 95 PBYSTAND Contribution social security insurance policies

30 MOSHOOFD2 63 MHKOOP Home owners

31 MOSHOOFD3 64 MAUT1 1 car

32 MOSHOOFD4 65 MAUT2 2 cars

33 MOSHOOFD5 66 MAUT0 No car

Número de variáveis final

R

Page 18: Empresa de Seguros Mineração de Dados Carlos Eduardo Silva de Moura Prof:Luis Paulo 23 de Junho de 2008

Agenda

Descrição do Problema

Categorização

Fonte e Descrição dos Dados

Extração de características e realce

Plano de Prototipagem

Validação

Implementação

ROI ( Análise Financeira)

Page 19: Empresa de Seguros Mineração de Dados Carlos Eduardo Silva de Moura Prof:Luis Paulo 23 de Junho de 2008

Plano de Prototipagem

Plano de Prototipagem

É a etapa de desenvolvimento das hipóteses de trabalho para a análise,baseada nas metas definidas pela empresa e da construção de um plano para testá-las.

Ferramenta de modelagem matemática

A ferramenta utilizada foi o software Statistica.

Técnicautilizada

Para a estimação dos parâmetros do modelo e previsão dos resultados da amostra de treinamento foi utilizado a técnica de regressão logística e redes neurais.

Page 20: Empresa de Seguros Mineração de Dados Carlos Eduardo Silva de Moura Prof:Luis Paulo 23 de Junho de 2008

Padronização das variáveis

Uma grande parte das 95 variáveis foram padronizadas,estas foram diminuídas da média e divididas pelo o desvio padrão, somente as variáveis dummy (0 ou 1) foram mantidas sem a padronização.

Esta padronização deve como objetivo evitar problemas de escala e com isso deixá-las mais estáveis.

- X

Page 21: Empresa de Seguros Mineração de Dados Carlos Eduardo Silva de Moura Prof:Luis Paulo 23 de Junho de 2008

Resultado da amostra de treinamento

Para o ajuste do modelo foi utilizado, as variáveis definidas na etapa anterior

V

Estimativa Erro padrao Wald P-valor Estimativa Erro padrao Wald P-valorIntercepto 3,24 0,29 125,61 0,00 VAR50 0,15 0,24 0,39 0,53

VAR1 0,42 0,60 0,48 0,49 VAR51 0,48 0,32 2,33 0,13VAR2 0,10 0,57 0,03 0,86 VAR52 -0,19 0,15 1,70 0,19VAR3 1,23 0,79 2,45 0,12 VAR53 -0,03 0,08 0,15 0,70VAR4 0,18 0,41 0,20 0,65 VAR54 -0,27 0,15 3,27 0,07VAR5 0,94 0,70 1,77 0,18 VAR55 -0,08 0,14 0,35 0,55VAR6 0,66 0,71 0,86 0,35 VAR56 -0,20 0,14 2,11 0,15VAR7 1,38 0,51 7,37 0,01 VAR57 0,04 0,18 0,06 0,81VAR8 0,80 0,52 2,42 0,12 VAR58 0,07 0,13 0,25 0,61VAR9 0,81 0,48 2,88 0,09 VAR59 -0,02 0,14 0,01 0,91

VAR10 -0,26 0,64 0,16 0,68 VAR60 -0,15 0,19 0,56 0,45VAR11 -13,99 0,85 270,12 0,00 VAR61 0,08 0,13 0,36 0,55VAR12 -14,71 1,14 166,47 0,00 VAR62 9,66 6,02 2,58 0,11VAR13 -14,26 1,14 157,15 0,00 VAR63 9,57 6,02 2,53 0,11VAR14 0,68 0,76 0,80 0,37 VAR64 -0,29 0,24 1,40 0,24VAR15 0,01 0,61 0,00 0,98 VAR65 -0,19 0,17 1,34 0,25VAR16 0,06 0,60 0,01 0,92 VAR66 -0,16 0,23 0,49 0,48VAR17 -0,20 0,57 0,13 0,72 VAR67 -0,10 0,09 1,29 0,26VAR18 0,37 0,69 0,29 0,59 VAR68 -0,22 0,21 1,09 0,30VAR19 0,51 0,56 0,85 0,36 VAR69 -0,23 0,19 1,59 0,21VAR20 -0,20 0,33 0,36 0,55 VAR70 -0,21 0,19 1,27 0,26VAR21 -0,30 0,44 0,46 0,50 VAR71 -0,12 0,12 1,05 0,31VAR22 -0,22 0,33 0,44 0,51 VAR72 0,11 0,08 1,80 0,18VAR23 0,11 0,48 0,05 0,82 VAR73 -0,09 0,13 0,47 0,49VAR24 28,71 VAR74 -0,17 0,37 0,21 0,64VAR25 0,77 0,55 1,98 0,16 VAR75 -0,14 0,07 3,53 0,06VAR26 0,03 0,09 0,15 0,70 VAR76 0,04 0,07 0,31 0,58VAR27 0,03 0,11 0,06 0,81 VAR77 0,16 0,10 2,40 0,12VAR28 -0,17 0,09 3,37 0,07 VAR78 -0,66 0,07 84,51 0,00VAR29 0,03 0,58 0,00 0,96 VAR79 0,02 0,07 0,08 0,78VAR30 -0,03 0,79 0,00 0,97 VAR80 0,03 0,06 0,20 0,66VAR31 -0,32 0,83 0,15 0,70 VAR81 1,25VAR32 29,04 VAR82 -0,06 0,06 1,12 0,29VAR33 0,53 0,41 1,66 0,20 VAR83 -0,02 0,08 0,05 0,82VAR34 14,73 VAR84 2,07VAR35 0,00 VAR85 0,11 0,10 1,21 0,27VAR36 0,00 VAR86 0,04 0,05 0,58 0,44VAR37 0,00 VAR87 0,05 0,10 0,23 0,63VAR38 0,00 VAR88 -0,04 0,04 1,26 0,26VAR39 0,12 0,11 1,19 0,27 VAR89 -0,09 0,04 4,80 0,03VAR40 0,04 0,21 0,04 0,84 VAR90 -0,22 0,08 7,71 0,01VAR41 0,01 0,11 0,01 0,94 VAR91 -0,01 0,05 0,09 0,76VAR42 0,11 0,18 0,37 0,54 VAR92 -0,15 0,03 23,11 0,00VAR43 -0,46 0,30 2,32 0,13 VAR93 -0,10 0,05 4,61 0,03VAR44 -0,13 0,14 0,87 0,35 VAR94 0,02 0,06 0,13 0,72VAR45 -0,27 0,27 1,01 0,32 VAR95 -0,05 0,04 1,59 0,21VAR46 0,13 0,24 0,31 0,58VAR47 0,21 0,22 0,90 0,34VAR48 0,19 0,29 0,45 0,50VAR49 -0,05 0,22 0,05 0,82

Page 22: Empresa de Seguros Mineração de Dados Carlos Eduardo Silva de Moura Prof:Luis Paulo 23 de Junho de 2008

Matriz de Confusão

Para realizar a previsão foi utilizado uma probabilidade de que um cliente compre o seguro da ordem de px = 0,85( ponto de corte). Após fixar este valor foi observado a matriz de confusão abaixo.Os valores previstos foram comparados com a amostra de treinamento.

px= 0,9

Previsão Não Compra Compra Total

Não Compra 4608 160 4768Compra 866 188 1054Total 5474 348 5822

Observação

px= 0,8

Previsão Não Compra Compra Total

Não Compra 5266 263 5529Compra 208 85 293Total 5474 348 5822

Observação

px= 0,85

Previsão Não Compra Compra Total

Não Compra 5083 219 5302Compra 391 129 520Total 5474 348 5822

Observação px= 0,81

Previsão Não Compra Compra Total

Não Compra 5224 250 5474Compra 250 98 348Total 5474 348 5822

Observação

Page 23: Empresa de Seguros Mineração de Dados Carlos Eduardo Silva de Moura Prof:Luis Paulo 23 de Junho de 2008

Gráfico

Predição por cliente da amostra

0,00

0,10

0,20

0,30

0,40

0,50

0,60

0,70

0,80

0,90

-100 900 1900 2900 3900 4900 5900

Nota: o modelo não se mostrou sensível a mudanças no parâmetro fatorial que realiza interações entre as variáveis.

Page 24: Empresa de Seguros Mineração de Dados Carlos Eduardo Silva de Moura Prof:Luis Paulo 23 de Junho de 2008

Matriz de Confusão Redes Neurais

As matrizes de confusão abaixo, mostra que o melhor modelo foi o modelo resumido com critério de paragem com entropia.Este obteve um acerto da ordem de 67% para os casos de compra e 72% para os casos de não compra.

Var_Target("0") Var_Target("1") TotalTotal 5474 348 5822Correto 3773 229 4002Errado 1701 119 1820%Correto 69% 66% -%ERRADO 31% 34% -

Modelo Completo com entropia

Var_Target("0") Var_Target("1") TotalTotal 5474 348 5822Correto 3949 233 4182Errado 1525 115 1640%Correto 72% 67% -%ERRADO 28% 33% -

Modelo Resumido com entropia

Var_Target("0") Var_Target("1")Total 5.474 348Corretto 2.694 186Errado 2.780 162%Correto 49% 53%%ERRADO 51% 47%

Modelo Resumido com soma dos quadrados

Modelo Completo com soma dos quadrados

Var_Target("0") Var_Target("1")Total 5.482 340Corretto 3.451 230Errado 2.031 110%Correto 63% 67%%ERRADO 37% 32%

Matriz de Confusão Não Compra CompraNão Compra 3.451 110Compra 2.031 230

V

Matriz de Confusão Não Compra CompraNão Compra 2.694 162Compra 2.780 186

Matriz de Confusão Não Compra Compra TotalNão Compra 3949 115 4064Compra 1525 233 1758

Matriz de Confusão Não Compra Compra TotalNão Compra 3773 119 3892Compra 1701 229 1930

Page 25: Empresa de Seguros Mineração de Dados Carlos Eduardo Silva de Moura Prof:Luis Paulo 23 de Junho de 2008

Agenda

Descrição do Problema

Categorização

Fonte e Descrição dos Dados

Extração de características e realce

Plano de Prototipagem

Validação

Implementação

ROI ( Análise Financeira)

Page 26: Empresa de Seguros Mineração de Dados Carlos Eduardo Silva de Moura Prof:Luis Paulo 23 de Junho de 2008

VALIDAÇÃO

Todas as modificações realizadas com as variáveis na base de dados de treinamento foram feitas na base de validação , para manter a compatibilidade com o modelo proposto.

Como a base de teste não tinha as respostas da variável target foi realizado na base de dados de treinamento um split para realizar a validação do modelo.Foi utilizado 30% da base de treinamento(1745 observações).

A validação foi feita pela análise da matriz de confusão e o gráfico de alavancagem

Page 27: Empresa de Seguros Mineração de Dados Carlos Eduardo Silva de Moura Prof:Luis Paulo 23 de Junho de 2008

Modelo resumido de redes neurais com entropia

Percentual de acertos na base de validação

Var_Target("0") Var_Target("1") TotalTotal 1637 107 1744

Correto 1001 69 1070

Errado 636 38 674

%Correto 61% 64%

%Errado 39% 36%

Matriz de Confusão

Previsão Não Compra Compra TotalNão Compra 1001 38 1039

Compra 636 69 705Total 1637 107 1744

Observação

Page 28: Empresa de Seguros Mineração de Dados Carlos Eduardo Silva de Moura Prof:Luis Paulo 23 de Junho de 2008

Gráfico de Alavancagem

Page 29: Empresa de Seguros Mineração de Dados Carlos Eduardo Silva de Moura Prof:Luis Paulo 23 de Junho de 2008

Gráfico de Alavancagem

Page 30: Empresa de Seguros Mineração de Dados Carlos Eduardo Silva de Moura Prof:Luis Paulo 23 de Junho de 2008

Agenda

Descrição do Problema

Categorização

Fonte e Descrição dos Dados

Extração de características e realce

Plano de Prototipagem

Validação

Implementação

ROI( Análise Financeira)

Page 31: Empresa de Seguros Mineração de Dados Carlos Eduardo Silva de Moura Prof:Luis Paulo 23 de Junho de 2008

Implementação

O Problema consiste em tomar uma decisão de enviar por mala direta uma proposta de apólice de seguro para todos os clientes da seguradora ou só para os clientes que tem uma chance maior de fazer o seguro. A empresa identificando estes clientes potenciais conseguirá reduzir o custo e evitar desperdício nas vendas.

O modelo foi desenvolvido no software Statistica. Após um estudo detalhado das variáveis de entrada foram selecionadas inicialmente 95 variáveis e posteriormente foram selecionadas 34 variáveis. Foram implementados dois modelos um chamado de modelo completo que contém 95 variáveis e outro chamado modelo resumido que contém 34 variáveis.

Modelo ResumidoResumido Modelo CompletoCompleto

Page 32: Empresa de Seguros Mineração de Dados Carlos Eduardo Silva de Moura Prof:Luis Paulo 23 de Junho de 2008

Implementação

1 11 Family starters2 12 Affluent young families3 13 Young all american family4 15 Senior cosmopolitans5 16 Students in apartments6 17 Fresh masters in the city7 22 Mixed apartment dwellers8 23 Young and rising9 28 Residential elderly10 29 Porchless seniors: no front yard11 3 High status seniors12 30 Religious elderly singles13 31 Low income catholics14 10 MRELGE Married15 5 Mixed seniors16 18 MOPLLAAG Lower level education17 19 MBERHOOG High status18 22 MBERMIDD Middle management19 24 MBERARBO Unskilled labourers20 30 MHHUUR Rented house21 31 MHKOOP Home owners22 38 MINK3045 Income 30-45.00023 7 Dinki's (double income no kids)24 41 MINK123M Income >123.00025 44 PWAPART Contribution private third party insurance26 46 PWALAND Contribution third party insurane (agriculture)27 47 PPERSAUT Contribution car policies28 8 Middle class families29 58 PWAOREG Contribution disability insurance policies30 9 Modern, complete families31 59 PBRAND Contribution fire policies32 61 PPLEZIER Contribution boat policies33 63 PINBOED Contribution property insurance policies34 64 PBYSTAND Contribution social security insurance policies

Modelo Resumido

VR

Page 33: Empresa de Seguros Mineração de Dados Carlos Eduardo Silva de Moura Prof:Luis Paulo 23 de Junho de 2008

Implementação

1 Mostype1 High Income, expensive child 34 MOSHOOFD6 67 MZFONDS National Health Service

2 Mostype2 Very Important Provincials 35 MOSHOOFD7 68 MINKM30 Income < 30.000

3 Mostype4 Affluent senior apartments 36 MOSHOOFD8 69 MINK3045 Income 30-45.000

4 Mostype6 Career and childcare 37 MOSHOOFD9 70 MINK4575 Income 45-75.000

5 Mostype7 Dinki's (double income no kids) 38 MOSHOOFD10 71 MINK7512 Income 75-122.000

6 Mostype9 Modern, complete families 39 MGODRK Roman catholic see L3 72 MINK123M Income >123.000

7 Mostype10 Stable family 40 MGODPR Protestant ... 73 MINKGEM Average income

8 Mostype11 Family starters 41 MGODOV Other religion 74 MKOOPKLA Purchasing power class

9 Mostype13 Young all american family 42 MGODGE No religion 75 PWAPART Contribution private third party insurance

10 Mostype22 Mixed apartment dwellers 43 MRELGE Married 76 PWABEDR Contribution third party insurance (firms) ...

11 Mostype25 Young seniors in the city 44 MRELSA Living together 77 PWALAND Contribution third party insurane (agriculture)

12 Mostype26 Own home elderly 45 MRELOV Other relation 78 PPERSAUT Contribution car policies

13 Mostype27 Seniors in apartments 46 MFALLEEN Singles 79 PBESAUT Contribution delivery van policies

14 Mostype29 Porchless seniors: no front yard 47 MFGEKIND Household without children 80 PMOTSCO Contribution motorcycle/scooter policies

15 Mostype30 Religious elderly singles 48 MFWEKIND Household with children 81 PVRAAUT Contribution lorry policies

16 Mostype31 Low income catholics 49 MOPLHOOG High level education 82 PAANHANG Contribution trailer policies

17 Mostype32 Mixed seniors 50 MOPLMIDD Medium level education 83 PTRACTOR Contribution tractor policies

18 Mostype34 Large family, employed child 51 MOPLLAAG Lower level education 84 PWERKT Contribution agricultural machines policies

19 Mostype35 Village families 52 MBERHOOG High status 85 PBROM Contribution moped policies

20 Mostype36 Couples with teens 'Married with children' 53 MBERZELF Entrepreneur 86 PLEVEN Contribution life insurances

21 Mostype37 Mixed small town dwellers 54 MBERMIDD Middle management 87 PPERSONG Contribution private accident insurance policies

22 Mostype38 Traditional families 55 MBERARBG Skilled labourers 88 PGEZONG Contribution family accidents insurance policies

23 Mostype39 Large religous families 56 MBERARBO Unskilled labourers 89 PWAOREG Contribution disability insurance policies

24 Mostype40 Large family farms 57 MSKA Social class A 90 PBRAND Contribution fire policies

25 Mostype41 Mixed rurals 58 MSKB1 Social class B1 91 PZEILPL Contribution surfboard policies

26 MAANTHUI Number of houses 1 – 10 59 MSKB2 Social class B2 92 PPLEZIER Contribution boat policies

27 MGEMOMV Avg size household 1 – 6 60 MSKC Social class C 93 PFIETS Contribution bicycle policies

28 MGEMLEEF Avg age 61 MSKD Social class D 94 PINBOED Contribution property insurance policies

29 MOSHOOFD1 62 MHHUUR Rented house 95 PBYSTAND Contribution social security insurance policies

30 MOSHOOFD2 63 MHKOOP Home owners

31 MOSHOOFD3 64 MAUT1 1 car

32 MOSHOOFD4 65 MAUT2 2 cars

33 MOSHOOFD5 66 MAUT0 No car

Número de variáveis final

V

Page 34: Empresa de Seguros Mineração de Dados Carlos Eduardo Silva de Moura Prof:Luis Paulo 23 de Junho de 2008

Implementação

Antes de rodar o modelo, devem-se realizar as mesmas modificações nas variáveis que foram feitas na fase de treinamento, abaixo segue uma tabela com as variáveis e os tipos de transformações que devem ser feitas.

Page 35: Empresa de Seguros Mineração de Dados Carlos Eduardo Silva de Moura Prof:Luis Paulo 23 de Junho de 2008

Implementação

A etapa de validação foi feita usando uma amostra teste, ou seja, o modelo parametrizado na etapa de treinamento foi rodado com esta amostra teste e foram observados os resultados obtidos. Para validar os resultados utilizamos a matriz de confusão e o gráfico de alavancagem. O modelo resumido com redes neurais com entropia com critério de paragem mostrou-se o mais assertivo.

1º Etapa Obter os dados originais de todas as variáveis como proposto na base de dados.

2º EtapaBaseado no modelo que se deseja rodar (modelo completo ou resumido), fazer as devidas transformações de variáveis.

3º Etapa Abrir o arquivo .sdm(extensão do Statistica) com o modelo parametrizado.

4º EtapaNo Statistica deve-se importar a base de dados que se deseja prever, esta como dito na etapa 2 com as transformações já realizadas.

5º Etapa Rodar o modelo no comando (Run) e analisar os resultados

Etapas que devem ser seguidas pelo usuário do modelo

Page 36: Empresa de Seguros Mineração de Dados Carlos Eduardo Silva de Moura Prof:Luis Paulo 23 de Junho de 2008

Agenda

Descrição do Problema

Categorização

Fonte e Descrição dos Dados

Extração de características e realce

Plano de Prototipagem

Validação

Implementação

ROI ( Análise Financeira)

Page 37: Empresa de Seguros Mineração de Dados Carlos Eduardo Silva de Moura Prof:Luis Paulo 23 de Junho de 2008

ROI(Análise Financeira)

Após a validação do modelo proposto deve-se fazer uma análise financeira,pois os softwares de dataming são caros e este investimento inicial tem que ser aprovado pela alta gerência.

Porém, neste trabalho será realizado uma análise relacionada as metas de previsão com o ajuste do modelo mediante o conceito de função de perda.

HIPÓTESES:

Prêmio: R$ 3.000,00

Custo de Mala Direta(CMD): R$ 5,00

Despesas: CMD*Itens enviados

Receitas:PCS x Prêmio

Obs.:

PCS: Pessoa que compram seguros de Trailer

Modelo Sem ModeloEnviadas 705 1744Compra 69 107

Page 38: Empresa de Seguros Mineração de Dados Carlos Eduardo Silva de Moura Prof:Luis Paulo 23 de Junho de 2008

ROI(Análise Financeira)

Com o modelo

Despesas 3.525,00R$ Receitas 207.000,00R$ ROI 5772%

Sem modelo

Despesas 8.720,00R$ Receitas 321.000,00R$ ROI 3581%

Page 39: Empresa de Seguros Mineração de Dados Carlos Eduardo Silva de Moura Prof:Luis Paulo 23 de Junho de 2008

ROI(Análise Financeira)

Análise de Sensibilidade

0%

2000%

4000%

6000%

8000%

10000%

12000%

14000%

2 2,5 3 3,5 4 4,5 5 5,5 6 6,5 7 7,5 8 8,5 9 9,5 10

Custo da Mala Direta R$

RO

I

Para valores de custo de mala direita maior que R$ 7,50 o ROI do modelo fica menor do que o ROI sem o modelo.Com isso, não compensaria o investimento no modelo.

Page 40: Empresa de Seguros Mineração de Dados Carlos Eduardo Silva de Moura Prof:Luis Paulo 23 de Junho de 2008

ROI(Análise Financeira)

Análise de Sensibilidade

Para valores de prêmio menor que R$ 1900 o ROI do modelo fica menor do que o ROI sem o modelo.Com isso, não compensaria o investimento no modelo.

0%

5000%

10000%

15000%

20000%

25000%

1000 2000 3000 4000 5000 6000 7000 8000 9000 10000

Prêmio R$

RO

I