Upload
internet
View
104
Download
0
Embed Size (px)
Citation preview
Empresa de SegurosMineração de Dados
Carlos Eduardo Silva de Moura
Prof:Luis Paulo
23 de Junho de 2008
Agenda
Descrição do Problema
Categorização
Fonte e Descrição dos Dados
Extração de características e realce
Plano de Prototipagem
Validação
Implementação
ROI ( Análise Financeira)
Descrição do Problema
Empresa de Seguros
O Problema consiste em tomar uma decisão de enviar por mala direta uma proposta de apólice de seguro para todos os clintes da seguradora ou só para os clientes que tem uma chance maior de fazer o seguro. A empresa identificando estes clientes potenciais conseguirá reduzir o custo e assim evitar desperdício nas vendas.
Agenda
Descrição do Problema
Categorização
Fonte e Descrição dos Dados
Extração de características e realce
Plano de Prototipagem
Validação
Implementação
ROI ( Análise Financeira)
Categoria do Problema
Classificação (Supervisionada ) ou predição categórica
Classificação (supervisionada) ou predição categóricaTem por objetivo a criação de modelos para predizer as classes a quepertencem objetos desconhecidos. Determinar uma regra que possa
ser usada para classificar de forma otimizada uma nova observação a uma classe já rotulada.
Nosso objetivo final será predizer baseado nos dados de cada cliente quais tem maior chance de adquirir uma apólice de seguros.
Agenda
Descrição do Problema
Categorização
Fonte e Descrição dos Dados
Extração de características e realce
Plano de Prototipagem
Validação
Implementação
ROI ( Análise Financeira)
Empresa de Seguros ( Fonte dos Dados)
Os dados foram obtidos de uma competição internacional (Coil challenge 2000 dataming competion),
porém são baseados em dados reais fornecidos pela Dutch datamining company Sentient Machine Research*.
* Para informações sobre o datasets ver homepage: http://www.wi.leidenuniv.nl/~putten/library/cc2000/
Empresa de Seguros ( Descrição dos Dados)
Foram informados 86 variavéis sobre os clientes dentre essas tinham dados sócio-demográficos e relativos a seguros. A base de treinamento do modelo contém 5826 clientes e inclui a informação se o cliente tinha ou não uma apólice de seguro. Para testar o modelo foram fornecidos dados de 4000 clientes com as mesmas informações, exceto se tinha ou não uma apólice de seguro. Sendo a variável alvo a que diz se comprou ou não seguro.
Empresa de Seguros ( Descrição dos Dados)
1 MOSTYPE Customer Subtype see L0 30 MHHUUR Rented house 59 PBRAND Contribution fire policies2 MAANTHUI Number of houses 1 – 10 31 MHKOOP Home owners 60 PZEILPL Contribution surfboard policies3 MGEMOMV Avg size household 1 – 6 32 MAUT1 1 car 61 PPLEZIER Contribution boat policies4 MGEMLEEF Avg age see L1 33 MAUT2 2 cars 62 PFIETS Contribution bicycle policies5 MOSHOOFD Customer main type see L2 34 MAUT0 No car 63 PINBOED Contribution property insurance policies6 MGODRK Roman catholic see L3 35 MZFONDS National Health Service 64 PBYSTAND Contribution social security insurance policies7 MGODPR Protestant ... 36 MZPART Private health insurance 65 AWAPART Number of private third party insurance 1 - 128 MGODOV Other religion 37 MINKM30 Income < 30.000 66 AWABEDR Number of third party insurance (firms) ...9 MGODGE No religion 38 MINK3045 Income 30-45.000 67 AWALAND Number of third party insurane (agriculture)10 MRELGE Married 39 MINK4575 Income 45-75.000 68 APERSAUT Number of car policies11 MRELSA Living together 40 MINK7512 Income 75-122.000 69 ABESAUT Number of delivery van policies12 MRELOV Other relation 41 MINK123M Income >123.000 70 AMOTSCO Number of motorcycle/scooter policies13 MFALLEEN Singles 42 MINKGEM Average income 71 AVRAAUT Number of lorry policies14 MFGEKIND Household without children 43 MKOOPKLA Purchasing power class 72 AAANHANG Number of trailer policies15 MFWEKIND Household with children 44 PWAPART Contribution private third party insurance see L4 73 ATRACTOR Number of tractor policies16 MOPLHOOG High level education 45 PWABEDR Contribution third party insurance (firms) ... 74 AWERKT Number of agricultural machines policies17 MOPLMIDD Medium level education 46 PWALAND Contribution third party insurane (agriculture) 75 ABROM Number of moped policies18 MOPLLAAG Lower level education 47 PPERSAUT Contribution car policies 76 ALEVEN Number of life insurances19 MBERHOOG High status 48 PBESAUT Contribution delivery van policies 77 APERSONG Number of private accident insurance policies20 MBERZELF Entrepreneur 49 PMOTSCO Contribution motorcycle/scooter policies 78 AGEZONG Number of family accidents insurance policies21 MBERBOER Farmer 50 PVRAAUT Contribution lorry policies 79 AWAOREG Number of disability insurance policies22 MBERMIDD Middle management 51 PAANHANG Contribution trailer policies 80 ABRAND Number of fire policies23 MBERARBG Skilled labourers 52 PTRACTOR Contribution tractor policies 81 AZEILPL Number of surfboard policies24 MBERARBO Unskilled labourers 53 PWERKT Contribution agricultural machines policies 82 APLEZIER Number of boat policies25 MSKA Social class A 54 PBROM Contribution moped policies 83 AFIETS Number of bicycle policies26 MSKB1 Social class B1 55 PLEVEN Contribution life insurances 84 AINBOED Number of property insurance policies27 MSKB2 Social class B2 56 PPERSONG Contribution private accident insurance policies 85 ABYSTAND Number of social security insurance policies28 MSKC Social class C 57 PGEZONG Contribution family accidents insurance policies 86 CARAVAN Number of mobile home policies 0 - 129 MSKD Social class D 58 PWAOREG Contribution disability insurance policies
Variaveis Originais
As variáveis de 1 a 43 são referentes a dados sócio-demográficos e as variáveis de 44 a 86 são referentes a seguros.
Empresa de Seguros ( Descrição dos Dados)
1 High Income, expensive child Renda Alta/despesa com criança
2 Very Important Provincials Morador de província muito importante
3 High status seniors Senior de alta renda
4 Affluent senior apartments Senior com apartamento grande
5 Mixed seniors Mora com várias pessoas seniors
6 Career and childcare Carreira e voluntário
7 Dinki's (double income no kids) Sem crianças e duas fonte de renda
8 Middle class families Famílias de classe média
9 Modern, complete families Famílias completas e modernas
10 Stable family Famílias estáveis
11 Family starters Famílias recém formadas
12 Affluent young families Jovens famílias prósperas
13 Young all american family Famílias de jovens americanos
14 Junior cosmopolitan Joven cosmopolita
15 Senior cosmopolitans Senior cosmopolita
16 Students in apartments Estudantes em apartamentos
17 Fresh masters in the city Professor novo em cidade
18 Single youth Jovem solteiro
19 Suburban youth Jovem suburbano
20 Etnically diverse Etnia diversa
21 Young urban have-nots Jovem urbanos sem posses
22 Mixed apartment dwellers Morador de repúblicas
23 Young and rising Jovem e próspero
24 Young, low educated Jovem com baixa educação
25 Young seniors in the city Seniors jovens na cidade
26 Own home elderly Casa própia usada
27 Seniors in apartments Seniors em apartamentos
28 Residential elderly Residência Antiga
29 Porchless seniors: no front yard Casa sem quintal
30 Religious elderly singles Idoso solteiro religioso
31 Low income catholics Católicos com baixa renda
32 Mixed seniors Mora com várias pessoas seniors
33 Lower class large families Famílias grandes com baixa renda
34 Large family, employed child Famílias grandes com crianças trabalhando
35 Village families Famílias de vila
36 Couples with teens 'Married with children' Casais adolescentes com filhos
37 Mixed small town dwellers Habitantes de cidades pequenas misturados
38 Traditional families Famílias Tradicionais
39 Large religous families Grandes famíllias religiosas
40 Large family farms Fazenda de grandes famílias
41 Mixed rurals Pessoas rurais misturadas
1 MOSTYPE Customer Subtype
L1:
1 20-30 years
2 30-40 years
3 40-50 years
4 50-60 years
5 60-70 years
6 70-80 years
L2:
1 Successful hedonists
2 Driven Growers
3 Average Family
4 Career Loners
5 Living well
6 Cruising Seniors
7 Retired and Religeous
8 Family with grown ups
9 Conservative families
10 Farmers
L3:
0 0%
1 1 - 10%
2 11 - 23%
3 24 - 36%
4 37 - 49%
5 50 - 62%
6 63 - 75%
7 76 - 88%
8 89 - 99%
9 100%
L4:
0 f 0
1 f 1 – 49
2 f 50 – 99
3 f 100 – 199
4 f 200 – 499
5 f 500 – 999
6 f 1000 – 4999
7 f 5000 – 9999
8 f 10.000 - 19.999
9 f 20.000 - ?
Agenda
Descrição do Problema
Categorização
Fonte e Descrição dos Dados
Extração de características e realce
Plano de Prototipagem
Validação
Implementação
ROI ( Análise Financeira)
Mostype Customer Subtype –Extraindo características e realce
Frequencia %Percentual
1 High Income, expensive child Renda Alta/despesa com criança 124 2%
2 Very Important Provincials Morador de província muito importante 82 1%
3 High status seniors Senior de alta renda 249 4%
4 Affluent senior apartments Senior com apartamento grande 52 1%
5 Mixed seniors Mora com várias pessoas seniors 45 1%
6 Career and childcare Carreira e voluntário 119 2%
7 Dinki's (double income no kids) Sem crianças e duas fonte de renda 44 1%
8 Middle class families Famílias de classe média 339 6%
9 Modern, complete families Famílias completas e modernas 278 5%
10 Stable family Famílias estáveis 165 3%
11 Family starters Famílias recém formadas 153 3%
12 Affluent young families Jovens famílias prósperas 111 2%
13 Young all american family Famílias de jovens americanos 179 3%
14 Junior cosmopolitan Joven cosmopolita 0 0%
15 Senior cosmopolitans Senior cosmopolita 5 0%
16 Students in apartments Estudantes em apartamentos 16 0%
17 Fresh masters in the city Professor novo em cidade 9 0%
18 Single youth Jovem solteiro 19 0%
19 Suburban youth Jovem suburbano 3 0%
20 Etnically diverse Etnia diversa 25 0%
21 Young urban have-nots Jovem urbanos sem posses 15 0%
22 Mixed apartment dwellers Morador de repúblicas 98 2%
23 Young and rising Jovem e próspero 251 4%
24 Young, low educated Jovem com baixa educação 180 3%
25 Young seniors in the city Seniors jovens na cidade 82 1%
26 Own home elderly Casa própia usada 48 1%
27 Seniors in apartments Seniors em apartamentos 50 1%
28 Residential elderly Residência Antiga 25 0%
29 Porchless seniors: no front yard Casa sem quintal 86 2%
30 Religious elderly singles Idoso solteiro religioso 118 2%
31 Low income catholics Católicos com baixa renda 205 4%
32 Mixed seniors Mora com várias pessoas seniors 141 2%
33 Lower class large families Famílias grandes com baixa renda 810 14%
34 Large family, employed child Famílias grandes com crianças trabalhando 182 3%
35 Village families Famílias de vila 214 4%
36 Couples with teens 'Married with children' Casais adolescentes com filhos 225 4%
37 Mixed small town dwellers Habitantes de cidades pequenas misturados 132 2%
38 Traditional families Famílias Tradicionais 339 6%
39 Large religous families Grandes famíllias religiosas 328 6%
40 Large family farms Fazenda de grandes famílias 71 1%
41 Mixed rurals Pessoas rurais misturadas 205 4%
1 MOSTYPE Customer Subtype
%Percentual de resposta assinaladas
-2%
0%
2%
4%
6%
8%
10%
12%
14%
16%
-1 1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41
Devido ao número baixo de pessoas que responderam e as suas características as variáveis14,15,16,17,18,19, 20, 21 e 28 foram eliminadas, além da variável 5 que é repetida. As variáveis 3,8,12,23,24,33 foram eliminadas devido a relação com outras variáveis como classe social,renda e idade.
5 MOSHOOFD Customer main type - Extraindo características e realce
A variável 5 é definida como o tipo principal de clientes que a seguradora procura.Está variável vai ser desmembrada em 10 variáveis novas do tipo dummy na parte de protipagem.
Frequência %Percentual
1 Successful hedonists Hendonista de sucesso 552 9%
2 Driven Growers Morador do tralier 502 9%
3 Average Family Família média 886 15%
4 Career Loners Autônomo 52 1%
5 Living well Aventureiro 569 10%
6 Cruising Seniors Maduros de gostam de viajar 205 4%
7 Retired and Religeous Terceira idade reservado 550 9%
8 Family with grown ups Família com adultos 1563 27%
9 Conservative families Famílias conservadoras 667 11%
10 Farmers Fazendeiros 276 5%
5 MOSHOOFD (Tipo principal de cliente)
%Percentual de respostas assinaladas
0%
5%
10%
15%
20%
25%
30%
0 2 4 6 8 10
Variáveis do grupo 1 ( 1 ao 24)
Variáveis Média Máximo Minimo Moda Nº de vezes que aparece a moda Percentil 95% Total de observações2 MAANTHUI Number of houses 1 – 10 1,11 10 1 1 5267 2 5822
3 MGEMOMV Avg size household 1 – 6 2,68 5 1 3 2646 4 5822
4 MGEMLEEF Avg age see L1 2,99 6 1 3 3000 4 5822
5 MOSHOOFD Customer main type see L2 5,77 10 1 8 1563 9 5822
6 MGODRK Roman catholic see L3 0,70 9 0 0 3228 2 5822
7 MGODPR Protestant ... 4,63 9 0 4 1607 7 5822
8 MGODOV Other religion 1,07 5 0 1 2014 3 5822
9 MGODGE No religion 3,26 9 0 3 1453 6 5822
10 MRELGE Married 6,18 9 0 7 1683 9 5822
11 MRELSA Living together 0,88 7 0 0 2448 2 5822
12 MRELOV Other relation 2,29 9 0 2 1756 5 5822
13 MFALLEEN Singles 1,89 9 0 0 1757 5 5822
14 MFGEKIND Household without children 3,23 9 0 3 1498 6 5822
15 MFWEKIND Household with children 4,30 9 0 4 1137 8 5822
16 MOPLHOOG High level education 1,46 9 0 0 2147 5 5822
17 MOPLMIDD Medium level education 3,35 9 0 4 1426 6 5822
18 MOPLLAAG Lower level education 4,57 9 0 5 1009 9 5822
19 MBERHOOG High status 1,90 9 0 0 1524 5 5822
20 MBERZELF Entrepreneur 0,40 5 0 0 4171 2 5822
21 MBERBOER Farmer 0,52 9 0 0 4176 3 5822
22 MBERMIDD Middle management 2,90 9 0 2 1491 6 5822
23 MBERARBG Skilled labourers 2,22 9 0 2 1382 5 5822
24 MBERARBO Unskilled labourers 2,31 9 0 2 1439 5 5822
As variáveis de 7 a 24 são baseadas na região onde o cliente reside,ou seja , são atribuídos porcentagens de tal individuo possuir tal característica ou não, varia de 0% a 100%.Estas informações são retiradas do censo demográfico.Vide tabela ao lado. A variável 21 será eliminada devido a semelhança com a variável 5 atributo 10.
Atributo Porcentagem0 0%
1 1- 10%
2 11-23%
3 24 - 36%
4 37 - 49%
5 50 - 62%
6 63 - 75%
7 76 - 88%
8 89 - 99%
9 100%
Variáveis socioeconômicas: grupo 2 ( 25 ao 43)
Variáveis25 MSKA Social class A26 MSKB1 Social class B127 MSKB2 Social class B228 MSKC Social class C29 MSKD Social class D30 MHHUUR Rented house31 MHKOOP Home owners32 MAUT1 1 car33 MAUT2 2 cars34 MAUT0 No car35 MZFONDS National Health Service37 MINKM30 Income < 30.00038 MINK3045 Income 30-45.00039 MINK4575 Income 45-75.00040 MINK7512 Income 75-122.00041 MINK123M Income >123.00042 MINKGEM Average income43 MKOOPKLA Purchasing power class
Através do resultado da regressão logística, chegou-se a eliminação das variáveis 30,31,33,34 e 43 do grupo 2.
Variáveis Atributo P- valor30 MHHUUR Rented house 0 74%30 MHHUUR Rented house 1 55%30 MHHUUR Rented house 2 16%30 MHHUUR Rented house 3 0%30 MHHUUR Rented house 4 95%30 MHHUUR Rented house 5 92%30 MHHUUR Rented house 6 0%30 MHHUUR Rented house 7 88%30 MHHUUR Rented house 8 0%31 MHKOOP Home owners 2 88%31 MHKOOP Home owners 4 92%31 MHKOOP Home owners 5 95%33 MAUT2 2 cars 0 36%33 MAUT2 2 cars 1 36%33 MAUT2 2 cars 2 31%33 MAUT2 2 cars 3 21%33 MAUT2 2 cars 4 35%33 MAUT2 2 cars 5 29%34 MAUT0 No car 0 11%34 MAUT0 No car 1 15%34 MAUT0 No car 2 7%34 MAUT0 No car 3 5%34 MAUT0 No car 4 19%34 MAUT0 No car 5 9%34 MAUT0 No car 7 100%34 MAUT0 No car 8 100%43 MKOOPKLA Purchasing power class 1 20%43 MKOOPKLA Purchasing power class 2 66%43 MKOOPKLA Purchasing power class 3 69%43 MKOOPKLA Purchasing power class 4 40%43 MKOOPKLA Purchasing power class 5 94%43 MKOOPKLA Purchasing power class 6 43%43 MKOOPKLA Purchasing power class 7 0%
Variáveis relativas a seguro: grupo 3 ( 44 ao 85)
As variáveis relativas a seguro apresentam uma correlação muito grande, por isso serão eliminadas as variáveis da coluna excluídas.
Inclui Excluidas Correlações44 PWAPART Contribution private third party insurance 65 AWAPART Number of private third party insurance 1 - 12 0,9845 PWABEDR Contribution third party insurance (firms) ... 66 AWABEDR Number of third party insurance (firms) ... 0,9046 PWALAND Contribution third party insurane (agriculture) 67 AWALAND Number of third party insurane (agriculture) 0,9947 PPERSAUT Contribution car policies 68 APERSAUT Number of car policies 0,9248 PBESAUT Contribution delivery van policies 69 ABESAUT Number of delivery van policies 0,9049 PMOTSCO Contribution motorcycle/scooter policies 70 AMOTSCO Number of motorcycle/scooter policies 0,9050 PVRAAUT Contribution lorry policies 71 AVRAAUT Number of lorry policies 0,9551 PAANHANG Contribution trailer policies 72 AAANHANG Number of trailer policies 0,9752 PTRACTOR Contribution tractor policies 73 ATRACTOR Number of tractor policies 0,9353 PWERKT Contribution agricultural machines policies 74 AWERKT Number of agricultural machines policies 0,9154 PBROM Contribution moped policies 75 ABROM Number of moped policies 0,9755 PLEVEN Contribution life insurances 76 ALEVEN Number of life insurances 0,8556 PPERSONG Contribution private accident insurance policies 77 APERSONG Number of private accident insurance policies 0,9057 PGEZONG Contribution family accidents insurance policies 78 AGEZONG Number of family accidents insurance policies 0,9858 PWAOREG Contribution disability insurance policies 79 AWAOREG Number of disability insurance policies 0,9559 PBRAND Contribution fire policies 80 ABRAND Number of fire policies 0,8760 PZEILPL Contribution surfboard policies 81 AZEILPL Number of surfboard policies 0,8761 PPLEZIER Contribution boat policies 82 APLEZIER Number of boat policies 0,9062 PFIETS Contribution bicycle policies 83 AFIETS Number of bicycle policies 0,9463 PINBOED Contribution property insurance policies 84 AINBOED Number of property insurance policies 0,8864 PBYSTAND Contribution social security insurance policies 85 ABYSTAND Number of social security insurance policies 0,97
Atributo Contribuição($)
0 0
1 1 – 49
2 50 – 99
3 100
4 200
5 500
6 1000
7 5000
8 10000
9 20000
Variáveis
Tabela com as variáveis que serão usados no ajuste do modelo.
1 Mostype1 High Income, expensive child 34 MOSHOOFD6 67 MZFONDS National Health Service
2 Mostype2 Very Important Provincials 35 MOSHOOFD7 68 MINKM30 Income < 30.000
3 Mostype4 Affluent senior apartments 36 MOSHOOFD8 69 MINK3045 Income 30-45.000
4 Mostype6 Career and childcare 37 MOSHOOFD9 70 MINK4575 Income 45-75.000
5 Mostype7 Dinki's (double income no kids) 38 MOSHOOFD10 71 MINK7512 Income 75-122.000
6 Mostype9 Modern, complete families 39 MGODRK Roman catholic see L3 72 MINK123M Income >123.000
7 Mostype10 Stable family 40 MGODPR Protestant ... 73 MINKGEM Average income
8 Mostype11 Family starters 41 MGODOV Other religion 74 MKOOPKLA Purchasing power class
9 Mostype13 Young all american family 42 MGODGE No religion 75 PWAPART Contribution private third party insurance
10 Mostype22 Mixed apartment dwellers 43 MRELGE Married 76 PWABEDR Contribution third party insurance (firms) ...
11 Mostype25 Young seniors in the city 44 MRELSA Living together 77 PWALAND Contribution third party insurane (agriculture)
12 Mostype26 Own home elderly 45 MRELOV Other relation 78 PPERSAUT Contribution car policies
13 Mostype27 Seniors in apartments 46 MFALLEEN Singles 79 PBESAUT Contribution delivery van policies
14 Mostype29 Porchless seniors: no front yard 47 MFGEKIND Household without children 80 PMOTSCO Contribution motorcycle/scooter policies
15 Mostype30 Religious elderly singles 48 MFWEKIND Household with children 81 PVRAAUT Contribution lorry policies
16 Mostype31 Low income catholics 49 MOPLHOOG High level education 82 PAANHANG Contribution trailer policies
17 Mostype32 Mixed seniors 50 MOPLMIDD Medium level education 83 PTRACTOR Contribution tractor policies
18 Mostype34 Large family, employed child 51 MOPLLAAG Lower level education 84 PWERKT Contribution agricultural machines policies
19 Mostype35 Village families 52 MBERHOOG High status 85 PBROM Contribution moped policies
20 Mostype36 Couples with teens 'Married with children' 53 MBERZELF Entrepreneur 86 PLEVEN Contribution life insurances
21 Mostype37 Mixed small town dwellers 54 MBERMIDD Middle management 87 PPERSONG Contribution private accident insurance policies
22 Mostype38 Traditional families 55 MBERARBG Skilled labourers 88 PGEZONG Contribution family accidents insurance policies
23 Mostype39 Large religous families 56 MBERARBO Unskilled labourers 89 PWAOREG Contribution disability insurance policies
24 Mostype40 Large family farms 57 MSKA Social class A 90 PBRAND Contribution fire policies
25 Mostype41 Mixed rurals 58 MSKB1 Social class B1 91 PZEILPL Contribution surfboard policies
26 MAANTHUI Number of houses 1 – 10 59 MSKB2 Social class B2 92 PPLEZIER Contribution boat policies
27 MGEMOMV Avg size household 1 – 6 60 MSKC Social class C 93 PFIETS Contribution bicycle policies
28 MGEMLEEF Avg age 61 MSKD Social class D 94 PINBOED Contribution property insurance policies
29 MOSHOOFD1 62 MHHUUR Rented house 95 PBYSTAND Contribution social security insurance policies
30 MOSHOOFD2 63 MHKOOP Home owners
31 MOSHOOFD3 64 MAUT1 1 car
32 MOSHOOFD4 65 MAUT2 2 cars
33 MOSHOOFD5 66 MAUT0 No car
Número de variáveis final
R
Agenda
Descrição do Problema
Categorização
Fonte e Descrição dos Dados
Extração de características e realce
Plano de Prototipagem
Validação
Implementação
ROI ( Análise Financeira)
Plano de Prototipagem
Plano de Prototipagem
É a etapa de desenvolvimento das hipóteses de trabalho para a análise,baseada nas metas definidas pela empresa e da construção de um plano para testá-las.
Ferramenta de modelagem matemática
A ferramenta utilizada foi o software Statistica.
Técnicautilizada
Para a estimação dos parâmetros do modelo e previsão dos resultados da amostra de treinamento foi utilizado a técnica de regressão logística e redes neurais.
Padronização das variáveis
Uma grande parte das 95 variáveis foram padronizadas,estas foram diminuídas da média e divididas pelo o desvio padrão, somente as variáveis dummy (0 ou 1) foram mantidas sem a padronização.
Esta padronização deve como objetivo evitar problemas de escala e com isso deixá-las mais estáveis.
- X
Resultado da amostra de treinamento
Para o ajuste do modelo foi utilizado, as variáveis definidas na etapa anterior
V
Estimativa Erro padrao Wald P-valor Estimativa Erro padrao Wald P-valorIntercepto 3,24 0,29 125,61 0,00 VAR50 0,15 0,24 0,39 0,53
VAR1 0,42 0,60 0,48 0,49 VAR51 0,48 0,32 2,33 0,13VAR2 0,10 0,57 0,03 0,86 VAR52 -0,19 0,15 1,70 0,19VAR3 1,23 0,79 2,45 0,12 VAR53 -0,03 0,08 0,15 0,70VAR4 0,18 0,41 0,20 0,65 VAR54 -0,27 0,15 3,27 0,07VAR5 0,94 0,70 1,77 0,18 VAR55 -0,08 0,14 0,35 0,55VAR6 0,66 0,71 0,86 0,35 VAR56 -0,20 0,14 2,11 0,15VAR7 1,38 0,51 7,37 0,01 VAR57 0,04 0,18 0,06 0,81VAR8 0,80 0,52 2,42 0,12 VAR58 0,07 0,13 0,25 0,61VAR9 0,81 0,48 2,88 0,09 VAR59 -0,02 0,14 0,01 0,91
VAR10 -0,26 0,64 0,16 0,68 VAR60 -0,15 0,19 0,56 0,45VAR11 -13,99 0,85 270,12 0,00 VAR61 0,08 0,13 0,36 0,55VAR12 -14,71 1,14 166,47 0,00 VAR62 9,66 6,02 2,58 0,11VAR13 -14,26 1,14 157,15 0,00 VAR63 9,57 6,02 2,53 0,11VAR14 0,68 0,76 0,80 0,37 VAR64 -0,29 0,24 1,40 0,24VAR15 0,01 0,61 0,00 0,98 VAR65 -0,19 0,17 1,34 0,25VAR16 0,06 0,60 0,01 0,92 VAR66 -0,16 0,23 0,49 0,48VAR17 -0,20 0,57 0,13 0,72 VAR67 -0,10 0,09 1,29 0,26VAR18 0,37 0,69 0,29 0,59 VAR68 -0,22 0,21 1,09 0,30VAR19 0,51 0,56 0,85 0,36 VAR69 -0,23 0,19 1,59 0,21VAR20 -0,20 0,33 0,36 0,55 VAR70 -0,21 0,19 1,27 0,26VAR21 -0,30 0,44 0,46 0,50 VAR71 -0,12 0,12 1,05 0,31VAR22 -0,22 0,33 0,44 0,51 VAR72 0,11 0,08 1,80 0,18VAR23 0,11 0,48 0,05 0,82 VAR73 -0,09 0,13 0,47 0,49VAR24 28,71 VAR74 -0,17 0,37 0,21 0,64VAR25 0,77 0,55 1,98 0,16 VAR75 -0,14 0,07 3,53 0,06VAR26 0,03 0,09 0,15 0,70 VAR76 0,04 0,07 0,31 0,58VAR27 0,03 0,11 0,06 0,81 VAR77 0,16 0,10 2,40 0,12VAR28 -0,17 0,09 3,37 0,07 VAR78 -0,66 0,07 84,51 0,00VAR29 0,03 0,58 0,00 0,96 VAR79 0,02 0,07 0,08 0,78VAR30 -0,03 0,79 0,00 0,97 VAR80 0,03 0,06 0,20 0,66VAR31 -0,32 0,83 0,15 0,70 VAR81 1,25VAR32 29,04 VAR82 -0,06 0,06 1,12 0,29VAR33 0,53 0,41 1,66 0,20 VAR83 -0,02 0,08 0,05 0,82VAR34 14,73 VAR84 2,07VAR35 0,00 VAR85 0,11 0,10 1,21 0,27VAR36 0,00 VAR86 0,04 0,05 0,58 0,44VAR37 0,00 VAR87 0,05 0,10 0,23 0,63VAR38 0,00 VAR88 -0,04 0,04 1,26 0,26VAR39 0,12 0,11 1,19 0,27 VAR89 -0,09 0,04 4,80 0,03VAR40 0,04 0,21 0,04 0,84 VAR90 -0,22 0,08 7,71 0,01VAR41 0,01 0,11 0,01 0,94 VAR91 -0,01 0,05 0,09 0,76VAR42 0,11 0,18 0,37 0,54 VAR92 -0,15 0,03 23,11 0,00VAR43 -0,46 0,30 2,32 0,13 VAR93 -0,10 0,05 4,61 0,03VAR44 -0,13 0,14 0,87 0,35 VAR94 0,02 0,06 0,13 0,72VAR45 -0,27 0,27 1,01 0,32 VAR95 -0,05 0,04 1,59 0,21VAR46 0,13 0,24 0,31 0,58VAR47 0,21 0,22 0,90 0,34VAR48 0,19 0,29 0,45 0,50VAR49 -0,05 0,22 0,05 0,82
Matriz de Confusão
Para realizar a previsão foi utilizado uma probabilidade de que um cliente compre o seguro da ordem de px = 0,85( ponto de corte). Após fixar este valor foi observado a matriz de confusão abaixo.Os valores previstos foram comparados com a amostra de treinamento.
px= 0,9
Previsão Não Compra Compra Total
Não Compra 4608 160 4768Compra 866 188 1054Total 5474 348 5822
Observação
px= 0,8
Previsão Não Compra Compra Total
Não Compra 5266 263 5529Compra 208 85 293Total 5474 348 5822
Observação
px= 0,85
Previsão Não Compra Compra Total
Não Compra 5083 219 5302Compra 391 129 520Total 5474 348 5822
Observação px= 0,81
Previsão Não Compra Compra Total
Não Compra 5224 250 5474Compra 250 98 348Total 5474 348 5822
Observação
Gráfico
Predição por cliente da amostra
0,00
0,10
0,20
0,30
0,40
0,50
0,60
0,70
0,80
0,90
-100 900 1900 2900 3900 4900 5900
Nota: o modelo não se mostrou sensível a mudanças no parâmetro fatorial que realiza interações entre as variáveis.
Matriz de Confusão Redes Neurais
As matrizes de confusão abaixo, mostra que o melhor modelo foi o modelo resumido com critério de paragem com entropia.Este obteve um acerto da ordem de 67% para os casos de compra e 72% para os casos de não compra.
Var_Target("0") Var_Target("1") TotalTotal 5474 348 5822Correto 3773 229 4002Errado 1701 119 1820%Correto 69% 66% -%ERRADO 31% 34% -
Modelo Completo com entropia
Var_Target("0") Var_Target("1") TotalTotal 5474 348 5822Correto 3949 233 4182Errado 1525 115 1640%Correto 72% 67% -%ERRADO 28% 33% -
Modelo Resumido com entropia
Var_Target("0") Var_Target("1")Total 5.474 348Corretto 2.694 186Errado 2.780 162%Correto 49% 53%%ERRADO 51% 47%
Modelo Resumido com soma dos quadrados
Modelo Completo com soma dos quadrados
Var_Target("0") Var_Target("1")Total 5.482 340Corretto 3.451 230Errado 2.031 110%Correto 63% 67%%ERRADO 37% 32%
Matriz de Confusão Não Compra CompraNão Compra 3.451 110Compra 2.031 230
V
Matriz de Confusão Não Compra CompraNão Compra 2.694 162Compra 2.780 186
Matriz de Confusão Não Compra Compra TotalNão Compra 3949 115 4064Compra 1525 233 1758
Matriz de Confusão Não Compra Compra TotalNão Compra 3773 119 3892Compra 1701 229 1930
Agenda
Descrição do Problema
Categorização
Fonte e Descrição dos Dados
Extração de características e realce
Plano de Prototipagem
Validação
Implementação
ROI ( Análise Financeira)
VALIDAÇÃO
Todas as modificações realizadas com as variáveis na base de dados de treinamento foram feitas na base de validação , para manter a compatibilidade com o modelo proposto.
Como a base de teste não tinha as respostas da variável target foi realizado na base de dados de treinamento um split para realizar a validação do modelo.Foi utilizado 30% da base de treinamento(1745 observações).
A validação foi feita pela análise da matriz de confusão e o gráfico de alavancagem
Modelo resumido de redes neurais com entropia
Percentual de acertos na base de validação
Var_Target("0") Var_Target("1") TotalTotal 1637 107 1744
Correto 1001 69 1070
Errado 636 38 674
%Correto 61% 64%
%Errado 39% 36%
Matriz de Confusão
Previsão Não Compra Compra TotalNão Compra 1001 38 1039
Compra 636 69 705Total 1637 107 1744
Observação
Gráfico de Alavancagem
Gráfico de Alavancagem
Agenda
Descrição do Problema
Categorização
Fonte e Descrição dos Dados
Extração de características e realce
Plano de Prototipagem
Validação
Implementação
ROI( Análise Financeira)
Implementação
O Problema consiste em tomar uma decisão de enviar por mala direta uma proposta de apólice de seguro para todos os clientes da seguradora ou só para os clientes que tem uma chance maior de fazer o seguro. A empresa identificando estes clientes potenciais conseguirá reduzir o custo e evitar desperdício nas vendas.
O modelo foi desenvolvido no software Statistica. Após um estudo detalhado das variáveis de entrada foram selecionadas inicialmente 95 variáveis e posteriormente foram selecionadas 34 variáveis. Foram implementados dois modelos um chamado de modelo completo que contém 95 variáveis e outro chamado modelo resumido que contém 34 variáveis.
Modelo ResumidoResumido Modelo CompletoCompleto
Implementação
1 11 Family starters2 12 Affluent young families3 13 Young all american family4 15 Senior cosmopolitans5 16 Students in apartments6 17 Fresh masters in the city7 22 Mixed apartment dwellers8 23 Young and rising9 28 Residential elderly10 29 Porchless seniors: no front yard11 3 High status seniors12 30 Religious elderly singles13 31 Low income catholics14 10 MRELGE Married15 5 Mixed seniors16 18 MOPLLAAG Lower level education17 19 MBERHOOG High status18 22 MBERMIDD Middle management19 24 MBERARBO Unskilled labourers20 30 MHHUUR Rented house21 31 MHKOOP Home owners22 38 MINK3045 Income 30-45.00023 7 Dinki's (double income no kids)24 41 MINK123M Income >123.00025 44 PWAPART Contribution private third party insurance26 46 PWALAND Contribution third party insurane (agriculture)27 47 PPERSAUT Contribution car policies28 8 Middle class families29 58 PWAOREG Contribution disability insurance policies30 9 Modern, complete families31 59 PBRAND Contribution fire policies32 61 PPLEZIER Contribution boat policies33 63 PINBOED Contribution property insurance policies34 64 PBYSTAND Contribution social security insurance policies
Modelo Resumido
VR
Implementação
1 Mostype1 High Income, expensive child 34 MOSHOOFD6 67 MZFONDS National Health Service
2 Mostype2 Very Important Provincials 35 MOSHOOFD7 68 MINKM30 Income < 30.000
3 Mostype4 Affluent senior apartments 36 MOSHOOFD8 69 MINK3045 Income 30-45.000
4 Mostype6 Career and childcare 37 MOSHOOFD9 70 MINK4575 Income 45-75.000
5 Mostype7 Dinki's (double income no kids) 38 MOSHOOFD10 71 MINK7512 Income 75-122.000
6 Mostype9 Modern, complete families 39 MGODRK Roman catholic see L3 72 MINK123M Income >123.000
7 Mostype10 Stable family 40 MGODPR Protestant ... 73 MINKGEM Average income
8 Mostype11 Family starters 41 MGODOV Other religion 74 MKOOPKLA Purchasing power class
9 Mostype13 Young all american family 42 MGODGE No religion 75 PWAPART Contribution private third party insurance
10 Mostype22 Mixed apartment dwellers 43 MRELGE Married 76 PWABEDR Contribution third party insurance (firms) ...
11 Mostype25 Young seniors in the city 44 MRELSA Living together 77 PWALAND Contribution third party insurane (agriculture)
12 Mostype26 Own home elderly 45 MRELOV Other relation 78 PPERSAUT Contribution car policies
13 Mostype27 Seniors in apartments 46 MFALLEEN Singles 79 PBESAUT Contribution delivery van policies
14 Mostype29 Porchless seniors: no front yard 47 MFGEKIND Household without children 80 PMOTSCO Contribution motorcycle/scooter policies
15 Mostype30 Religious elderly singles 48 MFWEKIND Household with children 81 PVRAAUT Contribution lorry policies
16 Mostype31 Low income catholics 49 MOPLHOOG High level education 82 PAANHANG Contribution trailer policies
17 Mostype32 Mixed seniors 50 MOPLMIDD Medium level education 83 PTRACTOR Contribution tractor policies
18 Mostype34 Large family, employed child 51 MOPLLAAG Lower level education 84 PWERKT Contribution agricultural machines policies
19 Mostype35 Village families 52 MBERHOOG High status 85 PBROM Contribution moped policies
20 Mostype36 Couples with teens 'Married with children' 53 MBERZELF Entrepreneur 86 PLEVEN Contribution life insurances
21 Mostype37 Mixed small town dwellers 54 MBERMIDD Middle management 87 PPERSONG Contribution private accident insurance policies
22 Mostype38 Traditional families 55 MBERARBG Skilled labourers 88 PGEZONG Contribution family accidents insurance policies
23 Mostype39 Large religous families 56 MBERARBO Unskilled labourers 89 PWAOREG Contribution disability insurance policies
24 Mostype40 Large family farms 57 MSKA Social class A 90 PBRAND Contribution fire policies
25 Mostype41 Mixed rurals 58 MSKB1 Social class B1 91 PZEILPL Contribution surfboard policies
26 MAANTHUI Number of houses 1 – 10 59 MSKB2 Social class B2 92 PPLEZIER Contribution boat policies
27 MGEMOMV Avg size household 1 – 6 60 MSKC Social class C 93 PFIETS Contribution bicycle policies
28 MGEMLEEF Avg age 61 MSKD Social class D 94 PINBOED Contribution property insurance policies
29 MOSHOOFD1 62 MHHUUR Rented house 95 PBYSTAND Contribution social security insurance policies
30 MOSHOOFD2 63 MHKOOP Home owners
31 MOSHOOFD3 64 MAUT1 1 car
32 MOSHOOFD4 65 MAUT2 2 cars
33 MOSHOOFD5 66 MAUT0 No car
Número de variáveis final
V
Implementação
Antes de rodar o modelo, devem-se realizar as mesmas modificações nas variáveis que foram feitas na fase de treinamento, abaixo segue uma tabela com as variáveis e os tipos de transformações que devem ser feitas.
Implementação
A etapa de validação foi feita usando uma amostra teste, ou seja, o modelo parametrizado na etapa de treinamento foi rodado com esta amostra teste e foram observados os resultados obtidos. Para validar os resultados utilizamos a matriz de confusão e o gráfico de alavancagem. O modelo resumido com redes neurais com entropia com critério de paragem mostrou-se o mais assertivo.
1º Etapa Obter os dados originais de todas as variáveis como proposto na base de dados.
2º EtapaBaseado no modelo que se deseja rodar (modelo completo ou resumido), fazer as devidas transformações de variáveis.
3º Etapa Abrir o arquivo .sdm(extensão do Statistica) com o modelo parametrizado.
4º EtapaNo Statistica deve-se importar a base de dados que se deseja prever, esta como dito na etapa 2 com as transformações já realizadas.
5º Etapa Rodar o modelo no comando (Run) e analisar os resultados
Etapas que devem ser seguidas pelo usuário do modelo
Agenda
Descrição do Problema
Categorização
Fonte e Descrição dos Dados
Extração de características e realce
Plano de Prototipagem
Validação
Implementação
ROI ( Análise Financeira)
ROI(Análise Financeira)
Após a validação do modelo proposto deve-se fazer uma análise financeira,pois os softwares de dataming são caros e este investimento inicial tem que ser aprovado pela alta gerência.
Porém, neste trabalho será realizado uma análise relacionada as metas de previsão com o ajuste do modelo mediante o conceito de função de perda.
HIPÓTESES:
Prêmio: R$ 3.000,00
Custo de Mala Direta(CMD): R$ 5,00
Despesas: CMD*Itens enviados
Receitas:PCS x Prêmio
Obs.:
PCS: Pessoa que compram seguros de Trailer
Modelo Sem ModeloEnviadas 705 1744Compra 69 107
ROI(Análise Financeira)
Com o modelo
Despesas 3.525,00R$ Receitas 207.000,00R$ ROI 5772%
Sem modelo
Despesas 8.720,00R$ Receitas 321.000,00R$ ROI 3581%
ROI(Análise Financeira)
Análise de Sensibilidade
0%
2000%
4000%
6000%
8000%
10000%
12000%
14000%
2 2,5 3 3,5 4 4,5 5 5,5 6 6,5 7 7,5 8 8,5 9 9,5 10
Custo da Mala Direta R$
RO
I
Para valores de custo de mala direita maior que R$ 7,50 o ROI do modelo fica menor do que o ROI sem o modelo.Com isso, não compensaria o investimento no modelo.
ROI(Análise Financeira)
Análise de Sensibilidade
Para valores de prêmio menor que R$ 1900 o ROI do modelo fica menor do que o ROI sem o modelo.Com isso, não compensaria o investimento no modelo.
0%
5000%
10000%
15000%
20000%
25000%
1000 2000 3000 4000 5000 6000 7000 8000 9000 10000
Prêmio R$
RO
I