Análise da Informação Manuel Martins...aquisição do tipo de conhecimento desejado. Por meio da submissão dos dados aos algoritmos de mineração de dados selecionados, chega-se

Análise da InformaçãoManuel Martins

INFORMÁTICA

TECNOLOGIA DA INFORMAÇÃO

BUSINESS INTELLIGENCEDATA WAREHOUSE

DATA MINING

KDD-KNOWLEDGE DISCOVERY IN DATABASES

Knowledge Discovery in Databases (KDD) foi criado em 1989 como

referencia ao processo amplo de encontrar conhecimento em dados e

dar ênfase a uma grande aplicação em particular - o método Data

Mining (Mineração de Dados).

KDD refere-se a todo processo de descoberta de conhecimento útil nos

dados, enquanto Data Mining refere-se a aplicação de algoritmos para

extrair modelos dos dados.

KDD - KNOWLEDGE DISCOVERY IN DATABASESDESCOBERTA DE CONHECIMENTO EM BASE DE DADOS

KDD é empregado para todo o processo de extração de conhecimentodos dados. Neste contexto, conhecimento significa relacionamento epadrões entre elementos de dados. Mineração de Dados é utilizadopara os estágios de descoberta do processo de KDD.

KDD DATA MINING

DIFERENÇA ENTRE KDD E DATA MINING

EXTRAÇÃO DE CONHECIMENTOKDD - KNOWLEDGE DISCOVERY IN DATABASES

EXTRAÇÃO DE CONHECIMENTO (KDD - Knowledge Discovery in

Databases) - é um processo de extração de informações de base de

dados, que cria relações de interesse que não são observadas pelo

especialista no assunto. Ou seja, refere-se às etapas que produzem

conhecimentos a partir de dados relacionados.

PRINCIPAL CARACTERÍSTICA é a extração não-trivial de informações

implicitamente contidas em uma base de dados. Essas informações são

de difícil detecção por métodos tradicionais de análise e devem ser

potencialmente úteis para tomada de decisão.

Enquanto os métodos tradicionais são capazes de tratar apenas as

informações explícitas, a extração de conhecimento é capaz de detectar

informações implícitas armazenadas nos bancos de dados.

NÃO TRIVIAL torna clara a existência de alguma técnica de busca ouinferência para extrair as informações.PREVIAMENTE DESCONHECIDOS indica que a informação deve sernova para o sistema e de preferência também para o usuário.POTENCIALMENTE ÚTEIS a informação deve trazer algum benefício,ou seja, deverá possibilitar ao usuário algum ganho.

KDD processo não trivial, de extração de informações implícitas,previamente desconhecidas e potencialmente úteis, a partir dosdados armazenados em um banco de dados.

PROCESSO ITERATIVO embora apresente uma definição semelhante

ao processo de mineração de dados ele é composto de uma série de

etapas sequenciais, podendo haver retorno a etapas anteriores, isto é,

as descobertas realizadas (ou a falta delas).

Eventualmente, este processo conduz a novas hipóteses e descobertas.

Neste caso, o usuário pode decidir pela retomada dos processos de

mineração, ou uma nova seleção de atributos, por exemplo, para

validar as hipóteses que surgiram ao longo do processo.

PRODUTO ESPERADO é uma informação relevante para ser utilizada

pelos tomadores de decisão. Alguns autores, porém, defendem o ponto

de vista de que o conhecimento descoberto não precisa

necessariamente ser incorporado a um sistema de apoio à decisão

(SAD).

1- DEFINIÇÃO DO PROBLEMA - é o conhecimento desejado pelousuário, ou seja, qual o tipo de conhecimento que se deseja extrair dobanco de dados objetivos da análise.

FASES DO KDD

2- SELEÇÃO DOS DADOS - seleciona-se um conjunto de dados ou umsubconjunto de atributos onde a descoberta deverá ser efetuada. Aseleção dos dados é realizada de acordo com os objetivos definidos.Caso o objetivo seja identificar o comportamento de compras dosclientes em um período de um ano, por exemplo, os dados referentesao ano desejado devem ser selecionados. O sucesso desse processodepende da correta escolha desses dados-alvo, ou seja, este passopossui impacto significante sobre a qualidade do resultado doprocesso.

3- LIMPEZA E PRÉ-PROCESSAMENTO - fazer a limpeza dos dados, de

maneira que os incorretos ou incompletos sejam desprezados. Esta é

uma parte crucial no processo, pois a qualidade dos dados vai

determinar a eficiência dos algoritmos de mineração. Nesta etapa

deverão ser realizadas tarefas que: eliminem dados redundantes e

inconsistentes, recuperem dados incompletos e avaliem possíveis

dados discrepantes ao conjunto (outliers). O auxílio do especialista do

domínio é fundamental

FASES DO KDD

FASES DO KDD

4- TRANSFORMAÇÃO DOS DADOS - após serem selecionados,limpos e pré-processados os dados necessitam ser armazenados eformatados adequadamente para que os algoritmos de aprendizadopossam ser aplicados. Nesta fase são utilizados métodos de reduçãoou transformação para diminuir o número de variáveis envolvidas noprocesso, visando melhorar o desempenho do algoritmo de análise.Muitas vezes, não é necessário representar todas as faixas de valoresde uma determinada variável. Assim, pode-se reagrupar essesvalores diminuindo o número de faixas e a complexidade doproblema.

5- MINERAÇÃO DOS DADOS - escolha das tarefas de mineração de

dados. Nesse passo, decide-se qual o objetivo do processo de

mineração de dados.

Principais objetivos classificação, regressão, clusterização

(grupamento), árvore de decisão, modelos de relacionamento entre

variáveis, análise de séries temporais, redes neurais...

FASES DO KDD

6- ALGORITMOS DE MINERAÇÃO DE DADOS - escolha dos métodos ealgoritmos para serem usados na busca de padrões dos dados. Issoinclui decidir que modelos e parâmetros são mais apropriados para aaquisição do tipo de conhecimento desejado. Por meio da submissãodos dados aos algoritmos de mineração de dados selecionados, chega-se ao conhecimento. Esses passos, se usados corretamente, serão degrande ajuda para a etapa seguinte.

FASES DO KDD

7- MINERAÇÃO DE DADOS - busca de padrões de interesse em umaforma particularmente representativa ou em um conjunto dessasrepresentações. Por exemplo: regras de classificação, árvores dedecisão, regressão, clusterização. Nesse passo, é realizada a extraçãode informação dos dados até então processados.

8- ANÁLISE E INTERPRETAÇÃO - os dados de saída definidos no passoanterior são analisados e interpretados pelos especialistas do domínio.Caso seja necessário, pode-se repetir qualquer um dos sete passosanteriores para se obter a correta interpretação dos padrões.

FASES DO KDD

9- CONSOLIDAÇÃO DO CONHECIMENTO - incorporação doconhecimento extraído dos dados no desempenho do sistema, nadocumentação do conhecimento e no relatório para as partesinteressadas. Nesse passo, faz-se também a verificação e a resoluçãode conflitos potenciais com o prévio conhecimento extraído.

FASES DO KDD

FASES DO KDD

Data MiningDados


DATA MINING


✓DATA MINING (mineração de dados) é o processo de DESCOBERTA

de PADRÕES implícitos existentes em grandes massas de dados.

Data Mining é DESCOBRIR CONHECIMENTO novo escondido em

grandes massas de dados armazenadas em banco de dados.

FERRAMENTAS DE UM DATA WAREHOUSE

DATA MINING

✓Resultados incluem associações, correlações, sequências,

classificações, clustering (grupamento) e previsões.

✓Não tem automatização simples e precisa ser conduzido por uma

pessoa, preferencialmente com formação em Estatística ou áreas

afins.


DATA MINING - EXEMPLOS

✓ SITE DE VENDAS (armazenar acessos - cookies)

✓ WAL-MART (fraldras e cerveja - salsicha e catchup)

✓ NÍVEL DE EVASÃO ESCOLAR - FATOR DETERMINANTE ?

• RENDA

• IDADE

• CLASSE SOCIOECONÔMICA

• ANOS FORA DA ESCOLA

✓DETECÇÃO DE FRAUDES EM DECLARAÇÕES (IRPF / IRPJ)

✓DETECÇÃO DE FRAUDES EM GUIAS DE IMPORTAÇÃO

✓...

DATA WAREHOUSE A MEMÓRIA DA EMPRESA !

DATA MINING A INTELIGÊNCIA DA EMPRESA !


ALGUMAS TÉCNICAS - Não existe uma técnica que resolva todos os

problemas de DATA MINING. Diferentes técnicas servem para

diferentes propósitos, cada uma oferecendo vantagens e

desvantagens. A escolha da técnica está fortemente relacionada com o

tipo de conhecimento que se deseja extrair ou com o tipo de dado no

qual ela será aplicada.

DATA MINING - TÉCNICAS UTILIZADAS

DATA MINING - ALGUMAS TÉCNICAS

ASSOCIAÇÃO - é uma das técnicas mais conhecidas. Em associação, umpadrão é descoberto com base em uma relação entre itens na mesmatransação. A técnica de associação é usada na análise de cesta demercado para identificar um conjunto de produtos que os clientesfrequentemente compram juntos. Os varejistas usam a técnica deassociação para pesquisar os hábitos de compra dos clientes. Combase em dados históricos de vendas, os varejistas podem descobrirque os clientes sempre compram batatas frita quando compramcerveja e, portanto, podem colocar cervejas e batatas fritas ao ladoumas das outras para economizar tempo para o cliente e aumentar asvendas.


CLASSIFICAÇÃO - é uma técnica clássica baseada na aprendizagemautomática. A classificação é usada para classificar cada item em umconjunto predefinido de classes ou grupos. A classificação utilizatécnicas como árvores de decisão, programação linear, rede neural eestatística. Na classificação, o software pode aprender a classificar ositens de dados em grupos. Por exemplo, podemos aplicar aclassificação na seguinte aplicação: “Dados todos os registros defuncionários que saíram da empresa, prever quem provavelmente vaideixar a empresa em um período futuro". Neste caso, dividimos osregistros de funcionários em dois grupos: SAIR e FICAR. O software demineração irá classificar os funcionários nos dois grupos separados.


CLUSTER (Grupamento) - é uma técnica que cria um cluster de objetosque têm características semelhantes usando a técnica automática. Atécnica de agrupamento define as classes e coloca objetos em cadaclasse, enquanto que nas técnicas de classificação, os objetos sãoatribuídos a classes predefinidas. Por exemplo, em uma biblioteca, hálivros sobre vários assuntos disponíveis. O desafio é como manter esseslivros de forma que os leitores possam levar vários livros sobre umdeterminado assunto de maneira simples. Usando a técnica de clustering,podemos manter livros que têm alguns tipos de semelhanças em um umaprateleira (cluster) e rotulá-lo com um nome significativo. Se os leitoresquerem pegar livros desse assunto eles só teriam que ir para essaprateleira em vez de procurar por toda a biblioteca.


PREDIÇÃO - é uma das técnicas de mineração de dados que descobrem arelação entre variáveis dependentes e independentes. Por exemplo, atécnica de análise de previsão pode ser usada na venda para prever olucro se considerarmos a venda como uma variável independente, o lucrocomo variável dependente. Em seguida, com base nos dados históricosde vendas e lucros, podemos desenhar uma curva de regressão ajustadaque é usada para a previsão de lucro. Outro exemplo seria explicar nívelde venda de um produto (variável dependente Y) como função do gastocom propaganda (variável independente X).

MODELO DE REGRESSÃOY = f(X)


PADRÃO SEQUENCIAL - é uma técnica de mineração de dados queprocura descobrir ou identificar padrões semelhantes, eventosregulares ou tendências em dados de transações durante um períodode negócios. Nas vendas, com dados históricos de transação, asempresas podem identificar um conjunto de itens que os clientescompram mais de uma vez em um ano. Em seguida, as empresaspodem usar essas informações para recomendar aos clientes comprá-lo com melhores ofertas com base em sua frequência de compra nopassado.


ÁRVORE DE DECISÃO - é uma das técnicas de mineração de dados mais

comuns porque seu modelo é simples e fácil de ser entendido pelos

usuários. Na árvore de decisão, a raiz é uma questão ou condição

simples que tem múltiplas respostas. Cada resposta, então, leva a um

conjunto de perguntas ou condições que nos ajudam a determinar os

dados para que possamos tomar a decisão final baseada nesses dados.


APRENDIZADO DE MÁQUINA - é um campo de estudo dentro dapesquisa em inteligência artificial, que busca fornecer conhecimentoaos computadores através de dados, observações e interações com omundo. Esse conhecimento adquirido permite que computadoresgeneralizem corretamente novos eventos e configurações.

CATEGORIAS• APRENDIZADO SUPERVISIONADO• APRENDIZADO NÃO SUPERVISIONADO• APRENDIZADO POR REFORÇO


APRENDIZADO SUPERVISIONADO - quando tentamos prever uma

variável dependente a partir de uma lista de variáveisindependentes. Os dados estão previamente rotulados.

CARACTERÍSTICA BÁSICA - os dados utilizados para treinamento jácontém a resposta desejada, isto é, contém a variável dependenteresultante das variáveis independentes observadas. Nesse caso,dizemos que os dados são anotados com as respostas ou classes aserem previstas.


APRENDIZADO SUPERVISIONADO

VARIÁVEIS INDEPENDENTES VARIÁVEIS DEPENDENTES

Anos de Carreira, Formação, Idade Salário

Idade Carro, Idade Motorista Risco de Acidente Automotivo

Texto de um livro Escola Literária

Temperatura Receita de venda de sorvete

Histórico escolar Nota no ENEM

EXEMPLOS


APRENDIZADO NÃO SUPERVISIONADO - o conjunto de exemplos não estárotulado, assim o sistema tenta classificar estes conjuntos agrupando ossemelhantes em determinadas classes Os dados não necessitam deajuste, são processados da forma que são apresentados.

TÉCNICAS MAIS CONHECIDAS - Redes Neurais Artificiais, Clusterização k-médias, Máquina Suporte Vetorial, Clusterização Hierárquica, Análise deComponentes Principais, Mapas Auto organizáveis, etc. Problemas deaprendizado não supervisionado são consideravelmente mais complicados doque problemas de aprendizado supervisionado, principalmente porque nãotemos a reposta anotada nos dados. Assim, é extremamente complicado avaliarum modelo de aprendizado não supervisionado e esse tipo de modelo está nafronteira do conhecimento em aprendizado de máquina.

DADOS FORMA REPRESENTATIVA

Transações bancárias Normalidade da transação

Registros de Compras Associação entre produtos

Dados Multidimensionais Dados com dimensão reduzida

Registros de Compras Perfil dos consumidores

Palavras em um texto Representação matemática das palavras

De uma forma geral, com APRENDIZADO NÃO SUPERVISIONADO sedeseja achar uma representação mais informativa dos dados.Geralmente, essa representação mais informativa é também maissimples, condensando a informação em pontos mais relevantes.

EXEMPLOS



APRENDIZADO POR REFORÇO - a máquina tenta aprender qual é amelhor ação a ser tomada, dependendo das circunstâncias na qualessa ação será executada.

Assim, o futuro é uma variável aleatória: como não se sabe a priori o queirá acontecer, é desejável uma abordagem que leve em consideração essaincerteza, e consiga incorporar as eventuais mudanças no ambiente doprocesso de tomada da melhor decisão. Essa ideia de fato deriva doconceito de “aprendizagem por reforço” da Psicologia, no qual umarecompensa ou punição é dada a um agente, dependendo da decisãotomada.


APRENDIZADO POR REFORÇO

Com o tempo e a repetição dos experimentos, espera-se que o agenteconsiga associar as ações que geram maior recompensa para cadasituação que o ambiente apresenta, e passe a evitar as ações que gerampunição ou recompensa menor. Na Psicologia, essa abordagem é chamade behaviorismo e tem B. F. Skinner (psicólogo) como um dos principaisexpoentes. Dentre outros experimentos famosos, usou a ideia derecompensas e punições para treinar pombos para conduzir mísseis naSegunda Guerra Mundial.

ESPAÇOS DE CONHECIMENTO

BusinessInteliligence

Banco de Dados

DatawarehouseData Marts

Espaço dos Dados

Espaço da Informação

Analítica

Espaço da Influência e

Variação

Data Mining

Qual é o preço do livro?BI - Business Intelligence!

Venda de livro de Informáticapor mês e por região

Que fatores influenciam avenda de livros em BH?

Que fatores influenciaram avariação da venda de livros deInformática nos últimos meses?

PADRÕES METODOLÓGICOS DO DATA MINING

AVALIAÇÃOPREPARAÇÃO DOS DADOS

IMPLANTAÇÃO

ENTENDIMENTO DO NEGÓCIO

ENTENDIMENTO DOS DADOS

MINERAÇÃO DE DADOS


DATA MINING


GABARITO- A

QUESTÕES DE PROVAS 01- (IDECAN CRF-SP-2018-Analista de Sistemas) - A etapa de Mineração deDados compreende a busca efetiva por conhecimentos úteis no contextoda aplicação de KDD (Knowledge Discovery in Database), ou Descoberta doConhecimento em Bases de Dados. É a principal etapa do processo deKDD.” Acerca de algumas das tarefas do KDD, analise a assertiva a seguir:“compreende a busca por uma função que mapeie os registros de umbanco de dados em um intervalo de valores reais”. Assinale a alternativaque apresenta esta tarefa.A) Regressão.B) Classificação.C) Sumarização.D) Agrupamento.

Julgue os itens a seguir, a respeito de data mining e OLAP.

02- (CESPE- FUB-Técnico de Tecnologia da Informação 2018)

GABARITO- CERTO

No data mining, uma regra de associação relaciona a presença de umconjunto de itens com outra faixa de valores de um outro conjunto devariáveis.

a) A expressão de um conjunto de dados por um conjunto menor decaracterísticas do que em sua forma original.b) A redução dos espaços de variação dos dados em relação a seusespaços originais.c) A supressão de características consideradas de menor prioridadepelo gestor.d) A expressão de um conjunto de dados por um conjunto decaracterísticas de dimensionalidade conhecida.e) A expressão de um conjunto de características por um outroconjunto de características de dimensionalidade invariante em relaçãoà sua forma original.

03- (ESAF-Receita Federal-Assistente Técnico Administrativo- 2014 ) -Em Datamining, redução da dimensionalidade é:

GABARITO- A

04- (CESPE - TJ_SE_2014)

GABARITO- CERTO

DataMining pode ser considerado uma etapa no processo dedescoberta de conhecimento em base de dados, consistindo emanálise de conjuntos de dados cujo objetivo é descobrir padrões úteispara tomada de decisão.

DATA MINING - Kowledge Discovery in Databases (KDD)

05- (CESPE - TJ_SE_2014)

GABARITO- ERRADO

O uso de agrupamento (clustering) em DataMining exige que osregistros sejam previamente categorizados, tendo por finalidadeaproximar registros similares para predizer valores de variáveis.

06- (CESPE - TJ_SE_2014)

GABARITO- CERTO

Embora os algoritmos genéticos apresentem elevada demandacomputacional, eles possibilitam a resolução de problemas emparalelo; por isso, são uma boa ferramenta para mineração de dados.

Acerca de DataMining e de DataWarehouse, julgue os itenssubsecutivos.Um DataWarehouse provê uma excelente base para a realização deDataMining, pois os algoritmos de DataMining demandam grandesquantidades de dados em nível detalhado; o DataMining tiravantagem de bases de dados que estejam integradas e limpas; e ainfraestrutura necessária para a criação de um DataWarehouse atendeàs necessidades das operações de DataMining.

07- (CESPE - TJ_SE_2014)

GABARITO- CERTO

08- (CESPE- TJDFT - 2015) - Julgue os itens a seguir, a respeito dedatawarehouse e de datamining.

Em um processo de mineração, durante a etapa de preparação dosdados, são analisados os requisitos de negócio para consolidar osdados.

GABARITO - ERRADO

09- (CESPE- ANÁLISE - EBSERH-ANALISTA DE TECNOLOGIA DAINFORMAÇÃO 2018) - Julgue os itens que se seguem, a respeito dearquitetura e tecnologias de sistemas de informação.

A descoberta de novas regras e padrões em conjuntos de dadosfornecidos, ou aquisição de conhecimento indutivo, é um dosobjetivos de data mining.

GABARITO - CERTO

10- (CESPE- MEC 2015) - Julgue os itens seguintes, referentes a datamining.

A predição em algoritmos de data mining objetiva modelar funçõessobre valores para apresentar o comportamento futuro dedeterminados atributos.

GABARITO - CERTO

Carpe Diem

Documents

Análise da Informação Manuel Martins...aquisição do tipo de conhecimento desejado. Por meio da submissão dos dados aos algoritmos de mineração de dados selecionados, chega-se