Upload
others
View
0
Download
0
Embed Size (px)
Citation preview
Análise da InformaçãoManuel Martins
INFORMÁTICA
TECNOLOGIA DA INFORMAÇÃO
BUSINESS INTELLIGENCEDATA WAREHOUSE
DATA MINING
KDD-KNOWLEDGE DISCOVERY IN DATABASES
Knowledge Discovery in Databases (KDD) foi criado em 1989 como
referencia ao processo amplo de encontrar conhecimento em dados e
dar ênfase a uma grande aplicação em particular - o método Data
Mining (Mineração de Dados).
KDD refere-se a todo processo de descoberta de conhecimento útil nos
dados, enquanto Data Mining refere-se a aplicação de algoritmos para
extrair modelos dos dados.
KDD - KNOWLEDGE DISCOVERY IN DATABASESDESCOBERTA DE CONHECIMENTO EM BASE DE DADOS
KDD é empregado para todo o processo de extração de conhecimentodos dados. Neste contexto, conhecimento significa relacionamento epadrões entre elementos de dados. Mineração de Dados é utilizadopara os estágios de descoberta do processo de KDD.
KDD DATA MINING
DIFERENÇA ENTRE KDD E DATA MINING
EXTRAÇÃO DE CONHECIMENTOKDD - KNOWLEDGE DISCOVERY IN DATABASES
EXTRAÇÃO DE CONHECIMENTO (KDD - Knowledge Discovery in
Databases) - é um processo de extração de informações de base de
dados, que cria relações de interesse que não são observadas pelo
especialista no assunto. Ou seja, refere-se às etapas que produzem
conhecimentos a partir de dados relacionados.
PRINCIPAL CARACTERÍSTICA é a extração não-trivial de informações
implicitamente contidas em uma base de dados. Essas informações são
de difícil detecção por métodos tradicionais de análise e devem ser
potencialmente úteis para tomada de decisão.
Enquanto os métodos tradicionais são capazes de tratar apenas as
informações explícitas, a extração de conhecimento é capaz de detectar
informações implícitas armazenadas nos bancos de dados.
NÃO TRIVIAL torna clara a existência de alguma técnica de busca ouinferência para extrair as informações.PREVIAMENTE DESCONHECIDOS indica que a informação deve sernova para o sistema e de preferência também para o usuário.POTENCIALMENTE ÚTEIS a informação deve trazer algum benefício,ou seja, deverá possibilitar ao usuário algum ganho.
KDD processo não trivial, de extração de informações implícitas,previamente desconhecidas e potencialmente úteis, a partir dosdados armazenados em um banco de dados.
PROCESSO ITERATIVO embora apresente uma definição semelhante
ao processo de mineração de dados ele é composto de uma série de
etapas sequenciais, podendo haver retorno a etapas anteriores, isto é,
as descobertas realizadas (ou a falta delas).
Eventualmente, este processo conduz a novas hipóteses e descobertas.
Neste caso, o usuário pode decidir pela retomada dos processos de
mineração, ou uma nova seleção de atributos, por exemplo, para
validar as hipóteses que surgiram ao longo do processo.
PRODUTO ESPERADO é uma informação relevante para ser utilizada
pelos tomadores de decisão. Alguns autores, porém, defendem o ponto
de vista de que o conhecimento descoberto não precisa
necessariamente ser incorporado a um sistema de apoio à decisão
(SAD).
1- DEFINIÇÃO DO PROBLEMA - é o conhecimento desejado pelousuário, ou seja, qual o tipo de conhecimento que se deseja extrair dobanco de dados objetivos da análise.
FASES DO KDD
2- SELEÇÃO DOS DADOS - seleciona-se um conjunto de dados ou umsubconjunto de atributos onde a descoberta deverá ser efetuada. Aseleção dos dados é realizada de acordo com os objetivos definidos.Caso o objetivo seja identificar o comportamento de compras dosclientes em um período de um ano, por exemplo, os dados referentesao ano desejado devem ser selecionados. O sucesso desse processodepende da correta escolha desses dados-alvo, ou seja, este passopossui impacto significante sobre a qualidade do resultado doprocesso.
3- LIMPEZA E PRÉ-PROCESSAMENTO - fazer a limpeza dos dados, de
maneira que os incorretos ou incompletos sejam desprezados. Esta é
uma parte crucial no processo, pois a qualidade dos dados vai
determinar a eficiência dos algoritmos de mineração. Nesta etapa
deverão ser realizadas tarefas que: eliminem dados redundantes e
inconsistentes, recuperem dados incompletos e avaliem possíveis
dados discrepantes ao conjunto (outliers). O auxílio do especialista do
domínio é fundamental
FASES DO KDD
FASES DO KDD
4- TRANSFORMAÇÃO DOS DADOS - após serem selecionados,limpos e pré-processados os dados necessitam ser armazenados eformatados adequadamente para que os algoritmos de aprendizadopossam ser aplicados. Nesta fase são utilizados métodos de reduçãoou transformação para diminuir o número de variáveis envolvidas noprocesso, visando melhorar o desempenho do algoritmo de análise.Muitas vezes, não é necessário representar todas as faixas de valoresde uma determinada variável. Assim, pode-se reagrupar essesvalores diminuindo o número de faixas e a complexidade doproblema.
5- MINERAÇÃO DOS DADOS - escolha das tarefas de mineração de
dados. Nesse passo, decide-se qual o objetivo do processo de
mineração de dados.
Principais objetivos classificação, regressão, clusterização
(grupamento), árvore de decisão, modelos de relacionamento entre
variáveis, análise de séries temporais, redes neurais...
FASES DO KDD
6- ALGORITMOS DE MINERAÇÃO DE DADOS - escolha dos métodos ealgoritmos para serem usados na busca de padrões dos dados. Issoinclui decidir que modelos e parâmetros são mais apropriados para aaquisição do tipo de conhecimento desejado. Por meio da submissãodos dados aos algoritmos de mineração de dados selecionados, chega-se ao conhecimento. Esses passos, se usados corretamente, serão degrande ajuda para a etapa seguinte.
FASES DO KDD
7- MINERAÇÃO DE DADOS - busca de padrões de interesse em umaforma particularmente representativa ou em um conjunto dessasrepresentações. Por exemplo: regras de classificação, árvores dedecisão, regressão, clusterização. Nesse passo, é realizada a extraçãode informação dos dados até então processados.
8- ANÁLISE E INTERPRETAÇÃO - os dados de saída definidos no passoanterior são analisados e interpretados pelos especialistas do domínio.Caso seja necessário, pode-se repetir qualquer um dos sete passosanteriores para se obter a correta interpretação dos padrões.
FASES DO KDD
9- CONSOLIDAÇÃO DO CONHECIMENTO - incorporação doconhecimento extraído dos dados no desempenho do sistema, nadocumentação do conhecimento e no relatório para as partesinteressadas. Nesse passo, faz-se também a verificação e a resoluçãode conflitos potenciais com o prévio conhecimento extraído.
FASES DO KDD
FASES DO KDD
Data MiningDados
BUSINESS INTELLIGENCEDATA WAREHOUSE
DATA MINING
KDD-KNOWLEDGE DISCOVERY IN DATABASES
✓DATA MINING (mineração de dados) é o processo de DESCOBERTA
de PADRÕES implícitos existentes em grandes massas de dados.
Data Mining é DESCOBRIR CONHECIMENTO novo escondido em
grandes massas de dados armazenadas em banco de dados.
FERRAMENTAS DE UM DATA WAREHOUSE
DATA MINING
✓Resultados incluem associações, correlações, sequências,
classificações, clustering (grupamento) e previsões.
✓Não tem automatização simples e precisa ser conduzido por uma
pessoa, preferencialmente com formação em Estatística ou áreas
afins.
FERRAMENTAS DE UM DATA WAREHOUSE
DATA MINING - EXEMPLOS
✓ SITE DE VENDAS (armazenar acessos - cookies)
✓ WAL-MART (fraldras e cerveja - salsicha e catchup)
✓ NÍVEL DE EVASÃO ESCOLAR - FATOR DETERMINANTE ?
• RENDA
• IDADE
• CLASSE SOCIOECONÔMICA
• ANOS FORA DA ESCOLA
✓DETECÇÃO DE FRAUDES EM DECLARAÇÕES (IRPF / IRPJ)
✓DETECÇÃO DE FRAUDES EM GUIAS DE IMPORTAÇÃO
✓...
DATA WAREHOUSE A MEMÓRIA DA EMPRESA !
DATA MINING A INTELIGÊNCIA DA EMPRESA !
FERRAMENTAS DE UM DATA WAREHOUSE
ALGUMAS TÉCNICAS - Não existe uma técnica que resolva todos os
problemas de DATA MINING. Diferentes técnicas servem para
diferentes propósitos, cada uma oferecendo vantagens e
desvantagens. A escolha da técnica está fortemente relacionada com o
tipo de conhecimento que se deseja extrair ou com o tipo de dado no
qual ela será aplicada.
DATA MINING - TÉCNICAS UTILIZADAS
DATA MINING - ALGUMAS TÉCNICAS
ASSOCIAÇÃO - é uma das técnicas mais conhecidas. Em associação, umpadrão é descoberto com base em uma relação entre itens na mesmatransação. A técnica de associação é usada na análise de cesta demercado para identificar um conjunto de produtos que os clientesfrequentemente compram juntos. Os varejistas usam a técnica deassociação para pesquisar os hábitos de compra dos clientes. Combase em dados históricos de vendas, os varejistas podem descobrirque os clientes sempre compram batatas frita quando compramcerveja e, portanto, podem colocar cervejas e batatas fritas ao ladoumas das outras para economizar tempo para o cliente e aumentar asvendas.
DATA MINING - ALGUMAS TÉCNICAS
CLASSIFICAÇÃO - é uma técnica clássica baseada na aprendizagemautomática. A classificação é usada para classificar cada item em umconjunto predefinido de classes ou grupos. A classificação utilizatécnicas como árvores de decisão, programação linear, rede neural eestatística. Na classificação, o software pode aprender a classificar ositens de dados em grupos. Por exemplo, podemos aplicar aclassificação na seguinte aplicação: “Dados todos os registros defuncionários que saíram da empresa, prever quem provavelmente vaideixar a empresa em um período futuro". Neste caso, dividimos osregistros de funcionários em dois grupos: SAIR e FICAR. O software demineração irá classificar os funcionários nos dois grupos separados.
DATA MINING - ALGUMAS TÉCNICAS
CLUSTER (Grupamento) - é uma técnica que cria um cluster de objetosque têm características semelhantes usando a técnica automática. Atécnica de agrupamento define as classes e coloca objetos em cadaclasse, enquanto que nas técnicas de classificação, os objetos sãoatribuídos a classes predefinidas. Por exemplo, em uma biblioteca, hálivros sobre vários assuntos disponíveis. O desafio é como manter esseslivros de forma que os leitores possam levar vários livros sobre umdeterminado assunto de maneira simples. Usando a técnica de clustering,podemos manter livros que têm alguns tipos de semelhanças em um umaprateleira (cluster) e rotulá-lo com um nome significativo. Se os leitoresquerem pegar livros desse assunto eles só teriam que ir para essaprateleira em vez de procurar por toda a biblioteca.
DATA MINING - ALGUMAS TÉCNICAS
PREDIÇÃO - é uma das técnicas de mineração de dados que descobrem arelação entre variáveis dependentes e independentes. Por exemplo, atécnica de análise de previsão pode ser usada na venda para prever olucro se considerarmos a venda como uma variável independente, o lucrocomo variável dependente. Em seguida, com base nos dados históricosde vendas e lucros, podemos desenhar uma curva de regressão ajustadaque é usada para a previsão de lucro. Outro exemplo seria explicar nívelde venda de um produto (variável dependente Y) como função do gastocom propaganda (variável independente X).
MODELO DE REGRESSÃOY = f(X)
DATA MINING - ALGUMAS TÉCNICAS
PADRÃO SEQUENCIAL - é uma técnica de mineração de dados queprocura descobrir ou identificar padrões semelhantes, eventosregulares ou tendências em dados de transações durante um períodode negócios. Nas vendas, com dados históricos de transação, asempresas podem identificar um conjunto de itens que os clientescompram mais de uma vez em um ano. Em seguida, as empresaspodem usar essas informações para recomendar aos clientes comprá-lo com melhores ofertas com base em sua frequência de compra nopassado.
DATA MINING - ALGUMAS TÉCNICAS
ÁRVORE DE DECISÃO - é uma das técnicas de mineração de dados mais
comuns porque seu modelo é simples e fácil de ser entendido pelos
usuários. Na árvore de decisão, a raiz é uma questão ou condição
simples que tem múltiplas respostas. Cada resposta, então, leva a um
conjunto de perguntas ou condições que nos ajudam a determinar os
dados para que possamos tomar a decisão final baseada nesses dados.
DATA MINING - ALGUMAS TÉCNICAS
APRENDIZADO DE MÁQUINA - é um campo de estudo dentro dapesquisa em inteligência artificial, que busca fornecer conhecimentoaos computadores através de dados, observações e interações com omundo. Esse conhecimento adquirido permite que computadoresgeneralizem corretamente novos eventos e configurações.
CATEGORIAS• APRENDIZADO SUPERVISIONADO• APRENDIZADO NÃO SUPERVISIONADO• APRENDIZADO POR REFORÇO
DATA MINING - ALGUMAS TÉCNICAS
APRENDIZADO SUPERVISIONADO - quando tentamos prever uma
variável dependente a partir de uma lista de variáveisindependentes. Os dados estão previamente rotulados.
CARACTERÍSTICA BÁSICA - os dados utilizados para treinamento jácontém a resposta desejada, isto é, contém a variável dependenteresultante das variáveis independentes observadas. Nesse caso,dizemos que os dados são anotados com as respostas ou classes aserem previstas.
DATA MINING - ALGUMAS TÉCNICAS
APRENDIZADO SUPERVISIONADO
VARIÁVEIS INDEPENDENTES VARIÁVEIS DEPENDENTES
Anos de Carreira, Formação, Idade Salário
Idade Carro, Idade Motorista Risco de Acidente Automotivo
Texto de um livro Escola Literária
Temperatura Receita de venda de sorvete
Histórico escolar Nota no ENEM
EXEMPLOS
DATA MINING - ALGUMAS TÉCNICAS
APRENDIZADO NÃO SUPERVISIONADO - o conjunto de exemplos não estárotulado, assim o sistema tenta classificar estes conjuntos agrupando ossemelhantes em determinadas classes Os dados não necessitam deajuste, são processados da forma que são apresentados.
TÉCNICAS MAIS CONHECIDAS - Redes Neurais Artificiais, Clusterização k-médias, Máquina Suporte Vetorial, Clusterização Hierárquica, Análise deComponentes Principais, Mapas Auto organizáveis, etc. Problemas deaprendizado não supervisionado são consideravelmente mais complicados doque problemas de aprendizado supervisionado, principalmente porque nãotemos a reposta anotada nos dados. Assim, é extremamente complicado avaliarum modelo de aprendizado não supervisionado e esse tipo de modelo está nafronteira do conhecimento em aprendizado de máquina.
DADOS FORMA REPRESENTATIVA
Transações bancárias Normalidade da transação
Registros de Compras Associação entre produtos
Dados Multidimensionais Dados com dimensão reduzida
Registros de Compras Perfil dos consumidores
Palavras em um texto Representação matemática das palavras
De uma forma geral, com APRENDIZADO NÃO SUPERVISIONADO sedeseja achar uma representação mais informativa dos dados.Geralmente, essa representação mais informativa é também maissimples, condensando a informação em pontos mais relevantes.
EXEMPLOS
DATA MINING - ALGUMAS TÉCNICAS
DATA MINING - ALGUMAS TÉCNICAS
APRENDIZADO POR REFORÇO - a máquina tenta aprender qual é amelhor ação a ser tomada, dependendo das circunstâncias na qualessa ação será executada.
Assim, o futuro é uma variável aleatória: como não se sabe a priori o queirá acontecer, é desejável uma abordagem que leve em consideração essaincerteza, e consiga incorporar as eventuais mudanças no ambiente doprocesso de tomada da melhor decisão. Essa ideia de fato deriva doconceito de “aprendizagem por reforço” da Psicologia, no qual umarecompensa ou punição é dada a um agente, dependendo da decisãotomada.
DATA MINING - ALGUMAS TÉCNICAS
APRENDIZADO POR REFORÇO
Com o tempo e a repetição dos experimentos, espera-se que o agenteconsiga associar as ações que geram maior recompensa para cadasituação que o ambiente apresenta, e passe a evitar as ações que gerampunição ou recompensa menor. Na Psicologia, essa abordagem é chamade behaviorismo e tem B. F. Skinner (psicólogo) como um dos principaisexpoentes. Dentre outros experimentos famosos, usou a ideia derecompensas e punições para treinar pombos para conduzir mísseis naSegunda Guerra Mundial.
ESPAÇOS DE CONHECIMENTO
BusinessInteliligence
Banco de Dados
DatawarehouseData Marts
Espaço dos Dados
Espaço da Informação
Analítica
Espaço da Influência e
Variação
Data Mining
Qual é o preço do livro?BI - Business Intelligence!
Venda de livro de Informáticapor mês e por região
Que fatores influenciam avenda de livros em BH?
Que fatores influenciaram avariação da venda de livros deInformática nos últimos meses?
PADRÕES METODOLÓGICOS DO DATA MINING
AVALIAÇÃOPREPARAÇÃO DOS DADOS
IMPLANTAÇÃO
ENTENDIMENTO DO NEGÓCIO
ENTENDIMENTO DOS DADOS
MINERAÇÃO DE DADOS
BUSINESS INTELLIGENCEDATA WAREHOUSE
DATA MINING
KDD-KNOWLEDGE DISCOVERY IN DATABASES
GABARITO- A
QUESTÕES DE PROVAS 01- (IDECAN CRF-SP-2018-Analista de Sistemas) - A etapa de Mineração deDados compreende a busca efetiva por conhecimentos úteis no contextoda aplicação de KDD (Knowledge Discovery in Database), ou Descoberta doConhecimento em Bases de Dados. É a principal etapa do processo deKDD.” Acerca de algumas das tarefas do KDD, analise a assertiva a seguir:“compreende a busca por uma função que mapeie os registros de umbanco de dados em um intervalo de valores reais”. Assinale a alternativaque apresenta esta tarefa.A) Regressão.B) Classificação.C) Sumarização.D) Agrupamento.
Julgue os itens a seguir, a respeito de data mining e OLAP.
02- (CESPE- FUB-Técnico de Tecnologia da Informação 2018)
GABARITO- CERTO
No data mining, uma regra de associação relaciona a presença de umconjunto de itens com outra faixa de valores de um outro conjunto devariáveis.
a) A expressão de um conjunto de dados por um conjunto menor decaracterísticas do que em sua forma original.b) A redução dos espaços de variação dos dados em relação a seusespaços originais.c) A supressão de características consideradas de menor prioridadepelo gestor.d) A expressão de um conjunto de dados por um conjunto decaracterísticas de dimensionalidade conhecida.e) A expressão de um conjunto de características por um outroconjunto de características de dimensionalidade invariante em relaçãoà sua forma original.
03- (ESAF-Receita Federal-Assistente Técnico Administrativo- 2014 ) -Em Datamining, redução da dimensionalidade é:
GABARITO- A
04- (CESPE - TJ_SE_2014)
GABARITO- CERTO
DataMining pode ser considerado uma etapa no processo dedescoberta de conhecimento em base de dados, consistindo emanálise de conjuntos de dados cujo objetivo é descobrir padrões úteispara tomada de decisão.
DATA MINING - Kowledge Discovery in Databases (KDD)
05- (CESPE - TJ_SE_2014)
GABARITO- ERRADO
O uso de agrupamento (clustering) em DataMining exige que osregistros sejam previamente categorizados, tendo por finalidadeaproximar registros similares para predizer valores de variáveis.
06- (CESPE - TJ_SE_2014)
GABARITO- CERTO
Embora os algoritmos genéticos apresentem elevada demandacomputacional, eles possibilitam a resolução de problemas emparalelo; por isso, são uma boa ferramenta para mineração de dados.
Acerca de DataMining e de DataWarehouse, julgue os itenssubsecutivos.Um DataWarehouse provê uma excelente base para a realização deDataMining, pois os algoritmos de DataMining demandam grandesquantidades de dados em nível detalhado; o DataMining tiravantagem de bases de dados que estejam integradas e limpas; e ainfraestrutura necessária para a criação de um DataWarehouse atendeàs necessidades das operações de DataMining.
07- (CESPE - TJ_SE_2014)
GABARITO- CERTO
08- (CESPE- TJDFT - 2015) - Julgue os itens a seguir, a respeito dedatawarehouse e de datamining.
Em um processo de mineração, durante a etapa de preparação dosdados, são analisados os requisitos de negócio para consolidar osdados.
GABARITO - ERRADO
09- (CESPE- ANÁLISE - EBSERH-ANALISTA DE TECNOLOGIA DAINFORMAÇÃO 2018) - Julgue os itens que se seguem, a respeito dearquitetura e tecnologias de sistemas de informação.
A descoberta de novas regras e padrões em conjuntos de dadosfornecidos, ou aquisição de conhecimento indutivo, é um dosobjetivos de data mining.
GABARITO - CERTO
10- (CESPE- MEC 2015) - Julgue os itens seguintes, referentes a datamining.
A predição em algoritmos de data mining objetiva modelar funçõessobre valores para apresentar o comportamento futuro dedeterminados atributos.
GABARITO - CERTO
Carpe Diem