6
Universidade Federal de Santa Maria Curso de Tecnologia em sistemas para Internet Inteligência de Negócios Professor Juçara Salete Gubiane Data Warehousing, Data Mining e BI Acadêmico: Daniel Nóro Visão Geral da Tecnologia de Mineração de Dados Com o passar do tempo, em meio a tantos avanços tecnológicos, enormes volumes de dados são acrescidos às bases, que muitas vezes dobram de tamanho em poucos anos ou em curtos períodos de tempo, onde é comum que antigas informações acabem caindo “no esquecimento” e sendo pouco utilizados para uma análise mais, sem contar que as pesquisas e relatórios tradicionais podem não proporcionar a exibição e interpretação das informações com uma visão amplamente diferenciada, implicando assim no mau aproveitamento do conhecimento e entendimento das informações adquiridas. Existem tendências e padrões implícitos nas informações armazenadas que podem propiciar maior detalhamento da situação da organização, além de apresentar padrões que podem ser úteis na definição de estratégia dos negócios e também campanhas de marketing, por exemplo, ou simplesmente para identificar um comportamento pouco usual, como as probabilidades e características dos consumidores. Diante de fatores como estes, é que surge a necessidade de ferramentas e mecanismos que permitam que os dados possam ser analisados de uma forma otimizada, uma vez que os mesmos são de extrema importância, pois, armazenam toda a trajetória dos dados, auxiliando no processo de planejamento, análise de mercado, administração e apoio à decisão, onde tais informações estão escondidas ou não são percebidas em meio ao grande volume de dados. O emprego do Data Warehouse (armazém de dados), que em síntese, é utilizado para armazenar conjuntos de dados organizados por assuntos, mantendo todo um histórico, tendo como objetivo dar suporte a tomada de decisão com dados. Com a entrada de outro recurso valioso e um dos mais importantes quando o objetivo é a busca de conhecimento, é o Data Mining (Mineração de Dados). O Data Mining é um processo que consiste basicamente na identificação de informações relevantes que estão presentes em grandes bancos de dados, Data Warehouses ou repositórios, através de diversas técnicas, tais como associações, padrões consistentes, anomalias, estruturas e etc, unindo várias áreas, como a estatística e da inteligência artificial, e é uma ferramenta essencial para o processo de descoberta de conhecimento em base de dados, também denominado KDD (Knowledge Discovery in Databases, figura 1). Quanto ao processo de Data Mining, o mesmo pode ser dividido basicamente em três etapas, sendo elas a exploração, a definição dos padrões e a validação dos dados.

Inteligencia de negócios

Embed Size (px)

DESCRIPTION

Descrição Básica

Citation preview

Page 1: Inteligencia de negócios

Universidade Federal de Santa Maria

Curso de Tecnologia em sistemas para Internet

Inteligência de Negócios

Professor Juçara Salete Gubiane

Data Warehousing, Data Mining e BI

Acadêmico: Daniel Nóro

Visão Geral da Tecnologia de Mineração de Dados

Com o passar do tempo, em meio a tantos avanços tecnológicos, enormes volumes de

dados são acrescidos às bases, que muitas vezes dobram de tamanho em poucos anos ou em

curtos períodos de tempo, onde é comum que antigas informações acabem caindo “no

esquecimento” e sendo pouco utilizados para uma análise mais, sem contar que as pesquisas e

relatórios tradicionais podem não proporcionar a exibição e interpretação das informações

com uma visão amplamente diferenciada, implicando assim no mau aproveitamento do

conhecimento e entendimento das informações adquiridas. Existem tendências e padrões

implícitos nas informações armazenadas que podem propiciar maior detalhamento da situação

da organização, além de apresentar padrões que podem ser úteis na definição de estratégia

dos negócios e também campanhas de marketing, por exemplo, ou simplesmente para

identificar um comportamento pouco usual, como as probabilidades e características dos

consumidores.

Diante de fatores como estes, é que surge a necessidade de ferramentas e

mecanismos que permitam que os dados possam ser analisados de uma forma otimizada, uma

vez que os mesmos são de extrema importância, pois, armazenam toda a trajetória dos dados,

auxiliando no processo de planejamento, análise de mercado, administração e apoio à decisão,

onde tais informações estão escondidas ou não são percebidas em meio ao grande volume de

dados.

O emprego do Data Warehouse (armazém de dados), que em síntese, é utilizado para

armazenar conjuntos de dados organizados por assuntos, mantendo todo um histórico, tendo

como objetivo dar suporte a tomada de decisão com dados. Com a entrada de outro recurso

valioso e um dos mais importantes quando o objetivo é a busca de conhecimento, é o Data

Mining (Mineração de Dados). O Data Mining é um processo que consiste basicamente na

identificação de informações relevantes que estão presentes em grandes bancos de dados,

Data Warehouses ou repositórios, através de diversas técnicas, tais como associações, padrões

consistentes, anomalias, estruturas e etc, unindo várias áreas, como a estatística e da

inteligência artificial, e é uma ferramenta essencial para o processo de descoberta de

conhecimento em base de dados, também denominado KDD (Knowledge Discovery in

Databases, figura 1). Quanto ao processo de Data Mining, o mesmo pode ser dividido

basicamente em três etapas, sendo elas a exploração, a definição dos padrões e a validação

dos dados.

Page 2: Inteligencia de negócios

1- Business Intelligence (BI) ou Inteligência de Negócios

Permitindo a extração de informações das bases de dados e apresentando uma nova

visão de análise e possibilitando a definição de fatores estratégicos, a tecnologia Data Mining é

empregada para fornecer a base de diversos segmentos, como é o caso de Business

Intelligence (BI). O recurso de Business Intelligence ou Inteligência de Negócios é definido

como um conjunto de métodos e conceitos que podem ser implementados através de

Softwares com o intuito de utilizar os dados importantes, para auxiliar no processo de tomada

de decisões, proporcionando melhorias e reunindo todas as informações relevantes em um

único lugar. Sendo assim, o Data Mining tem o objetivo de transformar os dados em

conhecimento, que por sua vez é utilizado para obter diversas vantagens em meio ao mercado

altamente competitivo. Outra tecnologia que existe para prover uma melhor e mais flexível

análise das informações, é a OLAP (On-Line Analytical Processing ou Processamento Analítico

On-Line), que permite uma visão conceitual de forma multidimensional das informações, onde

as consultas disponibilizam os dados relacionados a medidas, decompostas em diversas

dimensões. As informações são visualizadas e analisadas de diferentes perspectivas pelo

usuário, mantendo toda a estrutura de dados adequadamente.

2. Descobertas de Padrões Sequenciais

A descoberta de padrões sequenciais é baseada no conceito de uma sequência de conjuntos de itens, existe um problema de identificar tais padrões sequenciais é encontrar todas as subsequências para os conjuntos indicados que possuem um suporte mínimo definido

Page 3: Inteligencia de negócios

pelo usuário. Essa previsão é baseada na frequência (suporte) dessa sequência no passado, diversos algoritmos foram pesquisados para detecção da sequência.

2.1-Descoberta de Padrões na Série Temporal

Séries temporais são sequências de eventos, cada evento pode ser uma transação que ocorre em um período de tempo. A série temporal procura uma série de padrões analisando sequências e subsequências, ela pode ser comparada estabelecendo medidas de similaridades para identificar ações, que se comportam de modo semelhante.

2.2-Regressão

A regressão é uma aplicação na qual uma regra de classificação é considerada uma

função, na qual ela mapeia variáveis em uma variável de classe de destino, denominada de

regra de regressão , essa aplicação ocorre quando, em vez de mapear uma coluna de dados em

uma classe especifica , o valor da variável é prevista com base nessa coluna.

A análise de regressão é uma ferramenta muito útil em diversos campos de análise, a

descoberta dessa função para prever o destino é equivalente a uma operação de mineração de

dados.

2.3-Redes Neurais

A rede neural é uma derivação da pesquisa de inteligência artificial que usa a regressão

generalizada e oferece um método interativo para executá-la. São usadas técnicas de ajuste de

curva para deduzir uma função de um conjunto de amostras, com essa técnica se consegue um

enfoque de aprendizado, ela é controlada por uma amostra de teste que é usada para

inferência e o aprendizado inicial.

Esse método possibilita respostas ás novas entradas que podem ser capazes de serem

interpoladas com base nas amostras conhecidas, porém depende do modelo de representação

interna do domínio do problema, assim desenvolvendo o método de aprendizado. As redes

neurais podem ser classificadas de modo geral em duas categorias:

A. Aprendizado supervisionado-utilizam métodos adaptativos que tentam reduzir

o erro na saída.

B. Aprendizado não supervisionado-são aqueles que desenvolvem

representações internas de saídas de amostra.

As redes neurais aprendem pela informação sobre um problema especifico, elas se

auto adaptam, são uteis na mineração de dados. Mas apresentam problemas, pois suas saídas

são difíceis de entender e altamente quantitativas, além de um problema na modelagem de

dados de série de tempo.

2.4-Algoritmos Genéticos

Algoritmos Genéticos (GAs-Genetic Algorithms) é uma classe de procedimento de pesquisa aleatória capaz de realizar uma pesquisa adaptativa por uma grande faixa de topologias de espaço de pesquisa. As GAs são usadas em diversos campos desde análise de imagens, escalonamento e projeto de engenharia.

Page 4: Inteligencia de negócios

Os GAs utilizam a ideia da genética humana do alfabeto, a construção do algoritmo envolve a idealização de um alfabeto que codifica as soluções para o problema de decisão, essas sequências são equivalentes a um individuo, uma função de ajuste define quais soluções podem sobreviver e quais não podem. As formas podem ser combinadas e moldadas pela operação combinada de cortar e cruzar.

AS soluções produzidas pelos GAs são diferentes da maioria das outras técnicas pelas seguintes características:

Uma pesquisa de GA usa um conjunto de soluções durante cada geração, em

vez de uma única solução.

A pesquisa no espaço da sequência representa uma pesquisa paralela muito

maior no espaço das soluções codificadas.

A memória de pesquisa feita é representada unicamente pelo conjunto de

soluções disponíveis para uma geração.

Um algoritmo genético é um algoritmo que se torna aleatório, pois os

mecanismos de pesquisa utilizam operadores probabilísticos.

Page 5: Inteligencia de negócios

2.5-Aplicações da Mineração de Dados Algumas áreas em que a tecnologia de mineração de dados tem ganhado significativos, onde a tomada de decisão nos negócios é um fator essencial. Incluem as seguintes áreas:

Marketing. Incluem análise de comportamento do consumidor, assim

determinando estratégias de marketing.

Propaganda. Inclui análise de crédito de clientes, segmentação de contas a

pagar, receber, análise de investimentos financeiros e títulos de fundos

financeiros.

Manufatura. Envolvem a otimização de recursos como máquinas, mão de obra

e materiais.

Saúde. Incluem descobertas de padronização de imagens radiológicos, analise

de dados experimentais de chip de gene e relacionar sintomas ou doenças ,

analise de efeitos colaterais de drogas e eficácia de certos tratamentos,

também como otimização de processos em hospital e o relacionamento de

dados de bem-estar do paciente com qualificações do médico.

Conclusão

O principal objetivo foi de demonstrar como é utilizado de uma forma conjunta várias ferramentas e técnicas para descoberta de conhecimento, onde é utilizada e aplicada, apenas para demostrar a como uma base de dados pode ser útil e aproveitada em diversos setores e tarefas. A mineração de dados pode ser descrita como uma análise de dados exploratória, onde como já citado o objetivo é procurar padrões que possam ser usados para tomadas de decisões.

Page 6: Inteligencia de negócios

Referências Bibliográficas

ELMASRI, Ramez; NAVATHE, Shamkant B, Sistemas de banco de dados. 6ª. ed. Pearson Brasil, 2011,capítulo 28. Silberschatz, A; Korth, H; Sudarshan, S, Sistema de Banco de Dados. 5ª. ed. Campus, 2006, Cápitulo 18.

Kumazawa, A. H; Funcionamento do Algoritmo Genético. Disponível em <https://linux.ime.usp.br/~cef/mac499-03/monografias/anselmo/node12.html>. Pesquisado no dia: 15 de novembro de 2013. Gonçalves, E. C; Revista SQL Magazine nº 111. Mineração de dados com Market Basket Analysis .