Inteligência nos Negócios (Business Inteligente) ?· Processo ETL e PostgreSQL. 4 PostgreSQL Abrimos…

Embed Size (px)

Text of Inteligência nos Negócios (Business Inteligente) ?· Processo ETL e PostgreSQL. 4 PostgreSQL...

Inteligncia nos Negcios (Business Inteligente)

Sistemas de Informao Sistemas de Apoio a Deciso

Aran Bey Tcholakian Morales, Dr. Eng.

(Apostila 3)

2

BI

Dados ( OLTP e outras fontes)

Data Warehouse/ Data Marts

Ferramentas OLAP

Minerao de dados - KDD

Interpretao/

Avaliao

Decises

Analise

de dados

Analises dos

tomadores de

deciso

Fundamentao da disciplina

Dados

Informao

Conhecimento

Anlises Exploratria de Dados

3

Processo ETL e PostgreSQL

4

PostgreSQL

Abrimos o pgAdmin, navegamos pelos servidores e inclumos a senha

(postgres).

55

PostgreSQL

1. Criamos uma nova base de dados sobre o servidor local (localhost)

do owner postgreSQL9.6.

Exerccio da folha 6.

66

PostgreSQL

2. Escolhemos um nome para a base de dados, por exemplo curso.

Exerccio da folha 6.

77

PostgreSQL

3. Escolhemos o tipo de codificao, UTF8.

Exerccio da folha 6.

88

PostgreSQL

4. A base de dados foi criada, com o Schema public.

Exerccio da folha 6.

99

PostgreSQL

5. Restauramos o banco de dados relacional_vinhos_82.backup.

Exerccio da folha 6.

1010

PostgreSQL

6. Escolhemos o arquivo de backup correspondente a base restaurada.

Exerccio da folha 6.

1111

PostgreSQL

7. Deixamos todas as opes default.

Exerccio da folha 6.

1212

PostgreSQL

8. Verificamos se a restaurao foi vem sucedida.

Exerccio da folha 6.

1313

PostgreSQL- Visualizando os dados

9. Se o esquema relacional_vinhos no aparece, damos um refresh no

esquema.

Exerccio da folha 6.

1414

PostgreSQL- Visualizando os dados

10. Agora podemos visualizar as tabelas e os dados.

Exerccio da folha 6.

1515

PostgreSQL- Visualizando os dados

11. Podemos fazer consultas SQLs as tabelas do esquema.

Exerccio da folha 6.

16

BI

Dados ( OLTP e outras fontes)

Data Warehouse/ Data Marts

Ferramentas OLAP

Minerao de dados - KDD

Interpretao/

Avaliao

Decises

Analise

de dados

Analises dos

tomadores de

deciso

Fundamentao da disciplina

Dados

Informao

Conhecimento

Anlises Exploratria de Dados

1717

3.2 Extrao, Transformao e Carga - ETL

1818

O ETL um sistema ou conjunto de scripts SQLs para extrair os

dados das bases de operao e carreg-las no modelo

dimensional construdo depois da transformao.

O objetivo da etapa de ETL fazer a integrao de informaes

de fontes mltiplas e complexas, portanto, torna-se uma etapa

bastante crtica, j que uma informao carregada

erroneamente pode trazer consequncias imprevisveis nas fases

posteriores. Esta etapa divide-se basicamente em trs passos:

extrao, transformao e carga.

ETL - Extrao, Transformao, Carga

1919

Extrao: implica muitas vezes na seleo de diferentes fontes

de dados e na integrao de tais dados com o objetivo de obter uma

nica fonte. As origens das fontes de dados podem ser vrias e

tambm podem possuir diferentes formatos, tais como sistemas

transacionais, ERP, planilhas, arquivos-textos.

ETL - Extrao, Transformao, Carga

2020

Transformao: a origem dos dados muitas vezes pode ser de

sistemas diferentes, ento necessrio padronizar os diferentes

formatos, pois o usurio no pode ver informaes iguais em

formatos diferentes.

A limpeza dos dados (uma forma de transformao) se d porque

os dados normalmente advm de uma fonte muitas vezes

desconhecida, concebida h muito tempo e contendo muito lixo e

inconsistncia.

Operaes de remoo de rudos, de atributos incompletos,

tratamento de erros de digitao ou erros nos sistemas de captura

de dados, so tratados neste etapa.

ETL - Extrao, Transformao, Carga

21

Podem ser as seguintes transformaes:

Resumo ou agregao: o processo de eliminar atributos ou reduzir

o nmero de valores de um determinado atributo - por exemplo

reduzir o atributo data com granularidade em dias para ms (reduo

de 365 para 12).

ETL - Extrao, Transformao, Carga

22

Reduo do nmero de valores de um atributo: feita

discretizando os valores de um atributo contnuo.

Muitos algoritmos de classificao, por exemplo, necessitam de dados

categorizados (discretos), algoritmos de associao de dados binrios.

Assim, caratersticas que assumem valores contnuos podem ser

transformados em valores discretos (em classes) e os valores

discretos em binrios.

ETL - Extrao, Transformao, Carga

2323

Carga: uma vez que a origem dos dados pode ser de sistemas

diferentes, padronizam-se os diferentes formatos de modo que

fiquem num formato uniforme, normalmente sugerido pelo

prprio usurio.

Com isso, a anlise dos dados recuperados pela ferramenta

OLAP fica mais fcil, pois o usurio no estar vendo

informaes iguais em formatos diferentes.

ETL - Extrao, Transformao, Carga

2424

Vrias origens para um mesmo dado: conflitos estruturais, de

contedo e de formato nos dados;

Dados faltantes, dados com erros;

No conformidade dos dados com as regras do negcio;

Dados significativos em campos de entrada livre;

Necessidade de normalizao/desnormalizao de dados;

Necessidade de juntar/separar atributos;

Diversos formatos de dados (xls, pdf, xml, etc.);

Incompatibilidade entre ambientes operacionais diferentes.

ETL: algumas dificuldades

25

Suite BI Open Pentaho

26

Descompactar o arquivo pdi-ce-7.X.X-stable.zip e iniciar

Spoon.bat (Windows) ou Spoon.sh (Linux, MacOS).

PDI est formado por um conjunto de ferramentas:

Spoon: a ferramenta grfica para construir transformaes e jobs.

Pan: a ferramenta que nos permite executar as transformaes do

spoon de uma linha de comando.

Kitchen: similar ao Pan, mas para executar jobs.

Carte: um servidor web que permite a execuo remota de

transformaes e jobs.

Suite BI Open Pentaho: Data Integration

27

Configurando o JAVA:

Criando varivel JAVA_HOME

1. Abrir Painel de Controle\Sistema;

2. Selecione a aba Avanado e clique em Variveis de Ambiente;

3. Em Variveis do sistema clique no boto Nova;

4. Na janela Nova varivel de sistema, digite JAVA_HOME no campo

Nome da varivel e no campo Valor da varivel digite o caminho do

diretrio onde foi instalado o JDK e clique no boto OK;

Suite BI Open Pentaho: Data Integration

28

Suite BI Open Pentaho: Data Integration

29

Configurando o JAVA

Editando varivel PATH

1. Selecione a varivel Path em Variveis do sistema e clique no boto

Editar;

2. Digite ;%JAVA_HOME%\bin ao final do contedo do campo

Valor da varivel e em seguida clique no boto OK;

3. Na janela Variveis de ambiente clique no boto OK;

4. Na janela Propriedades do sistema clique no boto OK.

Suite BI Open Pentaho: Data Integration

30

Suite BI Open Pentaho: Data Integration

31

Suite BI Open Pentaho: Data Integration

Tela principal do aplicativo data integration.

32

Suite BI Open Pentaho: Data Integration

Exerccios da folha 7.

1. Criamos o Schema dwvinhos_pdi

33

Suite BI Open Pentaho: Data Integration

Exerccios da folha 7.

2. Criamos a conexo curso na opo:

Conexes Adicionar conexo Nova conexo

34

Suite BI Open Pentaho: Data Integration

Exerccios da folha 7.

3. Geramos o scripts das tabelas: Ferramentas SQL.

Escolhemos a base curso, o SGBD PostgreSQL e o schema dwvinhos_pdi,

e damos OK.

35

Suite BI Open Pentaho: Data Integration

4. Executamos o scripts.

36

Suite BI Open Pentaho: Data Integration

Vamos a carregar a dimenso vinhos.

5. Criamos uma nova transformao: File Novo - Transformao

Exerccios da folha 7.

37

Suite BI Open Pentaho: Data Integration

6. Carregar a tabela DI_VINHOS. Criamos uma nova transformao.Inclumos o componente Table Input e configuramos o componente.Primeiro cramos uma nova conexo.

38

Suite BI Open Pentaho: Data Integration

7. O servidor ser localhost, a base de dados curso, login/senha do

banco e o nome da conexo (nome fantasia) vinhos

Exerccios da folha 7.

39

Suite BI Open Pentaho: Data Integration

8. Testamos a conexo.

Exerccios da folha 7.

40

Suite BI Open Pentaho: Data Integration

9. Configuramos o SQL e efetuamos um preview para ver o resultado.

41

Suite BI Open Pentaho: Data Integration

10. Inclumos na transformao o componente de Insert/Update e configuramos o componente com a tabela de sada.

42

Suite BI Open Pentaho: Data Integration

11. Salvamos, executamos a transformao e verificamos o resultado na base de dados.