10
/ 20 pentaho_ O termo Business Intelligence (BI) define um con- junto de conceitos e métodos para melhorar a tomada de decisão por meio de sistemas baseados em dados e informações. Trata-se de um termo am- plo que combina arquitetura, ferramentas, bancos de dados, aplicações, processos e metodologias, no contexto dos sistemas de suporte à decisão. O BI representa a habilidade de se estruturar, integrar e explorar informações normalmente guardadas em estruturas de Data Warehouse (DW) e Data Marts (DM), com o objetivo de desenvolver percepções, en- tendimentos e conhecimentos capazes de conduzir organizações a um melhor processo de tomada de decisão (BARBIERI, 2011). Conheça o ambiente de BI livre mais utilizado no Brasil e saiba como essa poderosa ferramenta foi construída sobre a plataforma Java Open Source Business Intelligence com Figura 1. Componentes de um ambiente BI. Fonte: Cazella (2011). Givanildo Santana do Nascimento | [email protected] é graduado em Sistemas de Informação, especialista em Melhoria de Processos de Software e mestre em Ciência da Computação. Possui as certificações Certified Function Point Specialist, Sun Certified Java 2 Platform Programmer e Sun Certified Web Component Developer for J2EE Platform. Trabalha como analista de Sistemas na Petrobras, desenvolvendo soluções de TIC para Exploração e Produção de Petróleo. É sócio-diretor da empresa MPS Soluções em Tecnologia da Informação, na qual atua como consultor em TI e conduz um projeto de Bussiness Intelligence para o Poder Judiciário brasileiro. É membro da equipe técnica da Revista MundoJ, escrevendo e revisando artigos e cobrindo eventos de tecnologia no Brasil e no exterior. FONTES DE DADOS EXPLORAÇÃO Aplicativos operacionais Data Mart Dados externos Software de automação de escritórios Equipamentos de automação E T L Data Mining OLAP EXTRAÇÃO, TRANSFORMA- ÇÃO E CARREGAMENTO DATA WAREHOUSE

Open Source Business Intelligence com · Este artigo apresenta o Pentaho BI Suite Community Edition, a ferramenta de BI livre mais utilizada no Brasil, desenvol-vida sobre a plataforma

Embed Size (px)

Citation preview

/ 20

pentaho_

O termo Business Intelligence (BI) defi ne um con-junto de conceitos e métodos para melhorar a

tomada de decisão por meio de sistemas baseados em dados e informações. Trata-se de um termo am-plo que combina arquitetura, ferramentas, bancos de dados, aplicações, processos e metodologias, no contexto dos sistemas de suporte à decisão. O BI

representa a habilidade de se estruturar, integrar e explorar informações normalmente guardadas em estruturas de Data Warehouse (DW) e Data Marts (DM), com o objetivo de desenvolver percepções, en-tendimentos e conhecimentos capazes de conduzir organizações a um melhor processo de tomada de decisão (BARBIERI, 2011).

Conheça o ambiente de BI livre mais utilizado no Brasil e saiba como essa poderosa ferramenta foi construída sobre a plataforma Java

Open Source Business Intelligence com

Figura 1. Componentes de um ambiente BI. Fonte: Cazella (2011).

Givanildo Santana do Nascimento | [email protected]é graduado em Sistemas de Informação, especialista em Melhoria de Processos de Software e mestre em Ciência da Computação. Possui as certifi cações Certifi ed Function Point Specialist, Sun Certifi ed Java 2 Platform Programmer e Sun Certifi ed Web Component Developer for J2EE Platform. Trabalha como analista de Sistemas na Petrobras, desenvolvendo soluções de TIC para Exploração e Produção de Petróleo. É sócio-diretor da empresa MPS Soluções em Tecnologia da Informação, na qual atua como consultor em TI e conduz um projeto de Bussiness Intelligence para o Poder Judiciário brasileiro. É membro da equipe técnica da Revista MundoJ, escrevendo e revisando artigos e cobrindo eventos de tecnologia no Brasil e no exterior.

FONTES DE DADOS EXPLORAÇÃO

Aplicativos operacionais

Data Mart

Dados externos

Software de automação de

escritórios

Equipamentos de automação

ETL

Data Mining

OLAP

EXTRAÇÃO, TRANSFORMA-ÇÃO E CARREGAMENTO DATA WAREHOUSE

21 \

A maioria das ferramentas e aplicações de Business Intelligence são tidas como custosas e complexas. De fato, integrar um grande volu-me de dados e deles extrair informações que suportem a tomada de decisões não é uma tarefa simples. Porém muitos projetos de BI não dispõem de orçamentos capazes de patrocinar a aquisição de ferra-mentas comerciais com custos expressos em quatro ou mais dígitos, em dólares. Esses custos elevados impediriam o início de muitos pro-jetos executados por empresas de pequeno e médio porte. Por outro lado, os recursos de integração de dados e análise de informações oferecidos pelas ferramentas comerciais são muito importantes no desenvolvimento de aplicações de BI profissionais. A solução desse problema técnico-econômico pode ser encontrada nas ferramentas livres de BI. Este artigo apresenta o Pentaho BI Suite Community Edition, a ferramenta de BI livre mais utilizada no Brasil, desenvol-vida sobre a plataforma Java.

O ambiente de BI, ilustrado na figura 1, é com-posto pelas fontes de dados operacionais, pelos pro-cessos de Extração, Transformação e Carregamento (ETL), pelo DW, DM e pelos métodos de exploração. Os dados operacionais são carregados nas bases DW e DM por processos ETL. Durante a carga, os pro-cessos ETL também realizam operações de limpeza, preenchimento e correção nos dados. Após serem carregados no DW, os dados preenchem os DM mo-delados de forma dimensional, orientados a assun-tos ou processos de negócio. O DW e os DM são en-tão explorados pelo usuário utilizando ferramentas de processamento analítico OLAP e técnicas de mi-neração de dados (CAZELLA, 2011).

O número de projetos de BI cresceu rapidamente

em todo o mundo, de acordo com os relatórios anuais do Gartner Group. A tabela 1 mostra que o BI integra a lista das dez maiores prioridades em Tecnologia da Informação (TI) desde 2005 e esteve no topo dessa lista por quatro anos consecutivos, de 2006 a 2009. De uma forma mais ampla, as empresas priorizaram a melhoria dos processos de negócios, entendendo que as informações e o conhecimento fornecidos pe-las aplicações de BI são elementos essenciais para o aumento da eficiência e da efetividade, suporte à competitividade e à inovação. Assim, investimen-tos em aplicações de BI focadas em mineração de dados aumentaram 4,8% de 2005 para 2006 e 11,2% de 2007 para 2008 (GARTNER GROUP, 2005a, 2005b, 2006, 2007, 2008, 2009, 2010, 2011).

Java e Pentaho BI Suite Community Edition

/ 22

Tabela 1. Prioridade das aplicações de BI de 2005 a 2011.

ANOPRIORIDADE MELHORAR

PROCESSOS DE NEGÓCIO

PRIORIDADEBI

2005 1ª 2ª

2006 1ª 1ª

2007 1ª 1ª

2008 1ª 1ª2009 1ª 1ª

2010 1ª 5ª2011 5ª 5ª

Fonte: Gartner Group (2005b, 2006, 2007, 2008, 2009, 2010, 2011).

Contudo, o agravamento da crise financeira in-ternacional provocou cortes significativos nos or-çamentos de TI a partir de 2009. Isto fez com que o BI deixasse de ocupar o primeiro lugar na lista das maiores prioridades em TI e, em 2010 e 2011, caísse para a quinta posição. Em seu lugar, foram prioriza-das tecnologias de maior produtividade, menor risco e retorno de investimento mais rápido (GARTNER GROUP, 2005a, 2005b, 2006, 2007, 2008, 2009, 2010, 2011).

Nesse contexto, as ferramentas Open Source Bu-siness Intelligence (OSBI) desempenham um papel essencial para a viabilização de muitos projetos de BI que não dispõem de dezenas ou centenas de mi-lhares de dólares para investirem em ferramentas comerciais já em seu início. Os recursos poupados podem ser investimentos em hardware, treinamento e serviços de desenvolvimento. Porém não é possí-vel abrir mão da qualidade, da funcionalidade, da ri-queza de recursos e da produtividade conferida pelas ferramentas tradicionais de BI. Sem esses atributos, a

aplicação desenvolvida não atenderia aos recursos de informação e usabilidade do cliente.

O Pentaho é uma plataforma de BI livre desen-volvida em Java e mantida pela empresa Pentaho Corporation, com o apoio de uma comunidade cres-cente de desenvolvedores no Brasil e em todo o mun-do. Os componentes do Pentaho contemplam ferra-mentas de integração de dados (ETL) e metadados, relatórios, dashboards, análises OLAP, gestão de con-teúdo e mineração de dados. A figura 2 mostra como esses componentes são combinados em um ambiente orientado à analise de dados e informações. Ao inte-grar esses componentes, a plataforma Pentaho possi-bilita o desenvolvimento de soluções complexas para problemas de negócios que demandam o processa-mento de grandes volumes de dados.

O Pentaho é distribuído em três edições diferen-tes: Community Professional e Enterprise. A edição Community, está disponível gratuitamente no site http://community.pentaho.com/. As edições Profes-sional e Enterprise possuem recursos adicionais e planos de suporte prestados pela Pentaho Corpora-tion e seus parceiros, mas são licenciadas mediante subscrição anual. Os recursos adicionais das edições pagas incluem suporte a Mobile e ferramentas avan-çadas de integração de dados e relatórios.

Este artigo tem o objetivo de apresentar uma vi-são geral do ambiente Pentaho BI Suite Community Edition, descrevendo os seus principais componen-tes. Antes de descrever o ambiente Pentaho serão apresentadas as técnicas fundamentais de Data Wa-rehousing, as diferenças entre aplicações transacio-nais e analíticas e os fundamentos da mineração de dados. O entendimento dessas técnicas é essencial para o aprendizado pleno do Pentaho BI Suíte.

Figura 2. Componentes do Pentaho integrados. Fonte: http://community.pentaho.com/.

NEW ANALYSIS VIEW NEW REPORT MANAGE CONTENT NEW DATA SOURCE

23 \

Data WarehousingOs Sistemas de Online Transaction Processing

(OLTP) suportam a execução dos processos de negó-cio, coletam e armazenam os dados em bancos de da-dos estruturados, na maior parte dos casos, de acordo com a modelagem relacional normalizada. Estruturas de dados relacionais normalizadas são eficientes para a atualização e o armazenamento de dados, entre outros motivos, por minimizarem redundâncias. No entanto, na medida em que o volume de dados arma-zenados aumenta, a eficiência para a realização de processamento analítico diminui, pois é necessário obter as informações desejadas em múltiplas tabe-las, frequentemente localizadas em bancos de dados distintos. As alternativas existentes para se melhorar o desempenho da execução de consultas em bases OLTP, como criação de índices e desnormalização de banco de dados, terminam por prejudicar o desempe-nho da atualização de dados (NASCIMENTO, 2012).Já os Sistemas OLAP normalmente acessam dados em estruturas informacionais como o DW, tendo como principais propriedades:

1. orientação a assuntos ou processos de negócio;2. integração;3. não volatilidade;4. variação no tempo e5. suporte à decisão.

A integração de dados é considerada a caracte-rística mais importante do DW. Esta característica garante a unicidade na representação dos dados que passam do ambiente operacional para o DW. Os da-dos que populam o DW são originários de diversos sistemas operacionais, documentos semi-estrutura-dos e fontes de dados externas. Cada um desses am-bientes apresenta características específicas, como, por exemplo, tipos e domínios de dados, unidades de medidas e convenções internas. Um exemplo clássico

é a notação para o gênero (masculino ou feminino); nos sistemas operacionais, o gênero pode ser repre-sentado por valores como “M” ou “F”, “m” ou “f”, “1” ou “2”. No DW esses valores precisam ser integrados em domínio único, por isso durante o processo de in-tegração eles são convertidos para um estado unifor-me, como ilustra a figura 3.

Figura 3. Integração de dados de gênero no DW.

Em geral, a passagem de dados das bases ope-racionais para o DW não é tão simples quanto uma mera extração e carga de registros. Muitas vezes é necessário realizar transformações, conversões, inte-gração e consolidação de dados. Os processos ETL são responsáveis pela realização dessas tarefas.

As operações realizadas nos bancos de dados operacionais incluem inserção, atualização, exclusão e consulta, geralmente de um registro por vez. Já no DW, são realizadas operações de carga e acesso aos dados em grandes lotes, como mostra a figura 4.

A granularidade é o nível de detalhamento dos dados no DW. Quanto maior for o nível de detalhes que se deseja armazenar, menor será a granularidade. O nível de granularidade afeta diretamente o volume de dados armazenados e o tipo de informações que poderão ser obtidas nas consultas. Quando se tem um nível de granularidade muito alto, há uma economia de espaço de armazenamento, mas também há uma limitação quanto à utilização dos dados para atender a consultas mais detalhadas. Quando se tem um nível de granularidade muito baixo, há uma maior disponi-bilidade de dados para as operações de consulta, em

Tratamento de dados registro por registro

Carregamento e acesso a grandes quantidades de dados

DATA WAREHOUSEOPERACIONAL

Figura 4. Operações sobre os dados no OLTP e no OLAP. Fonte: Cazella (2011).

ALTERAR

EXCLUIR

INCLUIR ACESSAR

EXCLUIR

INCLUIRCARREGAR

ACESSAR

AMBIENTE OPERACIONAL

Aplicação A–M,FAplicação B–H,MAplicação C–0,1

M,F

DATA WAREHOUSE

/ 24

detrimento de uma maior necessidade de espaço de armazenamento e recursos computacionais para pro-cessamento.

Data MartsNa visão de Kimball e Ross (2002) um Data Mart

constitui-se em um subconjunto lógico de um DW corporativo. Um DM também pode ser considerado um repositório de dados relacionados a um proces-so de negócio ou a um elemento da cadeia de valor organizacional, geralmente modelado de forma di-mensional (BOUMAN e DONGEN, 2009). A figura 5 ilustra três Data Marts relacionados aos processos de Vendas, Compras e Estoque, extraídos de um DW cor-porativo central.

A modelagem dimensional é uma forma de mo-delagem de dados em termos de fatos, dimensões e medidas, visando oferecer maior suporte à análise. A figura 6 apresenta o esquema de um modelo dimen-sional composto por um fato e quatro dimensões. Os fatos representam eventos ou transações do negócio, como pedidos, compras, vendas, entre outros exem-plos. Dimensões são entidades envolvidas nos fatos, descrevendo: o quê, quem, onde e quando um fato aconteceu. Uma medida é um atributo ou variável numérica acerca de um fato que expressa grandezas como quantidade, valor e custo (KIMBALL e ROSS, 2002).

FATO

O QUÊ

QUANDO

QUEM ONDE

Figura 6. Esquema estrela com um fato e suas dimensões.

Um exemplo de modelo dimensional do DM Ven-das é apresentado na figura 7. A tabela-fato represen-ta as vendas de produtos. As dimensões representam o cliente que comprou os produtos (Quem), os produ-tos vendidos (O Quê), a data da venda (Quando) e o armazém é o local onde os produtos foram vendidos (Onde). As medidas são o valor e a quantidade de uni-dades vendidas.

A modelagem dimensional se contrapõe à mo-delagem normalizada, pois utiliza a redundância dos dados como forma de facilitar e acelerar a recupera-ção de informações.

Mineração de dadosA Descoberta de Conhecimento em Bases de Da-

dos (DCBD) é o processo de busca e extração de co-nhecimento em bases de dados. Fayyad et al. (1996) definiram DCBD como o processo não trivial de iden-tificação de padrões válidos e potencialmente úteis, perceptíveis a partir dos dados. Nesta concepção, a DCBD refere-se a todo processo de extração de co-nhecimento útil oculto em bancos de dados. O co-nhecimento a ser descoberto deve satisfazer a três propriedades: deve ser correto (tan to quanto possí-vel); compreensível por usuários humanos e também deve ser interessante, útil ou novo. Além disso, o mé-todo de descoberta do conhecimento deve apresen-tar três características: deve ser eficiente (acura do), genérico (aplicável a vários tipos de dados) e flexível (facilmente modificável).

Já a Mineração de Dados (MD) é a busca por re-lacionamentos e padrões distintos que existem, mas que estão ocultos em grandes volumes de dados. Até 1995, muitos autores conside ravam os termos DCBD e MD como sinônimos, mas a DCBD é mais abrangente do que a MD. A MD é o processo de pesquisa em gran-des volumes de dados para extração de conhecimen-to utilizando técnicas de Estatística, Probabilidade e Inteligência Computacional, para procurar relações de similaridade ou discordância entre dados, com o objetivo de encontrar padrões, irregularidades e re-gras. Seu intuito é transformar dados aparentemente desprovidos de conexão em informações relevantes para a tomada de decisão e avaliação de resultados.

A principal motivação para a utilização de MD é a grande disponibilidade de dados armazenados ele-tronicamente, com informações úteis, porém ocultas, podendo auxiliar na previsão de um conhecimento futuro. Em outras palavras, a MD é utilizada para se descobrir informações sem uma prévia formulação de hipóteses e buscar por algo não intuitivo, tornando dados inexpressivos em conhecimento valioso e es-tratégico.

Existem diversos métodos de MD para encontrar respostas ou extrair conhecimento em repositórios de dados, sendo os mais importantes para a DCBD:

Figura 5. Relação entre os Data Marts e o Data Warehouse cor-porativo.

Data Mart

Data MartData Mart

DATA WAREHOUSE

VENDAS ESTOQUE

COMPRAS

25 \

Classificação, Modelos de Relacionamento entre Va-riáveis, Análise de Agrupamento, Sumarização, Mo-delo de Dependência, Regras de Associação e Análise de Séries Temporais (FAYYAD et al., 1996).

As técnicas de Mineração de Dados desempe-nham as tarefas de classificação ou agrupamento dos dados e de descoberta de regras de associação entre os dados. Entre os métodos de Mineração de Dados capazes de fazer o re conhecimento de padrões desta-cam-se as árvores de decisão, as máquinas de vetores de suporte, os métodos estatísticos, as redes neurais, os algoritmos genéticos e as meta-heurísticas de uma forma geral. Estas técnicas vêm sendo amplamente exploradas na literatura e são atualmente suportadas por ferramentas que disponibilizam os diversos algo-ritmos já implementados, testados e otimizados, para uso em uma série de aplicações.

Tanto o BI quanto a DCBD têm como finalidade transformar dados em informações e conhecimento, visando dar suporte à tomada de decisão. Para isso, utilizam-se de técnicas como DW e DM para prepara-ção dos dados, para permitir que o usuário explore os dados por meio de ferramentas de análise e realizam MD para reconhecer padrões e regras por meio da In-teligência Computacional. A disponibilidade de um DW ajuda no processo de DCBD porque: (1) os dados são submetidos a limpeza antes de serem carregados no DW e (2) o acesso aos dados no DW é muito mais eficiente devido à forma como eles são estruturados. Desta forma, uma tabela-fato de um DM dimensional tem condições favoráveis à DCBD, pois armazena da-dos limpos, íntegros e de acesso facilitado. A tabela--fato representa uma matriz multidimensional na qual todas as variáveis que serão submetidas à MD encontram-se presentes.

Pentaho BI Suite Community EditionO ambiente Pentaho BI Suite integra as princi-

pais ferramentas, tecnologias e disciplinas do BI. O alicerce de toda a suíte é a Plataforma Java Standard Edition. Desta forma, o Pentaho roda sobre a má-quina virtual Java, portanto se beneficia de todas as vantagens conferidas pelo Java, como portabilidade (write once, run anywhere), extensibilidade e robus-tez. É possível integrar o Pentaho a outras aplicações Java, executando processos ETL, acionando relatórios e dashboards diretamente a partir de outras aplica-ções. Por exemplo, a Listagem 1 apresenta o código Java para execução de uma transformação de dados desenvolvida no Pentaho Data Integration.

Listagem 1. Código Java para execução de uma trans-formação de dados desenvolvida no Pentaho Data Integration.

public static void runTransformation(String filename) { try { StepLoader.init(); EnvUtil.environmentInit(); TransMeta transMeta = new TransMeta(filename); Trans trans = new Trans(transMeta); trans.execute(null); // É possível passar parâmetros // para a transformação ao invés de null. trans.waitUntilFinished(); if ( trans.getErrors() > 0 ) { throw new RuntimeException( “Ocorreram erros na execução da transformação.” ); } } catch ( KettleException e ) { // TODO Tratar exceção. System.out.println(e); }}

Figura 7. Modelo dimensional do DM Vendas. Fonte: Cazella (2011).

Id_tempo (PK)dara_SQLdia_da_semananumero_semanamesetc.

Id_cliente (PK)nome_clienteperfil_clienteendereçoetc.

Id_tempo (PK)Id_produto (FK)Id_armazem(FK)Id_cliente (FK)venda_dolarunidades_vendidascusto_dolar

Dimensão tempo

Dimensão cliente

Tabela fato

Id_produto (PK)codigodescricaomarcacategoriaetc.

Id_armazem (PK)nome_armazemendereçodistritoetc.

Dimensão produto

Dimensão armazém

» DESCREvE AS CARACTERíSTICAS DA DIMENSãO » CHAvE PRIMáRIA SIMPLES » ATRIBUTOS TExTUAIS E DISCRETOS » FONTES DE RESTRIçõES àS CONSULTAS

» GRANDE QUANTIDADE DE DADOS » CHAvE PRIMáRIA COMPOSTA PELAS FKS » ATRIBUTOS NUMÉRICOS E vALORES » CONTéM AS MEDIçõES DO NEGÓCIO

/ 26

A figura 8 apresenta os componentes do ambiente em uma visão de camadas. A camada de integração de dados e aplicações oferece ferramentas ETL, ges-tão de metadados e de integração entre aplicações. A camada de Business Intelligence Plataform oferece os recursos de segurança, administração, lógica de negócios e gestão de repositórios. Sobre essa camada rodam os serviços de relatórios construídos em tem-po de projeto, relatórios e análises ad-hoc criadas pelo próprio usuário de acordo com as suas necessi-dades de informação, análises (OLAP), mineração de dados, dashboards e gestão de processos. Esses ser-viços são expostos ao usuário final por uma camada de apresentação que suporta os navegadores Web, portais, suítes de escritórios, Web services e e-mail. Portanto o ambiente Pentaho compreende todos os principais recursos esperados de um ambiente de BI profissional.

O primeiro passo para a utilização do Pentaho é baixar os seus componentes a partir do site http://community.pentaho.com/. Como acontece com mui-tas ferramentas gratuitas, o caminho entre o downlo-ad da ferramenta e o seu funcionamento pleno requer leituras de sites e fóruns especializados como o Pla-neta Pentaho (ver referências). Este artigo não tem a proposta de ser um tutorial detalhado sobre a confi-guração do Pentaho, mas uma referência de alto nível sobre os seus componentes.

A suíte Pentaho surgiu a partir da integração de diversos projetos open-source em um ambiente ra-

zoavelmente integrado. O Pen-taho Reporting foi desenvolvido a partir do JfreeReport; o Pen-taho Analysis engine a partir do Mondrian; o Pentaho Analy-sis client teve o projeto jPivot como ponto de partida; Pentaho Data Integration é o nome dado à incorporação do Kettle à suíte Pentaho; o Weka deu origem ao Pentaho Data Mining; entre ou-tros exemplos. Por isso, a políti-ca de licenciamento do Pentaho é complexa e confusa, composta por uma miríade de licenças, sendo umas pouco permissivas e outras mais liberais. Entre as principais licenças da suíte po-de-se destacar: » Eclipse Public License Ver-

sion 1.0 (EPLv1) » Mozilla Public License 1.1

(MPLv1.1) » GNU General Public Li-

cense Version 2 (GPLv2) » GNU Lesser General Public License Version 2.1

(LGPLv2.1) » Eclipse Public License Version 1.0 (EPLv1) » Apache License, Version 2.0 » GNU General Public License Version 3 (GPLv3)De forma geral, a política de licenciamento per-

mite a utilização do Pentaho Community Edition para o desenvolvimento e execução de aplicações da mesma forma como se desenvolvem aplicações utili-zando Eclipse, Tomcat, Hibernate e JFreeReport. Po-rém se qualquer alteração for feita nos componentes da suíte, a aplicação desenvolvida passa a estar sujei-ta às mesmas regras de licenciamento do componen-te original, muitas vezes levando à necessidade de abertura do código-fonte. Mais informações sobre as licenças podem ser encontradas nos links disponíveis nas referências deste artigo.

Pentaho BI Platform and ServerO Pentaho BI Platform Community Edition é

composto principalmente por duas aplicações Web, a Pentaho Administration Console (PAC) e a Pentaho User Console (PUC). A PAC é a interface para o geren-ciamento do status do servidor Pentaho, dos usuários e perfis de acesso às aplicações. A PAC também per-mite a configuração de Data Sources e o agendamen-to de serviços de integração de dados e relatórios. Es-sas funcionalidades da PAC estão ilustradas na figura 9. Em sua distribuição padrão, a PAC é uma aplicação Web empacotada como um WAR e publicada em um container Web Jetty.

Figura 8. Componentes do ambiente em uma visão de camadas.

27 \

Figura 9. Pentaho Administration Console (PAC).

Já a PUC é a interface por meio da qual o usuário tem acesso às aplicações de BI publicadas no servidor Pentaho. A fi gura 10 apresenta a tela inicial do PUC. Após a autenticação do usuário, a PUC apresenta as aplicações de BI, análises OLAP e dashboards para os quais lhe foram autorizados os acessos. A fi gura 11 apresenta a PUC exibindo um conjunto de análi-ses OLAP disponíveis para o usuário e uma janela de boas-vindas.

Figura 10. Pentaho User Console (PUC).

Figura 11. Aplicações e arquivos apresentados na PUC.

Pentaho Data Integration (Kettle)O Pentaho Data Integration (PDI), também co-

nhecido como Kettle, é uma ferramenta de integra-ção de dados para construção de processos de Extra-

ção, Transformação e Carga (ETL). O PDI admite uma grande variedade de fontes de dados, oferece muitas possibilidades de transformação, validação e saídas para os dados transformados. A fi gura 12 ilustra um processo ETL para uma tabela de produtos. Os dados são extraídos de uma tabela de produtos e inseridos no fl uxo, no qual passam por cálculos, adição de ou-tras informações, até serem inseridos ou atualiza-dos na tabela de destino. Como se pode observar, o processo é gráfi co e bastante intuitivo. Os recursos oferecidos gratuitamente pelo PDI são compatíveis com os das ferramentas ETL comerciais disponíveis no mercado.

O PDI foi desenvolvido sobre a plataforma Eclip-se. Ele oferece as perspectivas Data Integration, Model e Visualize (ver fi gura 12). Todo o desenvol-vimento ETL é feito na perspectiva Data Integration. As perspectivas Model e Visualize são destinadas ao desenvolvimento na abordagem Agile BI. Esta abor-dagem permite que uma transformação ETL seja o ponto de partida para a construção de um Cubo OLAP, o Model, e a visualização das análises OLAP diretamente no PDI (Visualize). O Pentaho Agile BI permite o desenvolvimento BI de uma forma muito fl exível, indo do dado bruto à informação agregada com muita rapidez.

Figura 12. Pentaho Data Integration (PDI), também conhecido como Kettle.

Pentaho Analysis Services (Mondrian)O Mondrian é o servidor OLAP que permite aos

usuários do Pentaho analisarem grandes volumes de informações. Ele oferece recursos de exploração de dados tradicionais em OLAP como drill, slice e dice. Na edição Community, a interface com o usuário é provida pelos plugins JPivot e Saiku Analytics. As edi-ções Professional e Enterprise possuem também um plugin proprietário que oferece uma experiência com o usuário fi nal superior à do JPivot e do Saiku, com-parável à usabilidade encontrada nas ferramentas comerciais líderes de mercado. A fi gura 13 apresenta uma janela de análise de lucros por país, utilizando os recursos disponíveis nas versões comerciais do Pentaho.

/ 28

Figura 13. Pentaho Analysis Services (Mondrian).

Pentaho ReportingO Pentaho Reporting Community Edition inclui

o Pentaho Report Designer (fi gura 14), o Pentaho Re-port Engine e o Pentaho Reporting SDK. Trata-se de um ambiente completo para a construção de relató-rios desenvolvido sobre o JFreeReport. Esse ambiente suporta diversas fontes de dados e exporta os relató-rios para PDF, Excel, HTML, texto, texto formatado, XML e csv. O funcionamento do Pentaho Report De-signer é parecido com o da maioria das ferramentas de construção de relatórios. Existem bandas especí-fi cas para as áreas de cabeçalho, corpo e rodapé dos relatórios. O que chama a atenção é a fi delidade com a qual os dados são exportados para os diversos for-matos. Um relatório apresentado em HTML pode ser visto em Excel ou PDF com a mesma formatação.

Figura 14. Pentaho Report Designer.

Community Dashboard Framework Um requisito muito comum em aplicações de BI

é a construção de painéis gerenciais (ou dashboards). Para essa fi nalidade, o Pentaho utiliza do Community Dashboard Framework (CDF). A fi gura 15 apresenta um exemplo de dashboard interativo criado no CDF.

Figura 15. Exemplo de dashboard interativo criado no Community Dashboard Framework (CDF).

Pentaho Data Mining (Weka)O Pentaho Data Mining corresponde à ferramen-

ta a Waikato Environment for Knowledge Analysis (Weka). O Weka oferece uma série de algoritmos clás-sicos de mineração de dados implementados e dispo-níveis para realização de análises avançadas nos da-dos. A fi gura 16 apresenta regras de associação entre os dados reconhecidas por meio do algoritmo Apriori. A fi gura 17 ilustra em um gráfi co 3D as mesmas regras de associação reconhecidas pelo algoritmo Apriori.

Figura 16. Regras de associação entre os dados reconhecidas por meio do algoritmo Apriori.

Figura 17. Regras de associação exibidas em um gráfi co 3D.

29 \

Considerações FinaisEste artigo apresentou uma visão geral do am-

biente Pentaho BI Suite Community Edition, des-crevendo os seus principais componentes. Também foram apresentados conceitos fundamentais de Data Warehousing, OLTP, OLAP e mineração de dados.

Em tempos de crise financeira internacional, muitos projetos de BI, especialmente os executados por empresas de pequeno e médio porte, não dis-põem de orçamentos capazes de patrocinar a aquisi-

ção de ferramentas comerciais com custos elevados. Por outro lado, os recursos de integração de dados e análise de informações oferecidos pelas ferramentas comerciais são muito importantes no desenvolvi-mento de aplicações de BI profissionais. O Pentaho BI Suite Community Edition apresenta-se como uma solução econômica e eficiente para esse problema. A comunidade Pentaho no Brasil é muito forte e exis-tem casos de sucesso muito significativos de aplica-ções profissionais desenvolvidas no Pentaho.

> BARBIERI, C. BI2 - Business Intelligence: modelagem e

qualidade. Rio de Janeiro: Campus, 2011.

> BOUMAN, R.; DONGEN, J. Pentaho Solutions: Business

Intelligence and Data Warehousing with Pentaho and

MySQL. Wiley Publishing. Indianapolis. 2009.

> CAZELLA, S. C. Tecnologias para Inteligência

Competitiva. 1. ed. São Leopoldo: Editora Unisinos. 2011.

> FAYYAD, U.; PIATETSKY-SHAPIRO, G.; SMYTH, P.;

UTHURUSAMY, R. Advances in Knowledge Discovery and

Data Mining. 1996. AAAIPress, The Mit Press.

> GARTNER GROUP. Gartner says more than 50 percent

of data warehouse projects will have limited acceptance or

will be failures through 2007. 2005a. Disponível em http://

www.gartner.com/press_releases/asset_121817_11.html.

Acesso em 01 out. 2011.

> ______. Gartner Survey of 1,300 CIOs Shows IT Budgets

to Increase by 2.5 Percent in 2005. 2005b. Disponível em

http://www.gartner.com/press_releases/asset_117739_11.

html. Acesso em 01 out. 2011.

> ______. Gartner Survey of 1,400 CIOs Shows

Transformation of IT Organisation is Accelerating. 2006.

Disponível em http://www.gartner.com/press_releases/

asset_143678_11.html. Acesso em 01 out. 2011.

> ______. Gartner EXP Survey of More than 1,400 CIOs

Shows CIOs Must Create Leverage to Remain Relevant to

the Business. 2007. Disponível em http://www.gartner.com/

it/page.jsp?id=501189. Acesso em 01 out. 2011.

> ______. Gartner EXP Worldwide Survey of 1,500 CIOs

Shows 85 Percent of CIOs Expect “Significant Change” Over

Next Three Years. 2008. Disponível em http://www.gartner.

com/it/page.jsp?id=587309. Acesso em 01 out. 2011.

> ______. Gartner EXP Worldwide Survey of More than

1,500 CIOs Shows IT Spending to Be Flat in 2009.

2009. Disponível em http://www.gartner.com/it/page.

jsp?id=855612. Acesso em 01 out. 2011.

> ______. Gartner EXP Worldwide Survey of Nearly 1,600

CIOs Shows IT Budgets in 2010 to be at 2005 Levels.

2010. Disponível em http://www.gartner.com/it/page.

jsp?id=1283413. Acesso em 01 out. 2011.

_> _____. Gartner Executive Programs Worldwide Survey of

More Than 2,000 CIOs Identifies Cloud Computing as Top

Technology Priority for CIOs in 2011. 2011. Disponível em

http://www.gartner.com/it/page.jsp?id=1526414. Acesso

em 01 out. 2011.

> KIMBALL, R.; ROSS, M. Data warehouse toolkit: o guia

completo para modelagem dimensional. Rio de Janeiro:

Campus, 2002. 494p.

> NASCIMENTO, GIVANILDO SANTANA. AgileKDD: um

processo ágil para a engenharia de sistemas de descoberta

do conhecimento. Dissertação (Mestrado em Ciência da

Computação) - Universidade Federal de Sergipe, 2012.

> Pentaho Analysis Services (Mondrian) - http://

mondrian.pentaho.com/

> Pentaho BI Platform License FAQ - http://community.

pentaho.com/faq/platform_licensing.php

> Pentaho BI Suite Community Edition - http://

community.pentaho.com/

> Pentaho Data Integration (Kettle) - http://kettle.

pentaho.com/

> Pentaho Data Mining (Weka) - http://weka.pentaho.

com/

> Pentaho Open Source Projects Licenses - http://www.

pentaho.com/license/

> Pentaho Reporting - http://reporting.pentaho.com/

> Planeta Pentaho - http://planetapentaho.com.br/

/referências