1
Gilberto Pereira Project Manager [email protected] Garbage in, garbage out. Para quem trabalha em projectos de BI, ou em qualquer outra área que contemple alguma componente de integração de dados, esta é uma verdade de La Palice. Traduzindo de uma forma muito simplista, não se pode esperar dados de qualidade como output de um processo, quando os dados de entrada do mesmo não têm a qualidade necessária. O que é então a qualidade dos dados? É a percepção de que esses dados servem os propósitos a que se destinam, tendo em conta o contexto de utilização. Cobre vários aspectos sobre os dados, que vão desde a sua integridade, completude, confiança, correcção, precisão, relevância, consistência, condições de acesso, estado de actualização, e muitos outros. Uma das tarefas de um consultor num projecto de BI é precisamente garantir a qualidade dos dados, por outras palavras, ser responsável pelo “Data Quality Management” do projecto. É nossa responsabilidade explorar a riqueza dos dados que o cliente dispõe, tentando sempre obter outputs de qualidade, mesmo quando os dados disponíveis têm uma qualidade, digamos, duvidosa. E para isso contamos com a ajuda do Data Quality Management Framework, que não é mais do que uma versão do nosso já bem conhecido ciclo de vida das aplicações. A primeira fase é o Data Assessment. É aqui que, após um processo de descoberta e validação dos dados, se decide quais os que não podem ser usados, por não apresentarem a qualidade mínima necessária. É aqui também que se seleccionam os dados que podem ser usados directamente, ou aqueles para os quais são necessárias alterações aos processos de geração, para que possam vir a ser usados. De seguida vem a fase do Data Transformation, onde se definem e implementam os processos de extracção, transformação e carga (ETL) necessários para garantir que temos os dados que necessitamos, onde necessitamos, e no formato que necessitamos. A 3ª fase é a fase de Data Monitoring, onde se certifica que os dados mantêm os critérios de qualidade necessários para cumprir com os objectivos do projecto. No decorrer destes processos de monitorização podem ocorrer necessidades de correcção ou novas descobertas, pelo que o ciclo deve ser reiniciado, transformando assim o Data Quality Management num processo contínuo que só termina verdadeiramente quando a aplicação para a qual foi implementado for descontinuada. Nota: Este texto não se encontra escrito ao abrigo do novo acordo ortográfico. Qualidade dos Dados vs Dados de Qualidade

Qualidade dos Dados vs Dados de Qualidade

Embed Size (px)

DESCRIPTION

Garbage in, garbage out. Para quem trabalha em projectos de BI, ou em qualquer outra área que contemple alguma componente de integração de dados, esta é uma verdade de La Palice. Traduzindo de uma forma muito simplista, não se pode esperar dados de qualidade como output de um processo, quando os dados de entrada do mesmo não têm a qualidade necessária.

Citation preview

Page 1: Qualidade dos Dados vs Dados de Qualidade

Gilberto PereiraProject [email protected]

Garbage in, garbage out. Para quem trabalha em projectos de BI, ou em qualquer outra área que contemple alguma componente de integração de dados, esta é uma verdade de La Palice. Traduzindo de uma forma muito simplista, não se pode esperar dados de qualidade como output de um processo, quando os dados de entrada do mesmo não têm a qualidade necessária.

O que é então a qualidade dos dados? É a percepção de que esses dados servem os propósitos a que se destinam, tendo em conta o contexto de utilização. Cobre vários aspectos sobre os dados, que vão desde a sua integridade, completude, confiança, correcção, precisão, relevância, consistência, condições de acesso, estado de actualização, e muitos outros.

Uma das tarefas de um consultor num projecto de BI é precisamente garantir a qualidade dos dados, por outras palavras, ser responsável pelo “Data Quality Management” do projecto. É nossa responsabilidade explorar a riqueza dos dados que o cliente dispõe, tentando sempre obter outputs de qualidade, mesmo quando

os dados disponíveis têm uma qualidade, digamos, duvidosa. E para isso contamos com a ajuda do Data Quality Management Framework, que não é mais do que uma versão do nosso já bem conhecido ciclo de vida das aplicações.

A primeira fase é o Data Assessment. É aqui que, após um processo de descoberta e validação dos dados, se decide quais os que não podem ser usados, por não apresentarem a qualidade mínima necessária. É aqui também que se seleccionam os dados

que podem ser usados directamente, ou aqueles para os quais são necessárias alterações aos processos de geração, para que possam vir a ser usados.

De seguida vem a fase do Data Transformation, onde se definem e implementam os processos de extracção, transformação e carga (ETL) necessários para garantir que temos os dados que necessitamos, onde necessitamos, e no formato que necessitamos.

A 3ª fase é a fase de Data Monitoring, onde se certifica que os dados mantêm os critérios de qualidade necessários para cumprir com os objectivos do projecto. No decorrer destes processos de monitorização podem ocorrer necessidades de correcção ou novas descobertas, pelo que o ciclo deve ser reiniciado, transformando assim o Data Quality Management num processo contínuo que só termina verdadeiramente quando a aplicação para a qual foi implementado for descontinuada.

Nota: Este texto não se encontra escrito ao abrigo do novo acordo ortográfico.

Qualidade dos Dados vs Dados de Qualidade