Upload
internet
View
103
Download
0
Embed Size (px)
Citation preview
Qualidade de dados na web
Filipe Fernando Cabral de Melo Souza
Roteiro
Qualidade
Qualidade de dados
Critérios da qualidade de dados
Qualidade de dados na web
Aspectos específicos
Proveniência de dados
Importância da proveniência na qualidade de dados
Modelos de proveniência de dados
Qualidade
Segundo Burgess et al. (2004) quase todo mundo sabe o que é, mas poucos conseguem definir
Conceito abstrato
Diferentes interpretações em diferentes ocasiões
Principais definições de qualidade na literatura
JURAN (1990) define qualidade como satisfação do cliente e ausência de defeitos.
Ou seja, qualidade não se resume a falta de defeitos, qualidade depende também das necessidades do cliente e da adequação do produto ao uso.
Principais definições de qualidade na literatura
“Qualidade é tudo aquilo que melhora o produto do ponto de vista do cliente”
(DEMING, 1993).
Então, a percepção que o cliente tem do produto também interfere na qualidade.
Principais definições de qualidade na literatura
“Qualidade é a conformidade do produto com as especificações” (CROSBY, 1979).
Isso significa que as necessidades devem ser especificadas, e a qualidade é possível quando essas especificações são obedecidas.
Principais definições de qualidade na literatura
“Qualidade é uma característica intrínseca e multifacetada de um produto. A relevância de cada faceta pode variar com o contexto e ao
longo do tempo, pois as pessoas podem mudar seus posicionamentos e atualizar seus
referenciais, com relação a um objeto ou a uma questão. Portanto, a qualidade não é absoluta e
depende da perspectiva do avaliador” (BELCHIOR, 1992).
Qualidade de dados
O conceito de qualidade de dados indica o quanto as fontes de dados atendem às demandas de informação
das áreas de negócio. Isso envolve conhecer a qualidade atual de dados, determinar a qualidade desejada de dados e ajustar a qualidade atual em
função da desejada (FILHO, 2003).
Qualidade de dados
Área de estudo recente que vem crescendo consideravelmente
Conceito multidimensional
Muito importante atualmente
Grande volume de dados
Frequência de atualização da informação
Diversas fontes
Qualidade de dados
É um conceito complexo
Varias definições para expressar este conceito
Não se chegou a um consenso sobre um conjunto de critérios
Os critérios usadas para avaliar qualidade variam com o contexto
Fontes de dados
Necessidade e percepção do usuário
Formato dos dados
Aplicação dos dados
Isso dificulta a definição de um conjunto de características gerais para definir qualidade de dados e faz com que seja necessário analisar cada caso
Mas ainda é importante conhecer as características gerais
Critérios de qualidade de dados
Primeira etapa na avaliação da qualidade é a seleção dos critérios
Os critérios mais citados na literatura são:
Acurácia
Completude
Consistência
Confiabilidade
Corretude
Relevância
Atualidade
Critérios da qualidade de dados sob a visão dos principais autores
WAND & WANG (1996) dividem o conjunto de critérios de qualidade em dois grupos:
Visão interna: confiabilidade, temporalidade, completude, atualidade, consistência e precisão
Visão externa: relevância, conteúdo, importância, temporalidade, suficiência, facilidade de uso, utilidade, concisão, clareza, nível de detalhe
Critérios da qualidade de dados sob a visão dos principais autores
Para ECKERSON (2002), os dados não precisam estar completamente livres de erros, ele precisa apenas atender aos requisitos do usuário.
Os principais critérios para ele são:
Acurácia
Integridade
Consistência
Completude
Disponibilidade
Acessibilidade
Relevância
Critérios da qualidade de dados sob a visão dos principais autores
Wang e Strong (1996) definiu uma tabela contendo os critérios de qualidade de dados segundo os consumidores:
Categoria Critérios
Intrínseca Acurácia, objetividade, confiabilidade e reputação
Acessibilidade Acessibilidade e segurança
ContextualRelevância, valor agregado, temporalidade, completude e quantidade apropriada
RepresentacionalFacilidade de interpretação, facilidade de entendimento, consistência e concisão
Qualidade de dados na web
Por causa da natureza diferente da web, é importante analisar com mais cuidado algumas características, pois elas podem tornar necessário modificações no conjunto geral de critérios
Aspectos específicos
Grande volume de dados
Facilidade de prove dados
Diversas fontes
Falta de revisão nos dados publicados
Dinâmica de atualização
Disponibilidade dos dados
Proveniência
Termo usado em diversas áreas
Diz respeito a origem ou procedência
Agrega valor e autenticidade ao objeto
Permite compreensão e avaliação com maior precisão a importância do objeto
Tem como principal fundamento recolher e armazenar informações sobre o objeto
Proveniência de dados
Proveniência de dados é documentação complementar de um determinado dado que contem a
descrição de como, quando, onde e porque ele foi obtido e quem o obteve.
(BUNEMAN et al, 2000)
Proveniência de dados
Vai muito além da origem do dado
Documentação histórica do dado
Criador do dado
Origem do dado
Objetivo do dado
Processo de criação
Histórico de modificações
Dados de origem
Histórico de movimentação entre bancos de dados
Importância e aplicação da proveniência de dados
A proveniência é uma métrica de qualidade importante, pois além de se garantir maior confiança por saber onde e quem produziu o dado, ainda informa como foi o processo de produção, manutenção e por onde o dado passou.
Fica mais fácil de verificar
Erros nos dados
Contexto da criação do dado
Processo para obter o dado
É uma ferramenta importante
Qualidade de dados
Replicação de dados
Investigação de origem
Modelos de Proveniência de dados
Existem vários modelos
Cada um com objetivos e focos diferentes
Tem como objetivo
Nem sempre dados tem informações históricas vinculadas
Fornecer estrutura pra armazenar e recuperar metadados
Modelos de Proveniência de dados
Exemplos de Modelos de proveniência
Provenance Vocabulary
Provenir Ontology
Open Provenance Model (OPM)
Provenance Vocabulary
Descrito por Hartig e Zhao (2010)
Tem como foco proveniência de dados publicados na web
Leva em consideração o caráter aberto da web
Fornece propriedades armazenar e acessar metadados de dados publicados
Flexível
Núcleo central expansível
Possibilidade de se adaptar a diferentes áreas
Possui os elementos básicos de proveniência
Ator
Processo
Dado
Expresso em forma de grafos
Voltado para rastreamento de dados e na web e avaliação de qualidade desses dados
Provenir Ontology
Proposto por Sahoo e Sheth (2009)
Modelo de proveniência de dados genérico
Tem como objetivos principais
Interoperabilidade entre diferentes sistemas
Adaptação para qualquer aplicação
Flexível
Expresso em forma de grafos
Open Provenance Model (OPM)
Open Source
Resultado de uma série de encontros chamados Provenance Challenge
Voltado para proveniência de qualquer objeto
Tem como objetivo principal
Interoperabilidade entre diferentes sistemas
Definir de forma precisa proveniência
Fornecer representação digital de proveniência
Permitir o acesso a essa representação
Expresso através de grafos
Base para outros modelos
PROV-DM
Considerações finais
Qualidade de dados é um tema recente
Cada vez mais surge a necessidade de obter dados de qualidades para embasar decisões
Empresa
Academia
Usuários
Não se tem uma definição padronizada ainda
Dificuldade devido a variação de qualidade de acordo com o contexto
Características como a da web devem ser levada em conta na hora de definir critérios de qualidade
Considerações finais
Proveniência de dados é toda uma documentação histórica sobre o dado
Tem como objetivo
Agregar valor e autenticidade ao dado
Garantir replicabilidade
Rastrear origem
Analise de qualidade de dados
Modelos de proveniência fornecem uma estrutura pra a analise de qualidade de dados
Referências
Almeida, F. Descrição da Proveniência de Dados para Extração de Conhecimentos em Sistemas de Informação de Hemoterapia. Tese apresentada ao Programa Interunidades em Bioinformática. USP, São Paulo, 2012.
Amaral, G. AQUAWARE: Um Ambiente de Suporte à Qualidade de Dados em Data Warehouse. Dissertação de Mestrado. UFRJ, Rio de Janeiro, 2003.
Batini, C.,Scannapieco, M. Data Quality Concepts, Methodologies and Techniques. New York, Springer, 2006.
Barros, R. Qualidade de Informação na Web: Um Prognóstico Fuzzy Baseado em Metadados. Dissertação de Mestrado. UFRJ, Rio de Janeiro, 2009.
Belchior, A. Controle da Qualidade de Software Financeiro. Dissertação de Mestrado. UFRJ, Rio de Janeiro, 1992.
Buneman, P., Khanna, S., Tan, W. Data Provenance: Some Basic Issues. In FST TCS 2000: Proceedings of the 20th Conference on Foundations of Software Technology and Theoretical Computer Science, 2000.
Referências
Burgess, M., Gray, W., Fiddian, N. Quality measures and the information consumer. International Conference on Information Quality, 2004, MIT. Proceedings. Cambridge: MIT, 2004.
Crosby, P. Quality is free. New York: Mcgraw-Hill, 1979.
Filho, J. Transformando Dados Corporativos em Inteligência Competitiva, 1999. Disponível em: http://www.crdshop.com.br/files/artigo131.pdf. Ultimo acesso: 23/11/2014.
Hartig, O., Zhao, J. Publishing and consuming provenance metadata on the web of linked data. Provenance and Annotation of Data and Processes, Springer Berlin Heidelberg, 2010.
Juran, J. Planejando para a qualidade. São Paulo: Pioneira, 1990.
Moreau, L., Groth, P., Miles, S., Vazquez-Salceda, J., Ibbotson, J., Jiang, S., Munroe, S., Rana, O., Schereiber, A., Tan, V., Varga, L. The Provenance of eletronic data. Communications of the ACM 2007, 2007.
NBR ISO 8402: Gestão da qualidade e garantia da qualidade, 1994.
Paula, R. Proveniência de Dados em Workflows de Bioinformática. Dissertação de Mestrado. UnB, Brasília, 2012.
Referências
Sahoo, S., Sheth, A. Provenir ontology: Towards a framework for escience provenance management. Microsoft eScience Workshop, Microsoft Research, v. 1, 2009.
Santos, I. Uma proposta de governança de dados baseada em um método de desenvolvimento de arquitetura empresarial. Dissertação de Mestrado. UFRJ, Rio de Janeiro, 2010.
Simmhan, YL., Plate, B., Gannon, D. A Survey of Data Provenance Techniques. Em Technical Reports TR-618: Computer Science Department; Indiana University, 2005.
Tillman, H. Evaluating Quality on the Net, 2003. Disponível em: http://www.hopetillman.com/findqual.php. Ultimo acesso: 23/11/2014.
Veregin, H., Lanter, D. Data Quality Enhancement Techniques in Layer-Based Geographic Information Systems. Computers, Environment and Urban Systems, 1995.
Wand, Y., Wang, R. Data Quality Dimensions in Ontological Foundations. Communications of the ACM. v. 39, n. 11. November, 1996.
Wang, R., Strong, D. Beyond accuracy: what data quality means to data consumers, Journal of Management Information Systems, 1996.