epidemiologiA plicAções dA Conquistas e desafios para o ... ?· 795 Achievements and challenges for…

  • View
    212

  • Download
    0

Embed Size (px)

Transcript

  • 795

    Achievements and challenges for employing record linkage techniques in health research and evaluation in Brazil

    AplicAes dA epidemiologiA Conquistas e desafios para o emprego das tcnicas de

    record linkage na pesquisa e avaliao em sade no Brasil*

    Endereo para correspondncia: Cludia Medina Coeli Universidade Federal do Rio de Janeiro, Instituto de Estudos em Sade Coletiva, Av. Horcio Macedo, s/n (Prximo a Prefeitura Universitria da UFRJ), Cidade Universitria, Ilha do Fundo, Rio de Janeiro-RJ, Brasil. CEP: 21941-598 E-mail: coeli@iesc.ufrj.br

    Cludia Medina Coeli1

    Rejane Sobrino Pinheiro1

    Kenneth Rochel de Camargo Jr.2

    1Universidade Federal do Rio de Janeiro, Instituto de Estudos em Sade Coletiva, Rio de janeiro-RJ, Brasil2Universidade do Estado do Rio de Janeiro, Instituto de Medicina Social, Rio de Janeiro-RJ, Brasil

    ResumoObjetivo: A disponibilidade em formato digital de bases epidemiolgicas, administrativas e clnicas, assim como de tc-

    nicas de record linkage (RL) que permitem sua vinculao, consolidaram, nas ltimas dcadas, o uso de dados secundrios na pesquisa e avaliao em sade. Neste artigo, so discutidas as tcnicas de RL, seus aspectos metodolgicos e ticos e sua aplicao para a construo de registros populacionais. Por fim, reflete-se sobre os desafios para a pesquisa baseada no uso de tcnicas de RL no Brasil, em funo da adoo de um novo marco legal para a proteo de dados pessoais. Entre as concluses, ressalta-se a necessidade de formular o quadro de referncia legal e operacional para as atividades de vinculao de bases de dados em nosso pas, quer para a pesquisa, quer para a gesto.

    Palavras-chave: Registro Mdico Coordenado; Bases de Dados como Assunto; Privacidade.

    AbstractObjective: The availability of epidemiological, clinical and administrative databases in digital format, in addition

    to the development of record linkage techniques (RL) which enable researchers to link them together, have helped to consolidate the use of secondary data in health research and evaluation in recent decades. In this article we present a discussion of RL techniques, addressing methodological and ethical aspects as well as their application in building population records. Finally, we consider the challenges for research based on the use of RL techniques in Brazil, due to the adoption of a new legal framework for personal data protection. In conclusion, we emphasize the need to develop a legal and operational framework as a foundation for activities involving record linkage in our country, whether it be for research or managerial purposes.

    Key words: Medical Record Linkage, Databases as Topic; Privacy.

    doi: 10.5123/S1679-49742015000400023

    Epidemiol. Serv. Sade, Braslia, 24(4):795-802, out-dez 2015

    * Os autores recebem bolsa de pesquisa do Conselho Nacional de Desenvolvimento Cientfico e Tecnolgico (CNPq)/Ministrio da Cincia, Tecnologia e Inovao (MCTI) Cludia Medina Coeli, Processo no 304101/2011-7; Rejane Sobrino Pinheiro, Processo no 309728/2012-6; e Kenneth Rochel de Camardo Jr., Processo no 300686/2013-7 e da Fundao de Amparo Pesquisa do Estado do Rio de Janeiro (FAPERJ) Cludia Medina Coeli, Processo no E26/102.771/2012; e Kenneth Rochel de Camardo Jr., Processo no E-26/102.900/2012.

  • 796 Epidemiol. Serv. Sade, Braslia, 24(4):795-802, out-dez 2015

    Record linkage & Sade Coletiva

    Introduo

    Nos ltimos anos, ocorreu uma expanso sem pre-cedentes do acervo de dados disponveis para utiliza-o na pesquisa, vigilncia e avaliao em sade. Esse crescimento resultado do aumento do uso da internet no acesso a informaes, participao em redes sociais e utilizao de aplicativos web, especialmente desde dispositivos mveis. Termos como big data, minerao de dados (data mining), de texto (text mining) e da web (web mining) passaram a fazer parte do vocabu-lrio da pesquisa em sade populacional.1

    indiscutvel que o maior volume e variedade de dados, juntamente com a aplicao de tcnicas para extrao de conhecimento, contribui para a pesquisa e avaliao em sade. Entretanto, alguns problemas podem limitar os ganhos potenciais do uso desse rico acervo de dados. O perfil selecionado de usurios dos servios disponveis na internet, a aplicao pelos gestores desses servios de filtros que no so divulgados e a vulnerabilidade para a identificao de correlaes entre eventos explicados somente pelo acaso so questes que devem ser consideradas.2,3 Iniciativas como, por exemplo, o programa Big Data to Knowledge (BD2K), implementado pelo National Institute of Health dos Estados Unidos da Amrica (NIH/USA), buscam explorar o potencial do big data na pesquisa em sade populacional.4

    Ainda que a era do big data em sade se encontre em seu estgio inicial,5 a disponibilidade em formato digital de bases epidemiolgicas, administrativas e clnicas, assim como de tcnicas de record linkage que permitem sua vinculao, consolidaram, nas ltimas dcadas, o uso de dados secundrios na pesquisa e avaliao em sade.

    Este artigo tem por objetivo discutir as tcnicas de record linkage, seus aspectos metodolgicos e ticos, assim como sua aplicao na construo de registros populacionais. Por fim, feita uma reflexo sobre os

    desafios para a pesquisa baseada no uso de tcnicas de RL no Brasil.

    Record linkage

    Record linkage (RL) o processo de (i) combinao de registros de um mesmo indivduo presentes em duas bases de dados distintas, ou de (ii) identificao, em uma mesma base, de registros que se referem ao mesmo indivduo.6

    A combinao de bases de dados traz como vantagem permitir que hipteses etiolgicas possam ser melhor explo-radas com o uso de dados secundrios, uma vez que torna disponvel para anlise um conjunto maior de variveis, faci-litando o ajuste para variveis de confuso. Outra vantagem da aplicao do RL possibilitar a realizao de estudos longitudinais, retrospectivos ou prospectivos.7 Pode-se, inclusive, acompanhar a ocorrncia de eventos de sade no curso de vida de um indivduo, desde o nascimento at a morte.8 O RL tambm empregado na melhora da qualida-de de dados de bases de sade, permitindo a identificao e eliminao de registros duplicados, o preenchimento de dados faltantes, a correo de campos registrados com valores no vlidos, assim como a correo de subregistro.9

    Tcnicas de RL

    Quando as bases a serem vinculadas apresentam um identificador unvoco, o RL relativamente simples, pois a maioria dos programas gerenciadores de bases de dados e dos pacotes estatsticos trazem comandos para a realizao da vinculao baseada em um campo-chave. Entretanto, a maioria das bases de interesse para estudos na rea de sade no apresenta um identificador unvoco comum, sendo necessrio empregar mltiplos campos que armazenam dados pessoais. Nesse caso, o RL envolve vrias etapas, empregando distintas estratgias em cada uma delas. Uma discusso abrangente e atualizada sobre as diferentes estratgias disponveis pode ser encontrada no livro de Peter Christen.6 So apresentadas a seguir, de forma resumida, as principais etapas envolvidas em RL.

    A primeira etapa consiste no pr-processamento das bases, que abrange a limpeza de dados, a padroniza-o de contedos e formatos, a quebra dos campos nome e endereo em seus componentes (parsing) e a criao de cdigos fonticos. O pr-processamento realizado apenas uma vez em cada base, e as bases limpas e padronizadas resultantes podem ser utilizadas em projetos futuros de vinculao de dados.

    A disponibilidade em formato digital de bases epidemiolgicas, administrativas e clnicas, assim como de tcnicas de record linkage que permitem sua vinculao, consolidaram, nas ltimas dcadas, o uso de dados secundrios na pesquisa e avaliao em sade.

  • 797 Epidemiol. Serv. Sade, Braslia, 24(4):795-802, out-dez 2015

    Cludia Medina Coeli e colaboradores

    A etapa seguinte vem a ser a indexao ou blocagem (do termo em ingls blocking), com o propsito de reduzir o nmero de links de registros que sero enviados para comparao e classificao. O processo tradicional consiste em particionar os dois arquivos, relativamente aos valores de um ou mais campos constitutivos da chave de indexao por exemplo: sexo + cdigo fontico do primeiro nome + cdigo fontico do ltimo nome. As comparaes de registros so, ento, restritas a registros que concordam no valor dessa chave. A indexao um trade-off entre comparar muitos pares de registros e a vulnerabilidade perda de links verdadeiros. Com o objetivo de mini-mizar essas perdas, os projetos de vinculao de bases so realizados em mltiplos passos, empregando-se, em cada um deles, uma chave de indexao formada por uma combinao diferente de campos.

    Os links formados na etapa anterior so proces-sados nas etapas de comparao e classificao. Na comparao, so empregadas funes exatas ou apro-ximadas, que indicam semelhana entre dois atributos (concordncia parcial). As funes de comparao so especficas para cada tipo de dado por exemplo: cadeias de caracteres, nmeros, datas. Para cada link de registros, o resultado relativo similaridade de cada atributo armazenado em um vetor numrico. Finalmente, o vetor de similaridade empregado no processo de classificao automtica, considerando-se que se a semelhana entre dois registros to evidente, o mais provvel ambos os registros referirem-se ao mesmo indivduo. O resultado final a classificao do link em par verdadeiro ou falso; seno, em caso de dvida sobre o par, os registros so encaminhados para reviso manual.

    As tcnicas de linkage mais frequentemente empregadas so a determinstica e a probabilstica. As tcnicas determinsticas usam funes exatas de comparao e abordagem classificatria fundada em regras definidas e baseadas em conhecimento especializado, sendo necessrio desenvolver rotinas de computao especficas para cada projeto. J a tcnica probabilstica, baseada no modelo de Fellegi & Sunter,10 uti