20
Fundamentos do Método Probabilístico

Fundamentos do Método Probabilístico. Relacioamento de Registros Método Determinístico Método Probabilístico Utilização conjunta de campos comuns presentes

Embed Size (px)

Citation preview

Page 1: Fundamentos do Método Probabilístico. Relacioamento de Registros Método Determinístico Método Probabilístico Utilização conjunta de campos comuns presentes

Fundamentos do Método Probabilístico

Page 2: Fundamentos do Método Probabilístico. Relacioamento de Registros Método Determinístico Método Probabilístico Utilização conjunta de campos comuns presentes

Relacioamento de Registros

Método Determinístico

Método Probabilístico Utilização conjunta de campos comuns presentes em ambos os bancos de dados com o objetivo de identificar o quanto é provável que um par de

registros se refira a um mesmo indivíduo.

Page 3: Fundamentos do Método Probabilístico. Relacioamento de Registros Método Determinístico Método Probabilístico Utilização conjunta de campos comuns presentes

Padronização

Page 4: Fundamentos do Método Probabilístico. Relacioamento de Registros Método Determinístico Método Probabilístico Utilização conjunta de campos comuns presentes

Formação de Links- BlocagemREG NOME SEXO

1 Antonio M2 Maria F3 Lucia F4 Joao M

REG NOME SEXO1 Gustavo M2 Ana F3 Maria F4 Antonio M

REG REG NOME NOME SEXO SEXO1 1 Antonio Gustavo M M1 2 Antonio Ana M F1 3 Antonio Maria M F1 4 Antonio Antonio M M2 1 Maria Gustavo F M2 2 Maria Ana F F2 3 Maria Maria F F2 4 Maria Antonio F M3 1 Lucia Gustavo F M3 2 Lucia Ana F F3 3 Lucia Maria F F3 4 Lucia Antonio F M4 1 Joao Gustavo M M4 2 Joao Ana M F4 3 Joao Maria M F4 4 Joao Antonio M M

REG REG NOME NOME SEXO SEXO1 1 Antonio Gustavo M M1 4 Antonio Antonio M M2 2 Maria Ana F F2 3 Maria Maria F F3 2 Lucia Ana F F3 3 Lucia Maria F F4 1 Joao Gustavo M M4 4 Joao Antonio M M

Page 5: Fundamentos do Método Probabilístico. Relacioamento de Registros Método Determinístico Método Probabilístico Utilização conjunta de campos comuns presentes

Blocagem

Consiste na criação de blocos lógicos de registros dentro dos arquivos a serem relacionados, permitindo que a comparação entre registros se faça de uma forma mais otimizada;

O número de pares possíveis com a combinação de duas bases de dados é igual ao produto entre o número de registros na primeira base e o número de registros na segunda base.

Por exemplo, o relacionamento de duas bases de dados com 10.000 registros cada implicaria na necessidade de comparação de 100.000.000 de pares de registros, o que demandaria um alto custo para o processamento das comparações.

Page 6: Fundamentos do Método Probabilístico. Relacioamento de Registros Método Determinístico Método Probabilístico Utilização conjunta de campos comuns presentes

Blocagem

A blocagem permite que as bases de dados sejam logicamente divididas em blocos mutuamente exclusivos, sendo as comparações limitadas aos registros pertencentes a um mesmo bloco.

Os blocos são constituídos de forma a aumentar a probabilidade de que os registros neles contidos representem pares verdadeiros.

O processo consiste na indexação dos arquivos a serem relacionados segundo uma chave formada por um campo ou pela combinação de mais de um campo. Os registros de um determinado bloco apresentam o mesmo valor para a chave escolhida.

Page 7: Fundamentos do Método Probabilístico. Relacioamento de Registros Método Determinístico Método Probabilístico Utilização conjunta de campos comuns presentes

Blocagem

A chave para a blocagem deve apresentar um grande número de valores que se distribuem de modo relativamente uniforme, buscando, desta maneira, alcançar a divisão do arquivo em um número grande blocos com tamanho reduzido (poucos registros por bloco)

Adicionalmente, os campos que formam a chave devem apresentar baixa probabilidade de ocorrência de erros 8-9. Estes últimos fazem com que os registros relativos a um mesmo indivíduo sejam alocados em blocos diferentes impossibilitando a comparação dos registros, e levando a classificação dos mesmos como falsos não pares.

Page 8: Fundamentos do Método Probabilístico. Relacioamento de Registros Método Determinístico Método Probabilístico Utilização conjunta de campos comuns presentes

Blocagem

Em resumo, deve-se buscar a utilização estratégias de blocagem que minimizem simultaneamente o custo com o processamento e a perda de pares verdadeiros.

O emprego de códigos fonéticos de partes do nome (primeiro e/ou último nome) representa uma alternativa usualmente utilizada, já que as chaves apresentam múltiplos valores com uma ocorrência de erros bem menor do que a seria esperada com o emprego direto do primeiro e/ou do último nome.

O soundex é um dos códigos frequentemente usados para este fim.

Page 9: Fundamentos do Método Probabilístico. Relacioamento de Registros Método Determinístico Método Probabilístico Utilização conjunta de campos comuns presentes

Blocagem

O código soundex é formado por 4 dígitos sendo o primeiro representado pela primeira letra da palavra a ser codificada enquanto os demais são dígitos numéricos codificados segundo as seguintes regras:

1 As letras A, E, I, O, U, H, W e Y são ignoradas.

2 Para as demais letras empregam-se os seguintes códigos numéricos: B, F,P,V – 1; C, G, J, K, Q, S, X, Z - 2; D, T- 3; L - 4; M,N - 5; R-6.

3 Se duas letras contíguas na palavra apresentarem o mesmo código, este só é computado uma única vez. 4 Uma vez que os três dígitos numéricos tenham sido completados as demais letras da palavra são ignoradas.

5 Todos os códigos devem ter 4 dígitos. Sendo assim, para as palavras onde o código inicialmente formado seja constituído por menos do que 3 dígitos numéricos, completa-se os dígitos restantes com zeros.

Page 10: Fundamentos do Método Probabilístico. Relacioamento de Registros Método Determinístico Método Probabilístico Utilização conjunta de campos comuns presentes

Blocagem

Por exemplo, o código soundex da palavra “soundex” é S532 e o do nome “João” é J000. O algoritmo para o soundex encontra-se implementado em alguns gerenciadores de banco de dados, como por exemplo o Visual dBASE (Borland).

Newcombe11 (1967) verificou que o código soundex funciona adequadamente para nomes de diferentes origens, com a exceção de nomes de origem oriental, já que o código ignora vogais e estas representam uma parte importante do poder de discriminação destes nomes.

Page 11: Fundamentos do Método Probabilístico. Relacioamento de Registros Método Determinístico Método Probabilístico Utilização conjunta de campos comuns presentes

Blocagem

Trabalhando com bases de dados nacionais encontramos, entretanto, um problema de inadequação do código soundex para alguns nomes brasileiros que apresentam variações de grafia da primeira sílaba para um mesmo som (por exemplo, Helena x Elena; Jorge x George). Estes nomes são mais sujeitos a erros de registro.

Como o código soundex retém a primeira letra do nome, as diferentes grafias recebem códigos diferentes, sendo consequentemente alocadas em blocos diferentes, o que aumenta a probabilidade da perda de pares verdadeiros.

Page 12: Fundamentos do Método Probabilístico. Relacioamento de Registros Método Determinístico Método Probabilístico Utilização conjunta de campos comuns presentes

Blocagem

- Primeira letra W e segunda A -> Primeira letra passa a V- Primeira letra H -> Deleta primeira letra- Primeira letra K e segunda A, O ou U -> Primeira letra passa a C- Primeira letra Y -> Primeira letra passa a I - Primeira letra C e segunda E ou I -> Primeira letra passa a S

- Primeira letra G e segunda E ou I -> Primeira letra passa a J

Rotina de Padronização

Campos: PBLOCO e UBLOCO

Page 13: Fundamentos do Método Probabilístico. Relacioamento de Registros Método Determinístico Método Probabilístico Utilização conjunta de campos comuns presentes

Últimos nomes mais frequentes na base de óbitos. Município do Rio de Janeiro, 1998.

0.0% 2.0% 4.0% 6.0% 8.0% 10.0% 12.0%

Silva

Santos

Oliveira

Souza

Coeli CM & Camargo JR. Rev Bras. Epidemiol 2002; 5:185-196

Page 14: Fundamentos do Método Probabilístico. Relacioamento de Registros Método Determinístico Método Probabilístico Utilização conjunta de campos comuns presentes

Coeli CM & Camargo JR. Rev Bras. Epidemiol 2002; 5:185-196

Page 15: Fundamentos do Método Probabilístico. Relacioamento de Registros Método Determinístico Método Probabilístico Utilização conjunta de campos comuns presentes

Algoritmos de Comparação

O algoritmo de Levenshtein identifica o número de operações necessárias (ex. inserções, deleções, trocas) para transformar uma cadeia de caracter na outra que se encontra em comparação.

Retorna um resultado que pode variar de zero (concordância total) até o valor máximo, que é igual ao número de caracteres da cadeia com maior tamanho (discordância total).

cadeiamaior da tamanho

Levestein de comparação da resultado - cadeiamaior da tamanho iaConcordânc

Page 16: Fundamentos do Método Probabilístico. Relacioamento de Registros Método Determinístico Método Probabilístico Utilização conjunta de campos comuns presentes

Algoritmos de Comparação

Manoel vs. Manuel

C= (6-1)/6= 5/6=0.833 ou 83,3%

Manoel vs. Manuel

Claudia Medina Coeli vs. Maria Claudia Coeli

C= (20-9)/20= 11/20=0.55 ou 55,5%

Page 17: Fundamentos do Método Probabilístico. Relacioamento de Registros Método Determinístico Método Probabilístico Utilização conjunta de campos comuns presentes

Cálculo Escore

Sim

Não

AlgoritmoPadrão Ouro

Verdadeiro Falso

Verdadeiro Positivo

VPi

Falso Negativo

FNi

Falso Positivo

FPi

Verdadeiro Negativo

VNi

Page 18: Fundamentos do Método Probabilístico. Relacioamento de Registros Método Determinístico Método Probabilístico Utilização conjunta de campos comuns presentes

Cálculo Escore

Carlos Sllatery Mansa vs Carlos Sllatery Mansa

19700702 vs 19611221

wc i=log2VP iFP iConcordância

wd i=log2FN i

VN i

Discordância

Page 19: Fundamentos do Método Probabilístico. Relacioamento de Registros Método Determinístico Método Probabilístico Utilização conjunta de campos comuns presentes

Cálculo EscoreCarlos Sllatery Mansa vs Carlos Sllatery Mansa

19700702 vs 19611221

Nome VPi= 0.92 FPi=0.01

Data Nascimento VNi=0.95 FNi=0.10

log2 (0.92/0.01) + log2(0.10/0.95)=6.523+(-3.247)=3.275

Page 20: Fundamentos do Método Probabilístico. Relacioamento de Registros Método Determinístico Método Probabilístico Utilização conjunta de campos comuns presentes

Linkage - Seleção de ParesPercentual

SCORE-9-4059

0

.3.6.90

4,3Dúvida

ParNão Par