Upload
others
View
5
Download
0
Embed Size (px)
Citation preview
Introdução Anonimização Estado da Arte Resumo
Estudo de Casos sobre Privacidade eTransparência na Publicação de Dados
Gabriel Henrique Nunes
EVCOMP 2020
Departamento de Ciência da ComputaçãoUniversidade Federal de Minas Gerais
17 de Fevereiro de 2020
Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais
Introdução Anonimização Estado da Arte Resumo
IntroduçãoTransparênciaPrivacidade
AnonimizaçãoDesidentificação e PseudonimizaçãoMétodos DeterminísticosMétodos Probabilísticos
Estado da ArteGoogle, Microsoft, e AppleUS Census Bureau
Resumo
Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais
Introdução Anonimização Estado da Arte Resumo
Transparência
Introdução
Transparência
Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais
Introdução Anonimização Estado da Arte Resumo
Transparência
A Importância da Publicação de Dados
The actual Enumeration shall be made within three Years after the firstMeeting of the Congress of the United States, and within every subsequent
Term of ten Years, in such Manner as they shall by Law direct.
Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais
Introdução Anonimização Estado da Arte Resumo
Transparência
A Importância da Publicação de Dados
PlanejamentoI Políticas públicas
I Representação políticaI Distribuição de fundos
I Investimentos privados
Pesquisas científicasI DemografiaI Economia
Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais
Introdução Anonimização Estado da Arte Resumo
Transparência
A Importância da Publicação de Dados
PlanejamentoI Políticas públicas
I Representação política
I Distribuição de fundos
I Investimentos privados
Pesquisas científicasI DemografiaI Economia
Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais
Introdução Anonimização Estado da Arte Resumo
Transparência
A Importância da Publicação de Dados
PlanejamentoI Políticas públicas
I Representação políticaI Distribuição de fundos
I Investimentos privados
Pesquisas científicasI DemografiaI Economia
Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais
Introdução Anonimização Estado da Arte Resumo
Transparência
A Importância da Publicação de Dados
PlanejamentoI Políticas públicas
I Representação políticaI Distribuição de fundos
I Investimentos privados
Pesquisas científicasI DemografiaI Economia
Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais
Introdução Anonimização Estado da Arte Resumo
Transparência
A Importância da Publicação de Dados
PlanejamentoI Políticas públicas
I Representação políticaI Distribuição de fundos
I Investimentos privados
Pesquisas científicasI DemografiaI Economia
Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais
Introdução Anonimização Estado da Arte Resumo
Transparência
A Importância da Publicação de Dados
PlanejamentoI Políticas públicas
I Representação políticaI Distribuição de fundos
I Investimentos privados
Pesquisas científicasI DemografiaI Economia
US Code Titles 13 & 14
Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais
Introdução Anonimização Estado da Arte Resumo
Transparência
A Importância da Publicação de Dados
PlanejamentoI Políticas públicas
I Representação políticaI Distribuição de fundos
I Investimentos privados
Pesquisas científicasI DemografiaI Economia
Legislação específica(1968)
Lei de Acesso à Informação(2011)
Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais
Introdução Anonimização Estado da Arte Resumo
Transparência
A Importância da Publicação de Dados
PlanejamentoI Políticas públicas
I Representação políticaI Distribuição de fundos
I Investimentos privados
Pesquisas científicasI DemografiaI Economia
Princípios Fundamentais dasEstatísticas Oficiais
(2014)
Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais
Introdução Anonimização Estado da Arte Resumo
Privacidade
Introdução
Privacidade
Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais
Introdução Anonimização Estado da Arte Resumo
Privacidade
O Problema da Publicação de Dados
Princípio 6. Os dados individuais coletados pelos órgãos esta-tísticos para a elaboração de estatísticas, sejam eles referentes apessoas físicas ou jurídicas, devem ser estritamente confidenciaise utilizados exclusivamente para fins estatísticos.
Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais
Introdução Anonimização Estado da Arte Resumo
Privacidade
O Problema da Publicação de Dados
Princípio 6. Os dados individuais coletados pelos órgãos esta-tísticos para a elaboração de estatísticas, sejam eles referentes apessoas físicas ou jurídicas, devem ser estritamente confidenciaise utilizados exclusivamente para fins estatísticos.
Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais
Introdução Anonimização Estado da Arte Resumo
Privacidade
O Problema da Publicação de Dados
A Importância da ConfidencialidadeI Precisão dos dados coletados
I Justiça (Fairness)I Direitos fundamentaisI Democracia
Entretanto, garanti-la não é simplesI Dados sensíveisI Quasi-identificadores
Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais
Introdução Anonimização Estado da Arte Resumo
Privacidade
O Problema da Publicação de Dados
A Importância da ConfidencialidadeI Precisão dos dados coletadosI Justiça (Fairness)
I Direitos fundamentaisI Democracia
Entretanto, garanti-la não é simplesI Dados sensíveisI Quasi-identificadores
Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais
Introdução Anonimização Estado da Arte Resumo
Privacidade
O Problema da Publicação de Dados
A Importância da ConfidencialidadeI Precisão dos dados coletadosI Justiça (Fairness)I Direitos fundamentais
I Democracia
Entretanto, garanti-la não é simplesI Dados sensíveisI Quasi-identificadores
Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais
Introdução Anonimização Estado da Arte Resumo
Privacidade
O Problema da Publicação de Dados
A Importância da ConfidencialidadeI Precisão dos dados coletadosI Justiça (Fairness)I Direitos fundamentaisI Democracia
Entretanto, garanti-la não é simplesI Dados sensíveisI Quasi-identificadores
Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais
Introdução Anonimização Estado da Arte Resumo
Privacidade
O Problema da Publicação de Dados
A Importância da ConfidencialidadeI Precisão dos dados coletadosI Justiça (Fairness)I Direitos fundamentaisI Democracia
Entretanto, garanti-la não é simples
I Dados sensíveisI Quasi-identificadores
Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais
Introdução Anonimização Estado da Arte Resumo
Privacidade
O Problema da Publicação de Dados
A Importância da ConfidencialidadeI Precisão dos dados coletadosI Justiça (Fairness)I Direitos fundamentaisI Democracia
Entretanto, garanti-la não é simplesI Dados sensíveis
I Quasi-identificadores
Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais
Introdução Anonimização Estado da Arte Resumo
Privacidade
O Problema da Publicação de Dados
A Importância da ConfidencialidadeI Precisão dos dados coletadosI Justiça (Fairness)I Direitos fundamentaisI Democracia
Entretanto, garanti-la não é simplesI Dados sensíveisI Quasi-identificadores
Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais
Introdução Anonimização Estado da Arte Resumo
Privacidade
Confidencialidade e Privacidade
ConfidencialidadeEnvolve um conjunto de regras ou uma promessa que limitam oacesso ou impõem restrições a certos tipos de informações
I Usualmente utilizado no relacionamento com médicos,advogados, ou instituições financeiras
PrivacidadeCapacidade de isolar a si mesmo ou de isolar informações sobre simesmo e, assim, expressar-se de maneira seletiva
I Utilizado na Legislação mais recente sobre dados pessoais
Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais
Introdução Anonimização Estado da Arte Resumo
Privacidade
Confidencialidade e Privacidade
ConfidencialidadeEnvolve um conjunto de regras ou uma promessa que limitam oacesso ou impõem restrições a certos tipos de informações
I Usualmente utilizado no relacionamento com médicos,advogados, ou instituições financeiras
PrivacidadeCapacidade de isolar a si mesmo ou de isolar informações sobre simesmo e, assim, expressar-se de maneira seletiva
I Utilizado na Legislação mais recente sobre dados pessoais
Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais
Introdução Anonimização Estado da Arte Resumo
Privacidade
Confidencialidade e Privacidade
ConfidencialidadeEnvolve um conjunto de regras ou uma promessa que limitam oacesso ou impõem restrições a certos tipos de informações
I Usualmente utilizado no relacionamento com médicos,advogados, ou instituições financeiras
PrivacidadeCapacidade de isolar a si mesmo ou de isolar informações sobre simesmo e, assim, expressar-se de maneira seletiva
I Utilizado na Legislação mais recente sobre dados pessoais
Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais
Introdução Anonimização Estado da Arte Resumo
Privacidade
Confidencialidade e Privacidade
ConfidencialidadeEnvolve um conjunto de regras ou uma promessa que limitam oacesso ou impõem restrições a certos tipos de informações
I Usualmente utilizado no relacionamento com médicos,advogados, ou instituições financeiras
PrivacidadeCapacidade de isolar a si mesmo ou de isolar informações sobre simesmo e, assim, expressar-se de maneira seletiva
I Utilizado na Legislação mais recente sobre dados pessoais
Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais
Introdução Anonimização Estado da Arte Resumo
Privacidade
Lei Geral de Proteção de Dados Pessoais (LGPD)
Dados pessoais são coletados:I por governos
I por empresas privadasI para publicaçãoI para uso interno
LGPDI Entra em vigor em Agosto de 2020
I O que são dados pessoais?
Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais
Introdução Anonimização Estado da Arte Resumo
Privacidade
Lei Geral de Proteção de Dados Pessoais (LGPD)
Dados pessoais são coletados:I por governosI por empresas privadas
I para publicaçãoI para uso interno
LGPDI Entra em vigor em Agosto de 2020
I O que são dados pessoais?
Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais
Introdução Anonimização Estado da Arte Resumo
Privacidade
Lei Geral de Proteção de Dados Pessoais (LGPD)
Dados pessoais são coletados:I por governosI por empresas privadasI para publicação
I para uso internoLGPDI Entra em vigor em Agosto de 2020
I O que são dados pessoais?
Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais
Introdução Anonimização Estado da Arte Resumo
Privacidade
Lei Geral de Proteção de Dados Pessoais (LGPD)
Dados pessoais são coletados:I por governosI por empresas privadasI para publicaçãoI para uso interno
LGPDI Entra em vigor em Agosto de 2020
I O que são dados pessoais?
Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais
Introdução Anonimização Estado da Arte Resumo
Privacidade
Lei Geral de Proteção de Dados Pessoais (LGPD)
Dados pessoais são coletados:I por governosI por empresas privadasI para publicaçãoI para uso interno
LGPDI Entra em vigor em Agosto de 2020
I O que são dados pessoais?
Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais
Introdução Anonimização Estado da Arte Resumo
Privacidade
Lei Geral de Proteção de Dados Pessoais (LGPD)
Dados pessoais são coletados:I por governosI por empresas privadasI para publicaçãoI para uso interno
LGPDI Entra em vigor em Agosto de 2020I O que são dados pessoais?
Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais
Introdução Anonimização Estado da Arte Resumo
Privacidade
Lei Geral de Proteção de Dados Pessoais (LGPD)
Dados pessoais são coletados:I por governosI por empresas privadasI para publicaçãoI para uso interno
LGPDI Entra em vigor em Agosto de 2020I O que são dados pessoais?
Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais
Introdução Anonimização Estado da Arte Resumo
Privacidade
Possíveis Soluções
O problema é a forma de acesso aos dados. Eles deveriam seranonimos. A cada pessoa se atribui um código, um ID, e as-sim as pessoas que lidam com o banco de dados nao tem acessoàs informações em nível pessoal. Td criptografado. Assim seevita invasao de privacidade, stalker, etc
- Usuário do Twitter
Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais
Introdução Anonimização Estado da Arte Resumo
Privacidade
Possíveis Soluções
O problema é a forma de acesso aos dados. Eles deveriam seranonimos. A cada pessoa se atribui um código, um ID, e as-sim as pessoas que lidam com o banco de dados nao tem acessoàs informações em nível pessoal. Td criptografado. Assim seevita invasao de privacidade, stalker, etc
- Usuário do Twitter
Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais
Introdução Anonimização Estado da Arte Resumo
Privacidade
Possíveis Soluções
Controle de acesso
I Evita acesso não autorizadoI Evita vazamento de informaçõesI Não protegem contra inferência
quando os dados são acessíveis
Anonimização
I Diversos métodos propostosI Diversos vetores de ataque já
demonstrados
Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais
Introdução Anonimização Estado da Arte Resumo
Privacidade
Possíveis Soluções
Controle de acesso
I Evita acesso não autorizadoI Evita vazamento de informaçõesI Não protegem contra inferência
quando os dados são acessíveisAnonimização
I Diversos métodos propostosI Diversos vetores de ataque já
demonstrados
Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais
Introdução Anonimização Estado da Arte Resumo
Privacidade
Possíveis Soluções
Controle de acessoI Evita acesso não autorizado
I Evita vazamento de informaçõesI Não protegem contra inferência
quando os dados são acessíveisAnonimização
I Diversos métodos propostosI Diversos vetores de ataque já
demonstrados
Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais
Introdução Anonimização Estado da Arte Resumo
Privacidade
Possíveis Soluções
Controle de acessoI Evita acesso não autorizadoI Evita vazamento de informações
I Não protegem contra inferênciaquando os dados são acessíveis
Anonimização
I Diversos métodos propostosI Diversos vetores de ataque já
demonstrados
Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais
Introdução Anonimização Estado da Arte Resumo
Privacidade
Possíveis Soluções
Controle de acesso e CriptografiaI Evitam acesso não autorizadoI Evitam vazamento de informações
I Não protegem contra inferênciaquando os dados são acessíveis
Anonimização
I Diversos métodos propostosI Diversos vetores de ataque já
demonstrados
Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais
Introdução Anonimização Estado da Arte Resumo
Privacidade
Possíveis Soluções
Controle de acesso e CriptografiaI Evitam acesso não autorizadoI Evitam vazamento de informaçõesI Não protegem contra inferência
quando os dados são acessíveis
Anonimização
I Diversos métodos propostosI Diversos vetores de ataque já
demonstrados
Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais
Introdução Anonimização Estado da Arte Resumo
Privacidade
Possíveis Soluções
Controle de acesso e CriptografiaI Evitam acesso não autorizadoI Evitam vazamento de informaçõesI Não protegem contra inferência
quando os dados são acessíveisAnonimizaçãoI Diversos métodos propostos
I Diversos vetores de ataque jádemonstrados
Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais
Introdução Anonimização Estado da Arte Resumo
Privacidade
Possíveis Soluções
Controle de acesso e CriptografiaI Evitam acesso não autorizadoI Evitam vazamento de informaçõesI Não protegem contra inferência
quando os dados são acessíveisAnonimizaçãoI Diversos métodos propostosI Diversos vetores de ataque já
demonstrados
Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais
Introdução Anonimização Estado da Arte Resumo
Desidentificação e Pseudonimização
Anonimização
Desidentificação ePseudonimização
Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais
Introdução Anonimização Estado da Arte Resumo
Desidentificação e Pseudonimização
Desidentificação ou Anonimização "inocente"
DefiniçãoUma base de dados é dita anônima se dela foram retirados osidentificadores diretos dos indivíduos
ExemplosNome, números únicos de identificação (CPF, RG), endereço, etcEntretanto, a definição de identificadores diretos é muito flexível
Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais
Introdução Anonimização Estado da Arte Resumo
Desidentificação e Pseudonimização
Desidentificação ou Anonimização "inocente"
DefiniçãoUma base de dados é dita anônima se dela foram retirados osidentificadores diretos dos indivíduos
ExemplosNome, números únicos de identificação (CPF, RG), endereço, etc
Entretanto, a definição de identificadores diretos é muito flexível
Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais
Introdução Anonimização Estado da Arte Resumo
Desidentificação e Pseudonimização
Desidentificação ou Anonimização "inocente"
DefiniçãoUma base de dados é dita anônima se dela foram retirados osidentificadores diretos dos indivíduos
ExemplosNome, números únicos de identificação (CPF, RG), endereço, etcEntretanto, a definição de identificadores diretos é muito flexível
Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais
Introdução Anonimização Estado da Arte Resumo
Desidentificação e Pseudonimização
Exemplo de Desidentificação
Nome Idade Condição1 Jon Snow 30 Resfriado2 Jamie Lannister 39 Mão amputada3 Arya Stark 16 Dor de estômago4 Bran Stark 14 Paraplegia5 Eddad Stark 32 Dor de cabeça6 Ramsay Bolton 32 Psicopatia7 Daenerys Targaryen 25 Mania de grandeza
Catuscia Palamidessi, Kostas Chatzikokolakis
Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais
Introdução Anonimização Estado da Arte Resumo
Desidentificação e Pseudonimização
Exemplo de Desidentificação
Nome Idade Condição1 * 30 Resfriado2 * 39 Mão amputada3 * 16 Dor de estômago4 * 14 Paraplegia5 * 32 Dor de cabeça6 * 32 Psicopatia7 * 25 Mania de grandeza
Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais
Introdução Anonimização Estado da Arte Resumo
Desidentificação e Pseudonimização
Quasi-identificadores
DefiniçãoAtributos que podem ser vinculados a informações externas paraidentificar indivíduos unicamente
ObservaçãoDefinir o conjunto de quasi-identificadores para uma dadapublicação ainda é uma questão em aberto
Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais
Introdução Anonimização Estado da Arte Resumo
Desidentificação e Pseudonimização
Quasi-identificadores
DefiniçãoAtributos que podem ser vinculados a informações externas paraidentificar indivíduos unicamente
ObservaçãoDefinir o conjunto de quasi-identificadores para uma dadapublicação ainda é uma questão em aberto
Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais
Introdução Anonimização Estado da Arte Resumo
Desidentificação e Pseudonimização
Sweeney’s Linkage Attack (1998)
DB1: Contémdados sensíveis(anonimizada)
DB2: Coleçãopública de dadosnão sensíveis Informações
auxiliares
Algoritmo para relacionar informações
Registro(s) reidentificado(s)
Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais
Introdução Anonimização Estado da Arte Resumo
Desidentificação e Pseudonimização
Sweeney’s Linkage Attack (1998)
DB1: Contémdados sensíveis(anonimizada)
DB2: Coleçãopública de dadosnão sensíveis
Informaçõesauxiliares
Algoritmo para relacionar informações
Registro(s) reidentificado(s)
Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais
Introdução Anonimização Estado da Arte Resumo
Desidentificação e Pseudonimização
Sweeney’s Linkage Attack (1998)
DB1: Contémdados sensíveis(anonimizada)
DB2: Coleçãopública de dadosnão sensíveis Informações
auxiliares
Algoritmo para relacionar informações
Registro(s) reidentificado(s)
Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais
Introdução Anonimização Estado da Arte Resumo
Desidentificação e Pseudonimização
Sweeney’s Linkage Attack (1998)
DB1: Contémdados sensíveis(anonimizada)
DB2: Coleçãopública de dadosnão sensíveis Informações
auxiliares
Algoritmo para relacionar informações
Registro(s) reidentificado(s)
Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais
Introdução Anonimização Estado da Arte Resumo
Desidentificação e Pseudonimização
Sweeney’s Linkage Attack (1998)
DB1: Contémdados sensíveis(anonimizada)
DB2: Coleçãopública de dadosnão sensíveis Informações
auxiliares
Algoritmo para relacionar informações
Registro(s) reidentificado(s)
Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais
Introdução Anonimização Estado da Arte Resumo
Desidentificação e Pseudonimização
Sweeney’s Linkage Attack na Prática
Base 1: Dados médicos
EtniaData da visitaDiagnósticoProcedimentoMedicamento
Valor
Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais
Introdução Anonimização Estado da Arte Resumo
Desidentificação e Pseudonimização
Sweeney’s Linkage Attack na Prática
Base 1: Dados médicos
EtniaData da visitaDiagnósticoProcedimentoMedicamento
Valor
GêneroAniversário
CEP
Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais
Introdução Anonimização Estado da Arte Resumo
Desidentificação e Pseudonimização
Sweeney’s Linkage Attack na Prática
Base 2: Lista de eleitores
NomeEndereço
Data de registroÚltima eleição
Partido
Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais
Introdução Anonimização Estado da Arte Resumo
Desidentificação e Pseudonimização
Sweeney’s Linkage Attack na Prática
Base 2: Lista de eleitores
NomeEndereço
Data de registroÚltima eleição
Partido
GêneroAniversário
CEP
Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais
Introdução Anonimização Estado da Arte Resumo
Desidentificação e Pseudonimização
Sweeney’s Linkage Attack na Prática
Base 1: Dados médicos
EtniaData da visitaDiagnósticoProcedimentoMedicamento
Valor
Base 2: Lista de eleitores
NomeEndereço
Data de registroÚltima eleição
Partido
GêneroAniversário
CEP
Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais
Introdução Anonimização Estado da Arte Resumo
Desidentificação e Pseudonimização
Sweeney’s Linkage Attack na Prática
ConclusõesI Com apenas gênero, data de aniversário, e CEP, Sweeney
foi capaz de reidentificar o governador de Massachusetts
I O mesmo foi possível para 87% da população dos EUA,também unicamente identificável pelos mesmos atributos
Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais
Introdução Anonimização Estado da Arte Resumo
Desidentificação e Pseudonimização
Sweeney’s Linkage Attack na Prática
ConclusõesI Com apenas gênero, data de aniversário, e CEP, Sweeney
foi capaz de reidentificar o governador de MassachusettsI O mesmo foi possível para 87% da população dos EUA,
também unicamente identificável pelos mesmos atributos
Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais
Introdução Anonimização Estado da Arte Resumo
Desidentificação e Pseudonimização
Pseudonimização
DefiniçãoUma base de dados é dita pseudonimizada se dela foram retiradosos identificadores diretos dos indivíduos em substituição por umcódigo único para cada indivíduo
Entretanto...I Apresenta os mesmos problemas que a Desidentificação
I Publicação de dados longitudinais no tempo
I Pseudonimização é ainda pior do que DesidentificaçãoI Facilita a reidentificação ao longo do tempo
Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais
Introdução Anonimização Estado da Arte Resumo
Desidentificação e Pseudonimização
Pseudonimização
DefiniçãoUma base de dados é dita pseudonimizada se dela foram retiradosos identificadores diretos dos indivíduos em substituição por umcódigo único para cada indivíduo
Entretanto...I Apresenta os mesmos problemas que a Desidentificação
I Publicação de dados longitudinais no tempo
I Pseudonimização é ainda pior do que DesidentificaçãoI Facilita a reidentificação ao longo do tempo
Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais
Introdução Anonimização Estado da Arte Resumo
Desidentificação e Pseudonimização
Pseudonimização
DefiniçãoUma base de dados é dita pseudonimizada se dela foram retiradosos identificadores diretos dos indivíduos em substituição por umcódigo único para cada indivíduo
Entretanto...I Apresenta os mesmos problemas que a DesidentificaçãoI Publicação de dados longitudinais no tempo
I Pseudonimização é ainda pior do que DesidentificaçãoI Facilita a reidentificação ao longo do tempo
Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais
Introdução Anonimização Estado da Arte Resumo
Desidentificação e Pseudonimização
Pseudonimização
DefiniçãoUma base de dados é dita pseudonimizada se dela foram retiradosos identificadores diretos dos indivíduos em substituição por umcódigo único para cada indivíduo
Entretanto...I Apresenta os mesmos problemas que a DesidentificaçãoI Publicação de dados longitudinais no tempo
I Pseudonimização é ainda pior do que Desidentificação
I Facilita a reidentificação ao longo do tempo
Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais
Introdução Anonimização Estado da Arte Resumo
Desidentificação e Pseudonimização
Pseudonimização
DefiniçãoUma base de dados é dita pseudonimizada se dela foram retiradosos identificadores diretos dos indivíduos em substituição por umcódigo único para cada indivíduo
Entretanto...I Apresenta os mesmos problemas que a DesidentificaçãoI Publicação de dados longitudinais no tempo
I Pseudonimização é ainda pior do que DesidentificaçãoI Facilita a reidentificação ao longo do tempo
Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais
Introdução Anonimização Estado da Arte Resumo
Desidentificação e Pseudonimização
Exemplo de Pseudonimização
I Divulgou 20 milhões de pesquisas realizadas pormais de 650 mil usuários ao longo de três meses
I Objetivo era fomentar pesquisas científicasI Os dados foram liberados para toda a InternetI The New York Times cruzou as pesquisas de um
usuário com listas telefônicas
I “60 anos de idade”, “homens solteiros”, “cão queurina em tudo”, “paisagistas em Lilburn, GA”
I Reidentificou Thelma Arnold, viúva de 62 anos,com três cães, de Lilburn, Geórgia
Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais
Introdução Anonimização Estado da Arte Resumo
Desidentificação e Pseudonimização
Exemplo de Pseudonimização
I Divulgou 20 milhões de pesquisas realizadas pormais de 650 mil usuários ao longo de três meses
I Objetivo era fomentar pesquisas científicasI Os dados foram liberados para toda a InternetI The New York Times cruzou as pesquisas de um
usuário com listas telefônicas
I “60 anos de idade”, “homens solteiros”, “cão queurina em tudo”, “paisagistas em Lilburn, GA”
I Reidentificou Thelma Arnold, viúva de 62 anos,com três cães, de Lilburn, Geórgia
Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais
Introdução Anonimização Estado da Arte Resumo
Desidentificação e Pseudonimização
Exemplo de Pseudonimização
I Divulgou 20 milhões de pesquisas realizadas pormais de 650 mil usuários ao longo de três meses
I Objetivo era fomentar pesquisas científicas
I Os dados foram liberados para toda a InternetI The New York Times cruzou as pesquisas de um
usuário com listas telefônicas
I “60 anos de idade”, “homens solteiros”, “cão queurina em tudo”, “paisagistas em Lilburn, GA”
I Reidentificou Thelma Arnold, viúva de 62 anos,com três cães, de Lilburn, Geórgia
Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais
Introdução Anonimização Estado da Arte Resumo
Desidentificação e Pseudonimização
Exemplo de Pseudonimização
I Divulgou 20 milhões de pesquisas realizadas pormais de 650 mil usuários ao longo de três meses
I Objetivo era fomentar pesquisas científicasI Os dados foram liberados para toda a Internet
I The New York Times cruzou as pesquisas de umusuário com listas telefônicas
I “60 anos de idade”, “homens solteiros”, “cão queurina em tudo”, “paisagistas em Lilburn, GA”
I Reidentificou Thelma Arnold, viúva de 62 anos,com três cães, de Lilburn, Geórgia
Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais
Introdução Anonimização Estado da Arte Resumo
Desidentificação e Pseudonimização
Exemplo de Pseudonimização
I Divulgou 20 milhões de pesquisas realizadas pormais de 650 mil usuários ao longo de três meses
I Objetivo era fomentar pesquisas científicasI Os dados foram liberados para toda a InternetI The New York Times cruzou as pesquisas de um
usuário com listas telefônicas
I “60 anos de idade”, “homens solteiros”, “cão queurina em tudo”, “paisagistas em Lilburn, GA”
I Reidentificou Thelma Arnold, viúva de 62 anos,com três cães, de Lilburn, Geórgia
Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais
Introdução Anonimização Estado da Arte Resumo
Desidentificação e Pseudonimização
Exemplo de Pseudonimização
I Divulgou 20 milhões de pesquisas realizadas pormais de 650 mil usuários ao longo de três meses
I Objetivo era fomentar pesquisas científicasI Os dados foram liberados para toda a InternetI The New York Times cruzou as pesquisas de um
usuário com listas telefônicasI “60 anos de idade”, “homens solteiros”, “cão que
urina em tudo”, “paisagistas em Lilburn, GA”
I Reidentificou Thelma Arnold, viúva de 62 anos,com três cães, de Lilburn, Geórgia
Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais
Introdução Anonimização Estado da Arte Resumo
Desidentificação e Pseudonimização
Exemplo de Pseudonimização
I Divulgou 20 milhões de pesquisas realizadas pormais de 650 mil usuários ao longo de três meses
I Objetivo era fomentar pesquisas científicasI Os dados foram liberados para toda a InternetI The New York Times cruzou as pesquisas de um
usuário com listas telefônicasI “60 anos de idade”, “homens solteiros”, “cão que
urina em tudo”, “paisagistas em Lilburn, GA”I Reidentificou Thelma Arnold, viúva de 62 anos,
com três cães, de Lilburn, GeórgiaPrivacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais
Introdução Anonimização Estado da Arte Resumo
Métodos Determinísticos
Anonimização
Métodos Determinísticos
Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais
Introdução Anonimização Estado da Arte Resumo
Métodos Determinísticos
k-Anonimização (Sweeney & Samarati, 1998)
DefiniçãoUma base de dados é dita k-Anônima se cada registro forindistinguível de k − 1 outros registros, considerando-se osquase-identificadores, através de:
I generalização de atributosI supressão de atributosI adição de registros sintéticos
Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais
Introdução Anonimização Estado da Arte Resumo
Métodos Determinísticos
k-Anonimização (Sweeney & Samarati, 1998)
DefiniçãoUma base de dados é dita k-Anônima se cada registro forindistinguível de k − 1 outros registros, considerando-se osquase-identificadores, através de:I generalização de atributos
I supressão de atributosI adição de registros sintéticos
Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais
Introdução Anonimização Estado da Arte Resumo
Métodos Determinísticos
k-Anonimização (Sweeney & Samarati, 1998)
DefiniçãoUma base de dados é dita k-Anônima se cada registro forindistinguível de k − 1 outros registros, considerando-se osquase-identificadores, através de:I generalização de atributosI supressão de atributos
I adição de registros sintéticos
Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais
Introdução Anonimização Estado da Arte Resumo
Métodos Determinísticos
k-Anonimização (Sweeney & Samarati, 1998)
DefiniçãoUma base de dados é dita k-Anônima se cada registro forindistinguível de k − 1 outros registros, considerando-se osquase-identificadores, através de:I generalização de atributosI supressão de atributosI adição de registros sintéticos
Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais
Introdução Anonimização Estado da Arte Resumo
Métodos Determinísticos
Exemplo de 4-Anonimização
Não Sensível SensívelCEP Idade País Condição
1 13053 28 Rússia Cardíaco2 13068 29 EUA Cardíaco3 13068 21 Japão Virose4 13053 23 EUA Virose5 14853 50 Índia Câncer6 14853 55 Rússia Cardíaco7 14850 47 EUA Virose8 14850 49 EUA Virose9 13053 31 EUA Câncer10 13053 37 Índia Câncer11 13068 36 Japão Câncer12 13068 35 EUA Câncer
Não Sensível SensívelCEP Idade País Condição
1 130** < 30 * Cardíaco2 130** < 30 * Cardíaco3 130** < 30 * Virose4 130** < 30 * Virose
5 1485* ≥ 40 * Câncer6 1485* ≥ 40 * Cardíaco7 1485* ≥ 40 * Virose8 1485* ≥ 40 * Virose
9 130** 3* * Câncer10 130** 3* * Câncer11 130** 3* * Câncer12 130** 3* * Câncer
Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais
Introdução Anonimização Estado da Arte Resumo
Métodos Determinísticos
Exemplo de 4-Anonimização
Não Sensível SensívelCEP Idade País Condição
1 130** < 30 * Cardíaco2 130** < 30 * Cardíaco3 130** < 30 * Virose4 130** < 30 * Virose5 1485* ≥ 40 * Câncer6 1485* ≥ 40 * Cardíaco7 1485* ≥ 40 * Virose8 1485* ≥ 40 * Virose9 130** 3* * Câncer10 130** 3* * Câncer11 130** 3* * Câncer12 130** 3* * Câncer
Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais
Introdução Anonimização Estado da Arte Resumo
Métodos Determinísticos
Exemplo de 4-Anonimização
Não Sensível SensívelCEP Idade País Condição
1 130** < 30 * Cardíaco2 130** < 30 * Cardíaco3 130** < 30 * Virose4 130** < 30 * Virose5 1485* ≥ 40 * Câncer6 1485* ≥ 40 * Cardíaco7 1485* ≥ 40 * Virose8 1485* ≥ 40 * Virose9 130** 3* * Câncer10 130** 3* * Câncer11 130** 3* * Câncer12 130** 3* * Câncer
Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais
Introdução Anonimização Estado da Arte Resumo
Métodos Determinísticos
Exemplo de 4-Anonimização
Não Sensível SensívelCEP Idade País Condição
1 130** < 30 * Cardíaco2 130** < 30 * Cardíaco3 130** < 30 * Virose4 130** < 30 * Virose5 1485* ≥ 40 * Câncer6 1485* ≥ 40 * Cardíaco7 1485* ≥ 40 * Virose8 1485* ≥ 40 * Virose9 130** 3* * Câncer10 130** 3* * Câncer11 130** 3* * Câncer12 130** 3* * Câncer
Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais
Introdução Anonimização Estado da Arte Resumo
Métodos Determinísticos
`-Diversidade (Kifer et al., 2007)
DefiniçãoUma base de dados é dita `-Diversa se cada agrupamento deregistros apresentar uma diversidade de, ao menos, ` atributossensíveis
Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais
Introdução Anonimização Estado da Arte Resumo
Métodos Determinísticos
Exemplo de 3-Diversidade
Não Sensível SensívelCEP Idade Gênero Condição
1 130** ≤ 50 * Câncer2 130** ≤ 50 * Câncer3 130** ≤ 50 * Hemofilia4 130** ≤ 50 * Virose5 122** > 50 * Hemofilia6 122** > 50 * Câncer7 122** > 50 * Virose8 122** > 50 * Virose9 130** ≤ 50 * Câncer10 130** ≤ 50 * Câncer11 130** ≤ 50 * Hemofilia12 130** ≤ 50 * Virose
Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais
Introdução Anonimização Estado da Arte Resumo
Métodos Determinísticos
Exemplo de 3-Diversidade
Não Sensível SensívelCEP Idade Gênero Condição
1 130** ≤ 50 * Câncer2 130** ≤ 50 * Câncer3 130** ≤ 50 * Hemofilia4 130** ≤ 50 * Virose5 122** > 50 * Hemofilia6 122** > 50 * Câncer7 122** > 50 * Virose8 122** > 50 * Virose9 130** ≤ 50 * Câncer10 130** ≤ 50 * Câncer11 130** ≤ 50 * Hemofilia12 130** ≤ 50 * Virose
Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais
Introdução Anonimização Estado da Arte Resumo
Métodos Determinísticos
Exemplo de 3-Diversidade
Não Sensível SensívelCEP Idade Gênero Condição
1 130** ≤ 50 * Câncer2 130** ≤ 50 * Câncer3 130** ≤ 50 * Hemofilia4 130** ≤ 50 * Virose5 122** > 50 * Hemofilia6 122** > 50 * Câncer7 122** > 50 * Virose8 122** > 50 * Virose9 130** ≤ 50 * Câncer10 130** ≤ 50 * Câncer11 130** ≤ 50 * Hemofilia12 130** ≤ 50 * Virose
Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais
Introdução Anonimização Estado da Arte Resumo
Métodos Determinísticos
Exemplo de 3-Diversidade
Não Sensível SensívelCEP Idade Gênero Condição
1 130** ≤ 50 * Câncer2 130** ≤ 50 * Câncer3 130** ≤ 50 * Hemofilia4 130** ≤ 50 * Virose5 122** > 50 * Hemofilia6 122** > 50 * Câncer7 122** > 50 * Virose8 122** > 50 * Virose9 130** ≤ 50 * Câncer10 130** ≤ 50 * Câncer11 130** ≤ 50 * Hemofilia12 130** ≤ 50 * Virose
Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais
Introdução Anonimização Estado da Arte Resumo
Métodos Determinísticos
Limitações de `-Diversidade
I Pode ser muito rigorosa
I A sensibilidade dos atributos pode variarI Pode não ser suficiente
I Permite a inferência de atributos sensíveis, e em alguns casoscom elevada probabilidade
t-Proximidade (Li et al., 2007)DefiniçãoUma base de dados é dita t-Próxima se cada agrupamento deregistros apresentar uma distribuição de atributos sensíveis próxima,a no máximo uma distância t, da distribuição geral
Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais
Introdução Anonimização Estado da Arte Resumo
Métodos Determinísticos
Limitações de `-Diversidade
I Pode ser muito rigorosaI A sensibilidade dos atributos pode variar
I Pode não ser suficiente
I Permite a inferência de atributos sensíveis, e em alguns casoscom elevada probabilidade
t-Proximidade (Li et al., 2007)DefiniçãoUma base de dados é dita t-Próxima se cada agrupamento deregistros apresentar uma distribuição de atributos sensíveis próxima,a no máximo uma distância t, da distribuição geral
Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais
Introdução Anonimização Estado da Arte Resumo
Métodos Determinísticos
Limitações de `-Diversidade
I Pode ser muito rigorosaI A sensibilidade dos atributos pode variar
I Pode não ser suficiente
I Permite a inferência de atributos sensíveis, e em alguns casoscom elevada probabilidade
t-Proximidade (Li et al., 2007)DefiniçãoUma base de dados é dita t-Próxima se cada agrupamento deregistros apresentar uma distribuição de atributos sensíveis próxima,a no máximo uma distância t, da distribuição geral
Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais
Introdução Anonimização Estado da Arte Resumo
Métodos Determinísticos
Limitações de `-Diversidade
I Pode ser muito rigorosaI A sensibilidade dos atributos pode variar
I Pode não ser suficienteI Permite a inferência de atributos sensíveis, e em alguns casos
com elevada probabilidade
t-Proximidade (Li et al., 2007)DefiniçãoUma base de dados é dita t-Próxima se cada agrupamento deregistros apresentar uma distribuição de atributos sensíveis próxima,a no máximo uma distância t, da distribuição geral
Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais
Introdução Anonimização Estado da Arte Resumo
Métodos Determinísticos
Limitações de `-Diversidade
I Pode ser muito rigorosaI A sensibilidade dos atributos pode variar
I Pode não ser suficienteI Permite a inferência de atributos sensíveis, e em alguns casos
com elevada probabilidade
t-Proximidade (Li et al., 2007)DefiniçãoUma base de dados é dita t-Próxima se cada agrupamento deregistros apresentar uma distribuição de atributos sensíveis próxima,a no máximo uma distância t, da distribuição geral
Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais
Introdução Anonimização Estado da Arte Resumo
Métodos Determinísticos
Composicionalidade
DB1: Contémdados sensíveis(anonimizada)
DB2: Coleçãopública de dadosnão sensíveis Informações
auxiliares
Algoritmo para relacionar informações
Registro(s) reidentificado(s)
Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais
Introdução Anonimização Estado da Arte Resumo
Métodos Determinísticos
Composicionalidade
Não Sensível SensívelCEP Idade País Condição
1 130** < 30 * AIDS2 130** < 30 * Cardíaco3 130** < 30 * Virose4 130** < 30 * Virose
5 130** ≥ 40 * Câncer6 130** ≥ 40 * Cardíaco7 130** ≥ 40 * Virose8 130** ≥ 40 * Virose
9 130** 3* * Câncer10 130** 3* * Câncer11 130** 3* * Câncer12 130** 3* * Câncer
Não Sensível SensívelCEP Idade País Condição
1 130** < 35 * AIDS2 130** < 35 * Tuberculose3 130** < 35 * Gripe4 130** < 35 * Tuberculose5 130** < 35 * Câncer6 130** < 35 * Câncer
7 130** ≥ 35 * Câncer8 130** ≥ 35 * Câncer9 130** ≥ 35 * Câncer10 130** ≥ 35 * Tuberculose11 130** ≥ 35 * Virose12 130** ≥ 35 * Virose
Alice tem 28 anos de idade, mora no CEP 13012, e visita ambos os hospitais
Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais
Introdução Anonimização Estado da Arte Resumo
Métodos Determinísticos
Netflix Prize Dataset (2008)
I 500.000 registros anônimos de classificações de filmes
I Objetivo era fomentar pesquisas científicasI Narayanan & Shmatikov cruzaram as informações com perfis
públicos no IMBD (The Internet Movie Database)I Saber apenas algumas preferências (2-8 filmes, imprecisas) de
um assinante foram suficientes para realizar a reidentificaçãoI Foi possível inferir posicionamento político e outras
informações sensíveis
Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais
Introdução Anonimização Estado da Arte Resumo
Métodos Determinísticos
Netflix Prize Dataset (2008)
I 500.000 registros anônimos de classificações de filmesI Objetivo era fomentar pesquisas científicas
I Narayanan & Shmatikov cruzaram as informações com perfispúblicos no IMBD (The Internet Movie Database)
I Saber apenas algumas preferências (2-8 filmes, imprecisas) deum assinante foram suficientes para realizar a reidentificação
I Foi possível inferir posicionamento político e outrasinformações sensíveis
Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais
Introdução Anonimização Estado da Arte Resumo
Métodos Determinísticos
Netflix Prize Dataset (2008)
I 500.000 registros anônimos de classificações de filmesI Objetivo era fomentar pesquisas científicasI Narayanan & Shmatikov cruzaram as informações com perfis
públicos no IMBD (The Internet Movie Database)
I Saber apenas algumas preferências (2-8 filmes, imprecisas) deum assinante foram suficientes para realizar a reidentificação
I Foi possível inferir posicionamento político e outrasinformações sensíveis
Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais
Introdução Anonimização Estado da Arte Resumo
Métodos Determinísticos
Netflix Prize Dataset (2008)
I 500.000 registros anônimos de classificações de filmesI Objetivo era fomentar pesquisas científicasI Narayanan & Shmatikov cruzaram as informações com perfis
públicos no IMBD (The Internet Movie Database)I Saber apenas algumas preferências (2-8 filmes, imprecisas) de
um assinante foram suficientes para realizar a reidentificação
I Foi possível inferir posicionamento político e outrasinformações sensíveis
Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais
Introdução Anonimização Estado da Arte Resumo
Métodos Determinísticos
Netflix Prize Dataset (2008)
I 500.000 registros anônimos de classificações de filmesI Objetivo era fomentar pesquisas científicasI Narayanan & Shmatikov cruzaram as informações com perfis
públicos no IMBD (The Internet Movie Database)I Saber apenas algumas preferências (2-8 filmes, imprecisas) de
um assinante foram suficientes para realizar a reidentificaçãoI Foi possível inferir posicionamento político e outras
informações sensíveis
Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais
Introdução Anonimização Estado da Arte Resumo
Métodos Probabilísticos
Anonimização
Métodos Probabilísticos
Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais
Introdução Anonimização Estado da Arte Resumo
Métodos Probabilísticos
Ataques Composicionais
I Problema de métodosdeterminísticos
I Cada observável correspondea um conjunto de segredos
I Combinar observaçõesdiferentes permitedeterminar intersecções nodomínio dos segredos
Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais
Introdução Anonimização Estado da Arte Resumo
Métodos Probabilísticos
Ataques Composicionais
I Problema de métodosdeterminísticos
I Cada observável correspondea um conjunto de segredos
I Combinar observaçõesdiferentes permitedeterminar intersecções nodomínio dos segredos
Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais
Introdução Anonimização Estado da Arte Resumo
Métodos Probabilísticos
Ataques Composicionais
I Problema de métodosdeterminísticos
I Cada observável correspondea um conjunto de segredos
I Combinar observaçõesdiferentes permitedeterminar intersecções nodomínio dos segredos
Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais
Introdução Anonimização Estado da Arte Resumo
Métodos Probabilísticos
Visão Geral
I Todo segredo pode gerarqualquer observável deacordo com uma distribuiçãode probabilidade
I Teorema de Bayes:
p(s|o) = p(s)p(o) · p(o|s)
Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais
Introdução Anonimização Estado da Arte Resumo
Métodos Probabilísticos
Visão Geral
I Todo segredo pode gerarqualquer observável deacordo com uma distribuiçãode probabilidade
I Teorema de Bayes:
p(s|o) = p(s)p(o) · p(o|s)
Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais
Introdução Anonimização Estado da Arte Resumo
Métodos Probabilísticos
Visão Geral
I Todo segredo pode gerarqualquer observável deacordo com uma distribuiçãode probabilidade
I Teorema de Bayes:
p(s|o) = p(s)p(o) · p(o|s)
Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais
Introdução Anonimização Estado da Arte Resumo
Métodos Probabilísticos
Visão Geral
I Todo segredo pode gerarqualquer observável deacordo com uma distribuiçãode probabilidade
I Teorema de Bayes:
p(s|o) = p(s)p(o) · p(o|s)
Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais
Introdução Anonimização Estado da Arte Resumo
Métodos Probabilísticos
Visão Geral
I Todo segredo pode gerarqualquer observável deacordo com uma distribuiçãode probabilidade
I Teorema de Bayes:
p(s|o) = p(s)p(o) · p(o|s)
Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais
Introdução Anonimização Estado da Arte Resumo
Métodos Probabilísticos
Exemplo
Nome Idade DoençaAlice 30 nãoBob 30 nãoCarl 40 nãoDon 40 simEllie 50 nãoFrank 50 sim
Idade mínima com doença:
I 30 com probabilidade 1/4I 40 com probabilidade 1/2I 50 com probabilidade 1/4
Alice BobCarl DonEllie Frank
Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais
Introdução Anonimização Estado da Arte Resumo
Métodos Probabilísticos
Exemplo
Nome Idade DoençaAlice 30 nãoBob 30 nãoCarl 40 nãoDon 40 simEllie 50 nãoFrank 50 sim
Idade mínima com doença:I 30 com probabilidade 1/4
I 40 com probabilidade 1/2I 50 com probabilidade 1/4
Alice BobCarl DonEllie Frank
Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais
Introdução Anonimização Estado da Arte Resumo
Métodos Probabilísticos
Exemplo
Nome Idade DoençaAlice 30 nãoBob 30 nãoCarl 40 nãoDon 40 simEllie 50 nãoFrank 50 sim
Idade mínima com doença:I 30 com probabilidade 1/4I 40 com probabilidade 1/2
I 50 com probabilidade 1/4
Alice BobCarl DonEllie Frank
Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais
Introdução Anonimização Estado da Arte Resumo
Métodos Probabilísticos
Exemplo
Nome Idade DoençaAlice 30 nãoBob 30 nãoCarl 40 nãoDon 40 simEllie 50 nãoFrank 50 sim
Idade mínima com doença:I 30 com probabilidade 1/4I 40 com probabilidade 1/2I 50 com probabilidade 1/4
Alice BobCarl DonEllie Frank
Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais
Introdução Anonimização Estado da Arte Resumo
Métodos Probabilísticos
Exemplo
Nome Idade DoençaAlice 30 nãoBob 30 nãoCarl 40 nãoDon 40 simEllie 50 nãoFrank 50 sim
Idade mínima com doença:I 30 com probabilidade 1/4I 40 com probabilidade 1/2I 50 com probabilidade 1/4
Alice BobCarl DonEllie Frank
Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais
Introdução Anonimização Estado da Arte Resumo
Métodos Probabilísticos
Exemplo
Nome Peso DoençaAlice 60 nãoBob 90 nãoCarl 90 nãoDon 100 simEllie 60 nãoFrank 100 sim
Peso mínimo com doença:
I 60 com probabilidade 1/7I 90 com probabilidade 2/7I 100 com probabilidade 4/7
Alice BobCarl DonEllie Frank
Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais
Introdução Anonimização Estado da Arte Resumo
Métodos Probabilísticos
Exemplo
Nome Peso DoençaAlice 60 nãoBob 90 nãoCarl 90 nãoDon 100 simEllie 60 nãoFrank 100 sim
Peso mínimo com doença:I 60 com probabilidade 1/7
I 90 com probabilidade 2/7I 100 com probabilidade 4/7
Alice BobCarl DonEllie Frank
Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais
Introdução Anonimização Estado da Arte Resumo
Métodos Probabilísticos
Exemplo
Nome Peso DoençaAlice 60 nãoBob 90 nãoCarl 90 nãoDon 100 simEllie 60 nãoFrank 100 sim
Peso mínimo com doença:I 60 com probabilidade 1/7I 90 com probabilidade 2/7
I 100 com probabilidade 4/7
Alice BobCarl DonEllie Frank
Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais
Introdução Anonimização Estado da Arte Resumo
Métodos Probabilísticos
Exemplo
Nome Peso DoençaAlice 60 nãoBob 90 nãoCarl 90 nãoDon 100 simEllie 60 nãoFrank 100 sim
Peso mínimo com doença:I 60 com probabilidade 1/7I 90 com probabilidade 2/7I 100 com probabilidade 4/7
Alice BobCarl DonEllie Frank
Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais
Introdução Anonimização Estado da Arte Resumo
Métodos Probabilísticos
Exemplo
Nome Peso DoençaAlice 60 nãoBob 90 nãoCarl 90 nãoDon 100 simEllie 60 nãoFrank 100 sim
Peso mínimo com doença:I 60 com probabilidade 1/7I 90 com probabilidade 2/7I 100 com probabilidade 4/7
Alice BobCarl DonEllie Frank
Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais
Introdução Anonimização Estado da Arte Resumo
Métodos Probabilísticos
Exemplo
Nome Idade DoençaAlice 30 nãoBob 30 nãoCarl 40 nãoDon 40 simEllie 50 nãoFrank 50 sim
Nome Peso DoençaAlice 60 nãoBob 90 nãoCarl 90 nãoDon 100 simEllie 60 nãoFrank 100 sim
Alice BobCarl DonEllie Frank
Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais
Introdução Anonimização Estado da Arte Resumo
Métodos Probabilísticos
Observações
I Deve-se escolher a distribuição de probabilidade com cuidado
I O mecanismo deve proporcionar um equilíbrio entreprivacidade e utilidade
Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais
Introdução Anonimização Estado da Arte Resumo
Métodos Probabilísticos
Observações
I Deve-se escolher a distribuição de probabilidade com cuidadoI O mecanismo deve proporcionar um equilíbrio entre
privacidade e utilidade
Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais
Introdução Anonimização Estado da Arte Resumo
Métodos Probabilísticos
Definições
Distância de HammingA Distância de Hammning entre dois bancos de dados x1 e x2 éigual ao número de registros que diferem entre x1 e x2
Bancos de Dados AdjacentesDois bancos de dados x1 e x2 são adjacentes se a Distância deHammning entre eles é igual a um. Denotamos essa propriedadecomo x1 ∼ x2
I x1 e x2 diferem em relação a apenas um indivíduo, i.e.
I ou o indivíduo foi adicionado a apenas uma das basesI ou removido de apenas uma das basesI ou teve seu valor alterado em apenas uma das bases
Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais
Introdução Anonimização Estado da Arte Resumo
Métodos Probabilísticos
Definições
Distância de HammingA Distância de Hammning entre dois bancos de dados x1 e x2 éigual ao número de registros que diferem entre x1 e x2
Bancos de Dados AdjacentesDois bancos de dados x1 e x2 são adjacentes se a Distância deHammning entre eles é igual a um. Denotamos essa propriedadecomo x1 ∼ x2
I x1 e x2 diferem em relação a apenas um indivíduo, i.e.
I ou o indivíduo foi adicionado a apenas uma das basesI ou removido de apenas uma das basesI ou teve seu valor alterado em apenas uma das bases
Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais
Introdução Anonimização Estado da Arte Resumo
Métodos Probabilísticos
Definições
Distância de HammingA Distância de Hammning entre dois bancos de dados x1 e x2 éigual ao número de registros que diferem entre x1 e x2
Bancos de Dados AdjacentesDois bancos de dados x1 e x2 são adjacentes se a Distância deHammning entre eles é igual a um. Denotamos essa propriedadecomo x1 ∼ x2I x1 e x2 diferem em relação a apenas um indivíduo, i.e.
I ou o indivíduo foi adicionado a apenas uma das basesI ou removido de apenas uma das basesI ou teve seu valor alterado em apenas uma das bases
Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais
Introdução Anonimização Estado da Arte Resumo
Métodos Probabilísticos
Definições
Distância de HammingA Distância de Hammning entre dois bancos de dados x1 e x2 éigual ao número de registros que diferem entre x1 e x2
Bancos de Dados AdjacentesDois bancos de dados x1 e x2 são adjacentes se a Distância deHammning entre eles é igual a um. Denotamos essa propriedadecomo x1 ∼ x2I x1 e x2 diferem em relação a apenas um indivíduo, i.e.
I ou o indivíduo foi adicionado a apenas uma das bases
I ou removido de apenas uma das basesI ou teve seu valor alterado em apenas uma das bases
Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais
Introdução Anonimização Estado da Arte Resumo
Métodos Probabilísticos
Definições
Distância de HammingA Distância de Hammning entre dois bancos de dados x1 e x2 éigual ao número de registros que diferem entre x1 e x2
Bancos de Dados AdjacentesDois bancos de dados x1 e x2 são adjacentes se a Distância deHammning entre eles é igual a um. Denotamos essa propriedadecomo x1 ∼ x2I x1 e x2 diferem em relação a apenas um indivíduo, i.e.
I ou o indivíduo foi adicionado a apenas uma das basesI ou removido de apenas uma das bases
I ou teve seu valor alterado em apenas uma das bases
Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais
Introdução Anonimização Estado da Arte Resumo
Métodos Probabilísticos
Definições
Distância de HammingA Distância de Hammning entre dois bancos de dados x1 e x2 éigual ao número de registros que diferem entre x1 e x2
Bancos de Dados AdjacentesDois bancos de dados x1 e x2 são adjacentes se a Distância deHammning entre eles é igual a um. Denotamos essa propriedadecomo x1 ∼ x2I x1 e x2 diferem em relação a apenas um indivíduo, i.e.
I ou o indivíduo foi adicionado a apenas uma das basesI ou removido de apenas uma das basesI ou teve seu valor alterado em apenas uma das bases
Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais
Introdução Anonimização Estado da Arte Resumo
Métodos Probabilísticos
Privacidade ε-Diferencial (Dwork, 2006)
DefiniçãoUma base de dados é dita Privada ε-Diferencial se para todos osbancos de dados x , x ′ adjacentes, e para todo z ∈ Z , a respostareportada, temos que:
p(K = z |X = x)
p(K = z |X = x ′)≤ eε
InterpretaçãoA presença ou não de informações sobre um indivíduo na base dedados não altera significativamente os resultados obtidos
Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais
Introdução Anonimização Estado da Arte Resumo
Métodos Probabilísticos
Privacidade ε-Diferencial (Dwork, 2006)
DefiniçãoUma base de dados é dita Privada ε-Diferencial se para todos osbancos de dados x , x ′ adjacentes, e para todo z ∈ Z , a respostareportada, temos que:
p(K = z |X = x)
p(K = z |X = x ′)≤ eε
InterpretaçãoA presença ou não de informações sobre um indivíduo na base dedados não altera significativamente os resultados obtidos
Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais
Introdução Anonimização Estado da Arte Resumo
Métodos Probabilísticos
Propriedades da Privacidade Diferencial
I Independência da prior, a distribuição de probabilidade sobreos segredos antes de se consultar o banco de dados
I Independe do adversárioI Robustez quanto à Composicionalidade
I Dados dois mecanismos Privados ε1-Diferencial eε2-Diferencial, a composição é um mecanismo(ε1 + ε2)-Diferencial
I A privacidade diminui linearmente com o número de consultasI É possível definir um orçamento de privacidade, ou seja, um
máximo aceitável de violação da privacidade
Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais
Introdução Anonimização Estado da Arte Resumo
Métodos Probabilísticos
Propriedades da Privacidade Diferencial
I Independência da prior, a distribuição de probabilidade sobreos segredos antes de se consultar o banco de dadosI Independe do adversário
I Robustez quanto à Composicionalidade
I Dados dois mecanismos Privados ε1-Diferencial eε2-Diferencial, a composição é um mecanismo(ε1 + ε2)-Diferencial
I A privacidade diminui linearmente com o número de consultasI É possível definir um orçamento de privacidade, ou seja, um
máximo aceitável de violação da privacidade
Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais
Introdução Anonimização Estado da Arte Resumo
Métodos Probabilísticos
Propriedades da Privacidade Diferencial
I Independência da prior, a distribuição de probabilidade sobreos segredos antes de se consultar o banco de dadosI Independe do adversário
I Robustez quanto à Composicionalidade
I Dados dois mecanismos Privados ε1-Diferencial eε2-Diferencial, a composição é um mecanismo(ε1 + ε2)-Diferencial
I A privacidade diminui linearmente com o número de consultasI É possível definir um orçamento de privacidade, ou seja, um
máximo aceitável de violação da privacidade
Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais
Introdução Anonimização Estado da Arte Resumo
Métodos Probabilísticos
Propriedades da Privacidade Diferencial
I Independência da prior, a distribuição de probabilidade sobreos segredos antes de se consultar o banco de dadosI Independe do adversário
I Robustez quanto à ComposicionalidadeI Dados dois mecanismos Privados ε1-Diferencial e
ε2-Diferencial, a composição é um mecanismo(ε1 + ε2)-Diferencial
I A privacidade diminui linearmente com o número de consultasI É possível definir um orçamento de privacidade, ou seja, um
máximo aceitável de violação da privacidade
Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais
Introdução Anonimização Estado da Arte Resumo
Métodos Probabilísticos
Propriedades da Privacidade Diferencial
I Independência da prior, a distribuição de probabilidade sobreos segredos antes de se consultar o banco de dadosI Independe do adversário
I Robustez quanto à ComposicionalidadeI Dados dois mecanismos Privados ε1-Diferencial e
ε2-Diferencial, a composição é um mecanismo(ε1 + ε2)-Diferencial
I A privacidade diminui linearmente com o número de consultas
I É possível definir um orçamento de privacidade, ou seja, ummáximo aceitável de violação da privacidade
Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais
Introdução Anonimização Estado da Arte Resumo
Métodos Probabilísticos
Propriedades da Privacidade Diferencial
I Independência da prior, a distribuição de probabilidade sobreos segredos antes de se consultar o banco de dadosI Independe do adversário
I Robustez quanto à ComposicionalidadeI Dados dois mecanismos Privados ε1-Diferencial e
ε2-Diferencial, a composição é um mecanismo(ε1 + ε2)-Diferencial
I A privacidade diminui linearmente com o número de consultasI É possível definir um orçamento de privacidade, ou seja, um
máximo aceitável de violação da privacidade
Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais
Introdução Anonimização Estado da Arte Resumo
Métodos Probabilísticos
Exemplos de Privacidade Diferencial
Qual a altura média?A distribuição varia entre50 cm e 250 cm
Altura (cm)Alice 140Bob 180Carol 160Daniel 120 (p)
190 (1− p)
Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais
Introdução Anonimização Estado da Arte Resumo
Métodos Probabilísticos
Exemplos de Privacidade Diferencial
Qual a altura média?A distribuição varia entre50 cm e 250 cm
Altura (cm)Alice 140Bob 180Carol 160Daniel 120 (p)
190 (1− p)
Um mecanismo que sempre reporta aresposta verdadeira (150 cm) não éprivado, qualquer que seja o ε
p(media = 150|Daniel = 120)
p(media = 150|Daniel = 190)=
10
= e∞
Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais
Introdução Anonimização Estado da Arte Resumo
Métodos Probabilísticos
Exemplos de Privacidade Diferencial
Qual a altura média?A distribuição varia entre50 cm e 250 cm
Altura (cm)Alice 140Bob 180Carol 160Daniel 120 (p)
190 (1− p)
Um mecanismo que sempre reportauma resposta errada (168 cm) écompletamente privado (ε = 0), mascompletamente inútil
p(media = 168|Daniel = x)
p(media = 168|Daniel = x ′)=
11
= e0
p(media = z |Daniel = x)
p(media = z |Daniel = x ′)=
00
(z 6= 168)
Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais
Introdução Anonimização Estado da Arte Resumo
Métodos Probabilísticos
Exemplos de Privacidade Diferencial
Qual a altura média?A distribuição varia entre50 cm e 250 cm
Altura (cm)Alice 140Bob 180Carol 160Daniel 120 (p)
190 (1− p)
Um mecanismo que sempre reporta100 cm se a resposta verdadeira (150cm) for menor ou igual a 150 cm, oureporta 200 cm caso contrário, não éprivado, qualquer que seja o ε
p(media = 100|Daniel = 120)
p(media = 100|Daniel = 190)=
10
= e∞
Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais
Introdução Anonimização Estado da Arte Resumo
Métodos Probabilísticos
Exemplos de Privacidade Diferencial
Qual a altura média?A distribuição varia entre50 cm e 250 cm
Altura (cm)Alice 140Bob 180Carol 160Daniel 120 (p)
190 (1− p)
O mecanismo que reporta a respostaverdadeira com probabilidade ε/(200+ε) etodos os outros inteiros no intervalo[50, 250] com probabilidade 1/(200+ε), éprivado ε-diferencial
Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais
Introdução Anonimização Estado da Arte Resumo
Google, Microsoft, e Apple
Estado da Arte
Google, Microsoft, e Apple
Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais
Introdução Anonimização Estado da Arte Resumo
Google, Microsoft, e Apple
Privacidade Diferencial Local
DefiniçãoA randomização e a adição de ruído são realizadas pelo software emexecução no dispositivo do usuário
Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais
Introdução Anonimização Estado da Arte Resumo
Google, Microsoft, e Apple
Privacidade Diferencial Local
ExemplosAs seguintes empresas privadas reportam utilizar PrivacidadeDiferencial Local para coleta de Telemetria
I Google (Chrome): RAPPOR (Randomized AggregatablePrivacy-Preserving Ordinal Response)
I Apple: iOS 10 em diante
I Microsoft: Windows 10
O objetivo final é aumentar a aceitação pública da coleta de dados
Entretanto, para garantir a utilidade dos dados coletados, utilizamum orçamento de privacidade (ε) muito grande
Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais
Introdução Anonimização Estado da Arte Resumo
Google, Microsoft, e Apple
Privacidade Diferencial Local
ExemplosAs seguintes empresas privadas reportam utilizar PrivacidadeDiferencial Local para coleta de Telemetria
I Google (Chrome): RAPPOR (Randomized AggregatablePrivacy-Preserving Ordinal Response)
I Apple: iOS 10 em diante
I Microsoft: Windows 10
O objetivo final é aumentar a aceitação pública da coleta de dados
Entretanto, para garantir a utilidade dos dados coletados, utilizamum orçamento de privacidade (ε) muito grande
Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais
Introdução Anonimização Estado da Arte Resumo
Google, Microsoft, e Apple
Privacidade Diferencial Local
ExemplosAs seguintes empresas privadas reportam utilizar PrivacidadeDiferencial Local para coleta de Telemetria
I Google (Chrome): RAPPOR (Randomized AggregatablePrivacy-Preserving Ordinal Response)
I Apple: iOS 10 em diante
I Microsoft: Windows 10
O objetivo final é aumentar a aceitação pública da coleta de dados
Entretanto, para garantir a utilidade dos dados coletados, utilizamum orçamento de privacidade (ε) muito grande
Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais
Introdução Anonimização Estado da Arte Resumo
Google, Microsoft, e Apple
Privacidade Diferencial Local
ExemplosAs seguintes empresas privadas reportam utilizar PrivacidadeDiferencial Local para coleta de Telemetria
I Google (Chrome): RAPPOR (Randomized AggregatablePrivacy-Preserving Ordinal Response)
I Apple: iOS 10 em diante
I Microsoft: Windows 10
O objetivo final é aumentar a aceitação pública da coleta de dados
Entretanto, para garantir a utilidade dos dados coletados, utilizamum orçamento de privacidade (ε) muito grande
Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais
Introdução Anonimização Estado da Arte Resumo
Google, Microsoft, e Apple
Privacidade Diferencial Local
ExemplosAs seguintes empresas privadas reportam utilizar PrivacidadeDiferencial Local para coleta de Telemetria
I Google (Chrome): RAPPOR (Randomized AggregatablePrivacy-Preserving Ordinal Response)
I Apple: iOS 10 em diante
I Microsoft: Windows 10
O objetivo final é aumentar a aceitação pública da coleta de dados
Entretanto, para garantir a utilidade dos dados coletados, utilizamum orçamento de privacidade (ε) muito grande
Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais
Introdução Anonimização Estado da Arte Resumo
Google, Microsoft, e Apple
Privacidade Diferencial Local
ExemplosAs seguintes empresas privadas reportam utilizar PrivacidadeDiferencial Local para coleta de Telemetria
I Google (Chrome): RAPPOR (Randomized AggregatablePrivacy-Preserving Ordinal Response)
I Apple: iOS 10 em diante
I Microsoft: Windows 10
O objetivo final é aumentar a aceitação pública da coleta de dados
Entretanto, para garantir a utilidade dos dados coletados, utilizamum orçamento de privacidade (ε) muito grande
Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais
Introdução Anonimização Estado da Arte Resumo
US Census Bureau
Estado da Arte
US Census Bureau
Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais
Introdução Anonimização Estado da Arte Resumo
US Census Bureau
Visão Geral
I Responsável pela realização dos Censos decenais
I Os resultados são publicados agregados e servem de base para
I a repartição dos assentos na Câmara dos Deputados entre osestados
I a distribuição de mais de US$675 bilhões em fundos federaispara estados e organizações locais
I Por Lei, a Confidencialidade deve ser garantida
Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais
Introdução Anonimização Estado da Arte Resumo
US Census Bureau
Visão Geral
I Responsável pela realização dos Censos decenaisI Os resultados são publicados agregados e servem de base para
I a repartição dos assentos na Câmara dos Deputados entre osestados
I a distribuição de mais de US$675 bilhões em fundos federaispara estados e organizações locais
I Por Lei, a Confidencialidade deve ser garantida
Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais
Introdução Anonimização Estado da Arte Resumo
US Census Bureau
Visão Geral
I Responsável pela realização dos Censos decenaisI Os resultados são publicados agregados e servem de base para
I a repartição dos assentos na Câmara dos Deputados entre osestados
I a distribuição de mais de US$675 bilhões em fundos federaispara estados e organizações locais
I Por Lei, a Confidencialidade deve ser garantida
Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais
Introdução Anonimização Estado da Arte Resumo
US Census Bureau
Visão Geral
I Responsável pela realização dos Censos decenaisI Os resultados são publicados agregados e servem de base para
I a repartição dos assentos na Câmara dos Deputados entre osestados
I a distribuição de mais de US$675 bilhões em fundos federaispara estados e organizações locais
I Por Lei, a Confidencialidade deve ser garantida
Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais
Introdução Anonimização Estado da Arte Resumo
US Census Bureau
Visão Geral
I Responsável pela realização dos Censos decenaisI Os resultados são publicados agregados e servem de base para
I a repartição dos assentos na Câmara dos Deputados entre osestados
I a distribuição de mais de US$675 bilhões em fundos federaispara estados e organizações locais
I Por Lei, a Confidencialidade deve ser garantida
Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais
Introdução Anonimização Estado da Arte Resumo
US Census Bureau
Visão Geral
I Até o Censo de 1970, apenas desidentificava os registros
I Entre os Censos de 1980 e de 2010, aplicou também métodosdeterminísticos
I Teorema da Reconstrução da Base de Dados(Dinur & Nissim, 2003)
I “Muitas estatísticas publicadas com muita precisão a partir deuma base de dados confidencial expõem a base de dadosinteira com quase certeza”
I Para se ter privacidade, é necessário adicionar umaperturbação de magnitude ao menos
√N, onde N é o tamanho
da população
Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais
Introdução Anonimização Estado da Arte Resumo
US Census Bureau
Visão Geral
I Até o Censo de 1970, apenas desidentificava os registrosI Entre os Censos de 1980 e de 2010, aplicou também métodos
determinísticos
I Teorema da Reconstrução da Base de Dados(Dinur & Nissim, 2003)
I “Muitas estatísticas publicadas com muita precisão a partir deuma base de dados confidencial expõem a base de dadosinteira com quase certeza”
I Para se ter privacidade, é necessário adicionar umaperturbação de magnitude ao menos
√N, onde N é o tamanho
da população
Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais
Introdução Anonimização Estado da Arte Resumo
US Census Bureau
Visão Geral
I Até o Censo de 1970, apenas desidentificava os registrosI Entre os Censos de 1980 e de 2010, aplicou também métodos
determinísticosI Teorema da Reconstrução da Base de Dados
(Dinur & Nissim, 2003)
I “Muitas estatísticas publicadas com muita precisão a partir deuma base de dados confidencial expõem a base de dadosinteira com quase certeza”
I Para se ter privacidade, é necessário adicionar umaperturbação de magnitude ao menos
√N, onde N é o tamanho
da população
Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais
Introdução Anonimização Estado da Arte Resumo
US Census Bureau
Visão Geral
I Até o Censo de 1970, apenas desidentificava os registrosI Entre os Censos de 1980 e de 2010, aplicou também métodos
determinísticosI Teorema da Reconstrução da Base de Dados
(Dinur & Nissim, 2003)I “Muitas estatísticas publicadas com muita precisão a partir de
uma base de dados confidencial expõem a base de dadosinteira com quase certeza”
I Para se ter privacidade, é necessário adicionar umaperturbação de magnitude ao menos
√N, onde N é o tamanho
da população
Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais
Introdução Anonimização Estado da Arte Resumo
US Census Bureau
Visão Geral
I Até o Censo de 1970, apenas desidentificava os registrosI Entre os Censos de 1980 e de 2010, aplicou também métodos
determinísticosI Teorema da Reconstrução da Base de Dados
(Dinur & Nissim, 2003)I “Muitas estatísticas publicadas com muita precisão a partir de
uma base de dados confidencial expõem a base de dadosinteira com quase certeza”
I Para se ter privacidade, é necessário adicionar umaperturbação de magnitude ao menos
√N, onde N é o tamanho
da população
Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais
Introdução Anonimização Estado da Arte Resumo
US Census Bureau
2020 Census
I Métodos determinísticos foram descartados devido à legislação
I Entretanto, Privacidade Diferencial Local adiciona muitoruído, caso seja utilizada para garantir de fato a privacidade
I Todo o banco de dados deve ser processado de uma só vezpara garantir melhor precisão
I Todos os usos dos dados privados devem ser previamenteconsiderados no orçamento de privacidade, ou seja, antes dapublicação dos dados
I Foi desenvolvido um novo método, Top-Down, que permite acriação das tabelas com informações agregadas sem grandesperdas de utilidade
I Novos resultados referentes ao Censo de 2010 foram publicadospara servirem de exemplo da aplicação do novo método
I US National Census Day: 1o de Abril de 2020
Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais
Introdução Anonimização Estado da Arte Resumo
US Census Bureau
2020 Census
I Métodos determinísticos foram descartados devido à legislaçãoI Entretanto, Privacidade Diferencial Local adiciona muito
ruído, caso seja utilizada para garantir de fato a privacidade
I Todo o banco de dados deve ser processado de uma só vezpara garantir melhor precisão
I Todos os usos dos dados privados devem ser previamenteconsiderados no orçamento de privacidade, ou seja, antes dapublicação dos dados
I Foi desenvolvido um novo método, Top-Down, que permite acriação das tabelas com informações agregadas sem grandesperdas de utilidade
I Novos resultados referentes ao Censo de 2010 foram publicadospara servirem de exemplo da aplicação do novo método
I US National Census Day: 1o de Abril de 2020
Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais
Introdução Anonimização Estado da Arte Resumo
US Census Bureau
2020 Census
I Métodos determinísticos foram descartados devido à legislaçãoI Entretanto, Privacidade Diferencial Local adiciona muito
ruído, caso seja utilizada para garantir de fato a privacidadeI Todo o banco de dados deve ser processado de uma só vez
para garantir melhor precisão
I Todos os usos dos dados privados devem ser previamenteconsiderados no orçamento de privacidade, ou seja, antes dapublicação dos dados
I Foi desenvolvido um novo método, Top-Down, que permite acriação das tabelas com informações agregadas sem grandesperdas de utilidade
I Novos resultados referentes ao Censo de 2010 foram publicadospara servirem de exemplo da aplicação do novo método
I US National Census Day: 1o de Abril de 2020
Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais
Introdução Anonimização Estado da Arte Resumo
US Census Bureau
2020 Census
I Métodos determinísticos foram descartados devido à legislaçãoI Entretanto, Privacidade Diferencial Local adiciona muito
ruído, caso seja utilizada para garantir de fato a privacidadeI Todo o banco de dados deve ser processado de uma só vez
para garantir melhor precisãoI Todos os usos dos dados privados devem ser previamente
considerados no orçamento de privacidade, ou seja, antes dapublicação dos dados
I Foi desenvolvido um novo método, Top-Down, que permite acriação das tabelas com informações agregadas sem grandesperdas de utilidade
I Novos resultados referentes ao Censo de 2010 foram publicadospara servirem de exemplo da aplicação do novo método
I US National Census Day: 1o de Abril de 2020
Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais
Introdução Anonimização Estado da Arte Resumo
US Census Bureau
2020 Census
I Métodos determinísticos foram descartados devido à legislaçãoI Entretanto, Privacidade Diferencial Local adiciona muito
ruído, caso seja utilizada para garantir de fato a privacidadeI Todo o banco de dados deve ser processado de uma só vez
para garantir melhor precisãoI Todos os usos dos dados privados devem ser previamente
considerados no orçamento de privacidade, ou seja, antes dapublicação dos dados
I Foi desenvolvido um novo método, Top-Down, que permite acriação das tabelas com informações agregadas sem grandesperdas de utilidade
I Novos resultados referentes ao Censo de 2010 foram publicadospara servirem de exemplo da aplicação do novo método
I US National Census Day: 1o de Abril de 2020
Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais
Introdução Anonimização Estado da Arte Resumo
US Census Bureau
2020 Census
I Métodos determinísticos foram descartados devido à legislaçãoI Entretanto, Privacidade Diferencial Local adiciona muito
ruído, caso seja utilizada para garantir de fato a privacidadeI Todo o banco de dados deve ser processado de uma só vez
para garantir melhor precisãoI Todos os usos dos dados privados devem ser previamente
considerados no orçamento de privacidade, ou seja, antes dapublicação dos dados
I Foi desenvolvido um novo método, Top-Down, que permite acriação das tabelas com informações agregadas sem grandesperdas de utilidade
I Novos resultados referentes ao Censo de 2010 foram publicadospara servirem de exemplo da aplicação do novo método
I US National Census Day: 1o de Abril de 2020
Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais
Introdução Anonimização Estado da Arte Resumo
US Census Bureau
2020 Census
I Métodos determinísticos foram descartados devido à legislaçãoI Entretanto, Privacidade Diferencial Local adiciona muito
ruído, caso seja utilizada para garantir de fato a privacidadeI Todo o banco de dados deve ser processado de uma só vez
para garantir melhor precisãoI Todos os usos dos dados privados devem ser previamente
considerados no orçamento de privacidade, ou seja, antes dapublicação dos dados
I Foi desenvolvido um novo método, Top-Down, que permite acriação das tabelas com informações agregadas sem grandesperdas de utilidade
I Novos resultados referentes ao Censo de 2010 foram publicadospara servirem de exemplo da aplicação do novo método
I US National Census Day: 1o de Abril de 2020Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais
Introdução Anonimização Estado da Arte Resumo
Resumo
Resumo
Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais
Introdução Anonimização Estado da Arte Resumo
Resumo
Governos e empresas privadas coletam e continuarão coletandodados pessoais
I É importante que essas entidades garantam a segurança dessasinformações
I Controle de acesso e Criptografia são muito importantes, masnão resolvem todos os problemas
I É importante que essas entidades continuem divulgando dados,mas de forma responsável
I Muitos métodos de Anonimização já foram propostos, masdiversos problemas permanecem em aberto
I Como definir o conjunto de quasi-identificadores?I Como garantir um nível aceitável de utilidade?I Como anonimizar dados longitudinais no tempo?
Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais
Introdução Anonimização Estado da Arte Resumo
Resumo
Governos e empresas privadas coletam e continuarão coletandodados pessoaisI É importante que essas entidades garantam a segurança dessas
informações
I Controle de acesso e Criptografia são muito importantes, masnão resolvem todos os problemas
I É importante que essas entidades continuem divulgando dados,mas de forma responsável
I Muitos métodos de Anonimização já foram propostos, masdiversos problemas permanecem em aberto
I Como definir o conjunto de quasi-identificadores?I Como garantir um nível aceitável de utilidade?I Como anonimizar dados longitudinais no tempo?
Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais
Introdução Anonimização Estado da Arte Resumo
Resumo
Governos e empresas privadas coletam e continuarão coletandodados pessoaisI É importante que essas entidades garantam a segurança dessas
informaçõesI Controle de acesso e Criptografia são muito importantes, mas
não resolvem todos os problemas
I É importante que essas entidades continuem divulgando dados,mas de forma responsável
I Muitos métodos de Anonimização já foram propostos, masdiversos problemas permanecem em aberto
I Como definir o conjunto de quasi-identificadores?I Como garantir um nível aceitável de utilidade?I Como anonimizar dados longitudinais no tempo?
Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais
Introdução Anonimização Estado da Arte Resumo
Resumo
Governos e empresas privadas coletam e continuarão coletandodados pessoaisI É importante que essas entidades garantam a segurança dessas
informaçõesI Controle de acesso e Criptografia são muito importantes, mas
não resolvem todos os problemasI É importante que essas entidades continuem divulgando dados,
mas de forma responsável
I Muitos métodos de Anonimização já foram propostos, masdiversos problemas permanecem em aberto
I Como definir o conjunto de quasi-identificadores?I Como garantir um nível aceitável de utilidade?I Como anonimizar dados longitudinais no tempo?
Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais
Introdução Anonimização Estado da Arte Resumo
Resumo
Governos e empresas privadas coletam e continuarão coletandodados pessoaisI É importante que essas entidades garantam a segurança dessas
informaçõesI Controle de acesso e Criptografia são muito importantes, mas
não resolvem todos os problemasI É importante que essas entidades continuem divulgando dados,
mas de forma responsávelI Muitos métodos de Anonimização já foram propostos, mas
diversos problemas permanecem em aberto
I Como definir o conjunto de quasi-identificadores?I Como garantir um nível aceitável de utilidade?I Como anonimizar dados longitudinais no tempo?
Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais
Introdução Anonimização Estado da Arte Resumo
Resumo
Governos e empresas privadas coletam e continuarão coletandodados pessoaisI É importante que essas entidades garantam a segurança dessas
informaçõesI Controle de acesso e Criptografia são muito importantes, mas
não resolvem todos os problemasI É importante que essas entidades continuem divulgando dados,
mas de forma responsávelI Muitos métodos de Anonimização já foram propostos, mas
diversos problemas permanecem em abertoI Como definir o conjunto de quasi-identificadores?
I Como garantir um nível aceitável de utilidade?I Como anonimizar dados longitudinais no tempo?
Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais
Introdução Anonimização Estado da Arte Resumo
Resumo
Governos e empresas privadas coletam e continuarão coletandodados pessoaisI É importante que essas entidades garantam a segurança dessas
informaçõesI Controle de acesso e Criptografia são muito importantes, mas
não resolvem todos os problemasI É importante que essas entidades continuem divulgando dados,
mas de forma responsávelI Muitos métodos de Anonimização já foram propostos, mas
diversos problemas permanecem em abertoI Como definir o conjunto de quasi-identificadores?I Como garantir um nível aceitável de utilidade?
I Como anonimizar dados longitudinais no tempo?
Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais
Introdução Anonimização Estado da Arte Resumo
Resumo
Governos e empresas privadas coletam e continuarão coletandodados pessoaisI É importante que essas entidades garantam a segurança dessas
informaçõesI Controle de acesso e Criptografia são muito importantes, mas
não resolvem todos os problemasI É importante que essas entidades continuem divulgando dados,
mas de forma responsávelI Muitos métodos de Anonimização já foram propostos, mas
diversos problemas permanecem em abertoI Como definir o conjunto de quasi-identificadores?I Como garantir um nível aceitável de utilidade?I Como anonimizar dados longitudinais no tempo?
Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais
Introdução Anonimização Estado da Arte Resumo
Resumo
Como equilibrar Transparência e Privacidade?
Lembrando que a Lei Geral de Proteção de Dadosentra em vigor em Agosto de 2020 no Brasil!
Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais
Introdução Anonimização Estado da Arte Resumo
Resumo
Como equilibrar Transparência e Privacidade?
Lembrando que a Lei Geral de Proteção de Dadosentra em vigor em Agosto de 2020 no Brasil!
Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais
Introdução Anonimização Estado da Arte Resumo
Agradecimentos
Departamento de Ciência da Computação
Equipe da EVCOMP 2020
Prof. Mário Alvim e Prof. Annabelle McIver
Prof. Catuscia Palamidessi e Prof. Kostas Chatzikokolakis
Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais
Introdução Anonimização Estado da Arte Resumo
Agradecimentos
Obrigado pela atenção!
[email protected] Rnunesgh.com/sobre ®
Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais