181
Introdução Anonimização Estado da Arte Resumo Estudo de Casos sobre Privacidade e Transparência na Publicação de Dados Gabriel Henrique Nunes EVCOMP 2020 Departamento de Ciência da Computação Universidade Federal de Minas Gerais 17 de Fevereiro de 2020 Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Estudo de Casos sobre Privacidade e Transparência na ...evcomp.dcc.ufmg.br/wp-content/uploads/Gabriel-Nunes.pdf · Introdução Anonimização EstadodaArte Resumo MétodosDeterminísticos

  • Upload
    others

  • View
    5

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Estudo de Casos sobre Privacidade e Transparência na ...evcomp.dcc.ufmg.br/wp-content/uploads/Gabriel-Nunes.pdf · Introdução Anonimização EstadodaArte Resumo MétodosDeterminísticos

Introdução Anonimização Estado da Arte Resumo

Estudo de Casos sobre Privacidade eTransparência na Publicação de Dados

Gabriel Henrique Nunes

EVCOMP 2020

Departamento de Ciência da ComputaçãoUniversidade Federal de Minas Gerais

17 de Fevereiro de 2020

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Page 2: Estudo de Casos sobre Privacidade e Transparência na ...evcomp.dcc.ufmg.br/wp-content/uploads/Gabriel-Nunes.pdf · Introdução Anonimização EstadodaArte Resumo MétodosDeterminísticos

Introdução Anonimização Estado da Arte Resumo

IntroduçãoTransparênciaPrivacidade

AnonimizaçãoDesidentificação e PseudonimizaçãoMétodos DeterminísticosMétodos Probabilísticos

Estado da ArteGoogle, Microsoft, e AppleUS Census Bureau

Resumo

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Page 3: Estudo de Casos sobre Privacidade e Transparência na ...evcomp.dcc.ufmg.br/wp-content/uploads/Gabriel-Nunes.pdf · Introdução Anonimização EstadodaArte Resumo MétodosDeterminísticos

Introdução Anonimização Estado da Arte Resumo

Transparência

Introdução

Transparência

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Page 4: Estudo de Casos sobre Privacidade e Transparência na ...evcomp.dcc.ufmg.br/wp-content/uploads/Gabriel-Nunes.pdf · Introdução Anonimização EstadodaArte Resumo MétodosDeterminísticos

Introdução Anonimização Estado da Arte Resumo

Transparência

A Importância da Publicação de Dados

The actual Enumeration shall be made within three Years after the firstMeeting of the Congress of the United States, and within every subsequent

Term of ten Years, in such Manner as they shall by Law direct.

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Page 5: Estudo de Casos sobre Privacidade e Transparência na ...evcomp.dcc.ufmg.br/wp-content/uploads/Gabriel-Nunes.pdf · Introdução Anonimização EstadodaArte Resumo MétodosDeterminísticos

Introdução Anonimização Estado da Arte Resumo

Transparência

A Importância da Publicação de Dados

PlanejamentoI Políticas públicas

I Representação políticaI Distribuição de fundos

I Investimentos privados

Pesquisas científicasI DemografiaI Economia

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Page 6: Estudo de Casos sobre Privacidade e Transparência na ...evcomp.dcc.ufmg.br/wp-content/uploads/Gabriel-Nunes.pdf · Introdução Anonimização EstadodaArte Resumo MétodosDeterminísticos

Introdução Anonimização Estado da Arte Resumo

Transparência

A Importância da Publicação de Dados

PlanejamentoI Políticas públicas

I Representação política

I Distribuição de fundos

I Investimentos privados

Pesquisas científicasI DemografiaI Economia

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Page 7: Estudo de Casos sobre Privacidade e Transparência na ...evcomp.dcc.ufmg.br/wp-content/uploads/Gabriel-Nunes.pdf · Introdução Anonimização EstadodaArte Resumo MétodosDeterminísticos

Introdução Anonimização Estado da Arte Resumo

Transparência

A Importância da Publicação de Dados

PlanejamentoI Políticas públicas

I Representação políticaI Distribuição de fundos

I Investimentos privados

Pesquisas científicasI DemografiaI Economia

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Page 8: Estudo de Casos sobre Privacidade e Transparência na ...evcomp.dcc.ufmg.br/wp-content/uploads/Gabriel-Nunes.pdf · Introdução Anonimização EstadodaArte Resumo MétodosDeterminísticos

Introdução Anonimização Estado da Arte Resumo

Transparência

A Importância da Publicação de Dados

PlanejamentoI Políticas públicas

I Representação políticaI Distribuição de fundos

I Investimentos privados

Pesquisas científicasI DemografiaI Economia

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Page 9: Estudo de Casos sobre Privacidade e Transparência na ...evcomp.dcc.ufmg.br/wp-content/uploads/Gabriel-Nunes.pdf · Introdução Anonimização EstadodaArte Resumo MétodosDeterminísticos

Introdução Anonimização Estado da Arte Resumo

Transparência

A Importância da Publicação de Dados

PlanejamentoI Políticas públicas

I Representação políticaI Distribuição de fundos

I Investimentos privados

Pesquisas científicasI DemografiaI Economia

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Page 10: Estudo de Casos sobre Privacidade e Transparência na ...evcomp.dcc.ufmg.br/wp-content/uploads/Gabriel-Nunes.pdf · Introdução Anonimização EstadodaArte Resumo MétodosDeterminísticos

Introdução Anonimização Estado da Arte Resumo

Transparência

A Importância da Publicação de Dados

PlanejamentoI Políticas públicas

I Representação políticaI Distribuição de fundos

I Investimentos privados

Pesquisas científicasI DemografiaI Economia

US Code Titles 13 & 14

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Page 11: Estudo de Casos sobre Privacidade e Transparência na ...evcomp.dcc.ufmg.br/wp-content/uploads/Gabriel-Nunes.pdf · Introdução Anonimização EstadodaArte Resumo MétodosDeterminísticos

Introdução Anonimização Estado da Arte Resumo

Transparência

A Importância da Publicação de Dados

PlanejamentoI Políticas públicas

I Representação políticaI Distribuição de fundos

I Investimentos privados

Pesquisas científicasI DemografiaI Economia

Legislação específica(1968)

Lei de Acesso à Informação(2011)

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Page 12: Estudo de Casos sobre Privacidade e Transparência na ...evcomp.dcc.ufmg.br/wp-content/uploads/Gabriel-Nunes.pdf · Introdução Anonimização EstadodaArte Resumo MétodosDeterminísticos

Introdução Anonimização Estado da Arte Resumo

Transparência

A Importância da Publicação de Dados

PlanejamentoI Políticas públicas

I Representação políticaI Distribuição de fundos

I Investimentos privados

Pesquisas científicasI DemografiaI Economia

Princípios Fundamentais dasEstatísticas Oficiais

(2014)

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Page 13: Estudo de Casos sobre Privacidade e Transparência na ...evcomp.dcc.ufmg.br/wp-content/uploads/Gabriel-Nunes.pdf · Introdução Anonimização EstadodaArte Resumo MétodosDeterminísticos

Introdução Anonimização Estado da Arte Resumo

Privacidade

Introdução

Privacidade

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Page 14: Estudo de Casos sobre Privacidade e Transparência na ...evcomp.dcc.ufmg.br/wp-content/uploads/Gabriel-Nunes.pdf · Introdução Anonimização EstadodaArte Resumo MétodosDeterminísticos

Introdução Anonimização Estado da Arte Resumo

Privacidade

O Problema da Publicação de Dados

Princípio 6. Os dados individuais coletados pelos órgãos esta-tísticos para a elaboração de estatísticas, sejam eles referentes apessoas físicas ou jurídicas, devem ser estritamente confidenciaise utilizados exclusivamente para fins estatísticos.

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Page 15: Estudo de Casos sobre Privacidade e Transparência na ...evcomp.dcc.ufmg.br/wp-content/uploads/Gabriel-Nunes.pdf · Introdução Anonimização EstadodaArte Resumo MétodosDeterminísticos

Introdução Anonimização Estado da Arte Resumo

Privacidade

O Problema da Publicação de Dados

Princípio 6. Os dados individuais coletados pelos órgãos esta-tísticos para a elaboração de estatísticas, sejam eles referentes apessoas físicas ou jurídicas, devem ser estritamente confidenciaise utilizados exclusivamente para fins estatísticos.

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Page 16: Estudo de Casos sobre Privacidade e Transparência na ...evcomp.dcc.ufmg.br/wp-content/uploads/Gabriel-Nunes.pdf · Introdução Anonimização EstadodaArte Resumo MétodosDeterminísticos

Introdução Anonimização Estado da Arte Resumo

Privacidade

O Problema da Publicação de Dados

A Importância da ConfidencialidadeI Precisão dos dados coletados

I Justiça (Fairness)I Direitos fundamentaisI Democracia

Entretanto, garanti-la não é simplesI Dados sensíveisI Quasi-identificadores

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Page 17: Estudo de Casos sobre Privacidade e Transparência na ...evcomp.dcc.ufmg.br/wp-content/uploads/Gabriel-Nunes.pdf · Introdução Anonimização EstadodaArte Resumo MétodosDeterminísticos

Introdução Anonimização Estado da Arte Resumo

Privacidade

O Problema da Publicação de Dados

A Importância da ConfidencialidadeI Precisão dos dados coletadosI Justiça (Fairness)

I Direitos fundamentaisI Democracia

Entretanto, garanti-la não é simplesI Dados sensíveisI Quasi-identificadores

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Page 18: Estudo de Casos sobre Privacidade e Transparência na ...evcomp.dcc.ufmg.br/wp-content/uploads/Gabriel-Nunes.pdf · Introdução Anonimização EstadodaArte Resumo MétodosDeterminísticos

Introdução Anonimização Estado da Arte Resumo

Privacidade

O Problema da Publicação de Dados

A Importância da ConfidencialidadeI Precisão dos dados coletadosI Justiça (Fairness)I Direitos fundamentais

I Democracia

Entretanto, garanti-la não é simplesI Dados sensíveisI Quasi-identificadores

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Page 19: Estudo de Casos sobre Privacidade e Transparência na ...evcomp.dcc.ufmg.br/wp-content/uploads/Gabriel-Nunes.pdf · Introdução Anonimização EstadodaArte Resumo MétodosDeterminísticos

Introdução Anonimização Estado da Arte Resumo

Privacidade

O Problema da Publicação de Dados

A Importância da ConfidencialidadeI Precisão dos dados coletadosI Justiça (Fairness)I Direitos fundamentaisI Democracia

Entretanto, garanti-la não é simplesI Dados sensíveisI Quasi-identificadores

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Page 20: Estudo de Casos sobre Privacidade e Transparência na ...evcomp.dcc.ufmg.br/wp-content/uploads/Gabriel-Nunes.pdf · Introdução Anonimização EstadodaArte Resumo MétodosDeterminísticos

Introdução Anonimização Estado da Arte Resumo

Privacidade

O Problema da Publicação de Dados

A Importância da ConfidencialidadeI Precisão dos dados coletadosI Justiça (Fairness)I Direitos fundamentaisI Democracia

Entretanto, garanti-la não é simples

I Dados sensíveisI Quasi-identificadores

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Page 21: Estudo de Casos sobre Privacidade e Transparência na ...evcomp.dcc.ufmg.br/wp-content/uploads/Gabriel-Nunes.pdf · Introdução Anonimização EstadodaArte Resumo MétodosDeterminísticos

Introdução Anonimização Estado da Arte Resumo

Privacidade

O Problema da Publicação de Dados

A Importância da ConfidencialidadeI Precisão dos dados coletadosI Justiça (Fairness)I Direitos fundamentaisI Democracia

Entretanto, garanti-la não é simplesI Dados sensíveis

I Quasi-identificadores

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Page 22: Estudo de Casos sobre Privacidade e Transparência na ...evcomp.dcc.ufmg.br/wp-content/uploads/Gabriel-Nunes.pdf · Introdução Anonimização EstadodaArte Resumo MétodosDeterminísticos

Introdução Anonimização Estado da Arte Resumo

Privacidade

O Problema da Publicação de Dados

A Importância da ConfidencialidadeI Precisão dos dados coletadosI Justiça (Fairness)I Direitos fundamentaisI Democracia

Entretanto, garanti-la não é simplesI Dados sensíveisI Quasi-identificadores

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Page 23: Estudo de Casos sobre Privacidade e Transparência na ...evcomp.dcc.ufmg.br/wp-content/uploads/Gabriel-Nunes.pdf · Introdução Anonimização EstadodaArte Resumo MétodosDeterminísticos

Introdução Anonimização Estado da Arte Resumo

Privacidade

Confidencialidade e Privacidade

ConfidencialidadeEnvolve um conjunto de regras ou uma promessa que limitam oacesso ou impõem restrições a certos tipos de informações

I Usualmente utilizado no relacionamento com médicos,advogados, ou instituições financeiras

PrivacidadeCapacidade de isolar a si mesmo ou de isolar informações sobre simesmo e, assim, expressar-se de maneira seletiva

I Utilizado na Legislação mais recente sobre dados pessoais

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Page 24: Estudo de Casos sobre Privacidade e Transparência na ...evcomp.dcc.ufmg.br/wp-content/uploads/Gabriel-Nunes.pdf · Introdução Anonimização EstadodaArte Resumo MétodosDeterminísticos

Introdução Anonimização Estado da Arte Resumo

Privacidade

Confidencialidade e Privacidade

ConfidencialidadeEnvolve um conjunto de regras ou uma promessa que limitam oacesso ou impõem restrições a certos tipos de informações

I Usualmente utilizado no relacionamento com médicos,advogados, ou instituições financeiras

PrivacidadeCapacidade de isolar a si mesmo ou de isolar informações sobre simesmo e, assim, expressar-se de maneira seletiva

I Utilizado na Legislação mais recente sobre dados pessoais

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Page 25: Estudo de Casos sobre Privacidade e Transparência na ...evcomp.dcc.ufmg.br/wp-content/uploads/Gabriel-Nunes.pdf · Introdução Anonimização EstadodaArte Resumo MétodosDeterminísticos

Introdução Anonimização Estado da Arte Resumo

Privacidade

Confidencialidade e Privacidade

ConfidencialidadeEnvolve um conjunto de regras ou uma promessa que limitam oacesso ou impõem restrições a certos tipos de informações

I Usualmente utilizado no relacionamento com médicos,advogados, ou instituições financeiras

PrivacidadeCapacidade de isolar a si mesmo ou de isolar informações sobre simesmo e, assim, expressar-se de maneira seletiva

I Utilizado na Legislação mais recente sobre dados pessoais

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Page 26: Estudo de Casos sobre Privacidade e Transparência na ...evcomp.dcc.ufmg.br/wp-content/uploads/Gabriel-Nunes.pdf · Introdução Anonimização EstadodaArte Resumo MétodosDeterminísticos

Introdução Anonimização Estado da Arte Resumo

Privacidade

Confidencialidade e Privacidade

ConfidencialidadeEnvolve um conjunto de regras ou uma promessa que limitam oacesso ou impõem restrições a certos tipos de informações

I Usualmente utilizado no relacionamento com médicos,advogados, ou instituições financeiras

PrivacidadeCapacidade de isolar a si mesmo ou de isolar informações sobre simesmo e, assim, expressar-se de maneira seletiva

I Utilizado na Legislação mais recente sobre dados pessoais

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Page 27: Estudo de Casos sobre Privacidade e Transparência na ...evcomp.dcc.ufmg.br/wp-content/uploads/Gabriel-Nunes.pdf · Introdução Anonimização EstadodaArte Resumo MétodosDeterminísticos

Introdução Anonimização Estado da Arte Resumo

Privacidade

Lei Geral de Proteção de Dados Pessoais (LGPD)

Dados pessoais são coletados:I por governos

I por empresas privadasI para publicaçãoI para uso interno

LGPDI Entra em vigor em Agosto de 2020

I O que são dados pessoais?

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Page 28: Estudo de Casos sobre Privacidade e Transparência na ...evcomp.dcc.ufmg.br/wp-content/uploads/Gabriel-Nunes.pdf · Introdução Anonimização EstadodaArte Resumo MétodosDeterminísticos

Introdução Anonimização Estado da Arte Resumo

Privacidade

Lei Geral de Proteção de Dados Pessoais (LGPD)

Dados pessoais são coletados:I por governosI por empresas privadas

I para publicaçãoI para uso interno

LGPDI Entra em vigor em Agosto de 2020

I O que são dados pessoais?

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Page 29: Estudo de Casos sobre Privacidade e Transparência na ...evcomp.dcc.ufmg.br/wp-content/uploads/Gabriel-Nunes.pdf · Introdução Anonimização EstadodaArte Resumo MétodosDeterminísticos

Introdução Anonimização Estado da Arte Resumo

Privacidade

Lei Geral de Proteção de Dados Pessoais (LGPD)

Dados pessoais são coletados:I por governosI por empresas privadasI para publicação

I para uso internoLGPDI Entra em vigor em Agosto de 2020

I O que são dados pessoais?

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Page 30: Estudo de Casos sobre Privacidade e Transparência na ...evcomp.dcc.ufmg.br/wp-content/uploads/Gabriel-Nunes.pdf · Introdução Anonimização EstadodaArte Resumo MétodosDeterminísticos

Introdução Anonimização Estado da Arte Resumo

Privacidade

Lei Geral de Proteção de Dados Pessoais (LGPD)

Dados pessoais são coletados:I por governosI por empresas privadasI para publicaçãoI para uso interno

LGPDI Entra em vigor em Agosto de 2020

I O que são dados pessoais?

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Page 31: Estudo de Casos sobre Privacidade e Transparência na ...evcomp.dcc.ufmg.br/wp-content/uploads/Gabriel-Nunes.pdf · Introdução Anonimização EstadodaArte Resumo MétodosDeterminísticos

Introdução Anonimização Estado da Arte Resumo

Privacidade

Lei Geral de Proteção de Dados Pessoais (LGPD)

Dados pessoais são coletados:I por governosI por empresas privadasI para publicaçãoI para uso interno

LGPDI Entra em vigor em Agosto de 2020

I O que são dados pessoais?

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Page 32: Estudo de Casos sobre Privacidade e Transparência na ...evcomp.dcc.ufmg.br/wp-content/uploads/Gabriel-Nunes.pdf · Introdução Anonimização EstadodaArte Resumo MétodosDeterminísticos

Introdução Anonimização Estado da Arte Resumo

Privacidade

Lei Geral de Proteção de Dados Pessoais (LGPD)

Dados pessoais são coletados:I por governosI por empresas privadasI para publicaçãoI para uso interno

LGPDI Entra em vigor em Agosto de 2020I O que são dados pessoais?

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Page 33: Estudo de Casos sobre Privacidade e Transparência na ...evcomp.dcc.ufmg.br/wp-content/uploads/Gabriel-Nunes.pdf · Introdução Anonimização EstadodaArte Resumo MétodosDeterminísticos

Introdução Anonimização Estado da Arte Resumo

Privacidade

Lei Geral de Proteção de Dados Pessoais (LGPD)

Dados pessoais são coletados:I por governosI por empresas privadasI para publicaçãoI para uso interno

LGPDI Entra em vigor em Agosto de 2020I O que são dados pessoais?

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Page 34: Estudo de Casos sobre Privacidade e Transparência na ...evcomp.dcc.ufmg.br/wp-content/uploads/Gabriel-Nunes.pdf · Introdução Anonimização EstadodaArte Resumo MétodosDeterminísticos

Introdução Anonimização Estado da Arte Resumo

Privacidade

Possíveis Soluções

O problema é a forma de acesso aos dados. Eles deveriam seranonimos. A cada pessoa se atribui um código, um ID, e as-sim as pessoas que lidam com o banco de dados nao tem acessoàs informações em nível pessoal. Td criptografado. Assim seevita invasao de privacidade, stalker, etc

- Usuário do Twitter

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Page 35: Estudo de Casos sobre Privacidade e Transparência na ...evcomp.dcc.ufmg.br/wp-content/uploads/Gabriel-Nunes.pdf · Introdução Anonimização EstadodaArte Resumo MétodosDeterminísticos

Introdução Anonimização Estado da Arte Resumo

Privacidade

Possíveis Soluções

O problema é a forma de acesso aos dados. Eles deveriam seranonimos. A cada pessoa se atribui um código, um ID, e as-sim as pessoas que lidam com o banco de dados nao tem acessoàs informações em nível pessoal. Td criptografado. Assim seevita invasao de privacidade, stalker, etc

- Usuário do Twitter

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Page 36: Estudo de Casos sobre Privacidade e Transparência na ...evcomp.dcc.ufmg.br/wp-content/uploads/Gabriel-Nunes.pdf · Introdução Anonimização EstadodaArte Resumo MétodosDeterminísticos

Introdução Anonimização Estado da Arte Resumo

Privacidade

Possíveis Soluções

Controle de acesso

I Evita acesso não autorizadoI Evita vazamento de informaçõesI Não protegem contra inferência

quando os dados são acessíveis

Anonimização

I Diversos métodos propostosI Diversos vetores de ataque já

demonstrados

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Page 37: Estudo de Casos sobre Privacidade e Transparência na ...evcomp.dcc.ufmg.br/wp-content/uploads/Gabriel-Nunes.pdf · Introdução Anonimização EstadodaArte Resumo MétodosDeterminísticos

Introdução Anonimização Estado da Arte Resumo

Privacidade

Possíveis Soluções

Controle de acesso

I Evita acesso não autorizadoI Evita vazamento de informaçõesI Não protegem contra inferência

quando os dados são acessíveisAnonimização

I Diversos métodos propostosI Diversos vetores de ataque já

demonstrados

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Page 38: Estudo de Casos sobre Privacidade e Transparência na ...evcomp.dcc.ufmg.br/wp-content/uploads/Gabriel-Nunes.pdf · Introdução Anonimização EstadodaArte Resumo MétodosDeterminísticos

Introdução Anonimização Estado da Arte Resumo

Privacidade

Possíveis Soluções

Controle de acessoI Evita acesso não autorizado

I Evita vazamento de informaçõesI Não protegem contra inferência

quando os dados são acessíveisAnonimização

I Diversos métodos propostosI Diversos vetores de ataque já

demonstrados

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Page 39: Estudo de Casos sobre Privacidade e Transparência na ...evcomp.dcc.ufmg.br/wp-content/uploads/Gabriel-Nunes.pdf · Introdução Anonimização EstadodaArte Resumo MétodosDeterminísticos

Introdução Anonimização Estado da Arte Resumo

Privacidade

Possíveis Soluções

Controle de acessoI Evita acesso não autorizadoI Evita vazamento de informações

I Não protegem contra inferênciaquando os dados são acessíveis

Anonimização

I Diversos métodos propostosI Diversos vetores de ataque já

demonstrados

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Page 40: Estudo de Casos sobre Privacidade e Transparência na ...evcomp.dcc.ufmg.br/wp-content/uploads/Gabriel-Nunes.pdf · Introdução Anonimização EstadodaArte Resumo MétodosDeterminísticos

Introdução Anonimização Estado da Arte Resumo

Privacidade

Possíveis Soluções

Controle de acesso e CriptografiaI Evitam acesso não autorizadoI Evitam vazamento de informações

I Não protegem contra inferênciaquando os dados são acessíveis

Anonimização

I Diversos métodos propostosI Diversos vetores de ataque já

demonstrados

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Page 41: Estudo de Casos sobre Privacidade e Transparência na ...evcomp.dcc.ufmg.br/wp-content/uploads/Gabriel-Nunes.pdf · Introdução Anonimização EstadodaArte Resumo MétodosDeterminísticos

Introdução Anonimização Estado da Arte Resumo

Privacidade

Possíveis Soluções

Controle de acesso e CriptografiaI Evitam acesso não autorizadoI Evitam vazamento de informaçõesI Não protegem contra inferência

quando os dados são acessíveis

Anonimização

I Diversos métodos propostosI Diversos vetores de ataque já

demonstrados

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Page 42: Estudo de Casos sobre Privacidade e Transparência na ...evcomp.dcc.ufmg.br/wp-content/uploads/Gabriel-Nunes.pdf · Introdução Anonimização EstadodaArte Resumo MétodosDeterminísticos

Introdução Anonimização Estado da Arte Resumo

Privacidade

Possíveis Soluções

Controle de acesso e CriptografiaI Evitam acesso não autorizadoI Evitam vazamento de informaçõesI Não protegem contra inferência

quando os dados são acessíveisAnonimizaçãoI Diversos métodos propostos

I Diversos vetores de ataque jádemonstrados

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Page 43: Estudo de Casos sobre Privacidade e Transparência na ...evcomp.dcc.ufmg.br/wp-content/uploads/Gabriel-Nunes.pdf · Introdução Anonimização EstadodaArte Resumo MétodosDeterminísticos

Introdução Anonimização Estado da Arte Resumo

Privacidade

Possíveis Soluções

Controle de acesso e CriptografiaI Evitam acesso não autorizadoI Evitam vazamento de informaçõesI Não protegem contra inferência

quando os dados são acessíveisAnonimizaçãoI Diversos métodos propostosI Diversos vetores de ataque já

demonstrados

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Page 44: Estudo de Casos sobre Privacidade e Transparência na ...evcomp.dcc.ufmg.br/wp-content/uploads/Gabriel-Nunes.pdf · Introdução Anonimização EstadodaArte Resumo MétodosDeterminísticos

Introdução Anonimização Estado da Arte Resumo

Desidentificação e Pseudonimização

Anonimização

Desidentificação ePseudonimização

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Page 45: Estudo de Casos sobre Privacidade e Transparência na ...evcomp.dcc.ufmg.br/wp-content/uploads/Gabriel-Nunes.pdf · Introdução Anonimização EstadodaArte Resumo MétodosDeterminísticos

Introdução Anonimização Estado da Arte Resumo

Desidentificação e Pseudonimização

Desidentificação ou Anonimização "inocente"

DefiniçãoUma base de dados é dita anônima se dela foram retirados osidentificadores diretos dos indivíduos

ExemplosNome, números únicos de identificação (CPF, RG), endereço, etcEntretanto, a definição de identificadores diretos é muito flexível

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Page 46: Estudo de Casos sobre Privacidade e Transparência na ...evcomp.dcc.ufmg.br/wp-content/uploads/Gabriel-Nunes.pdf · Introdução Anonimização EstadodaArte Resumo MétodosDeterminísticos

Introdução Anonimização Estado da Arte Resumo

Desidentificação e Pseudonimização

Desidentificação ou Anonimização "inocente"

DefiniçãoUma base de dados é dita anônima se dela foram retirados osidentificadores diretos dos indivíduos

ExemplosNome, números únicos de identificação (CPF, RG), endereço, etc

Entretanto, a definição de identificadores diretos é muito flexível

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Page 47: Estudo de Casos sobre Privacidade e Transparência na ...evcomp.dcc.ufmg.br/wp-content/uploads/Gabriel-Nunes.pdf · Introdução Anonimização EstadodaArte Resumo MétodosDeterminísticos

Introdução Anonimização Estado da Arte Resumo

Desidentificação e Pseudonimização

Desidentificação ou Anonimização "inocente"

DefiniçãoUma base de dados é dita anônima se dela foram retirados osidentificadores diretos dos indivíduos

ExemplosNome, números únicos de identificação (CPF, RG), endereço, etcEntretanto, a definição de identificadores diretos é muito flexível

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Page 48: Estudo de Casos sobre Privacidade e Transparência na ...evcomp.dcc.ufmg.br/wp-content/uploads/Gabriel-Nunes.pdf · Introdução Anonimização EstadodaArte Resumo MétodosDeterminísticos

Introdução Anonimização Estado da Arte Resumo

Desidentificação e Pseudonimização

Exemplo de Desidentificação

Nome Idade Condição1 Jon Snow 30 Resfriado2 Jamie Lannister 39 Mão amputada3 Arya Stark 16 Dor de estômago4 Bran Stark 14 Paraplegia5 Eddad Stark 32 Dor de cabeça6 Ramsay Bolton 32 Psicopatia7 Daenerys Targaryen 25 Mania de grandeza

Catuscia Palamidessi, Kostas Chatzikokolakis

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Page 49: Estudo de Casos sobre Privacidade e Transparência na ...evcomp.dcc.ufmg.br/wp-content/uploads/Gabriel-Nunes.pdf · Introdução Anonimização EstadodaArte Resumo MétodosDeterminísticos

Introdução Anonimização Estado da Arte Resumo

Desidentificação e Pseudonimização

Exemplo de Desidentificação

Nome Idade Condição1 * 30 Resfriado2 * 39 Mão amputada3 * 16 Dor de estômago4 * 14 Paraplegia5 * 32 Dor de cabeça6 * 32 Psicopatia7 * 25 Mania de grandeza

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Page 50: Estudo de Casos sobre Privacidade e Transparência na ...evcomp.dcc.ufmg.br/wp-content/uploads/Gabriel-Nunes.pdf · Introdução Anonimização EstadodaArte Resumo MétodosDeterminísticos

Introdução Anonimização Estado da Arte Resumo

Desidentificação e Pseudonimização

Quasi-identificadores

DefiniçãoAtributos que podem ser vinculados a informações externas paraidentificar indivíduos unicamente

ObservaçãoDefinir o conjunto de quasi-identificadores para uma dadapublicação ainda é uma questão em aberto

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Page 51: Estudo de Casos sobre Privacidade e Transparência na ...evcomp.dcc.ufmg.br/wp-content/uploads/Gabriel-Nunes.pdf · Introdução Anonimização EstadodaArte Resumo MétodosDeterminísticos

Introdução Anonimização Estado da Arte Resumo

Desidentificação e Pseudonimização

Quasi-identificadores

DefiniçãoAtributos que podem ser vinculados a informações externas paraidentificar indivíduos unicamente

ObservaçãoDefinir o conjunto de quasi-identificadores para uma dadapublicação ainda é uma questão em aberto

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Page 52: Estudo de Casos sobre Privacidade e Transparência na ...evcomp.dcc.ufmg.br/wp-content/uploads/Gabriel-Nunes.pdf · Introdução Anonimização EstadodaArte Resumo MétodosDeterminísticos

Introdução Anonimização Estado da Arte Resumo

Desidentificação e Pseudonimização

Sweeney’s Linkage Attack (1998)

DB1: Contémdados sensíveis(anonimizada)

DB2: Coleçãopública de dadosnão sensíveis Informações

auxiliares

Algoritmo para relacionar informações

Registro(s) reidentificado(s)

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Page 53: Estudo de Casos sobre Privacidade e Transparência na ...evcomp.dcc.ufmg.br/wp-content/uploads/Gabriel-Nunes.pdf · Introdução Anonimização EstadodaArte Resumo MétodosDeterminísticos

Introdução Anonimização Estado da Arte Resumo

Desidentificação e Pseudonimização

Sweeney’s Linkage Attack (1998)

DB1: Contémdados sensíveis(anonimizada)

DB2: Coleçãopública de dadosnão sensíveis

Informaçõesauxiliares

Algoritmo para relacionar informações

Registro(s) reidentificado(s)

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Page 54: Estudo de Casos sobre Privacidade e Transparência na ...evcomp.dcc.ufmg.br/wp-content/uploads/Gabriel-Nunes.pdf · Introdução Anonimização EstadodaArte Resumo MétodosDeterminísticos

Introdução Anonimização Estado da Arte Resumo

Desidentificação e Pseudonimização

Sweeney’s Linkage Attack (1998)

DB1: Contémdados sensíveis(anonimizada)

DB2: Coleçãopública de dadosnão sensíveis Informações

auxiliares

Algoritmo para relacionar informações

Registro(s) reidentificado(s)

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Page 55: Estudo de Casos sobre Privacidade e Transparência na ...evcomp.dcc.ufmg.br/wp-content/uploads/Gabriel-Nunes.pdf · Introdução Anonimização EstadodaArte Resumo MétodosDeterminísticos

Introdução Anonimização Estado da Arte Resumo

Desidentificação e Pseudonimização

Sweeney’s Linkage Attack (1998)

DB1: Contémdados sensíveis(anonimizada)

DB2: Coleçãopública de dadosnão sensíveis Informações

auxiliares

Algoritmo para relacionar informações

Registro(s) reidentificado(s)

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Page 56: Estudo de Casos sobre Privacidade e Transparência na ...evcomp.dcc.ufmg.br/wp-content/uploads/Gabriel-Nunes.pdf · Introdução Anonimização EstadodaArte Resumo MétodosDeterminísticos

Introdução Anonimização Estado da Arte Resumo

Desidentificação e Pseudonimização

Sweeney’s Linkage Attack (1998)

DB1: Contémdados sensíveis(anonimizada)

DB2: Coleçãopública de dadosnão sensíveis Informações

auxiliares

Algoritmo para relacionar informações

Registro(s) reidentificado(s)

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Page 57: Estudo de Casos sobre Privacidade e Transparência na ...evcomp.dcc.ufmg.br/wp-content/uploads/Gabriel-Nunes.pdf · Introdução Anonimização EstadodaArte Resumo MétodosDeterminísticos

Introdução Anonimização Estado da Arte Resumo

Desidentificação e Pseudonimização

Sweeney’s Linkage Attack na Prática

Base 1: Dados médicos

EtniaData da visitaDiagnósticoProcedimentoMedicamento

Valor

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Page 58: Estudo de Casos sobre Privacidade e Transparência na ...evcomp.dcc.ufmg.br/wp-content/uploads/Gabriel-Nunes.pdf · Introdução Anonimização EstadodaArte Resumo MétodosDeterminísticos

Introdução Anonimização Estado da Arte Resumo

Desidentificação e Pseudonimização

Sweeney’s Linkage Attack na Prática

Base 1: Dados médicos

EtniaData da visitaDiagnósticoProcedimentoMedicamento

Valor

GêneroAniversário

CEP

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Page 59: Estudo de Casos sobre Privacidade e Transparência na ...evcomp.dcc.ufmg.br/wp-content/uploads/Gabriel-Nunes.pdf · Introdução Anonimização EstadodaArte Resumo MétodosDeterminísticos

Introdução Anonimização Estado da Arte Resumo

Desidentificação e Pseudonimização

Sweeney’s Linkage Attack na Prática

Base 2: Lista de eleitores

NomeEndereço

Data de registroÚltima eleição

Partido

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Page 60: Estudo de Casos sobre Privacidade e Transparência na ...evcomp.dcc.ufmg.br/wp-content/uploads/Gabriel-Nunes.pdf · Introdução Anonimização EstadodaArte Resumo MétodosDeterminísticos

Introdução Anonimização Estado da Arte Resumo

Desidentificação e Pseudonimização

Sweeney’s Linkage Attack na Prática

Base 2: Lista de eleitores

NomeEndereço

Data de registroÚltima eleição

Partido

GêneroAniversário

CEP

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Page 61: Estudo de Casos sobre Privacidade e Transparência na ...evcomp.dcc.ufmg.br/wp-content/uploads/Gabriel-Nunes.pdf · Introdução Anonimização EstadodaArte Resumo MétodosDeterminísticos

Introdução Anonimização Estado da Arte Resumo

Desidentificação e Pseudonimização

Sweeney’s Linkage Attack na Prática

Base 1: Dados médicos

EtniaData da visitaDiagnósticoProcedimentoMedicamento

Valor

Base 2: Lista de eleitores

NomeEndereço

Data de registroÚltima eleição

Partido

GêneroAniversário

CEP

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Page 62: Estudo de Casos sobre Privacidade e Transparência na ...evcomp.dcc.ufmg.br/wp-content/uploads/Gabriel-Nunes.pdf · Introdução Anonimização EstadodaArte Resumo MétodosDeterminísticos

Introdução Anonimização Estado da Arte Resumo

Desidentificação e Pseudonimização

Sweeney’s Linkage Attack na Prática

ConclusõesI Com apenas gênero, data de aniversário, e CEP, Sweeney

foi capaz de reidentificar o governador de Massachusetts

I O mesmo foi possível para 87% da população dos EUA,também unicamente identificável pelos mesmos atributos

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Page 63: Estudo de Casos sobre Privacidade e Transparência na ...evcomp.dcc.ufmg.br/wp-content/uploads/Gabriel-Nunes.pdf · Introdução Anonimização EstadodaArte Resumo MétodosDeterminísticos

Introdução Anonimização Estado da Arte Resumo

Desidentificação e Pseudonimização

Sweeney’s Linkage Attack na Prática

ConclusõesI Com apenas gênero, data de aniversário, e CEP, Sweeney

foi capaz de reidentificar o governador de MassachusettsI O mesmo foi possível para 87% da população dos EUA,

também unicamente identificável pelos mesmos atributos

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Page 64: Estudo de Casos sobre Privacidade e Transparência na ...evcomp.dcc.ufmg.br/wp-content/uploads/Gabriel-Nunes.pdf · Introdução Anonimização EstadodaArte Resumo MétodosDeterminísticos

Introdução Anonimização Estado da Arte Resumo

Desidentificação e Pseudonimização

Pseudonimização

DefiniçãoUma base de dados é dita pseudonimizada se dela foram retiradosos identificadores diretos dos indivíduos em substituição por umcódigo único para cada indivíduo

Entretanto...I Apresenta os mesmos problemas que a Desidentificação

I Publicação de dados longitudinais no tempo

I Pseudonimização é ainda pior do que DesidentificaçãoI Facilita a reidentificação ao longo do tempo

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Page 65: Estudo de Casos sobre Privacidade e Transparência na ...evcomp.dcc.ufmg.br/wp-content/uploads/Gabriel-Nunes.pdf · Introdução Anonimização EstadodaArte Resumo MétodosDeterminísticos

Introdução Anonimização Estado da Arte Resumo

Desidentificação e Pseudonimização

Pseudonimização

DefiniçãoUma base de dados é dita pseudonimizada se dela foram retiradosos identificadores diretos dos indivíduos em substituição por umcódigo único para cada indivíduo

Entretanto...I Apresenta os mesmos problemas que a Desidentificação

I Publicação de dados longitudinais no tempo

I Pseudonimização é ainda pior do que DesidentificaçãoI Facilita a reidentificação ao longo do tempo

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Page 66: Estudo de Casos sobre Privacidade e Transparência na ...evcomp.dcc.ufmg.br/wp-content/uploads/Gabriel-Nunes.pdf · Introdução Anonimização EstadodaArte Resumo MétodosDeterminísticos

Introdução Anonimização Estado da Arte Resumo

Desidentificação e Pseudonimização

Pseudonimização

DefiniçãoUma base de dados é dita pseudonimizada se dela foram retiradosos identificadores diretos dos indivíduos em substituição por umcódigo único para cada indivíduo

Entretanto...I Apresenta os mesmos problemas que a DesidentificaçãoI Publicação de dados longitudinais no tempo

I Pseudonimização é ainda pior do que DesidentificaçãoI Facilita a reidentificação ao longo do tempo

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Page 67: Estudo de Casos sobre Privacidade e Transparência na ...evcomp.dcc.ufmg.br/wp-content/uploads/Gabriel-Nunes.pdf · Introdução Anonimização EstadodaArte Resumo MétodosDeterminísticos

Introdução Anonimização Estado da Arte Resumo

Desidentificação e Pseudonimização

Pseudonimização

DefiniçãoUma base de dados é dita pseudonimizada se dela foram retiradosos identificadores diretos dos indivíduos em substituição por umcódigo único para cada indivíduo

Entretanto...I Apresenta os mesmos problemas que a DesidentificaçãoI Publicação de dados longitudinais no tempo

I Pseudonimização é ainda pior do que Desidentificação

I Facilita a reidentificação ao longo do tempo

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Page 68: Estudo de Casos sobre Privacidade e Transparência na ...evcomp.dcc.ufmg.br/wp-content/uploads/Gabriel-Nunes.pdf · Introdução Anonimização EstadodaArte Resumo MétodosDeterminísticos

Introdução Anonimização Estado da Arte Resumo

Desidentificação e Pseudonimização

Pseudonimização

DefiniçãoUma base de dados é dita pseudonimizada se dela foram retiradosos identificadores diretos dos indivíduos em substituição por umcódigo único para cada indivíduo

Entretanto...I Apresenta os mesmos problemas que a DesidentificaçãoI Publicação de dados longitudinais no tempo

I Pseudonimização é ainda pior do que DesidentificaçãoI Facilita a reidentificação ao longo do tempo

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Page 69: Estudo de Casos sobre Privacidade e Transparência na ...evcomp.dcc.ufmg.br/wp-content/uploads/Gabriel-Nunes.pdf · Introdução Anonimização EstadodaArte Resumo MétodosDeterminísticos

Introdução Anonimização Estado da Arte Resumo

Desidentificação e Pseudonimização

Exemplo de Pseudonimização

I Divulgou 20 milhões de pesquisas realizadas pormais de 650 mil usuários ao longo de três meses

I Objetivo era fomentar pesquisas científicasI Os dados foram liberados para toda a InternetI The New York Times cruzou as pesquisas de um

usuário com listas telefônicas

I “60 anos de idade”, “homens solteiros”, “cão queurina em tudo”, “paisagistas em Lilburn, GA”

I Reidentificou Thelma Arnold, viúva de 62 anos,com três cães, de Lilburn, Geórgia

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Page 70: Estudo de Casos sobre Privacidade e Transparência na ...evcomp.dcc.ufmg.br/wp-content/uploads/Gabriel-Nunes.pdf · Introdução Anonimização EstadodaArte Resumo MétodosDeterminísticos

Introdução Anonimização Estado da Arte Resumo

Desidentificação e Pseudonimização

Exemplo de Pseudonimização

I Divulgou 20 milhões de pesquisas realizadas pormais de 650 mil usuários ao longo de três meses

I Objetivo era fomentar pesquisas científicasI Os dados foram liberados para toda a InternetI The New York Times cruzou as pesquisas de um

usuário com listas telefônicas

I “60 anos de idade”, “homens solteiros”, “cão queurina em tudo”, “paisagistas em Lilburn, GA”

I Reidentificou Thelma Arnold, viúva de 62 anos,com três cães, de Lilburn, Geórgia

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Page 71: Estudo de Casos sobre Privacidade e Transparência na ...evcomp.dcc.ufmg.br/wp-content/uploads/Gabriel-Nunes.pdf · Introdução Anonimização EstadodaArte Resumo MétodosDeterminísticos

Introdução Anonimização Estado da Arte Resumo

Desidentificação e Pseudonimização

Exemplo de Pseudonimização

I Divulgou 20 milhões de pesquisas realizadas pormais de 650 mil usuários ao longo de três meses

I Objetivo era fomentar pesquisas científicas

I Os dados foram liberados para toda a InternetI The New York Times cruzou as pesquisas de um

usuário com listas telefônicas

I “60 anos de idade”, “homens solteiros”, “cão queurina em tudo”, “paisagistas em Lilburn, GA”

I Reidentificou Thelma Arnold, viúva de 62 anos,com três cães, de Lilburn, Geórgia

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Page 72: Estudo de Casos sobre Privacidade e Transparência na ...evcomp.dcc.ufmg.br/wp-content/uploads/Gabriel-Nunes.pdf · Introdução Anonimização EstadodaArte Resumo MétodosDeterminísticos

Introdução Anonimização Estado da Arte Resumo

Desidentificação e Pseudonimização

Exemplo de Pseudonimização

I Divulgou 20 milhões de pesquisas realizadas pormais de 650 mil usuários ao longo de três meses

I Objetivo era fomentar pesquisas científicasI Os dados foram liberados para toda a Internet

I The New York Times cruzou as pesquisas de umusuário com listas telefônicas

I “60 anos de idade”, “homens solteiros”, “cão queurina em tudo”, “paisagistas em Lilburn, GA”

I Reidentificou Thelma Arnold, viúva de 62 anos,com três cães, de Lilburn, Geórgia

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Page 73: Estudo de Casos sobre Privacidade e Transparência na ...evcomp.dcc.ufmg.br/wp-content/uploads/Gabriel-Nunes.pdf · Introdução Anonimização EstadodaArte Resumo MétodosDeterminísticos

Introdução Anonimização Estado da Arte Resumo

Desidentificação e Pseudonimização

Exemplo de Pseudonimização

I Divulgou 20 milhões de pesquisas realizadas pormais de 650 mil usuários ao longo de três meses

I Objetivo era fomentar pesquisas científicasI Os dados foram liberados para toda a InternetI The New York Times cruzou as pesquisas de um

usuário com listas telefônicas

I “60 anos de idade”, “homens solteiros”, “cão queurina em tudo”, “paisagistas em Lilburn, GA”

I Reidentificou Thelma Arnold, viúva de 62 anos,com três cães, de Lilburn, Geórgia

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Page 74: Estudo de Casos sobre Privacidade e Transparência na ...evcomp.dcc.ufmg.br/wp-content/uploads/Gabriel-Nunes.pdf · Introdução Anonimização EstadodaArte Resumo MétodosDeterminísticos

Introdução Anonimização Estado da Arte Resumo

Desidentificação e Pseudonimização

Exemplo de Pseudonimização

I Divulgou 20 milhões de pesquisas realizadas pormais de 650 mil usuários ao longo de três meses

I Objetivo era fomentar pesquisas científicasI Os dados foram liberados para toda a InternetI The New York Times cruzou as pesquisas de um

usuário com listas telefônicasI “60 anos de idade”, “homens solteiros”, “cão que

urina em tudo”, “paisagistas em Lilburn, GA”

I Reidentificou Thelma Arnold, viúva de 62 anos,com três cães, de Lilburn, Geórgia

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Page 75: Estudo de Casos sobre Privacidade e Transparência na ...evcomp.dcc.ufmg.br/wp-content/uploads/Gabriel-Nunes.pdf · Introdução Anonimização EstadodaArte Resumo MétodosDeterminísticos

Introdução Anonimização Estado da Arte Resumo

Desidentificação e Pseudonimização

Exemplo de Pseudonimização

I Divulgou 20 milhões de pesquisas realizadas pormais de 650 mil usuários ao longo de três meses

I Objetivo era fomentar pesquisas científicasI Os dados foram liberados para toda a InternetI The New York Times cruzou as pesquisas de um

usuário com listas telefônicasI “60 anos de idade”, “homens solteiros”, “cão que

urina em tudo”, “paisagistas em Lilburn, GA”I Reidentificou Thelma Arnold, viúva de 62 anos,

com três cães, de Lilburn, GeórgiaPrivacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Page 76: Estudo de Casos sobre Privacidade e Transparência na ...evcomp.dcc.ufmg.br/wp-content/uploads/Gabriel-Nunes.pdf · Introdução Anonimização EstadodaArte Resumo MétodosDeterminísticos

Introdução Anonimização Estado da Arte Resumo

Métodos Determinísticos

Anonimização

Métodos Determinísticos

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Page 77: Estudo de Casos sobre Privacidade e Transparência na ...evcomp.dcc.ufmg.br/wp-content/uploads/Gabriel-Nunes.pdf · Introdução Anonimização EstadodaArte Resumo MétodosDeterminísticos

Introdução Anonimização Estado da Arte Resumo

Métodos Determinísticos

k-Anonimização (Sweeney & Samarati, 1998)

DefiniçãoUma base de dados é dita k-Anônima se cada registro forindistinguível de k − 1 outros registros, considerando-se osquase-identificadores, através de:

I generalização de atributosI supressão de atributosI adição de registros sintéticos

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Page 78: Estudo de Casos sobre Privacidade e Transparência na ...evcomp.dcc.ufmg.br/wp-content/uploads/Gabriel-Nunes.pdf · Introdução Anonimização EstadodaArte Resumo MétodosDeterminísticos

Introdução Anonimização Estado da Arte Resumo

Métodos Determinísticos

k-Anonimização (Sweeney & Samarati, 1998)

DefiniçãoUma base de dados é dita k-Anônima se cada registro forindistinguível de k − 1 outros registros, considerando-se osquase-identificadores, através de:I generalização de atributos

I supressão de atributosI adição de registros sintéticos

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Page 79: Estudo de Casos sobre Privacidade e Transparência na ...evcomp.dcc.ufmg.br/wp-content/uploads/Gabriel-Nunes.pdf · Introdução Anonimização EstadodaArte Resumo MétodosDeterminísticos

Introdução Anonimização Estado da Arte Resumo

Métodos Determinísticos

k-Anonimização (Sweeney & Samarati, 1998)

DefiniçãoUma base de dados é dita k-Anônima se cada registro forindistinguível de k − 1 outros registros, considerando-se osquase-identificadores, através de:I generalização de atributosI supressão de atributos

I adição de registros sintéticos

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Page 80: Estudo de Casos sobre Privacidade e Transparência na ...evcomp.dcc.ufmg.br/wp-content/uploads/Gabriel-Nunes.pdf · Introdução Anonimização EstadodaArte Resumo MétodosDeterminísticos

Introdução Anonimização Estado da Arte Resumo

Métodos Determinísticos

k-Anonimização (Sweeney & Samarati, 1998)

DefiniçãoUma base de dados é dita k-Anônima se cada registro forindistinguível de k − 1 outros registros, considerando-se osquase-identificadores, através de:I generalização de atributosI supressão de atributosI adição de registros sintéticos

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Page 81: Estudo de Casos sobre Privacidade e Transparência na ...evcomp.dcc.ufmg.br/wp-content/uploads/Gabriel-Nunes.pdf · Introdução Anonimização EstadodaArte Resumo MétodosDeterminísticos

Introdução Anonimização Estado da Arte Resumo

Métodos Determinísticos

Exemplo de 4-Anonimização

Não Sensível SensívelCEP Idade País Condição

1 13053 28 Rússia Cardíaco2 13068 29 EUA Cardíaco3 13068 21 Japão Virose4 13053 23 EUA Virose5 14853 50 Índia Câncer6 14853 55 Rússia Cardíaco7 14850 47 EUA Virose8 14850 49 EUA Virose9 13053 31 EUA Câncer10 13053 37 Índia Câncer11 13068 36 Japão Câncer12 13068 35 EUA Câncer

Não Sensível SensívelCEP Idade País Condição

1 130** < 30 * Cardíaco2 130** < 30 * Cardíaco3 130** < 30 * Virose4 130** < 30 * Virose

5 1485* ≥ 40 * Câncer6 1485* ≥ 40 * Cardíaco7 1485* ≥ 40 * Virose8 1485* ≥ 40 * Virose

9 130** 3* * Câncer10 130** 3* * Câncer11 130** 3* * Câncer12 130** 3* * Câncer

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Page 82: Estudo de Casos sobre Privacidade e Transparência na ...evcomp.dcc.ufmg.br/wp-content/uploads/Gabriel-Nunes.pdf · Introdução Anonimização EstadodaArte Resumo MétodosDeterminísticos

Introdução Anonimização Estado da Arte Resumo

Métodos Determinísticos

Exemplo de 4-Anonimização

Não Sensível SensívelCEP Idade País Condição

1 130** < 30 * Cardíaco2 130** < 30 * Cardíaco3 130** < 30 * Virose4 130** < 30 * Virose5 1485* ≥ 40 * Câncer6 1485* ≥ 40 * Cardíaco7 1485* ≥ 40 * Virose8 1485* ≥ 40 * Virose9 130** 3* * Câncer10 130** 3* * Câncer11 130** 3* * Câncer12 130** 3* * Câncer

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Page 83: Estudo de Casos sobre Privacidade e Transparência na ...evcomp.dcc.ufmg.br/wp-content/uploads/Gabriel-Nunes.pdf · Introdução Anonimização EstadodaArte Resumo MétodosDeterminísticos

Introdução Anonimização Estado da Arte Resumo

Métodos Determinísticos

Exemplo de 4-Anonimização

Não Sensível SensívelCEP Idade País Condição

1 130** < 30 * Cardíaco2 130** < 30 * Cardíaco3 130** < 30 * Virose4 130** < 30 * Virose5 1485* ≥ 40 * Câncer6 1485* ≥ 40 * Cardíaco7 1485* ≥ 40 * Virose8 1485* ≥ 40 * Virose9 130** 3* * Câncer10 130** 3* * Câncer11 130** 3* * Câncer12 130** 3* * Câncer

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Page 84: Estudo de Casos sobre Privacidade e Transparência na ...evcomp.dcc.ufmg.br/wp-content/uploads/Gabriel-Nunes.pdf · Introdução Anonimização EstadodaArte Resumo MétodosDeterminísticos

Introdução Anonimização Estado da Arte Resumo

Métodos Determinísticos

Exemplo de 4-Anonimização

Não Sensível SensívelCEP Idade País Condição

1 130** < 30 * Cardíaco2 130** < 30 * Cardíaco3 130** < 30 * Virose4 130** < 30 * Virose5 1485* ≥ 40 * Câncer6 1485* ≥ 40 * Cardíaco7 1485* ≥ 40 * Virose8 1485* ≥ 40 * Virose9 130** 3* * Câncer10 130** 3* * Câncer11 130** 3* * Câncer12 130** 3* * Câncer

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Page 85: Estudo de Casos sobre Privacidade e Transparência na ...evcomp.dcc.ufmg.br/wp-content/uploads/Gabriel-Nunes.pdf · Introdução Anonimização EstadodaArte Resumo MétodosDeterminísticos

Introdução Anonimização Estado da Arte Resumo

Métodos Determinísticos

`-Diversidade (Kifer et al., 2007)

DefiniçãoUma base de dados é dita `-Diversa se cada agrupamento deregistros apresentar uma diversidade de, ao menos, ` atributossensíveis

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Page 86: Estudo de Casos sobre Privacidade e Transparência na ...evcomp.dcc.ufmg.br/wp-content/uploads/Gabriel-Nunes.pdf · Introdução Anonimização EstadodaArte Resumo MétodosDeterminísticos

Introdução Anonimização Estado da Arte Resumo

Métodos Determinísticos

Exemplo de 3-Diversidade

Não Sensível SensívelCEP Idade Gênero Condição

1 130** ≤ 50 * Câncer2 130** ≤ 50 * Câncer3 130** ≤ 50 * Hemofilia4 130** ≤ 50 * Virose5 122** > 50 * Hemofilia6 122** > 50 * Câncer7 122** > 50 * Virose8 122** > 50 * Virose9 130** ≤ 50 * Câncer10 130** ≤ 50 * Câncer11 130** ≤ 50 * Hemofilia12 130** ≤ 50 * Virose

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Page 87: Estudo de Casos sobre Privacidade e Transparência na ...evcomp.dcc.ufmg.br/wp-content/uploads/Gabriel-Nunes.pdf · Introdução Anonimização EstadodaArte Resumo MétodosDeterminísticos

Introdução Anonimização Estado da Arte Resumo

Métodos Determinísticos

Exemplo de 3-Diversidade

Não Sensível SensívelCEP Idade Gênero Condição

1 130** ≤ 50 * Câncer2 130** ≤ 50 * Câncer3 130** ≤ 50 * Hemofilia4 130** ≤ 50 * Virose5 122** > 50 * Hemofilia6 122** > 50 * Câncer7 122** > 50 * Virose8 122** > 50 * Virose9 130** ≤ 50 * Câncer10 130** ≤ 50 * Câncer11 130** ≤ 50 * Hemofilia12 130** ≤ 50 * Virose

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Page 88: Estudo de Casos sobre Privacidade e Transparência na ...evcomp.dcc.ufmg.br/wp-content/uploads/Gabriel-Nunes.pdf · Introdução Anonimização EstadodaArte Resumo MétodosDeterminísticos

Introdução Anonimização Estado da Arte Resumo

Métodos Determinísticos

Exemplo de 3-Diversidade

Não Sensível SensívelCEP Idade Gênero Condição

1 130** ≤ 50 * Câncer2 130** ≤ 50 * Câncer3 130** ≤ 50 * Hemofilia4 130** ≤ 50 * Virose5 122** > 50 * Hemofilia6 122** > 50 * Câncer7 122** > 50 * Virose8 122** > 50 * Virose9 130** ≤ 50 * Câncer10 130** ≤ 50 * Câncer11 130** ≤ 50 * Hemofilia12 130** ≤ 50 * Virose

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Page 89: Estudo de Casos sobre Privacidade e Transparência na ...evcomp.dcc.ufmg.br/wp-content/uploads/Gabriel-Nunes.pdf · Introdução Anonimização EstadodaArte Resumo MétodosDeterminísticos

Introdução Anonimização Estado da Arte Resumo

Métodos Determinísticos

Exemplo de 3-Diversidade

Não Sensível SensívelCEP Idade Gênero Condição

1 130** ≤ 50 * Câncer2 130** ≤ 50 * Câncer3 130** ≤ 50 * Hemofilia4 130** ≤ 50 * Virose5 122** > 50 * Hemofilia6 122** > 50 * Câncer7 122** > 50 * Virose8 122** > 50 * Virose9 130** ≤ 50 * Câncer10 130** ≤ 50 * Câncer11 130** ≤ 50 * Hemofilia12 130** ≤ 50 * Virose

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Page 90: Estudo de Casos sobre Privacidade e Transparência na ...evcomp.dcc.ufmg.br/wp-content/uploads/Gabriel-Nunes.pdf · Introdução Anonimização EstadodaArte Resumo MétodosDeterminísticos

Introdução Anonimização Estado da Arte Resumo

Métodos Determinísticos

Limitações de `-Diversidade

I Pode ser muito rigorosa

I A sensibilidade dos atributos pode variarI Pode não ser suficiente

I Permite a inferência de atributos sensíveis, e em alguns casoscom elevada probabilidade

t-Proximidade (Li et al., 2007)DefiniçãoUma base de dados é dita t-Próxima se cada agrupamento deregistros apresentar uma distribuição de atributos sensíveis próxima,a no máximo uma distância t, da distribuição geral

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Page 91: Estudo de Casos sobre Privacidade e Transparência na ...evcomp.dcc.ufmg.br/wp-content/uploads/Gabriel-Nunes.pdf · Introdução Anonimização EstadodaArte Resumo MétodosDeterminísticos

Introdução Anonimização Estado da Arte Resumo

Métodos Determinísticos

Limitações de `-Diversidade

I Pode ser muito rigorosaI A sensibilidade dos atributos pode variar

I Pode não ser suficiente

I Permite a inferência de atributos sensíveis, e em alguns casoscom elevada probabilidade

t-Proximidade (Li et al., 2007)DefiniçãoUma base de dados é dita t-Próxima se cada agrupamento deregistros apresentar uma distribuição de atributos sensíveis próxima,a no máximo uma distância t, da distribuição geral

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Page 92: Estudo de Casos sobre Privacidade e Transparência na ...evcomp.dcc.ufmg.br/wp-content/uploads/Gabriel-Nunes.pdf · Introdução Anonimização EstadodaArte Resumo MétodosDeterminísticos

Introdução Anonimização Estado da Arte Resumo

Métodos Determinísticos

Limitações de `-Diversidade

I Pode ser muito rigorosaI A sensibilidade dos atributos pode variar

I Pode não ser suficiente

I Permite a inferência de atributos sensíveis, e em alguns casoscom elevada probabilidade

t-Proximidade (Li et al., 2007)DefiniçãoUma base de dados é dita t-Próxima se cada agrupamento deregistros apresentar uma distribuição de atributos sensíveis próxima,a no máximo uma distância t, da distribuição geral

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Page 93: Estudo de Casos sobre Privacidade e Transparência na ...evcomp.dcc.ufmg.br/wp-content/uploads/Gabriel-Nunes.pdf · Introdução Anonimização EstadodaArte Resumo MétodosDeterminísticos

Introdução Anonimização Estado da Arte Resumo

Métodos Determinísticos

Limitações de `-Diversidade

I Pode ser muito rigorosaI A sensibilidade dos atributos pode variar

I Pode não ser suficienteI Permite a inferência de atributos sensíveis, e em alguns casos

com elevada probabilidade

t-Proximidade (Li et al., 2007)DefiniçãoUma base de dados é dita t-Próxima se cada agrupamento deregistros apresentar uma distribuição de atributos sensíveis próxima,a no máximo uma distância t, da distribuição geral

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Page 94: Estudo de Casos sobre Privacidade e Transparência na ...evcomp.dcc.ufmg.br/wp-content/uploads/Gabriel-Nunes.pdf · Introdução Anonimização EstadodaArte Resumo MétodosDeterminísticos

Introdução Anonimização Estado da Arte Resumo

Métodos Determinísticos

Limitações de `-Diversidade

I Pode ser muito rigorosaI A sensibilidade dos atributos pode variar

I Pode não ser suficienteI Permite a inferência de atributos sensíveis, e em alguns casos

com elevada probabilidade

t-Proximidade (Li et al., 2007)DefiniçãoUma base de dados é dita t-Próxima se cada agrupamento deregistros apresentar uma distribuição de atributos sensíveis próxima,a no máximo uma distância t, da distribuição geral

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Page 95: Estudo de Casos sobre Privacidade e Transparência na ...evcomp.dcc.ufmg.br/wp-content/uploads/Gabriel-Nunes.pdf · Introdução Anonimização EstadodaArte Resumo MétodosDeterminísticos

Introdução Anonimização Estado da Arte Resumo

Métodos Determinísticos

Composicionalidade

DB1: Contémdados sensíveis(anonimizada)

DB2: Coleçãopública de dadosnão sensíveis Informações

auxiliares

Algoritmo para relacionar informações

Registro(s) reidentificado(s)

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Page 96: Estudo de Casos sobre Privacidade e Transparência na ...evcomp.dcc.ufmg.br/wp-content/uploads/Gabriel-Nunes.pdf · Introdução Anonimização EstadodaArte Resumo MétodosDeterminísticos

Introdução Anonimização Estado da Arte Resumo

Métodos Determinísticos

Composicionalidade

Não Sensível SensívelCEP Idade País Condição

1 130** < 30 * AIDS2 130** < 30 * Cardíaco3 130** < 30 * Virose4 130** < 30 * Virose

5 130** ≥ 40 * Câncer6 130** ≥ 40 * Cardíaco7 130** ≥ 40 * Virose8 130** ≥ 40 * Virose

9 130** 3* * Câncer10 130** 3* * Câncer11 130** 3* * Câncer12 130** 3* * Câncer

Não Sensível SensívelCEP Idade País Condição

1 130** < 35 * AIDS2 130** < 35 * Tuberculose3 130** < 35 * Gripe4 130** < 35 * Tuberculose5 130** < 35 * Câncer6 130** < 35 * Câncer

7 130** ≥ 35 * Câncer8 130** ≥ 35 * Câncer9 130** ≥ 35 * Câncer10 130** ≥ 35 * Tuberculose11 130** ≥ 35 * Virose12 130** ≥ 35 * Virose

Alice tem 28 anos de idade, mora no CEP 13012, e visita ambos os hospitais

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Page 97: Estudo de Casos sobre Privacidade e Transparência na ...evcomp.dcc.ufmg.br/wp-content/uploads/Gabriel-Nunes.pdf · Introdução Anonimização EstadodaArte Resumo MétodosDeterminísticos

Introdução Anonimização Estado da Arte Resumo

Métodos Determinísticos

Netflix Prize Dataset (2008)

I 500.000 registros anônimos de classificações de filmes

I Objetivo era fomentar pesquisas científicasI Narayanan & Shmatikov cruzaram as informações com perfis

públicos no IMBD (The Internet Movie Database)I Saber apenas algumas preferências (2-8 filmes, imprecisas) de

um assinante foram suficientes para realizar a reidentificaçãoI Foi possível inferir posicionamento político e outras

informações sensíveis

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Page 98: Estudo de Casos sobre Privacidade e Transparência na ...evcomp.dcc.ufmg.br/wp-content/uploads/Gabriel-Nunes.pdf · Introdução Anonimização EstadodaArte Resumo MétodosDeterminísticos

Introdução Anonimização Estado da Arte Resumo

Métodos Determinísticos

Netflix Prize Dataset (2008)

I 500.000 registros anônimos de classificações de filmesI Objetivo era fomentar pesquisas científicas

I Narayanan & Shmatikov cruzaram as informações com perfispúblicos no IMBD (The Internet Movie Database)

I Saber apenas algumas preferências (2-8 filmes, imprecisas) deum assinante foram suficientes para realizar a reidentificação

I Foi possível inferir posicionamento político e outrasinformações sensíveis

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Page 99: Estudo de Casos sobre Privacidade e Transparência na ...evcomp.dcc.ufmg.br/wp-content/uploads/Gabriel-Nunes.pdf · Introdução Anonimização EstadodaArte Resumo MétodosDeterminísticos

Introdução Anonimização Estado da Arte Resumo

Métodos Determinísticos

Netflix Prize Dataset (2008)

I 500.000 registros anônimos de classificações de filmesI Objetivo era fomentar pesquisas científicasI Narayanan & Shmatikov cruzaram as informações com perfis

públicos no IMBD (The Internet Movie Database)

I Saber apenas algumas preferências (2-8 filmes, imprecisas) deum assinante foram suficientes para realizar a reidentificação

I Foi possível inferir posicionamento político e outrasinformações sensíveis

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Page 100: Estudo de Casos sobre Privacidade e Transparência na ...evcomp.dcc.ufmg.br/wp-content/uploads/Gabriel-Nunes.pdf · Introdução Anonimização EstadodaArte Resumo MétodosDeterminísticos

Introdução Anonimização Estado da Arte Resumo

Métodos Determinísticos

Netflix Prize Dataset (2008)

I 500.000 registros anônimos de classificações de filmesI Objetivo era fomentar pesquisas científicasI Narayanan & Shmatikov cruzaram as informações com perfis

públicos no IMBD (The Internet Movie Database)I Saber apenas algumas preferências (2-8 filmes, imprecisas) de

um assinante foram suficientes para realizar a reidentificação

I Foi possível inferir posicionamento político e outrasinformações sensíveis

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Page 101: Estudo de Casos sobre Privacidade e Transparência na ...evcomp.dcc.ufmg.br/wp-content/uploads/Gabriel-Nunes.pdf · Introdução Anonimização EstadodaArte Resumo MétodosDeterminísticos

Introdução Anonimização Estado da Arte Resumo

Métodos Determinísticos

Netflix Prize Dataset (2008)

I 500.000 registros anônimos de classificações de filmesI Objetivo era fomentar pesquisas científicasI Narayanan & Shmatikov cruzaram as informações com perfis

públicos no IMBD (The Internet Movie Database)I Saber apenas algumas preferências (2-8 filmes, imprecisas) de

um assinante foram suficientes para realizar a reidentificaçãoI Foi possível inferir posicionamento político e outras

informações sensíveis

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Page 102: Estudo de Casos sobre Privacidade e Transparência na ...evcomp.dcc.ufmg.br/wp-content/uploads/Gabriel-Nunes.pdf · Introdução Anonimização EstadodaArte Resumo MétodosDeterminísticos

Introdução Anonimização Estado da Arte Resumo

Métodos Probabilísticos

Anonimização

Métodos Probabilísticos

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Page 103: Estudo de Casos sobre Privacidade e Transparência na ...evcomp.dcc.ufmg.br/wp-content/uploads/Gabriel-Nunes.pdf · Introdução Anonimização EstadodaArte Resumo MétodosDeterminísticos

Introdução Anonimização Estado da Arte Resumo

Métodos Probabilísticos

Ataques Composicionais

I Problema de métodosdeterminísticos

I Cada observável correspondea um conjunto de segredos

I Combinar observaçõesdiferentes permitedeterminar intersecções nodomínio dos segredos

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Page 104: Estudo de Casos sobre Privacidade e Transparência na ...evcomp.dcc.ufmg.br/wp-content/uploads/Gabriel-Nunes.pdf · Introdução Anonimização EstadodaArte Resumo MétodosDeterminísticos

Introdução Anonimização Estado da Arte Resumo

Métodos Probabilísticos

Ataques Composicionais

I Problema de métodosdeterminísticos

I Cada observável correspondea um conjunto de segredos

I Combinar observaçõesdiferentes permitedeterminar intersecções nodomínio dos segredos

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Page 105: Estudo de Casos sobre Privacidade e Transparência na ...evcomp.dcc.ufmg.br/wp-content/uploads/Gabriel-Nunes.pdf · Introdução Anonimização EstadodaArte Resumo MétodosDeterminísticos

Introdução Anonimização Estado da Arte Resumo

Métodos Probabilísticos

Ataques Composicionais

I Problema de métodosdeterminísticos

I Cada observável correspondea um conjunto de segredos

I Combinar observaçõesdiferentes permitedeterminar intersecções nodomínio dos segredos

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Page 106: Estudo de Casos sobre Privacidade e Transparência na ...evcomp.dcc.ufmg.br/wp-content/uploads/Gabriel-Nunes.pdf · Introdução Anonimização EstadodaArte Resumo MétodosDeterminísticos

Introdução Anonimização Estado da Arte Resumo

Métodos Probabilísticos

Visão Geral

I Todo segredo pode gerarqualquer observável deacordo com uma distribuiçãode probabilidade

I Teorema de Bayes:

p(s|o) = p(s)p(o) · p(o|s)

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Page 107: Estudo de Casos sobre Privacidade e Transparência na ...evcomp.dcc.ufmg.br/wp-content/uploads/Gabriel-Nunes.pdf · Introdução Anonimização EstadodaArte Resumo MétodosDeterminísticos

Introdução Anonimização Estado da Arte Resumo

Métodos Probabilísticos

Visão Geral

I Todo segredo pode gerarqualquer observável deacordo com uma distribuiçãode probabilidade

I Teorema de Bayes:

p(s|o) = p(s)p(o) · p(o|s)

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Page 108: Estudo de Casos sobre Privacidade e Transparência na ...evcomp.dcc.ufmg.br/wp-content/uploads/Gabriel-Nunes.pdf · Introdução Anonimização EstadodaArte Resumo MétodosDeterminísticos

Introdução Anonimização Estado da Arte Resumo

Métodos Probabilísticos

Visão Geral

I Todo segredo pode gerarqualquer observável deacordo com uma distribuiçãode probabilidade

I Teorema de Bayes:

p(s|o) = p(s)p(o) · p(o|s)

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Page 109: Estudo de Casos sobre Privacidade e Transparência na ...evcomp.dcc.ufmg.br/wp-content/uploads/Gabriel-Nunes.pdf · Introdução Anonimização EstadodaArte Resumo MétodosDeterminísticos

Introdução Anonimização Estado da Arte Resumo

Métodos Probabilísticos

Visão Geral

I Todo segredo pode gerarqualquer observável deacordo com uma distribuiçãode probabilidade

I Teorema de Bayes:

p(s|o) = p(s)p(o) · p(o|s)

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Page 110: Estudo de Casos sobre Privacidade e Transparência na ...evcomp.dcc.ufmg.br/wp-content/uploads/Gabriel-Nunes.pdf · Introdução Anonimização EstadodaArte Resumo MétodosDeterminísticos

Introdução Anonimização Estado da Arte Resumo

Métodos Probabilísticos

Visão Geral

I Todo segredo pode gerarqualquer observável deacordo com uma distribuiçãode probabilidade

I Teorema de Bayes:

p(s|o) = p(s)p(o) · p(o|s)

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Page 111: Estudo de Casos sobre Privacidade e Transparência na ...evcomp.dcc.ufmg.br/wp-content/uploads/Gabriel-Nunes.pdf · Introdução Anonimização EstadodaArte Resumo MétodosDeterminísticos

Introdução Anonimização Estado da Arte Resumo

Métodos Probabilísticos

Exemplo

Nome Idade DoençaAlice 30 nãoBob 30 nãoCarl 40 nãoDon 40 simEllie 50 nãoFrank 50 sim

Idade mínima com doença:

I 30 com probabilidade 1/4I 40 com probabilidade 1/2I 50 com probabilidade 1/4

Alice BobCarl DonEllie Frank

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Page 112: Estudo de Casos sobre Privacidade e Transparência na ...evcomp.dcc.ufmg.br/wp-content/uploads/Gabriel-Nunes.pdf · Introdução Anonimização EstadodaArte Resumo MétodosDeterminísticos

Introdução Anonimização Estado da Arte Resumo

Métodos Probabilísticos

Exemplo

Nome Idade DoençaAlice 30 nãoBob 30 nãoCarl 40 nãoDon 40 simEllie 50 nãoFrank 50 sim

Idade mínima com doença:I 30 com probabilidade 1/4

I 40 com probabilidade 1/2I 50 com probabilidade 1/4

Alice BobCarl DonEllie Frank

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Page 113: Estudo de Casos sobre Privacidade e Transparência na ...evcomp.dcc.ufmg.br/wp-content/uploads/Gabriel-Nunes.pdf · Introdução Anonimização EstadodaArte Resumo MétodosDeterminísticos

Introdução Anonimização Estado da Arte Resumo

Métodos Probabilísticos

Exemplo

Nome Idade DoençaAlice 30 nãoBob 30 nãoCarl 40 nãoDon 40 simEllie 50 nãoFrank 50 sim

Idade mínima com doença:I 30 com probabilidade 1/4I 40 com probabilidade 1/2

I 50 com probabilidade 1/4

Alice BobCarl DonEllie Frank

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Page 114: Estudo de Casos sobre Privacidade e Transparência na ...evcomp.dcc.ufmg.br/wp-content/uploads/Gabriel-Nunes.pdf · Introdução Anonimização EstadodaArte Resumo MétodosDeterminísticos

Introdução Anonimização Estado da Arte Resumo

Métodos Probabilísticos

Exemplo

Nome Idade DoençaAlice 30 nãoBob 30 nãoCarl 40 nãoDon 40 simEllie 50 nãoFrank 50 sim

Idade mínima com doença:I 30 com probabilidade 1/4I 40 com probabilidade 1/2I 50 com probabilidade 1/4

Alice BobCarl DonEllie Frank

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Page 115: Estudo de Casos sobre Privacidade e Transparência na ...evcomp.dcc.ufmg.br/wp-content/uploads/Gabriel-Nunes.pdf · Introdução Anonimização EstadodaArte Resumo MétodosDeterminísticos

Introdução Anonimização Estado da Arte Resumo

Métodos Probabilísticos

Exemplo

Nome Idade DoençaAlice 30 nãoBob 30 nãoCarl 40 nãoDon 40 simEllie 50 nãoFrank 50 sim

Idade mínima com doença:I 30 com probabilidade 1/4I 40 com probabilidade 1/2I 50 com probabilidade 1/4

Alice BobCarl DonEllie Frank

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Page 116: Estudo de Casos sobre Privacidade e Transparência na ...evcomp.dcc.ufmg.br/wp-content/uploads/Gabriel-Nunes.pdf · Introdução Anonimização EstadodaArte Resumo MétodosDeterminísticos

Introdução Anonimização Estado da Arte Resumo

Métodos Probabilísticos

Exemplo

Nome Peso DoençaAlice 60 nãoBob 90 nãoCarl 90 nãoDon 100 simEllie 60 nãoFrank 100 sim

Peso mínimo com doença:

I 60 com probabilidade 1/7I 90 com probabilidade 2/7I 100 com probabilidade 4/7

Alice BobCarl DonEllie Frank

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Page 117: Estudo de Casos sobre Privacidade e Transparência na ...evcomp.dcc.ufmg.br/wp-content/uploads/Gabriel-Nunes.pdf · Introdução Anonimização EstadodaArte Resumo MétodosDeterminísticos

Introdução Anonimização Estado da Arte Resumo

Métodos Probabilísticos

Exemplo

Nome Peso DoençaAlice 60 nãoBob 90 nãoCarl 90 nãoDon 100 simEllie 60 nãoFrank 100 sim

Peso mínimo com doença:I 60 com probabilidade 1/7

I 90 com probabilidade 2/7I 100 com probabilidade 4/7

Alice BobCarl DonEllie Frank

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Page 118: Estudo de Casos sobre Privacidade e Transparência na ...evcomp.dcc.ufmg.br/wp-content/uploads/Gabriel-Nunes.pdf · Introdução Anonimização EstadodaArte Resumo MétodosDeterminísticos

Introdução Anonimização Estado da Arte Resumo

Métodos Probabilísticos

Exemplo

Nome Peso DoençaAlice 60 nãoBob 90 nãoCarl 90 nãoDon 100 simEllie 60 nãoFrank 100 sim

Peso mínimo com doença:I 60 com probabilidade 1/7I 90 com probabilidade 2/7

I 100 com probabilidade 4/7

Alice BobCarl DonEllie Frank

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Page 119: Estudo de Casos sobre Privacidade e Transparência na ...evcomp.dcc.ufmg.br/wp-content/uploads/Gabriel-Nunes.pdf · Introdução Anonimização EstadodaArte Resumo MétodosDeterminísticos

Introdução Anonimização Estado da Arte Resumo

Métodos Probabilísticos

Exemplo

Nome Peso DoençaAlice 60 nãoBob 90 nãoCarl 90 nãoDon 100 simEllie 60 nãoFrank 100 sim

Peso mínimo com doença:I 60 com probabilidade 1/7I 90 com probabilidade 2/7I 100 com probabilidade 4/7

Alice BobCarl DonEllie Frank

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Page 120: Estudo de Casos sobre Privacidade e Transparência na ...evcomp.dcc.ufmg.br/wp-content/uploads/Gabriel-Nunes.pdf · Introdução Anonimização EstadodaArte Resumo MétodosDeterminísticos

Introdução Anonimização Estado da Arte Resumo

Métodos Probabilísticos

Exemplo

Nome Peso DoençaAlice 60 nãoBob 90 nãoCarl 90 nãoDon 100 simEllie 60 nãoFrank 100 sim

Peso mínimo com doença:I 60 com probabilidade 1/7I 90 com probabilidade 2/7I 100 com probabilidade 4/7

Alice BobCarl DonEllie Frank

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Page 121: Estudo de Casos sobre Privacidade e Transparência na ...evcomp.dcc.ufmg.br/wp-content/uploads/Gabriel-Nunes.pdf · Introdução Anonimização EstadodaArte Resumo MétodosDeterminísticos

Introdução Anonimização Estado da Arte Resumo

Métodos Probabilísticos

Exemplo

Nome Idade DoençaAlice 30 nãoBob 30 nãoCarl 40 nãoDon 40 simEllie 50 nãoFrank 50 sim

Nome Peso DoençaAlice 60 nãoBob 90 nãoCarl 90 nãoDon 100 simEllie 60 nãoFrank 100 sim

Alice BobCarl DonEllie Frank

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Page 122: Estudo de Casos sobre Privacidade e Transparência na ...evcomp.dcc.ufmg.br/wp-content/uploads/Gabriel-Nunes.pdf · Introdução Anonimização EstadodaArte Resumo MétodosDeterminísticos

Introdução Anonimização Estado da Arte Resumo

Métodos Probabilísticos

Observações

I Deve-se escolher a distribuição de probabilidade com cuidado

I O mecanismo deve proporcionar um equilíbrio entreprivacidade e utilidade

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Page 123: Estudo de Casos sobre Privacidade e Transparência na ...evcomp.dcc.ufmg.br/wp-content/uploads/Gabriel-Nunes.pdf · Introdução Anonimização EstadodaArte Resumo MétodosDeterminísticos

Introdução Anonimização Estado da Arte Resumo

Métodos Probabilísticos

Observações

I Deve-se escolher a distribuição de probabilidade com cuidadoI O mecanismo deve proporcionar um equilíbrio entre

privacidade e utilidade

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Page 124: Estudo de Casos sobre Privacidade e Transparência na ...evcomp.dcc.ufmg.br/wp-content/uploads/Gabriel-Nunes.pdf · Introdução Anonimização EstadodaArte Resumo MétodosDeterminísticos

Introdução Anonimização Estado da Arte Resumo

Métodos Probabilísticos

Definições

Distância de HammingA Distância de Hammning entre dois bancos de dados x1 e x2 éigual ao número de registros que diferem entre x1 e x2

Bancos de Dados AdjacentesDois bancos de dados x1 e x2 são adjacentes se a Distância deHammning entre eles é igual a um. Denotamos essa propriedadecomo x1 ∼ x2

I x1 e x2 diferem em relação a apenas um indivíduo, i.e.

I ou o indivíduo foi adicionado a apenas uma das basesI ou removido de apenas uma das basesI ou teve seu valor alterado em apenas uma das bases

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Page 125: Estudo de Casos sobre Privacidade e Transparência na ...evcomp.dcc.ufmg.br/wp-content/uploads/Gabriel-Nunes.pdf · Introdução Anonimização EstadodaArte Resumo MétodosDeterminísticos

Introdução Anonimização Estado da Arte Resumo

Métodos Probabilísticos

Definições

Distância de HammingA Distância de Hammning entre dois bancos de dados x1 e x2 éigual ao número de registros que diferem entre x1 e x2

Bancos de Dados AdjacentesDois bancos de dados x1 e x2 são adjacentes se a Distância deHammning entre eles é igual a um. Denotamos essa propriedadecomo x1 ∼ x2

I x1 e x2 diferem em relação a apenas um indivíduo, i.e.

I ou o indivíduo foi adicionado a apenas uma das basesI ou removido de apenas uma das basesI ou teve seu valor alterado em apenas uma das bases

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Page 126: Estudo de Casos sobre Privacidade e Transparência na ...evcomp.dcc.ufmg.br/wp-content/uploads/Gabriel-Nunes.pdf · Introdução Anonimização EstadodaArte Resumo MétodosDeterminísticos

Introdução Anonimização Estado da Arte Resumo

Métodos Probabilísticos

Definições

Distância de HammingA Distância de Hammning entre dois bancos de dados x1 e x2 éigual ao número de registros que diferem entre x1 e x2

Bancos de Dados AdjacentesDois bancos de dados x1 e x2 são adjacentes se a Distância deHammning entre eles é igual a um. Denotamos essa propriedadecomo x1 ∼ x2I x1 e x2 diferem em relação a apenas um indivíduo, i.e.

I ou o indivíduo foi adicionado a apenas uma das basesI ou removido de apenas uma das basesI ou teve seu valor alterado em apenas uma das bases

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Page 127: Estudo de Casos sobre Privacidade e Transparência na ...evcomp.dcc.ufmg.br/wp-content/uploads/Gabriel-Nunes.pdf · Introdução Anonimização EstadodaArte Resumo MétodosDeterminísticos

Introdução Anonimização Estado da Arte Resumo

Métodos Probabilísticos

Definições

Distância de HammingA Distância de Hammning entre dois bancos de dados x1 e x2 éigual ao número de registros que diferem entre x1 e x2

Bancos de Dados AdjacentesDois bancos de dados x1 e x2 são adjacentes se a Distância deHammning entre eles é igual a um. Denotamos essa propriedadecomo x1 ∼ x2I x1 e x2 diferem em relação a apenas um indivíduo, i.e.

I ou o indivíduo foi adicionado a apenas uma das bases

I ou removido de apenas uma das basesI ou teve seu valor alterado em apenas uma das bases

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Page 128: Estudo de Casos sobre Privacidade e Transparência na ...evcomp.dcc.ufmg.br/wp-content/uploads/Gabriel-Nunes.pdf · Introdução Anonimização EstadodaArte Resumo MétodosDeterminísticos

Introdução Anonimização Estado da Arte Resumo

Métodos Probabilísticos

Definições

Distância de HammingA Distância de Hammning entre dois bancos de dados x1 e x2 éigual ao número de registros que diferem entre x1 e x2

Bancos de Dados AdjacentesDois bancos de dados x1 e x2 são adjacentes se a Distância deHammning entre eles é igual a um. Denotamos essa propriedadecomo x1 ∼ x2I x1 e x2 diferem em relação a apenas um indivíduo, i.e.

I ou o indivíduo foi adicionado a apenas uma das basesI ou removido de apenas uma das bases

I ou teve seu valor alterado em apenas uma das bases

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Page 129: Estudo de Casos sobre Privacidade e Transparência na ...evcomp.dcc.ufmg.br/wp-content/uploads/Gabriel-Nunes.pdf · Introdução Anonimização EstadodaArte Resumo MétodosDeterminísticos

Introdução Anonimização Estado da Arte Resumo

Métodos Probabilísticos

Definições

Distância de HammingA Distância de Hammning entre dois bancos de dados x1 e x2 éigual ao número de registros que diferem entre x1 e x2

Bancos de Dados AdjacentesDois bancos de dados x1 e x2 são adjacentes se a Distância deHammning entre eles é igual a um. Denotamos essa propriedadecomo x1 ∼ x2I x1 e x2 diferem em relação a apenas um indivíduo, i.e.

I ou o indivíduo foi adicionado a apenas uma das basesI ou removido de apenas uma das basesI ou teve seu valor alterado em apenas uma das bases

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Page 130: Estudo de Casos sobre Privacidade e Transparência na ...evcomp.dcc.ufmg.br/wp-content/uploads/Gabriel-Nunes.pdf · Introdução Anonimização EstadodaArte Resumo MétodosDeterminísticos

Introdução Anonimização Estado da Arte Resumo

Métodos Probabilísticos

Privacidade ε-Diferencial (Dwork, 2006)

DefiniçãoUma base de dados é dita Privada ε-Diferencial se para todos osbancos de dados x , x ′ adjacentes, e para todo z ∈ Z , a respostareportada, temos que:

p(K = z |X = x)

p(K = z |X = x ′)≤ eε

InterpretaçãoA presença ou não de informações sobre um indivíduo na base dedados não altera significativamente os resultados obtidos

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Page 131: Estudo de Casos sobre Privacidade e Transparência na ...evcomp.dcc.ufmg.br/wp-content/uploads/Gabriel-Nunes.pdf · Introdução Anonimização EstadodaArte Resumo MétodosDeterminísticos

Introdução Anonimização Estado da Arte Resumo

Métodos Probabilísticos

Privacidade ε-Diferencial (Dwork, 2006)

DefiniçãoUma base de dados é dita Privada ε-Diferencial se para todos osbancos de dados x , x ′ adjacentes, e para todo z ∈ Z , a respostareportada, temos que:

p(K = z |X = x)

p(K = z |X = x ′)≤ eε

InterpretaçãoA presença ou não de informações sobre um indivíduo na base dedados não altera significativamente os resultados obtidos

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Page 132: Estudo de Casos sobre Privacidade e Transparência na ...evcomp.dcc.ufmg.br/wp-content/uploads/Gabriel-Nunes.pdf · Introdução Anonimização EstadodaArte Resumo MétodosDeterminísticos

Introdução Anonimização Estado da Arte Resumo

Métodos Probabilísticos

Propriedades da Privacidade Diferencial

I Independência da prior, a distribuição de probabilidade sobreos segredos antes de se consultar o banco de dados

I Independe do adversárioI Robustez quanto à Composicionalidade

I Dados dois mecanismos Privados ε1-Diferencial eε2-Diferencial, a composição é um mecanismo(ε1 + ε2)-Diferencial

I A privacidade diminui linearmente com o número de consultasI É possível definir um orçamento de privacidade, ou seja, um

máximo aceitável de violação da privacidade

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Page 133: Estudo de Casos sobre Privacidade e Transparência na ...evcomp.dcc.ufmg.br/wp-content/uploads/Gabriel-Nunes.pdf · Introdução Anonimização EstadodaArte Resumo MétodosDeterminísticos

Introdução Anonimização Estado da Arte Resumo

Métodos Probabilísticos

Propriedades da Privacidade Diferencial

I Independência da prior, a distribuição de probabilidade sobreos segredos antes de se consultar o banco de dadosI Independe do adversário

I Robustez quanto à Composicionalidade

I Dados dois mecanismos Privados ε1-Diferencial eε2-Diferencial, a composição é um mecanismo(ε1 + ε2)-Diferencial

I A privacidade diminui linearmente com o número de consultasI É possível definir um orçamento de privacidade, ou seja, um

máximo aceitável de violação da privacidade

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Page 134: Estudo de Casos sobre Privacidade e Transparência na ...evcomp.dcc.ufmg.br/wp-content/uploads/Gabriel-Nunes.pdf · Introdução Anonimização EstadodaArte Resumo MétodosDeterminísticos

Introdução Anonimização Estado da Arte Resumo

Métodos Probabilísticos

Propriedades da Privacidade Diferencial

I Independência da prior, a distribuição de probabilidade sobreos segredos antes de se consultar o banco de dadosI Independe do adversário

I Robustez quanto à Composicionalidade

I Dados dois mecanismos Privados ε1-Diferencial eε2-Diferencial, a composição é um mecanismo(ε1 + ε2)-Diferencial

I A privacidade diminui linearmente com o número de consultasI É possível definir um orçamento de privacidade, ou seja, um

máximo aceitável de violação da privacidade

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Page 135: Estudo de Casos sobre Privacidade e Transparência na ...evcomp.dcc.ufmg.br/wp-content/uploads/Gabriel-Nunes.pdf · Introdução Anonimização EstadodaArte Resumo MétodosDeterminísticos

Introdução Anonimização Estado da Arte Resumo

Métodos Probabilísticos

Propriedades da Privacidade Diferencial

I Independência da prior, a distribuição de probabilidade sobreos segredos antes de se consultar o banco de dadosI Independe do adversário

I Robustez quanto à ComposicionalidadeI Dados dois mecanismos Privados ε1-Diferencial e

ε2-Diferencial, a composição é um mecanismo(ε1 + ε2)-Diferencial

I A privacidade diminui linearmente com o número de consultasI É possível definir um orçamento de privacidade, ou seja, um

máximo aceitável de violação da privacidade

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Page 136: Estudo de Casos sobre Privacidade e Transparência na ...evcomp.dcc.ufmg.br/wp-content/uploads/Gabriel-Nunes.pdf · Introdução Anonimização EstadodaArte Resumo MétodosDeterminísticos

Introdução Anonimização Estado da Arte Resumo

Métodos Probabilísticos

Propriedades da Privacidade Diferencial

I Independência da prior, a distribuição de probabilidade sobreos segredos antes de se consultar o banco de dadosI Independe do adversário

I Robustez quanto à ComposicionalidadeI Dados dois mecanismos Privados ε1-Diferencial e

ε2-Diferencial, a composição é um mecanismo(ε1 + ε2)-Diferencial

I A privacidade diminui linearmente com o número de consultas

I É possível definir um orçamento de privacidade, ou seja, ummáximo aceitável de violação da privacidade

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Page 137: Estudo de Casos sobre Privacidade e Transparência na ...evcomp.dcc.ufmg.br/wp-content/uploads/Gabriel-Nunes.pdf · Introdução Anonimização EstadodaArte Resumo MétodosDeterminísticos

Introdução Anonimização Estado da Arte Resumo

Métodos Probabilísticos

Propriedades da Privacidade Diferencial

I Independência da prior, a distribuição de probabilidade sobreos segredos antes de se consultar o banco de dadosI Independe do adversário

I Robustez quanto à ComposicionalidadeI Dados dois mecanismos Privados ε1-Diferencial e

ε2-Diferencial, a composição é um mecanismo(ε1 + ε2)-Diferencial

I A privacidade diminui linearmente com o número de consultasI É possível definir um orçamento de privacidade, ou seja, um

máximo aceitável de violação da privacidade

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Page 138: Estudo de Casos sobre Privacidade e Transparência na ...evcomp.dcc.ufmg.br/wp-content/uploads/Gabriel-Nunes.pdf · Introdução Anonimização EstadodaArte Resumo MétodosDeterminísticos

Introdução Anonimização Estado da Arte Resumo

Métodos Probabilísticos

Exemplos de Privacidade Diferencial

Qual a altura média?A distribuição varia entre50 cm e 250 cm

Altura (cm)Alice 140Bob 180Carol 160Daniel 120 (p)

190 (1− p)

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Page 139: Estudo de Casos sobre Privacidade e Transparência na ...evcomp.dcc.ufmg.br/wp-content/uploads/Gabriel-Nunes.pdf · Introdução Anonimização EstadodaArte Resumo MétodosDeterminísticos

Introdução Anonimização Estado da Arte Resumo

Métodos Probabilísticos

Exemplos de Privacidade Diferencial

Qual a altura média?A distribuição varia entre50 cm e 250 cm

Altura (cm)Alice 140Bob 180Carol 160Daniel 120 (p)

190 (1− p)

Um mecanismo que sempre reporta aresposta verdadeira (150 cm) não éprivado, qualquer que seja o ε

p(media = 150|Daniel = 120)

p(media = 150|Daniel = 190)=

10

= e∞

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Page 140: Estudo de Casos sobre Privacidade e Transparência na ...evcomp.dcc.ufmg.br/wp-content/uploads/Gabriel-Nunes.pdf · Introdução Anonimização EstadodaArte Resumo MétodosDeterminísticos

Introdução Anonimização Estado da Arte Resumo

Métodos Probabilísticos

Exemplos de Privacidade Diferencial

Qual a altura média?A distribuição varia entre50 cm e 250 cm

Altura (cm)Alice 140Bob 180Carol 160Daniel 120 (p)

190 (1− p)

Um mecanismo que sempre reportauma resposta errada (168 cm) écompletamente privado (ε = 0), mascompletamente inútil

p(media = 168|Daniel = x)

p(media = 168|Daniel = x ′)=

11

= e0

p(media = z |Daniel = x)

p(media = z |Daniel = x ′)=

00

(z 6= 168)

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Page 141: Estudo de Casos sobre Privacidade e Transparência na ...evcomp.dcc.ufmg.br/wp-content/uploads/Gabriel-Nunes.pdf · Introdução Anonimização EstadodaArte Resumo MétodosDeterminísticos

Introdução Anonimização Estado da Arte Resumo

Métodos Probabilísticos

Exemplos de Privacidade Diferencial

Qual a altura média?A distribuição varia entre50 cm e 250 cm

Altura (cm)Alice 140Bob 180Carol 160Daniel 120 (p)

190 (1− p)

Um mecanismo que sempre reporta100 cm se a resposta verdadeira (150cm) for menor ou igual a 150 cm, oureporta 200 cm caso contrário, não éprivado, qualquer que seja o ε

p(media = 100|Daniel = 120)

p(media = 100|Daniel = 190)=

10

= e∞

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Page 142: Estudo de Casos sobre Privacidade e Transparência na ...evcomp.dcc.ufmg.br/wp-content/uploads/Gabriel-Nunes.pdf · Introdução Anonimização EstadodaArte Resumo MétodosDeterminísticos

Introdução Anonimização Estado da Arte Resumo

Métodos Probabilísticos

Exemplos de Privacidade Diferencial

Qual a altura média?A distribuição varia entre50 cm e 250 cm

Altura (cm)Alice 140Bob 180Carol 160Daniel 120 (p)

190 (1− p)

O mecanismo que reporta a respostaverdadeira com probabilidade ε/(200+ε) etodos os outros inteiros no intervalo[50, 250] com probabilidade 1/(200+ε), éprivado ε-diferencial

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Page 143: Estudo de Casos sobre Privacidade e Transparência na ...evcomp.dcc.ufmg.br/wp-content/uploads/Gabriel-Nunes.pdf · Introdução Anonimização EstadodaArte Resumo MétodosDeterminísticos

Introdução Anonimização Estado da Arte Resumo

Google, Microsoft, e Apple

Estado da Arte

Google, Microsoft, e Apple

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Page 144: Estudo de Casos sobre Privacidade e Transparência na ...evcomp.dcc.ufmg.br/wp-content/uploads/Gabriel-Nunes.pdf · Introdução Anonimização EstadodaArte Resumo MétodosDeterminísticos

Introdução Anonimização Estado da Arte Resumo

Google, Microsoft, e Apple

Privacidade Diferencial Local

DefiniçãoA randomização e a adição de ruído são realizadas pelo software emexecução no dispositivo do usuário

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Page 145: Estudo de Casos sobre Privacidade e Transparência na ...evcomp.dcc.ufmg.br/wp-content/uploads/Gabriel-Nunes.pdf · Introdução Anonimização EstadodaArte Resumo MétodosDeterminísticos

Introdução Anonimização Estado da Arte Resumo

Google, Microsoft, e Apple

Privacidade Diferencial Local

ExemplosAs seguintes empresas privadas reportam utilizar PrivacidadeDiferencial Local para coleta de Telemetria

I Google (Chrome): RAPPOR (Randomized AggregatablePrivacy-Preserving Ordinal Response)

I Apple: iOS 10 em diante

I Microsoft: Windows 10

O objetivo final é aumentar a aceitação pública da coleta de dados

Entretanto, para garantir a utilidade dos dados coletados, utilizamum orçamento de privacidade (ε) muito grande

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Page 146: Estudo de Casos sobre Privacidade e Transparência na ...evcomp.dcc.ufmg.br/wp-content/uploads/Gabriel-Nunes.pdf · Introdução Anonimização EstadodaArte Resumo MétodosDeterminísticos

Introdução Anonimização Estado da Arte Resumo

Google, Microsoft, e Apple

Privacidade Diferencial Local

ExemplosAs seguintes empresas privadas reportam utilizar PrivacidadeDiferencial Local para coleta de Telemetria

I Google (Chrome): RAPPOR (Randomized AggregatablePrivacy-Preserving Ordinal Response)

I Apple: iOS 10 em diante

I Microsoft: Windows 10

O objetivo final é aumentar a aceitação pública da coleta de dados

Entretanto, para garantir a utilidade dos dados coletados, utilizamum orçamento de privacidade (ε) muito grande

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Page 147: Estudo de Casos sobre Privacidade e Transparência na ...evcomp.dcc.ufmg.br/wp-content/uploads/Gabriel-Nunes.pdf · Introdução Anonimização EstadodaArte Resumo MétodosDeterminísticos

Introdução Anonimização Estado da Arte Resumo

Google, Microsoft, e Apple

Privacidade Diferencial Local

ExemplosAs seguintes empresas privadas reportam utilizar PrivacidadeDiferencial Local para coleta de Telemetria

I Google (Chrome): RAPPOR (Randomized AggregatablePrivacy-Preserving Ordinal Response)

I Apple: iOS 10 em diante

I Microsoft: Windows 10

O objetivo final é aumentar a aceitação pública da coleta de dados

Entretanto, para garantir a utilidade dos dados coletados, utilizamum orçamento de privacidade (ε) muito grande

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Page 148: Estudo de Casos sobre Privacidade e Transparência na ...evcomp.dcc.ufmg.br/wp-content/uploads/Gabriel-Nunes.pdf · Introdução Anonimização EstadodaArte Resumo MétodosDeterminísticos

Introdução Anonimização Estado da Arte Resumo

Google, Microsoft, e Apple

Privacidade Diferencial Local

ExemplosAs seguintes empresas privadas reportam utilizar PrivacidadeDiferencial Local para coleta de Telemetria

I Google (Chrome): RAPPOR (Randomized AggregatablePrivacy-Preserving Ordinal Response)

I Apple: iOS 10 em diante

I Microsoft: Windows 10

O objetivo final é aumentar a aceitação pública da coleta de dados

Entretanto, para garantir a utilidade dos dados coletados, utilizamum orçamento de privacidade (ε) muito grande

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Page 149: Estudo de Casos sobre Privacidade e Transparência na ...evcomp.dcc.ufmg.br/wp-content/uploads/Gabriel-Nunes.pdf · Introdução Anonimização EstadodaArte Resumo MétodosDeterminísticos

Introdução Anonimização Estado da Arte Resumo

Google, Microsoft, e Apple

Privacidade Diferencial Local

ExemplosAs seguintes empresas privadas reportam utilizar PrivacidadeDiferencial Local para coleta de Telemetria

I Google (Chrome): RAPPOR (Randomized AggregatablePrivacy-Preserving Ordinal Response)

I Apple: iOS 10 em diante

I Microsoft: Windows 10

O objetivo final é aumentar a aceitação pública da coleta de dados

Entretanto, para garantir a utilidade dos dados coletados, utilizamum orçamento de privacidade (ε) muito grande

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Page 150: Estudo de Casos sobre Privacidade e Transparência na ...evcomp.dcc.ufmg.br/wp-content/uploads/Gabriel-Nunes.pdf · Introdução Anonimização EstadodaArte Resumo MétodosDeterminísticos

Introdução Anonimização Estado da Arte Resumo

Google, Microsoft, e Apple

Privacidade Diferencial Local

ExemplosAs seguintes empresas privadas reportam utilizar PrivacidadeDiferencial Local para coleta de Telemetria

I Google (Chrome): RAPPOR (Randomized AggregatablePrivacy-Preserving Ordinal Response)

I Apple: iOS 10 em diante

I Microsoft: Windows 10

O objetivo final é aumentar a aceitação pública da coleta de dados

Entretanto, para garantir a utilidade dos dados coletados, utilizamum orçamento de privacidade (ε) muito grande

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Page 151: Estudo de Casos sobre Privacidade e Transparência na ...evcomp.dcc.ufmg.br/wp-content/uploads/Gabriel-Nunes.pdf · Introdução Anonimização EstadodaArte Resumo MétodosDeterminísticos

Introdução Anonimização Estado da Arte Resumo

US Census Bureau

Estado da Arte

US Census Bureau

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Page 152: Estudo de Casos sobre Privacidade e Transparência na ...evcomp.dcc.ufmg.br/wp-content/uploads/Gabriel-Nunes.pdf · Introdução Anonimização EstadodaArte Resumo MétodosDeterminísticos

Introdução Anonimização Estado da Arte Resumo

US Census Bureau

Visão Geral

I Responsável pela realização dos Censos decenais

I Os resultados são publicados agregados e servem de base para

I a repartição dos assentos na Câmara dos Deputados entre osestados

I a distribuição de mais de US$675 bilhões em fundos federaispara estados e organizações locais

I Por Lei, a Confidencialidade deve ser garantida

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Page 153: Estudo de Casos sobre Privacidade e Transparência na ...evcomp.dcc.ufmg.br/wp-content/uploads/Gabriel-Nunes.pdf · Introdução Anonimização EstadodaArte Resumo MétodosDeterminísticos

Introdução Anonimização Estado da Arte Resumo

US Census Bureau

Visão Geral

I Responsável pela realização dos Censos decenaisI Os resultados são publicados agregados e servem de base para

I a repartição dos assentos na Câmara dos Deputados entre osestados

I a distribuição de mais de US$675 bilhões em fundos federaispara estados e organizações locais

I Por Lei, a Confidencialidade deve ser garantida

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Page 154: Estudo de Casos sobre Privacidade e Transparência na ...evcomp.dcc.ufmg.br/wp-content/uploads/Gabriel-Nunes.pdf · Introdução Anonimização EstadodaArte Resumo MétodosDeterminísticos

Introdução Anonimização Estado da Arte Resumo

US Census Bureau

Visão Geral

I Responsável pela realização dos Censos decenaisI Os resultados são publicados agregados e servem de base para

I a repartição dos assentos na Câmara dos Deputados entre osestados

I a distribuição de mais de US$675 bilhões em fundos federaispara estados e organizações locais

I Por Lei, a Confidencialidade deve ser garantida

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Page 155: Estudo de Casos sobre Privacidade e Transparência na ...evcomp.dcc.ufmg.br/wp-content/uploads/Gabriel-Nunes.pdf · Introdução Anonimização EstadodaArte Resumo MétodosDeterminísticos

Introdução Anonimização Estado da Arte Resumo

US Census Bureau

Visão Geral

I Responsável pela realização dos Censos decenaisI Os resultados são publicados agregados e servem de base para

I a repartição dos assentos na Câmara dos Deputados entre osestados

I a distribuição de mais de US$675 bilhões em fundos federaispara estados e organizações locais

I Por Lei, a Confidencialidade deve ser garantida

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Page 156: Estudo de Casos sobre Privacidade e Transparência na ...evcomp.dcc.ufmg.br/wp-content/uploads/Gabriel-Nunes.pdf · Introdução Anonimização EstadodaArte Resumo MétodosDeterminísticos

Introdução Anonimização Estado da Arte Resumo

US Census Bureau

Visão Geral

I Responsável pela realização dos Censos decenaisI Os resultados são publicados agregados e servem de base para

I a repartição dos assentos na Câmara dos Deputados entre osestados

I a distribuição de mais de US$675 bilhões em fundos federaispara estados e organizações locais

I Por Lei, a Confidencialidade deve ser garantida

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Page 157: Estudo de Casos sobre Privacidade e Transparência na ...evcomp.dcc.ufmg.br/wp-content/uploads/Gabriel-Nunes.pdf · Introdução Anonimização EstadodaArte Resumo MétodosDeterminísticos

Introdução Anonimização Estado da Arte Resumo

US Census Bureau

Visão Geral

I Até o Censo de 1970, apenas desidentificava os registros

I Entre os Censos de 1980 e de 2010, aplicou também métodosdeterminísticos

I Teorema da Reconstrução da Base de Dados(Dinur & Nissim, 2003)

I “Muitas estatísticas publicadas com muita precisão a partir deuma base de dados confidencial expõem a base de dadosinteira com quase certeza”

I Para se ter privacidade, é necessário adicionar umaperturbação de magnitude ao menos

√N, onde N é o tamanho

da população

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Page 158: Estudo de Casos sobre Privacidade e Transparência na ...evcomp.dcc.ufmg.br/wp-content/uploads/Gabriel-Nunes.pdf · Introdução Anonimização EstadodaArte Resumo MétodosDeterminísticos

Introdução Anonimização Estado da Arte Resumo

US Census Bureau

Visão Geral

I Até o Censo de 1970, apenas desidentificava os registrosI Entre os Censos de 1980 e de 2010, aplicou também métodos

determinísticos

I Teorema da Reconstrução da Base de Dados(Dinur & Nissim, 2003)

I “Muitas estatísticas publicadas com muita precisão a partir deuma base de dados confidencial expõem a base de dadosinteira com quase certeza”

I Para se ter privacidade, é necessário adicionar umaperturbação de magnitude ao menos

√N, onde N é o tamanho

da população

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Page 159: Estudo de Casos sobre Privacidade e Transparência na ...evcomp.dcc.ufmg.br/wp-content/uploads/Gabriel-Nunes.pdf · Introdução Anonimização EstadodaArte Resumo MétodosDeterminísticos

Introdução Anonimização Estado da Arte Resumo

US Census Bureau

Visão Geral

I Até o Censo de 1970, apenas desidentificava os registrosI Entre os Censos de 1980 e de 2010, aplicou também métodos

determinísticosI Teorema da Reconstrução da Base de Dados

(Dinur & Nissim, 2003)

I “Muitas estatísticas publicadas com muita precisão a partir deuma base de dados confidencial expõem a base de dadosinteira com quase certeza”

I Para se ter privacidade, é necessário adicionar umaperturbação de magnitude ao menos

√N, onde N é o tamanho

da população

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Page 160: Estudo de Casos sobre Privacidade e Transparência na ...evcomp.dcc.ufmg.br/wp-content/uploads/Gabriel-Nunes.pdf · Introdução Anonimização EstadodaArte Resumo MétodosDeterminísticos

Introdução Anonimização Estado da Arte Resumo

US Census Bureau

Visão Geral

I Até o Censo de 1970, apenas desidentificava os registrosI Entre os Censos de 1980 e de 2010, aplicou também métodos

determinísticosI Teorema da Reconstrução da Base de Dados

(Dinur & Nissim, 2003)I “Muitas estatísticas publicadas com muita precisão a partir de

uma base de dados confidencial expõem a base de dadosinteira com quase certeza”

I Para se ter privacidade, é necessário adicionar umaperturbação de magnitude ao menos

√N, onde N é o tamanho

da população

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Page 161: Estudo de Casos sobre Privacidade e Transparência na ...evcomp.dcc.ufmg.br/wp-content/uploads/Gabriel-Nunes.pdf · Introdução Anonimização EstadodaArte Resumo MétodosDeterminísticos

Introdução Anonimização Estado da Arte Resumo

US Census Bureau

Visão Geral

I Até o Censo de 1970, apenas desidentificava os registrosI Entre os Censos de 1980 e de 2010, aplicou também métodos

determinísticosI Teorema da Reconstrução da Base de Dados

(Dinur & Nissim, 2003)I “Muitas estatísticas publicadas com muita precisão a partir de

uma base de dados confidencial expõem a base de dadosinteira com quase certeza”

I Para se ter privacidade, é necessário adicionar umaperturbação de magnitude ao menos

√N, onde N é o tamanho

da população

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Page 162: Estudo de Casos sobre Privacidade e Transparência na ...evcomp.dcc.ufmg.br/wp-content/uploads/Gabriel-Nunes.pdf · Introdução Anonimização EstadodaArte Resumo MétodosDeterminísticos

Introdução Anonimização Estado da Arte Resumo

US Census Bureau

2020 Census

I Métodos determinísticos foram descartados devido à legislação

I Entretanto, Privacidade Diferencial Local adiciona muitoruído, caso seja utilizada para garantir de fato a privacidade

I Todo o banco de dados deve ser processado de uma só vezpara garantir melhor precisão

I Todos os usos dos dados privados devem ser previamenteconsiderados no orçamento de privacidade, ou seja, antes dapublicação dos dados

I Foi desenvolvido um novo método, Top-Down, que permite acriação das tabelas com informações agregadas sem grandesperdas de utilidade

I Novos resultados referentes ao Censo de 2010 foram publicadospara servirem de exemplo da aplicação do novo método

I US National Census Day: 1o de Abril de 2020

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Page 163: Estudo de Casos sobre Privacidade e Transparência na ...evcomp.dcc.ufmg.br/wp-content/uploads/Gabriel-Nunes.pdf · Introdução Anonimização EstadodaArte Resumo MétodosDeterminísticos

Introdução Anonimização Estado da Arte Resumo

US Census Bureau

2020 Census

I Métodos determinísticos foram descartados devido à legislaçãoI Entretanto, Privacidade Diferencial Local adiciona muito

ruído, caso seja utilizada para garantir de fato a privacidade

I Todo o banco de dados deve ser processado de uma só vezpara garantir melhor precisão

I Todos os usos dos dados privados devem ser previamenteconsiderados no orçamento de privacidade, ou seja, antes dapublicação dos dados

I Foi desenvolvido um novo método, Top-Down, que permite acriação das tabelas com informações agregadas sem grandesperdas de utilidade

I Novos resultados referentes ao Censo de 2010 foram publicadospara servirem de exemplo da aplicação do novo método

I US National Census Day: 1o de Abril de 2020

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Page 164: Estudo de Casos sobre Privacidade e Transparência na ...evcomp.dcc.ufmg.br/wp-content/uploads/Gabriel-Nunes.pdf · Introdução Anonimização EstadodaArte Resumo MétodosDeterminísticos

Introdução Anonimização Estado da Arte Resumo

US Census Bureau

2020 Census

I Métodos determinísticos foram descartados devido à legislaçãoI Entretanto, Privacidade Diferencial Local adiciona muito

ruído, caso seja utilizada para garantir de fato a privacidadeI Todo o banco de dados deve ser processado de uma só vez

para garantir melhor precisão

I Todos os usos dos dados privados devem ser previamenteconsiderados no orçamento de privacidade, ou seja, antes dapublicação dos dados

I Foi desenvolvido um novo método, Top-Down, que permite acriação das tabelas com informações agregadas sem grandesperdas de utilidade

I Novos resultados referentes ao Censo de 2010 foram publicadospara servirem de exemplo da aplicação do novo método

I US National Census Day: 1o de Abril de 2020

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Page 165: Estudo de Casos sobre Privacidade e Transparência na ...evcomp.dcc.ufmg.br/wp-content/uploads/Gabriel-Nunes.pdf · Introdução Anonimização EstadodaArte Resumo MétodosDeterminísticos

Introdução Anonimização Estado da Arte Resumo

US Census Bureau

2020 Census

I Métodos determinísticos foram descartados devido à legislaçãoI Entretanto, Privacidade Diferencial Local adiciona muito

ruído, caso seja utilizada para garantir de fato a privacidadeI Todo o banco de dados deve ser processado de uma só vez

para garantir melhor precisãoI Todos os usos dos dados privados devem ser previamente

considerados no orçamento de privacidade, ou seja, antes dapublicação dos dados

I Foi desenvolvido um novo método, Top-Down, que permite acriação das tabelas com informações agregadas sem grandesperdas de utilidade

I Novos resultados referentes ao Censo de 2010 foram publicadospara servirem de exemplo da aplicação do novo método

I US National Census Day: 1o de Abril de 2020

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Page 166: Estudo de Casos sobre Privacidade e Transparência na ...evcomp.dcc.ufmg.br/wp-content/uploads/Gabriel-Nunes.pdf · Introdução Anonimização EstadodaArte Resumo MétodosDeterminísticos

Introdução Anonimização Estado da Arte Resumo

US Census Bureau

2020 Census

I Métodos determinísticos foram descartados devido à legislaçãoI Entretanto, Privacidade Diferencial Local adiciona muito

ruído, caso seja utilizada para garantir de fato a privacidadeI Todo o banco de dados deve ser processado de uma só vez

para garantir melhor precisãoI Todos os usos dos dados privados devem ser previamente

considerados no orçamento de privacidade, ou seja, antes dapublicação dos dados

I Foi desenvolvido um novo método, Top-Down, que permite acriação das tabelas com informações agregadas sem grandesperdas de utilidade

I Novos resultados referentes ao Censo de 2010 foram publicadospara servirem de exemplo da aplicação do novo método

I US National Census Day: 1o de Abril de 2020

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Page 167: Estudo de Casos sobre Privacidade e Transparência na ...evcomp.dcc.ufmg.br/wp-content/uploads/Gabriel-Nunes.pdf · Introdução Anonimização EstadodaArte Resumo MétodosDeterminísticos

Introdução Anonimização Estado da Arte Resumo

US Census Bureau

2020 Census

I Métodos determinísticos foram descartados devido à legislaçãoI Entretanto, Privacidade Diferencial Local adiciona muito

ruído, caso seja utilizada para garantir de fato a privacidadeI Todo o banco de dados deve ser processado de uma só vez

para garantir melhor precisãoI Todos os usos dos dados privados devem ser previamente

considerados no orçamento de privacidade, ou seja, antes dapublicação dos dados

I Foi desenvolvido um novo método, Top-Down, que permite acriação das tabelas com informações agregadas sem grandesperdas de utilidade

I Novos resultados referentes ao Censo de 2010 foram publicadospara servirem de exemplo da aplicação do novo método

I US National Census Day: 1o de Abril de 2020

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Page 168: Estudo de Casos sobre Privacidade e Transparência na ...evcomp.dcc.ufmg.br/wp-content/uploads/Gabriel-Nunes.pdf · Introdução Anonimização EstadodaArte Resumo MétodosDeterminísticos

Introdução Anonimização Estado da Arte Resumo

US Census Bureau

2020 Census

I Métodos determinísticos foram descartados devido à legislaçãoI Entretanto, Privacidade Diferencial Local adiciona muito

ruído, caso seja utilizada para garantir de fato a privacidadeI Todo o banco de dados deve ser processado de uma só vez

para garantir melhor precisãoI Todos os usos dos dados privados devem ser previamente

considerados no orçamento de privacidade, ou seja, antes dapublicação dos dados

I Foi desenvolvido um novo método, Top-Down, que permite acriação das tabelas com informações agregadas sem grandesperdas de utilidade

I Novos resultados referentes ao Censo de 2010 foram publicadospara servirem de exemplo da aplicação do novo método

I US National Census Day: 1o de Abril de 2020Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Page 169: Estudo de Casos sobre Privacidade e Transparência na ...evcomp.dcc.ufmg.br/wp-content/uploads/Gabriel-Nunes.pdf · Introdução Anonimização EstadodaArte Resumo MétodosDeterminísticos

Introdução Anonimização Estado da Arte Resumo

Resumo

Resumo

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Page 170: Estudo de Casos sobre Privacidade e Transparência na ...evcomp.dcc.ufmg.br/wp-content/uploads/Gabriel-Nunes.pdf · Introdução Anonimização EstadodaArte Resumo MétodosDeterminísticos

Introdução Anonimização Estado da Arte Resumo

Resumo

Governos e empresas privadas coletam e continuarão coletandodados pessoais

I É importante que essas entidades garantam a segurança dessasinformações

I Controle de acesso e Criptografia são muito importantes, masnão resolvem todos os problemas

I É importante que essas entidades continuem divulgando dados,mas de forma responsável

I Muitos métodos de Anonimização já foram propostos, masdiversos problemas permanecem em aberto

I Como definir o conjunto de quasi-identificadores?I Como garantir um nível aceitável de utilidade?I Como anonimizar dados longitudinais no tempo?

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Page 171: Estudo de Casos sobre Privacidade e Transparência na ...evcomp.dcc.ufmg.br/wp-content/uploads/Gabriel-Nunes.pdf · Introdução Anonimização EstadodaArte Resumo MétodosDeterminísticos

Introdução Anonimização Estado da Arte Resumo

Resumo

Governos e empresas privadas coletam e continuarão coletandodados pessoaisI É importante que essas entidades garantam a segurança dessas

informações

I Controle de acesso e Criptografia são muito importantes, masnão resolvem todos os problemas

I É importante que essas entidades continuem divulgando dados,mas de forma responsável

I Muitos métodos de Anonimização já foram propostos, masdiversos problemas permanecem em aberto

I Como definir o conjunto de quasi-identificadores?I Como garantir um nível aceitável de utilidade?I Como anonimizar dados longitudinais no tempo?

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Page 172: Estudo de Casos sobre Privacidade e Transparência na ...evcomp.dcc.ufmg.br/wp-content/uploads/Gabriel-Nunes.pdf · Introdução Anonimização EstadodaArte Resumo MétodosDeterminísticos

Introdução Anonimização Estado da Arte Resumo

Resumo

Governos e empresas privadas coletam e continuarão coletandodados pessoaisI É importante que essas entidades garantam a segurança dessas

informaçõesI Controle de acesso e Criptografia são muito importantes, mas

não resolvem todos os problemas

I É importante que essas entidades continuem divulgando dados,mas de forma responsável

I Muitos métodos de Anonimização já foram propostos, masdiversos problemas permanecem em aberto

I Como definir o conjunto de quasi-identificadores?I Como garantir um nível aceitável de utilidade?I Como anonimizar dados longitudinais no tempo?

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Page 173: Estudo de Casos sobre Privacidade e Transparência na ...evcomp.dcc.ufmg.br/wp-content/uploads/Gabriel-Nunes.pdf · Introdução Anonimização EstadodaArte Resumo MétodosDeterminísticos

Introdução Anonimização Estado da Arte Resumo

Resumo

Governos e empresas privadas coletam e continuarão coletandodados pessoaisI É importante que essas entidades garantam a segurança dessas

informaçõesI Controle de acesso e Criptografia são muito importantes, mas

não resolvem todos os problemasI É importante que essas entidades continuem divulgando dados,

mas de forma responsável

I Muitos métodos de Anonimização já foram propostos, masdiversos problemas permanecem em aberto

I Como definir o conjunto de quasi-identificadores?I Como garantir um nível aceitável de utilidade?I Como anonimizar dados longitudinais no tempo?

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Page 174: Estudo de Casos sobre Privacidade e Transparência na ...evcomp.dcc.ufmg.br/wp-content/uploads/Gabriel-Nunes.pdf · Introdução Anonimização EstadodaArte Resumo MétodosDeterminísticos

Introdução Anonimização Estado da Arte Resumo

Resumo

Governos e empresas privadas coletam e continuarão coletandodados pessoaisI É importante que essas entidades garantam a segurança dessas

informaçõesI Controle de acesso e Criptografia são muito importantes, mas

não resolvem todos os problemasI É importante que essas entidades continuem divulgando dados,

mas de forma responsávelI Muitos métodos de Anonimização já foram propostos, mas

diversos problemas permanecem em aberto

I Como definir o conjunto de quasi-identificadores?I Como garantir um nível aceitável de utilidade?I Como anonimizar dados longitudinais no tempo?

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Page 175: Estudo de Casos sobre Privacidade e Transparência na ...evcomp.dcc.ufmg.br/wp-content/uploads/Gabriel-Nunes.pdf · Introdução Anonimização EstadodaArte Resumo MétodosDeterminísticos

Introdução Anonimização Estado da Arte Resumo

Resumo

Governos e empresas privadas coletam e continuarão coletandodados pessoaisI É importante que essas entidades garantam a segurança dessas

informaçõesI Controle de acesso e Criptografia são muito importantes, mas

não resolvem todos os problemasI É importante que essas entidades continuem divulgando dados,

mas de forma responsávelI Muitos métodos de Anonimização já foram propostos, mas

diversos problemas permanecem em abertoI Como definir o conjunto de quasi-identificadores?

I Como garantir um nível aceitável de utilidade?I Como anonimizar dados longitudinais no tempo?

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Page 176: Estudo de Casos sobre Privacidade e Transparência na ...evcomp.dcc.ufmg.br/wp-content/uploads/Gabriel-Nunes.pdf · Introdução Anonimização EstadodaArte Resumo MétodosDeterminísticos

Introdução Anonimização Estado da Arte Resumo

Resumo

Governos e empresas privadas coletam e continuarão coletandodados pessoaisI É importante que essas entidades garantam a segurança dessas

informaçõesI Controle de acesso e Criptografia são muito importantes, mas

não resolvem todos os problemasI É importante que essas entidades continuem divulgando dados,

mas de forma responsávelI Muitos métodos de Anonimização já foram propostos, mas

diversos problemas permanecem em abertoI Como definir o conjunto de quasi-identificadores?I Como garantir um nível aceitável de utilidade?

I Como anonimizar dados longitudinais no tempo?

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Page 177: Estudo de Casos sobre Privacidade e Transparência na ...evcomp.dcc.ufmg.br/wp-content/uploads/Gabriel-Nunes.pdf · Introdução Anonimização EstadodaArte Resumo MétodosDeterminísticos

Introdução Anonimização Estado da Arte Resumo

Resumo

Governos e empresas privadas coletam e continuarão coletandodados pessoaisI É importante que essas entidades garantam a segurança dessas

informaçõesI Controle de acesso e Criptografia são muito importantes, mas

não resolvem todos os problemasI É importante que essas entidades continuem divulgando dados,

mas de forma responsávelI Muitos métodos de Anonimização já foram propostos, mas

diversos problemas permanecem em abertoI Como definir o conjunto de quasi-identificadores?I Como garantir um nível aceitável de utilidade?I Como anonimizar dados longitudinais no tempo?

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Page 178: Estudo de Casos sobre Privacidade e Transparência na ...evcomp.dcc.ufmg.br/wp-content/uploads/Gabriel-Nunes.pdf · Introdução Anonimização EstadodaArte Resumo MétodosDeterminísticos

Introdução Anonimização Estado da Arte Resumo

Resumo

Como equilibrar Transparência e Privacidade?

Lembrando que a Lei Geral de Proteção de Dadosentra em vigor em Agosto de 2020 no Brasil!

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Page 179: Estudo de Casos sobre Privacidade e Transparência na ...evcomp.dcc.ufmg.br/wp-content/uploads/Gabriel-Nunes.pdf · Introdução Anonimização EstadodaArte Resumo MétodosDeterminísticos

Introdução Anonimização Estado da Arte Resumo

Resumo

Como equilibrar Transparência e Privacidade?

Lembrando que a Lei Geral de Proteção de Dadosentra em vigor em Agosto de 2020 no Brasil!

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Page 180: Estudo de Casos sobre Privacidade e Transparência na ...evcomp.dcc.ufmg.br/wp-content/uploads/Gabriel-Nunes.pdf · Introdução Anonimização EstadodaArte Resumo MétodosDeterminísticos

Introdução Anonimização Estado da Arte Resumo

Agradecimentos

Departamento de Ciência da Computação

Equipe da EVCOMP 2020

Prof. Mário Alvim e Prof. Annabelle McIver

Prof. Catuscia Palamidessi e Prof. Kostas Chatzikokolakis

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Page 181: Estudo de Casos sobre Privacidade e Transparência na ...evcomp.dcc.ufmg.br/wp-content/uploads/Gabriel-Nunes.pdf · Introdução Anonimização EstadodaArte Resumo MétodosDeterminísticos

Introdução Anonimização Estado da Arte Resumo

Agradecimentos

Obrigado pela atenção!

[email protected] Rnunesgh.com/sobre ®

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais