HebertdeOliveiraSilva ...repositorio.unicamp.br/jspui/bitstream/REPOSIP/... · vem, big data e...

117
Universidade Estadual de Campinas Faculdade de Tecnologia Hebert de Oliveira Silva Uma Abordagem Baseada em Anonimização para Privacidade de Dados em Plataformas Analíticas Limeira 2019

Transcript of HebertdeOliveiraSilva ...repositorio.unicamp.br/jspui/bitstream/REPOSIP/... · vem, big data e...

Page 1: HebertdeOliveiraSilva ...repositorio.unicamp.br/jspui/bitstream/REPOSIP/... · vem, big data e conectividade massiva de usuários. A solução foi aplicada em sistemas de cidades

Universidade Estadual de CampinasFaculdade de Tecnologia

Hebert de Oliveira Silva

Uma Abordagem Baseada em Anonimização paraPrivacidade de Dados em Plataformas Analíticas

Limeira2019

Page 2: HebertdeOliveiraSilva ...repositorio.unicamp.br/jspui/bitstream/REPOSIP/... · vem, big data e conectividade massiva de usuários. A solução foi aplicada em sistemas de cidades

Hebert de Oliveira Silva

Uma Abordagem Baseada em Anonimização para Privacidade deDados em Plataformas Analíticas

Dissertação apresentada à Faculdade deTecnologia da Universidade Estadual deCampinas como parte dos requisitos para aobtenção do título de Mestre em Tecnologia, naárea de Sistemas de Informação e Comunicação.

Orientador: Prof. Dr. Varese Salvador TimóteoCoorientadora: Profa. Dra. Regina Lucia de Oliveira Moraes

Este exemplar corresponde à versão final daDissertação defendida por Hebert deOliveira Silva e orientada pelo Prof. Dr.Varese Salvador Timóteo.

Limeira2019

Page 3: HebertdeOliveiraSilva ...repositorio.unicamp.br/jspui/bitstream/REPOSIP/... · vem, big data e conectividade massiva de usuários. A solução foi aplicada em sistemas de cidades

Ficha catalográficaUniversidade Estadual de Campinas

Biblioteca da Faculdade de TecnologiaFelipe de Souza Bueno - CRB 8/8577

Silva, Hebert de Oliveira, 1989- Si38a SilUma abordagem baseada em anonimização para privacidade de dados em

plataformas analíticas / Hebert de Oliveira Silva. – Limeira, SP : [s.n.], 2019.

SilOrientador: Varese Salvador Timoteo. SilCoorientador: Regina Lúcia de Oliveira Moraes. SilDissertação (mestrado) – Universidade Estadual de Campinas, Faculdade

de Tecnologia.

Sil1. Privacidade. 2. Anonimização de dados. 3. Análise de dados. 4. Big data.

I. Timoteo, Varese Salvador, 1972-. II. Moraes, Regina Lúcia de Oliveira,1956-. III. Universidade Estadual de Campinas. Faculdade de Tecnologia. IV.Título.

Informações para Biblioteca Digital

Título em outro idioma: An anonymity-based approach to data privacy in analyticalplatformsPalavras-chave em inglês:PrivacidadeData anonymizationData analyticsBig dataÁrea de concentração: Sistemas de Informação e ComunicaçãoTitulação: Mestre em TecnologiaBanca examinadora:Regina Lúcia de Oliveira Moraes [Coorientador]Leondardo MontecchiFerrucio de Franco RosaData de defesa: 25-02-2019Programa de Pós-Graduação: Tecnologia

Identificação e informações acadêmicas do(a) aluno(a)- ORCID do autor: https://orcid.org/0000-0002-0186-5925- Currículo Lattes do autor: http://lattes.cnpq.br/9689028080261016

Powered by TCPDF (www.tcpdf.org)

Page 4: HebertdeOliveiraSilva ...repositorio.unicamp.br/jspui/bitstream/REPOSIP/... · vem, big data e conectividade massiva de usuários. A solução foi aplicada em sistemas de cidades

FOLHA DE APROVAÇÃO

Abaixo se apresentam os membros da comissão julgadora da sessão pública de defesa

de dissertação para o Título de Mestre em Tecnologia na área de concentração de

Sistemas de Informação e Comunicação, a que submeteu o aluno Hebert de Oliveira

Silva, em 25 de fevereiro de 2019 na Faculdade de Tecnologia - FT/ UNICAMP, em

Limeira/SP.

Profa. Dra. Regina Lúcia de Oliveira Moraes

Presidente da Comissão Julgadora

Prof. Dr. Leonardo Montecchi

IC/UNICAMP

Dr. Ferrucio de Franco Rosa

CTI

Ata da defesa, assinada pelos membros da Comissão Examinadora, consta no

SIGA/Sistema de Fluxo de Dissertação/Tese e na Secretaria de Pós Graduação da FT.

Page 5: HebertdeOliveiraSilva ...repositorio.unicamp.br/jspui/bitstream/REPOSIP/... · vem, big data e conectividade massiva de usuários. A solução foi aplicada em sistemas de cidades

Consagre ao Senhortudo o que você faz,e os seus planos serãobem-sucedidos.(Provérbios 16:3)

Page 6: HebertdeOliveiraSilva ...repositorio.unicamp.br/jspui/bitstream/REPOSIP/... · vem, big data e conectividade massiva de usuários. A solução foi aplicada em sistemas de cidades

Agradecimentos

À Deus, por me conceder saúde e força. Pelas incontáveis bênçãos em minha vida, asquais, me possibilitaram concluir essa dissertação de mestrado.Agradeço ao meu orientador prof. Dr. Varese Salvador Timóteo por me aceitar no pro-grama de mestrado da Faculdade de Tecnologia da UNICAMP e por consentir com minhaparticipação no projeto EUBra-BIGSEA.Agradeço à minha co-orientadora Profa Dra Regina Lúcia de Oliveira Moraes por ter acre-ditado em mim, pela dedicação, orientação e incentivos durante essa jornada. Obrigadopor me ajudar a realizar esta etapa em minha formação acadêmica.A Profa Dra Tânia Basso pela positividade de sua influência, apoio, e todo o aprendizadona execução desta dissertação e dos projetos que executamos em conjunto.Agradeço a minha esposa, Daniela da Silva Oliveira, por todo amor, apoio e confiançasempre deposita em mim. Também pela paciência ofertada durante a minha carreira aca-dêmica.Agradeço aos meus filhos Ana Luíza e Pedro Benjamin, pelo amor incondicional e grandecompreensão em todas as vezes que me ausentei para desenvolvimento desta dissertação.Agradeço aos meus pais, Raimundo e Regina, pelo suporte familiar e ensinamentos. Te-nho pleno entendimento do quanto se sacrificaram durante toda a vida para que eu tivesseesta e outras oportunidades, meu agradecimento especial a vocês!Ao Serviço Nacional de Aprendizagem Industrial (SENAI) pelo apoio e flexibilidade conce-dido para realizar este trabalho e cumprimento das atividades necessárias à pós-graduaçãode alto nível.Agradeço aos projetos EUBra-BIGSEA e ATMOSPHERE, pelo apoio financeiro e pelaoportunidade de aprender de maneira prática, realizando atividades de infraestrutura edesenvolvimento de software.Enfim, agradeço a Faculdade de Tecnologia da UNICAMP, e todos os professores queparticiparam da minha formação.

Page 7: HebertdeOliveiraSilva ...repositorio.unicamp.br/jspui/bitstream/REPOSIP/... · vem, big data e conectividade massiva de usuários. A solução foi aplicada em sistemas de cidades

Resumo

A internet está presente em quase todas as atividades do dia a dia dos indivíduos nasociedade moderna. Para muitas dessas atividades (por exemplo, compras on line), énecessário o compartilhamento de dados pessoais (por exemplo, dados cadastrais, loca-lização geográfica, entre outros) e dados sensíveis (por exemplo, número de cartão decrédito, valor de salário, diagnósticos médicos, entre outros), fazendo com que a priva-cidade de dados seja uma preocupação de toda a sociedade. É comum que esses dadossejam armazenados em nuvens para que possam ser utilizados em serviços e aplicaçõesWeb. Compartilhar informações aumenta a capacidade de operação desses serviços, mas,em contrapartida, exige que sejam utilizados mecanismos de proteção dos dados sensíveis,de forma que esses dados não possam ser indevidamente utilizados por pessoas não auto-rizadas. Um mecanismo que vem sendo utilizado e indicado, em leis e regulamentações,para prover essa proteção é a anonimização de dados.

O processo de anonimização tem como objetivo remover identificadores e ofuscar dadossensíveis, porém sua aplicação não é uma tarefa fácil. É necessário conhecimento emcontexto multidisciplinar para analisar os dados e avaliar o impacto que a anonimizaçãotraz sobre o processo de mineração de dados. O processo de anonimização, ao suprimirou alterar os dados de origem, limitam a utilidade desses dados na obtenção de resultadossignificativos do processo de mineração de dados. Surge, assim, a necessidade de sebalancear a proteção e a utilidade dos dados, para que seja mantido um equilíbrio entrea privacidade e a utilidade dos dados em um processo de análise de dados, por exemplo.Outro ponto importante é atender as leis e regulamentações aplicáveis, bem como, aspolíticas de proteção de dados informadas pelo proprietário dos dados.

Neste trabalho é apresentada uma abordagem para plataformas de análise de dadosbaseada em anonimização, a fim de melhorar o trade-off (relação de perda e ganho) entreutilidade dos dados e a privacidade dos indivíduos. A abordagem inicial foi definida emduas etapas de anonimização: a primeira, menos restritiva, deve ser aplicada durante oprocesso de ETL (Extração, Transformação e Carga); a segunda etapa, mais restritiva,ocorre antes da divulgação de dados para usuários externos às plataformas analíticas ecomplementa a primeira etapa de anonimização. Esta divisão do processo em estágiosreduz o trade-off entre a proteção e a utilidade dos dados. Apoiada por políticas deanonimização oriundas de leis e regulamentações, a abordagem foi integrada no projetoEUBra-BIGSEA, projeto este com foco no desenvolvimento de serviços avançados na nu-vem, big data e conectividade massiva de usuários. A solução foi aplicada em sistemasde cidades inteligentes, utilizados como estudos de caso. A princípio, foi utilizado umconjunto de dados de transporte público da cidade de Curitiba, no sul do Brasil, paraverificar se após o processo de anonimização, a acurácia (precisão e exatidão) e o de-sempenho (tempo de execução) dos algoritmos de classificação (utilizados no processo demineração de dados) foram melhorados ou apresentaram piores medidas. Essa avaliação

Page 8: HebertdeOliveiraSilva ...repositorio.unicamp.br/jspui/bitstream/REPOSIP/... · vem, big data e conectividade massiva de usuários. A solução foi aplicada em sistemas de cidades

foi posteriormente estendida com o uso de conjuntos de dados analíticos, já em outroscontextos, da Universidade Califórnia Irvine (UCI).

Os resultados dos experimentos mostraram que, no geral, ao aplicar a implementaçãoda abordagem, houve um baixo impacto nos resultados de desempenho e utilidade naplataforma de análise de dados. Em alguns casos específicos, inclusive, o desempenhoe acurácia (precisão e exatidão) dos algoritmos de classificação melhoraram. Todos osconjuntos de dados tiveram as entradas e saídas submetidas à análise e simulação deataques de violação de privacidade. Considerando os ataques emulados, nenhum indivíduofoi reidentificado, sugerindo que a técnica pode ser satisfatória para lidar com o problema.

Page 9: HebertdeOliveiraSilva ...repositorio.unicamp.br/jspui/bitstream/REPOSIP/... · vem, big data e conectividade massiva de usuários. A solução foi aplicada em sistemas de cidades

Abstract

The internet is present in almost every day-to-day activity of individuals in modern society.For many of these activities (for example, on line shopping), it is necessary to sharepersonal data (for example, social security ID, geographic information, among others),making data privacy a concern of the whole society. It is common for such data to bestored in clouds so that web services and software applications can use them. Sharinginformation increases the ability of these services to operate, but requires that sensitivedata protection mechanisms be used so that such data cannot be utilized by unauthorizedpersons. A mechanism that has been used and indicated as a solution, in laws andregulations, to provide this protection is data anonymization.

The anonymization process aims to remove identifiers and sensitive data, but its appli-cation is not an easy task. It requires knowledge in a multidisciplinary context to analyzethe data and evaluate the impact that the anonymization brings on the data mining pro-cess. The anonymization by suppressing or changing the source data limits the usefulnessof such data in obtaining significant results from the data mining process, for example.So, it is necessary to balance the protection and utility of the data to maintain a balancebetween privacy and the usefulness of data. Another important point is to comply withthe applicable laws and regulations, as well as the business policies informed by the dataowner.

In this work, it is presented an anonymization-based approach for use in data analyt-ics platforms in order to improve the trade-off between data utility and the individualsprivacy. The initial approach was divided in two steps of anonymization: the first, duringthe ETL (Extract, Transformation, and Load) process anonymizes only identifiers; thesecond stage occurs before the dissemination of the results to external users of the ana-lytic platforms and complements the first stage anonymization (now on the data miningresults), ensuring the privacy of sensitive data. The proposed approach, supported byprivacy policies that were stemmed from laws and regulations, has been integrated intoan EUBra-BIGSEA project, which was focussed on cloud services for big data analysis.

The solution was applied in Smart Cities systems, used as case studies. At first, apublic transportation data from Curitiba (in the south of Brazil), was used to verify ifafter the anonymization process, accuracy (precision) and performance (runtime) of theclassification algorithms were improved or presented worse measures. This evaluation waslater extended, using analytical data sets in other context from University of CaliforniaIrvine (UCI).

In general, the experiments results showed that, when applying the approach imple-mentation, a low impact on performance and utility was observed on the results. In somespecific cases, the performance and accuracy (precision) of the classification algorithmshave even better results. All data sets had input and output submitted to analysis andsimulation of privacy breach attacks. Considering the emulated attacks, no individual wasre-identified, suggesting that the technique may be satisfactory to deal with the problem.

Page 10: HebertdeOliveiraSilva ...repositorio.unicamp.br/jspui/bitstream/REPOSIP/... · vem, big data e conectividade massiva de usuários. A solução foi aplicada em sistemas de cidades

Lista de Figuras

2.1 Distribuição da causa raiz da violação de dados. Adaptado de (PONE-MON, 2018) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

2.2 Supressão de atributos da tabela (Fonte: Ohm (2009)) . . . . . . . . . . . 292.3 Estrutura do CEP (CORREIOS, 2018) . . . . . . . . . . . . . . . . . . . . 302.4 CEP setor de Campinas (São Paulo/Brasil) e adjacências (CORREIOS,

2018) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 302.5 Tabela anonimizada por agregação (Adaptada de (OHM, 2009)) . . . . . . 312.6 Tabela anonimizada por κ-anonymity (EL EMAM; DANKAR, 2008) . . . 322.7 Tabela anonimizada por `-diversity (SUMATHIE, 2016) . . . . . . . . . . 33

4.1 Abordagem para Anonimização e cálculo do Risco de reidentificação paraAnálise de Dados em Big Data . . . . . . . . . . . . . . . . . . . . . . . . . 48

4.2 Arquitetura de integração do PRIVAaaS no Projeto EUBra-BIGSEA(EUBRA-BIGSEA, 2017a) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49

4.3 Exemplo de uso da anonimização 1.1 e 1.2 utilizando a biblioteca PRIVA-aaS(EUBRA-BIGSEA, 2017a) . . . . . . . . . . . . . . . . . . . . . . . . . 51

4.4 Exemplo do arquivo de política de anonimização incluindo limite aceitopara o risco de reidentificação . . . . . . . . . . . . . . . . . . . . . . . . . 54

4.5 Fluxo de execução do PRIVAaaS para anonimização 2 . . . . . . . . . . . 574.6 Exemplo de uso do PRIVAaaS - Anonimização 2 . . . . . . . . . . . . . . . 594.7 Primeiro cenário - Ataque do Promotor . . . . . . . . . . . . . . . . . . . . 604.8 Segundo cenário - Ataque do Jornalista . . . . . . . . . . . . . . . . . . . . 61

5.1 Abordagem experimental . . . . . . . . . . . . . . . . . . . . . . . . . . . . 635.2 Pirâmide etária da cidade de Curitiba (GEOGRAFIA E ESTATÍSTICA

- IBGE, 2010) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 665.3 Integração de base fictícia com dados reais de transporte da cidade de Curitiba 685.4 Amostra de dados brutos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 735.5 Amostra de dados anonimizados no primeiro estágio . . . . . . . . . . . . . 735.6 Amostra de anonimização executada no segundo estágio . . . . . . . . . . . 735.7 Acurácia para o tipo do cartão de crédito . . . . . . . . . . . . . . . . . . . 745.8 Acurácia para o tipo de veículo . . . . . . . . . . . . . . . . . . . . . . . . 755.9 Acurácia para o tipo de cor . . . . . . . . . . . . . . . . . . . . . . . . . . 765.10 Acurácia para o navegador de internet utilizado . . . . . . . . . . . . . . . 775.11 Desempenho para o tipo de cartão de crédito . . . . . . . . . . . . . . . . . 785.12 Desempenho para o tipo de veículo . . . . . . . . . . . . . . . . . . . . . . 785.13 Desempenho para o tipo de cor . . . . . . . . . . . . . . . . . . . . . . . . 795.14 Desempenho para o tipo de navegador de internet . . . . . . . . . . . . . . 805.15 Risco de reidentificação para os dados integrados . . . . . . . . . . . . . . . 81

Page 11: HebertdeOliveiraSilva ...repositorio.unicamp.br/jspui/bitstream/REPOSIP/... · vem, big data e conectividade massiva de usuários. A solução foi aplicada em sistemas de cidades

5.16 Integração com a plataforma Ophidia . . . . . . . . . . . . . . . . . . . . . 845.17 Detalhamento do processo de anonimização - política mais restritiva . . . . 865.18 Riscos de reidentificação para o framework . . . . . . . . . . . . . . . . . . 885.19 Probabilidade de reidentificação - Primeira perspectiva de ataques . . . . . 905.20 Probabilidade de reidentificação - Segunda perspectiva de ataques . . . . . 925.21 Resultados médios do processo de anonimização - Dados Sociais . . . . . . 945.22 Resultado médios do processo de anonimização - Dados Médicos . . . . . . 955.23 Resultado do processo de mineração para os conjunto de dados sociais . . . 975.24 Resultado do processo de mineração para os conjunto de dados Médicos . . 975.25 Distribuição dos resultados dos ataques para os dados Sociais . . . . . . . . 1005.26 Distribuição dos resultados dos ataques para os dados Médicos . . . . . . . 100

Page 12: HebertdeOliveiraSilva ...repositorio.unicamp.br/jspui/bitstream/REPOSIP/... · vem, big data e conectividade massiva de usuários. A solução foi aplicada em sistemas de cidades

Lista de Tabelas

2.1 Tabela anonimizada por τ -closeness (N. LI; T. LI; V., 2007) . . . . . . . . 342.2 Características das ferramentas de anonimização . . . . . . . . . . . . . . . 352.3 Análise de recursos disponíveis . . . . . . . . . . . . . . . . . . . . . . . . . 36

3.1 Resumo comparativo dos trabalhos relacionados . . . . . . . . . . . . . . . 45

4.1 Exemplo de hierarquia para anonimização . . . . . . . . . . . . . . . . . . 55

5.1 Quantidade de registros nos conjuntos de dados selecionados do repositórioUCI . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69

5.2 Técnicas de anonimização aplicadas aos principais atributos dos dados detransporte da cidade de Curitiba com base no trabalho de Matsunaga etal. (2017) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70

5.3 Resultados para ataques de ligação na tabela anonimizada . . . . . . . . . 905.4 Resultados para ataques de ligação na tabela anonimizada . . . . . . . . . 915.5 Resultados dos ataques para conjunto de dados Sociais . . . . . . . . . . . 1015.6 Resultados dos ataques para conjunto de dados Médicos . . . . . . . . . . 101

Page 13: HebertdeOliveiraSilva ...repositorio.unicamp.br/jspui/bitstream/REPOSIP/... · vem, big data e conectividade massiva de usuários. A solução foi aplicada em sistemas de cidades

Sumário

1 Introdução 151.1 Motivação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 191.2 Objetivos e contribuições . . . . . . . . . . . . . . . . . . . . . . . . . . . . 201.3 Organização do trabalho . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

2 Fundamentação Teórica 232.1 Privacidade dos dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

2.1.1 Casos de violação de privacidade . . . . . . . . . . . . . . . . . . . 252.2 Anonimização de dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

2.2.1 Técnicas de anonimização . . . . . . . . . . . . . . . . . . . . . . . 282.2.2 Modelos de anonimização . . . . . . . . . . . . . . . . . . . . . . . 312.2.3 Risco de reidentificação . . . . . . . . . . . . . . . . . . . . . . . . . 36

2.3 Mineração de dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 372.3.1 Classificação de dados . . . . . . . . . . . . . . . . . . . . . . . . . 382.3.2 Utilidade dos dados . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

3 Trabalhos Relacionados 403.1 Avaliação do impacto da anonimização . . . . . . . . . . . . . . . . . . . . 403.2 Avaliação do risco de reidentificação . . . . . . . . . . . . . . . . . . . . . . 423.3 Frameworks para preservação da privacidade . . . . . . . . . . . . . . . . . 44

4 Abordagem Proposta 464.1 Abordagem de anonimização para plataformas de análise de dados . . . . . 464.2 Detalhamento da abordagem de anonimização . . . . . . . . . . . . . . . . 49

4.2.1 Anonimização 1 - Políticas e ferramenta de anonimização . . . . . . 504.2.2 Anonimização 2 - Anonimização com inclusão do risco de reidenti-

ficação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 524.3 Extensão da política de anonimização para o risco de reidentificação . . . . 53

4.3.1 Hierarquias de generalização . . . . . . . . . . . . . . . . . . . . . . 544.4 Detalhamento do componente de anonimização que inclui o risco de rei-

dentificação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 554.4.1 Exemplo de uso do PRIVAaaS . . . . . . . . . . . . . . . . . . . . . 58

4.5 Injeção dos ataques de reidentificação . . . . . . . . . . . . . . . . . . . . . 59

5 Estudo de Caso 625.1 Abordagem experimental . . . . . . . . . . . . . . . . . . . . . . . . . . . . 635.2 Conjuntos de dados utilizados . . . . . . . . . . . . . . . . . . . . . . . . . 65

5.2.1 Dados de transporte da cidade de Curitiba . . . . . . . . . . . . . . 655.2.2 Dados do repositório da UCI . . . . . . . . . . . . . . . . . . . . . . 68

Page 14: HebertdeOliveiraSilva ...repositorio.unicamp.br/jspui/bitstream/REPOSIP/... · vem, big data e conectividade massiva de usuários. A solução foi aplicada em sistemas de cidades

5.3 Primeira etapa do estudo de caso: Avaliação do impacto da anonimizaçãonos algoritmos de classificação . . . . . . . . . . . . . . . . . . . . . . . . . 695.3.1 Avaliação da classificação . . . . . . . . . . . . . . . . . . . . . . . . 705.3.2 Avaliação do risco de reidentificação . . . . . . . . . . . . . . . . . . 805.3.3 Discussão dos resultados da primeira etapa . . . . . . . . . . . . . . 82

5.4 Segunda etapa do estudo de caso: Integração com a plataforma Ophidia . . 835.4.1 Avaliação da Abordagem integrada à plataforma Ophidia . . . . . . 875.4.2 Avaliação da injeção dos ataques de reidentificação para os dados

de saída da plataforma Ophidia . . . . . . . . . . . . . . . . . . . . 885.5 Terceira etapa do estudo de caso: Extensão dos experimentos com dados

do repositório da UCI . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 925.5.1 Avaliação da anonimização . . . . . . . . . . . . . . . . . . . . . . . 935.5.2 Avaliação da classificação . . . . . . . . . . . . . . . . . . . . . . . . 965.5.3 Avaliação da injeção dos ataques de reidentificação . . . . . . . . . 98

6 Conclusão 1036.1 Trabalhos futuros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1086.2 Publicações . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108

Referências Bibliográficas 110

Page 15: HebertdeOliveiraSilva ...repositorio.unicamp.br/jspui/bitstream/REPOSIP/... · vem, big data e conectividade massiva de usuários. A solução foi aplicada em sistemas de cidades

15

Capítulo 1

Introdução

As mais variadas tecnologias disponíveis para uso das pessoas e organizações permitem

que os recursos de computação sejam fornecidos com alta eficiência e eficácia, tais como

serviços de compras, educação, entretenimento, entre outros. Essas tecnologias muitas

vezes são baseadas em big data, termo este que é utilizado para se referir a conjuntos

de dados muito grandes ou muito complexos para o processamento por produtos de soft-

ware convencionais. A tecnologia que executa o cruzamento das informações armazenadas

em big data, com intuito de descobrir informações, padrões e correlações desconhecidas

é denominada como análise de dados (em inglês, data analytics). Ambas as tecnologias

(big data e data analytics) têm suportado o crescimento de pesquisas em diversas áreas,

utilizando os mais variados tipos de sistemas e algoritmos, como classificadores de da-

dos, para analisar e implementar, por exemplo, melhorias na descoberta de informação e

proporcionar maior agilidade na tomada de decisões (TABLEAU, 2018).

Embora a adoção dessas tecnologias se mostrarem muito vantajosas, tanto aos usuá-

rios quanto às empresas, os dados manipulados por meio da análise de big data geralmente

incluem informações pessoais e confidenciais dos usuários, podendo implicar em ameaças

à privacidade dos indivíduos. Sendo assim, as organizações, interessadas em prover so-

luções inteligentes em resposta a problemas cotidianos, devem prezar pelo cuidado com

a privacidade dos dados dos indivíduos, adotando essas tecnologias. Uma das possíveis

soluções para resolver esse problema é o uso de estratégias para anonimização de dados.

A anonimização de dados, também conhecida em inglês como de-identification, consiste

em técnicas que podem ser aplicadas nos conjuntos de dados para impedir a identificação

dos usuários aos quais os registros do conjunto de dados pertencem. Normalmente, a ano-

Page 16: HebertdeOliveiraSilva ...repositorio.unicamp.br/jspui/bitstream/REPOSIP/... · vem, big data e conectividade massiva de usuários. A solução foi aplicada em sistemas de cidades

16

nimização é aplicada para evitar o vazamento das informações confidenciais dos usuários

quando existe a necessidade de divulgar dados para usuários externos às plataformas de

tecnologia ou compartilha-los com parceiros. Sendo assim, o processo de anonimização,

geralmente, é executado antes que os dados sejam divulgados ou compartilhados.

No contexto de Big Data, dados pessoais disponibilizados pelos usuários são cons-

tantemente armazenados e manipulados. Dessa forma, ao longo do tempo, os usuários

deixarão uma trilha digital dos seus dados confidenciais que foram coletados por apli-

cativos e sistemas computacionais. Se por um lado a coleta dessas informações permite

aos usuários se beneficiarem dos serviços oferecidos pelas plataformas de tecnologias e

aplicativos, por outro lado, causam preocupações em relação à proteção da privacidade

desses dados. Essas preocupações vão além do sentimento positivo dos usuários a respeito

das empresas que protegem os dados pessoais, sendo, inclusive, impostas por leis e regula-

mentações, tais como a Regulamentação Geral da Proteção de Dados Europeia (GDPR)

(EUROPEU, 2018), Lei Geral de Proteção de Dados (LGPD) (REPÚBLICA, 2018), Lei

de Portabilidade e Responsabilidade do Seguro de Saúde (HIPAA)(HHS, 2017), PCI-DSS

(Padrão de Segurança de Dados do setor de cartões para pagamento) (COUNCIL, 2006),

entre outras.

O não cumprimento das legislações aplicáveis ou a proteção inadequada da privacidade

dos dados pessoais pode causar danos à imagem das organizações, assim como acarretar

multas altíssimas impostas pelas leis, tal como é determinado pela GDPR e futuramente

pela LGPD no Brasil. Podemos citar o caso do uso inadequado dos dados de usuários da

rede social Facebook pela Cambridge Analítica, durante o período de eleição americana,

que resultou em processo judicial e derrubou o valor de mercado da empresa em março

de 2018 (BBC, 2018), impondo uma multa de quinhentas mil libras à plataforma de rede

social. Além da conformidade com as leis, a proteção da privacidade de dados dos usuários

aumenta a credibilidade das organizações (BASSO; MORAES et al., 2015).

Nesse contexto, embora seja necessário manipular informações dos indivíduos, tam-

bém é necessário preservar a privacidade e a identidade destes. Esse paradoxo mostra

a necessidade de se estabelecer mecanismos de proteção adequados que regulamentem o

uso dos dados sem que haja violação da privacidade do indivíduo. Porém, o desenvol-

vimento desses mecanismos deve levar em consideração a utilidade desses dados. Essa

antagônica relação entre a privacidade e a utilidade dos dados configura um trade-off,

Page 17: HebertdeOliveiraSilva ...repositorio.unicamp.br/jspui/bitstream/REPOSIP/... · vem, big data e conectividade massiva de usuários. A solução foi aplicada em sistemas de cidades

17

representando uma relação de perda e ganho entre a privacidade e utilidade dos dados,

ou seja, quanto mais se implementa mecanismos de privacidade menor será a utilidade

dos dados e vice-versa.

As técnicas de anonimização podem ser utilizadas para contribuir com o equilíbrio

desse trade-off. Ao invés de simplesmente remover os atributos dos conjuntos de dados, as

técnicas de anonimização podem, por exemplo, generalizar, agregar ou suprimir parcial-

mente dígitos dos atributos. Essas técnicas, portanto, podem contribuir para implementar

a privacidade dos dados de indivíduos com uma perda menos acentuada da utilidade desses

dados. Além disso, o modelo de privacidade κ-anonymity (SWEENEY, 2002) se mostrou

eficiente nos experimentos executados, contribuindo com a privacidade dos dados sem que

sua implementação implique na perda da utilidade dos dados por completo e, também,

trazendo sob controle o risco de reverter o processo de anonimização.

Esta dissertação propõe uma abordagem baseada no processo de anonimização de

dados que utiliza políticas de anonimização e o risco de reidentificação para controle

do processo. A abordagem foi desenvolvida para ser integrada em um Framework de

análise de grandes volumes de dados. Essa abordagem, basicamente, é composta de

duas fases de anonimização. A primeira fase de anonimização implementa uma política

de anonimização menos restritiva, que é aplicada antes do processo de análise de dados

(durante o processo de ETL - Extração, Transformação e Carregamento). Já na segunda

fase é aplicada uma política mais restritiva, antes da divulgação de informações para

usuários externos à plataforma. O framework para a análise de dados recebe os dados

“brutos” que são submetidos ao processo de ETL, antes de qualquer tratamento interno à

plataforma. Neste momento, os dados são submetidos à política de anonimização menos

restritiva, em que se removem dados identificadores, tais como: nomes, RG, CPF, entre

outros. O nível de anonimização mais restritivo é aplicado sobre o resultado da análise

de dados, como último tratamento antes da saída dos dados da plataforma. Nesse caso,

os dados anonimizados são os dados sensíveis (ou seja, informações particulares que não

possam ser divulgadas sem o devido tratamento, tais como um diagnóstico médico ou o

valor do salário de um indivíduo) ou semi-identificadores (dados que, ao serem combinados

com outras informações, possam revelar a identidade do indivíduo, como por exemplo seu

endereço, sobrenome, números de cartões de crédito, entre outros).

Page 18: HebertdeOliveiraSilva ...repositorio.unicamp.br/jspui/bitstream/REPOSIP/... · vem, big data e conectividade massiva de usuários. A solução foi aplicada em sistemas de cidades

18

Nos experimentos apresentados, a política de anonimização foi definida de acordo com

o trabalho de Matsunaga et al. (2017) , que determina quais técnicas devem ser utilizadas

em cada atributo (nomes das colunas de uma tabela) de dados de acordo com as legislações

vigentes, tais como HIPAA (HHS, 2017), PCI-DSS (COUNCIL, 2006) e GDPR (EURO-

PEU, 2018). Os dados utilizados foram primeiramente, dados reais do transporte público

da cidade de Curitiba, cedidos no âmbito do projeto EUBra-BIGSEA 1. Para estender

os resultados obtidos, foram utilizados também oito conjuntos de dados provenientes do

repositório de dados analíticos da Universidade da Califórnia, Irvine (UCI).

De acordo com os resultados obtidos foi possível concluir que a anonimização dos da-

dos é uma forma viável de se preservar a privacidade destes e garantir as capacidades de

mineração de dados (no que diz respeito à utilidade dos dados). Utilizando-se o framework

proposto e as técnicas a ele incorporadas, como apresentados neste trabalho, o processo

de anonimização é facilitado, uma vez que essas técnicas removem os atributos que repre-

sentam os identificadores pessoais ou os agregam de forma a preservar a identidade de um

indivíduo. Para cada estágio do processo de anonimização, a acurácia (ou seja, o número

de predições corretas entre todas as previsões feitas pelos classificadores) e o desempe-

nho (tempo de execução) foram avaliados. A avaliação da acurácia nos ajuda a entender

melhor a utilidade dos dados após terem sido anonimizados, enquanto que a avaliação

do desempenho ajuda a entender melhor se há custos computacionais introduzidos pela

técnica de anonimização usada. Em alguns casos, conforme apresentados nos resultados

dos experimentos (capítulo 5), a etapa de análise de dados apresentou melhorias para

alguns dos algoritmos de classificação.

O risco de reidentificação do conjunto de dados anonimizado foi calculado utilizando

a ferramenta ARX Anonymization Tools (PRASSER; KOHLMAYER, 2015). Ao final,

os conjuntos de dados que seriam publicados para usuários externos à plataforma foram

submetidos a ataques, para verificar se os dados ainda ficariam vulneráveis à violação

da privacidade. Foram escolhidos dois cenários possíveis, respectivamente: o ataque de

jornalista (em que o atacante não conhece nenhuma particularidade do conjunto de dados)

e o de promotor (que considera que o atacante possui a identidade de um indivíduo em

quem se está interessado). Os ataques injetados não foram bem sucedidos (do ponto de1O Projeto EUBra-BIGSEA é financiado pela terceira chamada coordenada Europa - Brasil focado no

desenvolvimento de serviços avançados de QoS para aplicações de Big Data, monstrados no âmbito dasSociedades massivamente conectadas. Mais informações em http://www.eubra-bigsea.eu

Page 19: HebertdeOliveiraSilva ...repositorio.unicamp.br/jspui/bitstream/REPOSIP/... · vem, big data e conectividade massiva de usuários. A solução foi aplicada em sistemas de cidades

19

vista da quebra da privacidade), pois nenhum indivíduo pôde ser reidentificado. Esse

resultado confirma a qualidade e a efetividade da abordagem de anonimização proposta

que garantiu a privacidade de dados dos indivíduos nos cenários de ataques executados.

1.1 Motivação

A questão da privacidade no contexto do processamento de informações de indivíduos

em big data tem ocupado um lugar de destaque na pesquisa acadêmica nos últimos anos,

conforme é evidenciado no Capítulo 3 - Trabalhos Relacionados. Os incidentes com o

vazamento de informações pessoais é crescente. Por exemplo, em 2018 foram expostos

dados pessoais de mais de 500 milhões de dados de clientes da rede hoteleira Marriott.

No anos de 2017, 143 milhões de dados pessoais dos clientes da Equifax foram vazados.

Também foram expostos dados pessoais de aproximadamente 412 milhões de usuários

da rede Adult Friend Finder (rede de relacionamentos adultos) em 2016 (ARMERDING,

2018). O custo médio total da violação da privacidade de dados é de aproximadamente

3,86 milhões de dólares (PONEMON, 2018), como também é crescente o número de leis

que foram editadas para reger a questão, obrigando as empresas a adotarem soluções

que as preservem perante a justiça e a sociedade. No caso do Facebook, se na época a

GDPR já estivesse em vigor na União Europeia, a multa aplicada teria sido em torno de

17 milhões de libras, ou até 4% do faturamento do ano anterior (o que for maior), valor

muito superior ao aplicado (500 mil libras) (PRESS, 2018).

Outra demanda que torna a privacidade de dados essencial é o uso crescente da análise

de grandes volumes de dados e seus algoritmos, que possibilitam a extração de conheci-

mento desses dados. A análise de dados é cada vez mais aplicável em cenários do mundo

real, dando suporte ao processo de decisão, com benefícios para toda a sociedade e orga-

nizações (como avanços em pesquisas, definições de novas tecnologias, entre outros). Sob

a ótica da anonimização de dados, o trade-off entre a privacidade e a utilidade dos da-

dos ainda é uma questão em aberto. Se a anonimização não for executada corretamente,

motivada pela necessidade de se manter a utilidade dos dados, o risco de se reidentificar

indivíduos pode ser alto.

A motivação para o desenvolvimento deste trabalho, surge quando um consórcio de

um projeto internacional (EUBRA-BIGSEA, 2017b) foi aprovado com o objetivo de de-

Page 20: HebertdeOliveiraSilva ...repositorio.unicamp.br/jspui/bitstream/REPOSIP/... · vem, big data e conectividade massiva de usuários. A solução foi aplicada em sistemas de cidades

20

senvolver uma plataforma de apoio à análise de dados em ambiente de big data. A solução

apresentada não poderia prescindir de uma abordagem que tratasse a privacidade de da-

dos levando em consideração as especificidades do ambiente, que dependia de detalhes dos

dados para obter os resultados necessários ao mesmo tempo que a privacidade dos dados

precisava ser preservada.

Na prática, este estudo pretende responder às seguintes questões de pesquisa:

Q1. A anonimização de dados contribui ou prejudica a qualidade dos resultados dos

algoritmos de classificação utilizados no processo de mineração de dados?

Q2. Duas fases de anonimização, uma menos restritiva e outra mais restritiva, podem

contribuir para manter a utilidade dos dados tratados em plataformas analíticas?

Q3. Considerando os dados utilizados nos experimentos, é possível determinar um

ponto de equilíbrio entre a privacidade e a utilidade dos dados?

Q4. O processo de anonimização, utilizando o risco de reidentificação, é viável, sob o

aspecto da utilidade de dados e da eficácia da proteção da privacidade?

1.2 Objetivos e contribuições

Considerando a motivação apresentada, o principal objetivo deste trabalho foi propor uma

abordagem para anonimização de dados em plataformas de análise de dados, utilizando

um processo de anonimização em duas fases. Na primeira fase se permite um menor

nível de anonimização quando os dados se encontram em um ambiente computacional

mais controlado e, numa segunda fase, aumenta-se o nível de anonimização antes que

os dados sejam entregues a um ambiente externo. Para atingir o objetivo proposto,

foi necessário desenvolver e adaptar um conjunto de serviços para a anonimização de

dados que considerasse não apenas o risco de reidentificação como também a perda da

utilidade dos dados, levando em consideração as necessidades de um ambiente de análise

de dados. Nesse contexto, é importante que o custodiante dos dados possa decidir e

aplicar com facilidade as técnicas de anonimização que devem ser implementadas para

cada atributo existente no seu conjunto de dados, respeitando leis e regulamentações

atualmente existentes. Além disso, cabe a ele decidir o nível de risco que está disposto a

correr se um indivíduo for identificado em meio aos dados que tornar público para que, em

contrapartida, possa extrair maiores informações dos dados em um processo de análise de

Page 21: HebertdeOliveiraSilva ...repositorio.unicamp.br/jspui/bitstream/REPOSIP/... · vem, big data e conectividade massiva de usuários. A solução foi aplicada em sistemas de cidades

21

dados. Para possibilitar essa decisão, a solução apresentada permite configurar o limite do

nível risco de reidentificação e apoia um melhor uso do detalhamento dos dados ao fazer

uso do processo em duas fases. Sendo assim, as contribuições dessa dissertação podem

ser sumarizadas como:

i) Definição de um framework para abordagem da privacidade de dados em plataformas

analíticas baseada em anonimização;

ii) Um processo para anonimização de conjuntos de dados, pautados por políticas

de anonimização formuladas com base em leis e regulamentações de diversos países, que

permitam decidir o nível de anonimização implementado, visando melhorar o equilíbrio

(trade-off ) entre privacidade e a utilidade de dados durante a análise dos grandes volumes

de dados para diferentes cenários, verificando, inclusive, o cálculo da perda de Informação;

iii) Identificar o impacto da anonimização de dados nos algoritmos de classificação,

considerando a anonimização de quatro categorias de dados (dados brutos, anonimização

de identificadores, anonimização acrescida de atributos semi-identificadores, anonimização

acrescida de atributos sensíveis);

iv) avaliação do risco de reidentificação (em inglês de-anonymization risk) de dados

anonimizados pela solução proposta por meio da emulação de diferentes cenários de ata-

ques de ligação de informações (em inglês, linkage attacks). A definição de um processo

para injeção de ataques de reidentificação pode ajudar a prevenir futuras tentativas se-

melhantes.

1.3 Organização do trabalho

Além desse capítulo, que apresentou a Introdução, a motivação e as principais contribui-

ções do trabalho, o Capítulo 2 apresenta os principais conceitos e paradigmas nos domínios

da privacidade dos dados individuais, utilidade dos dados e o risco de reidentificação. Os

Trabalhos Relacionados ao tema pesquisado são apresentados no Capítulo 3. O Capítulo

4 apresenta a abordagem proposta, trazendo as especificações sobre a perspectiva da in-

fraestrutura, características dos dados e aplicações. O Capítulo 5 apresenta o estudo de

caso que descreve os cenários e o conjunto de dados que foram utilizados, bem como as

intercorrências e adaptações que foram necessárias para validar a abordagem proposta.

Ainda no capítulo 5 são apresentados os resultados obtidos, acrescidos das devidas con-

Page 22: HebertdeOliveiraSilva ...repositorio.unicamp.br/jspui/bitstream/REPOSIP/... · vem, big data e conectividade massiva de usuários. A solução foi aplicada em sistemas de cidades

22

siderações e discussões para cada etapa do estudo de caso. Finalmente, as conclusões do

estudo desenvolvido e o que pode ser feito como trabalhos futuros são apresentados no

Capítulo 6.

Page 23: HebertdeOliveiraSilva ...repositorio.unicamp.br/jspui/bitstream/REPOSIP/... · vem, big data e conectividade massiva de usuários. A solução foi aplicada em sistemas de cidades

23

Capítulo 2

Fundamentação Teórica

Este Capítulo tem como objetivo introduzir o leitor no contexto da privacidade de dados,

técnicas de anonimização, utilidade de dados na esfera da análise dos dados, e o risco de

reidentificação de indivíduos em dados pós anonimização. Brevemente se discute o que

é a privacidade dos dados no contexto deste trabalho e os principais marcos regulatórios

no Brasil e no mundo, acrescidos de estudos e casos reais sobre violação da privacidade.

Em seguida, neste capítulo, é fornecida uma breve descrição da classificação dos tipos de

atributos em função das técnicas e modelos de anonimização de dados, tais como os mode-

los κ-anonymity, `-diversity e τ -closeness. Ainda é apresentado um estudo comparativo

sobre algumas das ferramentas de iniciativa livre, disponíveis, para aplicação das técnicas

de anonimização, que resultou na decisão do uso da ferramenta ARX Anonymization Tool

(ARX, 2018), que foi integrada no framework do projeto EUBra-BIGSEA mais amplo e

que é citado no capítulo 5. Ao final deste capítulo, são apresentadas as metodologias de

cálculo do risco de reidentificação dos dados pós anonimizados e da perda de dados em

decorrência da anonimização dos dados.

2.1 Privacidade dos dados

O conceito de privacidade está ligado ao isolamento, intimidade, algo que é privado, que

é secreto ou restrito, isto é, “Vida privada; intimidade, privatividade” (MELHORAMEN-

TOS, 2019). É inegável que o indivíduo tem direito à proteção de sua privacidade, mas o

conceito de privacidade e suas extensões precisam ser redefinidas ou adaptadas de acordo

com o contexto histórico, político e social (WARREN; BRANDEIS, 1890). Para o con-

Page 24: HebertdeOliveiraSilva ...repositorio.unicamp.br/jspui/bitstream/REPOSIP/... · vem, big data e conectividade massiva de usuários. A solução foi aplicada em sistemas de cidades

24

texto atual, a privacidade está relacionada às informações pessoais. Wang et al. (1998)

afirmam que “a privacidade geralmente se refere a informações pessoais e que a invasão de

privacidade geralmente é interpretada como a coleta, divulgação ou uso não autorizado

de informações pessoais como resultado direto de transações de comércio eletrônico”. De

acordo com Bertino et al. (2008), em uma definição mais atual, privacidade é “o direito de

um indivíduo estar a salvo da divulgação não autorizada de informações sobre si mesmo

contidas em um repositório eletrônico”.

De acordo com Branco et al. (2014) existem três elementos básicos em privacidade

- confidencialidade, anonimato e isolamento (ou solidão, o direito de estar sozinho) - es-

tendido em três dimensões: Privacidade Territorial, Privacidade Individual e Privacidade

da Informação (proteção de dados). O foco principal deste trabalho é a proteção da

identidade do usuário, com foco na dimensão da privacidade da informação, embora não

limitada a ela, quando existe a necessidade de compartilhamento de dados entre sistemas

e a divulgação de informações para usuários ou sistemas externos às plataformas de aná-

lise de dados. Assim, no contexto desse trabalho vamos adotar as definições de Bertino

et al. (2008), no que se refere ao direito do indivíduo de estar a salvo da divulgação

não autorizada de suas informações contidas em um repositório eletrônico, seja ela por

resultado de direito do comércio eletrônico, como definido por Wang et al. (1998), ou

qualquer outra transação eletrônica gerada e/ou coletada, pelo uso das novas tecnologias

(tais como big data e data analytics).

Vários países possuem leis que visam proteger a privacidade da informação. Neste tra-

balho, foram consideradas preferencialmente as leis regidas no Brasil e na União Européia

(leis que afetam diretamente os países participantes do projeto EUBra-BIGSEA) ou mais

relevantes para os tipos de dados (como é o caso da HIPAA e PCI-DS).

A lei brasileira 12.965, promulgada em 23 de abril de 2014 (também conhecida como

Marco Civil da Internet), não especifica exatamente como proteger a privacidade da in-

formação, mas estabelece princípios, garantias, direitos e deveres para o uso da Internet

no Brasil. Em seu art. 3o, parágrafos II e III, apresenta-se o princípio da proteção da

privacidade e segurança dos dados pessoais. Em 14 de agosto de 2018, o congresso naci-

onal do Brasil aprovou a nova lei 13.709, denominada LGPD - Lei Geral de Proteção de

Dados, com previsão de início de vigência em 2020. Após a promulgação do LGPD, as

Page 25: HebertdeOliveiraSilva ...repositorio.unicamp.br/jspui/bitstream/REPOSIP/... · vem, big data e conectividade massiva de usuários. A solução foi aplicada em sistemas de cidades

25

organizações podem ser multadas em um montante de 2% da receita anual, limitadas a

50 milhões de reais (cerca de 14 milhões de dólares).

Em 25 de maio de 2018 entrou em vigor, na União Europeia, o Regulamento Geral

de Proteção de Dados (UE) 2016/679, conhecida como “GDPR”, abrangendo o espaço

econômico e territorial Europeu. As empresas, obrigatoriamente, devem relatar qualquer

caso de violação de dados dentro de 72 horas se este ensejar na violação da privacidade de

usuários. Em alguns casos, os infratores podem ser multados em até 20 milhões de euros

e, se for uma empresa, até 4% do faturamento anual do exercício anterior (EUROPÉIA,

2018).

O Reino Unido possui o Data Protection Act (DPA), que controla como as informações

pessoais são usadas por organizações, empresas e governo. A DPA afirma que todos são

responsáveis pelo uso dos dados e que todos devem garantir que o relatório siga os prin-

cípios de proteção de dados listados e exija maior proteção de informações confidenciais,

como registros de saúde e criminais, opiniões, religião, entre outros (BRITÂNICO, 1998).

A privacidade de dados associada a dados médicos também é uma preocupação nos

EUA, sendo regulamentada pelo HIPAA (Health Insurance Portability and Accountability

Act). O HIPAA estabelece padrões para proteger registros médicos de indivíduos ou

qualquer informação pessoal de saúde aplicável aos planos de saúde e profissionais da área

que realizam transações eletrônicas, garantindo: custódia segura (física e lógica); limites,

condições, autorização de uso da informação, entre outros (HHS, 2017).

As Organizações que implementam a ISO 27001 (INTERNATIONAL ORGANIZA-

TION FOR STANDARDIZATION, 2013) - voltada para a segurança da informação, são

auditadas quanto ao cumprimento dos requisitos legais, com objetivo de evitar violações

de qualquer lei, obrigações estatutárias, regulamentares ou contratuais e de quaisquer re-

quisitos de segurança. O item A.15.1.4, que se refere a Proteção de dados e privacidade

das informações pessoais, avalia os controles da proteção de dados e a privacidade, onde

devem ser asseguradas conforme exigido pela legislação pertinente, regulamentos e, se

aplicável, cláusulas contratuais.

2.1.1 Casos de violação de privacidade

Mesmo com as leis e regulamentações impostas, casos de violação de privacidade con-

tinuam a acontecer. Esses casos têm se tornado cada vez mais preocupantes para as

Page 26: HebertdeOliveiraSilva ...repositorio.unicamp.br/jspui/bitstream/REPOSIP/... · vem, big data e conectividade massiva de usuários. A solução foi aplicada em sistemas de cidades

26

empresas e organizações, principalmente quando se observam os custos e prejuízos em

termos financeiros que podem causar. Além dos prejuízos na esfera financeira, casos

de violação de privacidade também podem prejudicar imagem e credibilidade, tanto dos

usuários que têm seus dados violados, quanto das empresas e organizações que deveriam

proteger essas informações.

A Figura 2.1, adaptada do estudo realizado pelo Ponemon Institute (PONEMON,

2018), apresenta um resumo das principais causas de violações de dados em uma base

consolidada de 419 organizações, pesquisadas nos seguintes países: Estados Unidos, Reino

Unido, Alemanha, Austrália, França, Brasil, Japão, Itália, Índia, Canadá, África do Sul,

Emirados Árabes Unidos, Arábia Saudita, Singapura, Indonésia, Filipinas e Malásia. Dos

incidentes, 48% foram decorrentes de ataques maliciosos ou criminosos, 27% devido a

negligencia de funcionários efetivos ou terceiros (erro humano) e 25% envolveram falhas

no sistema, incluindo falhas de TI e de processos de negócios. O Estudo revela também

que o custo médio total de uma violação de dados é 3,86 milhões de dólares e que o

aumento do custo médio total quando comparado ao ano anterior é de 6,5%. O Custo

médio por registro perdido ou roubado chega a 148 dólares com uma probabilidade de

violação de material recorrente nos próximos dois anos de 27,9%. Outro fato relevante

identificado no estudo é que a economia média de custos com adoção de uma equipe de

resposta a incidentes é de apenas 14 dólares por registro, cerca de 10% do custo médio por

registro perdido ou roubado. Dessa forma, entende-se que, do ponto de vista financeiro,

a prevenção é mais vantajosa do que o ressarcimento de incidentes de vazamento de

informações.

Figura 2.1: Distribuição da causa raiz da violação de dados. Adaptado de (PONEMON,2018)

Page 27: HebertdeOliveiraSilva ...repositorio.unicamp.br/jspui/bitstream/REPOSIP/... · vem, big data e conectividade massiva de usuários. A solução foi aplicada em sistemas de cidades

27

De acordo com o estudo Data Breaches (QUICK et al., 2018), mais de 400 casos

públicos de violação de dados foram identificados entre 2004 e 2016 em uma variedade

de setores envolvendo empresas, governos e universidades. Entre os casos de violação

de privacidade, são destacados, a seguir, os casos que chamam a atenção especificamente

pela exposição dos dados pessoais, que talvez, poderiam ter sido evitados, se adotada uma

estratégia de anonimização.

Em 2012, um funcionário da imigração australiana enviou acidentalmente aos orga-

nizadores da Copa de Futebol Asiático os números dos passaportes, detalhes do visto e

de identificação de todos os líderes, incluindo o presidente dos EUA, Barack Obama, que

compareceria à reunião do G20 em Brisbane (QUICK et al., 2018). Na cidade de Nova

York, EUA, em 2014, um pedido de liberdade de informação resultou na divulgação de

dados sobre as 173 milhões de viagens feitas pelos táxis da cidade. Devido a falta de

anonimização adequada, foram divulgados dados referentes aos locais de partida e che-

gada de cada táxi, documentos de identificação dos motoristas, prefixo do veículo e outras

informações relevantes (PANDURANGAN, 2014).

Ainda em 2012, O roubo de um laptop pode ter sido a razão da exposição dos dados

de clientes (nomes, números de seguro social, números de identificação e informações de

seguro saúde, datas de nascimento, diagnósticos e outras informações médicas, endereços

e números de telefone) do sistema de saúde americano (MCCANN, 2013).

O grupo LuzSec, grupo ativista Hacker, divulgou dados de 163.792 militares (nomes,

nomes de usuários, endereços de e-mail, endereços IP e senhas exclusivas) nos EUA em

2011 (CONSTANTIN, 2012). Em 2012, o Departamento de Tecnologia de Utah alterou

seus registros de reclamações para um novo servidor e os hackers conseguiram contor-

nar o sistema de segurança de várias camadas, que continha números da Previdência

Social para solicitações de assistência médica dos cidadãos. No mesmo ano, na Grécia,

um programador foi preso por supostamente roubar informações de identidade do que

poderia corresponder a 83% da população do país. Em 2008, a então equipe e agência

de veteranos do Reino Unido, responsável por fundos de pensão militares e civis, tiveram

roubadas informações privadas de seus funcionários em dispositivo USB. Durante a se-

mana de prevenção de fraudes de identidade nacional foi anunciado que um disco rígido

contendo informações pessoais de membros das forças armadas do Reino Unido (passa-

porte, números de seguro nacional, dados bancários, entre outros) desapareceu (BBC,

Page 28: HebertdeOliveiraSilva ...repositorio.unicamp.br/jspui/bitstream/REPOSIP/... · vem, big data e conectividade massiva de usuários. A solução foi aplicada em sistemas de cidades

28

2008). Em 2015, milhões de dados de carteiras de motorista suecas foram disponibiliza-

das para profissionais de TI na Europa Ocidental quando a Agência Sueca de Transportes

(Transportstyrelsen) terceirizou sua manutenção de TI para a IBM. O escândalo chegou às

manchetes na Suécia quando a ex-diretora-geral da agência, Maria Ågren, foi multada em

70.000 coroas suecas pela falta de proteção adequada de informações sigilosas (LOCAL,

2017).

2.2 Anonimização de dados

Uma das principais estratégias na busca da proteção da privacidade de dados é a anoni-

mização. Quando aplicada corretamente, as técnicas e modelos de anonimização podem

evitar a recuperação da identidade de indivíduos, quando um atacante utiliza dados pú-

blicos como apoio, tais como relatórios de contas públicas ou na manipulação de dados

pessoais por soluções tecnológicas. O processo de anonimização visa mascarar ou ofuscar

os dados antes destes serem disponibilizados ou compartilhados, utilizando técnicas para

que os indivíduos que tiveram os dados anonimizados não possam ser identificados no-

vamente (BASSO; MATSUNAGA et al., 2016), ou seja, o processo de anonimização não

possa ser revertido.

Um passo importante para execução da anonimização é definir quais conjuntos de

dados (atributos) devem ser anonimizados e quais técnicas devem ser aplicadas a cada

um deles. Os atributos devem, portanto, ser classificados de acordo com a sensibilidade

da informação que cada um representa, caso seja divulgado ou compartilhado.

A classificação dos atributos está dividida em: (i) Atributos identificadores, que iden-

tificam os indivíduos (por exemplo, nome, CPF, RG); (ii) atributos semi-identificadores,

que, se combinados com informações externas, expõem indivíduos ou aumentam a certeza

sobre suas identidades (por exemplo, data de nascimento, CEP, cargo, tipo sanguíneo); e

(iii) atributos sensíveis, que se referem a condições específicas dos indivíduos (por exemplo,

salário, exames médicos) (CAMENISCH; FISCHER-HÜBNER; RANNENBERG, 2011).

2.2.1 Técnicas de anonimização

Depois de identificar os atributos de acordo com a sua sensibilidade de divulgação (identi-

ficadores, semi-identificadores e sensíveis), técnicas de anonimização podem ser aplicadas

Page 29: HebertdeOliveiraSilva ...repositorio.unicamp.br/jspui/bitstream/REPOSIP/... · vem, big data e conectividade massiva de usuários. A solução foi aplicada em sistemas de cidades

29

para proteger a identidade dos indivíduos (OHM, 2009). Abaixo são listadas as principais

técnicas de anonimização que foram utilizadas nos estudos de caso, no Capítulo 5.

Supressão: É a remoção completa do atributo, isto é, a exclusão da coluna corres-

pondente aos dados a serem anonimizados. Geralmente, essa técnica é utilizada nos dados

identificadores. Como mostrado na Figura 2.2, os campos Nome (Name), Data de Nasci-

mento (Birth Date), Sexo (Sex) e CEP (ZIP Code) foram excluídos, enquanto os campos

Raça (Race) e Queixa (Complaint) foram preservados no conjunto de dados de resultado.

Figura 2.2: Supressão de atributos da tabela (Fonte: Ohm (2009))

Generalização: A ideia de generalização é, em vez de excluir, manter apenas parte

dos dados. A técnica de generalização pode ser uma boa opção quando se busca o equilí-

brio entre utilidade e privacidade. Como exemplo, podemos citar o CEP, cujos números

representam o escopo geográfico, ou seja, quanto mais à esquerda o número, maior o seu

alcance. A figura 2.3 mostra como o CEP se dividiu no Brasil. O primeiro dígito, mais à

esquerda, representa a região geográfica. O segundo descreve a sub-região. O terceiro e

quarto dígitos representam, respectivamente, o setor e o subsetor. O quinto dígito designa

o divisor do subsetor. Os últimos três números após o traço representam os identificadores

de distribuição (CORREIOS, 2018).

Por exemplo, ao generalizar o CEP 13165-000 para 131 ** - ***, estamos aumentando a

cobertura geográfica da região de Engenheiro Coelho / SP para o setor de Campinas e seu

entorno. A figura 2.4 mostra diferentes regiões identificadas, considerando apenas a parte

mais à esquerda do CEP, pelos dígitos 131, reduzindo a possibilidade de reidentificação

do endereço (OHM, 2009).

Page 30: HebertdeOliveiraSilva ...repositorio.unicamp.br/jspui/bitstream/REPOSIP/... · vem, big data e conectividade massiva de usuários. A solução foi aplicada em sistemas de cidades

30

Figura 2.3: Estrutura do CEP (CORREIOS, 2018)

Figura 2.4: CEP setor de Campinas (São Paulo/Brasil) e adjacências (CORREIOS, 2018)

Agregação: Trata-se da disseminação de dados estatísticos resumidos, ou seja, dados

não brutos, para liberar estatísticas agregadas, protegendo os indivíduos contra a reidenti-

ficação. Um exemplo de aplicação da técnica de agregação é mostrado na Figura 2.5, onde

os sujeitos do sexo (sex) masculino (Male) de respiração curta (Men Short Breath) foram

pré-selecionados, alcançando o valor anonimizado de dois homens de respiração curta.

Durante o processo de agregação, as consultas não podem trazer registros exclusivos,

pois isso poderia identificar um indivíduo. Nesta técnica podem ser utilizadas médias, so-

mas, que são comuns, e podem ser utilizadas em bancos estatísticos. Por exemplo, dados

do censo demográfico realizado pelo IBGE (Instituto Brasileiro de Geografia Estatística)

geraram relatórios consolidados mostrando o perfil socioeconômico das regiões brasileiras,

sem identificar os indivíduos (GEOGRAFIA E ESTATÍSTICA - IBGE, 2010). Encontra-

Page 31: HebertdeOliveiraSilva ...repositorio.unicamp.br/jspui/bitstream/REPOSIP/... · vem, big data e conectividade massiva de usuários. A solução foi aplicada em sistemas de cidades

31

Figura 2.5: Tabela anonimizada por agregação (Adaptada de (OHM, 2009))

mos também, na literatura, outras técnicas (BRANCO JR; MACHADO; MONTEIRO,

2014):

• Criptografia: consiste em usar cifragem para ocultar os dados reais;

• Distúrbio: também conhecido como mascaramento, substitui os valores reais por

dados fictícios;

• Substituição: nessa técnica, os dados são substituídos por outros que não estão

relacionados aos dados originais;

• Embaralhamento: os itens são embaralhados aleatoriamente por dados semelhan-

tes, mas da mesma tabela;

• Anulação: também conhecido como “truncamento”, nesta técnica os valores são

substituídos por dados nulos.

2.2.2 Modelos de anonimização

Na busca por formatos e técnicas de anonimização mais adequadas ao uso dos dados,

alguns modelos de privacidade foram desenvolvidos. Nesta seção serão apresentados os

modelos mais relevantes, que foram encontrados na literatura, para o contexto desse

trabalho: κ-anonymity, `-diversity, τ -closeness.

O modelo κ-anonymity é uma condição de anonimato que o conjunto de dados deve

possuir após a anonimização (SAMARATI; SWEENEY, 1998), com o intuito de impos-

sibilitar a reidentificação de indivíduos que integram os conjuntos de dados. Existem

ferramentas que implementam essa condição de forma automatizada, tais como ARX

Page 32: HebertdeOliveiraSilva ...repositorio.unicamp.br/jspui/bitstream/REPOSIP/... · vem, big data e conectividade massiva de usuários. A solução foi aplicada em sistemas de cidades

32

(PRASSER; KOHLMAYER, 2015). Para tanto, a informação de cada pessoa no con-

junto de dados pós-anonimizados não pode ser distinguida em pelo menos k-1 indivíduos,

cujas informações também aparecem nesse mesmo conjunto (SWEENEY, 2002). Obser-

vando a Figura 2.6, não é possível reidentificar os dados anonimizados por κ-anonymity,

quando uma busca na tabela de Identificação de indivíduos (Identification Data Base

(Z)) for feita. Uma vez que o atributo que poderia ligar os dois registros foi generali-

zado, cada registro na tabela anonimizada, passou a ter mais de uma possibilidade de

correspondência.

Figura 2.6: Tabela anonimizada por κ-anonymity (EL EMAM; DANKAR, 2008)

O modelo `-diversity foi proposto por Machanavajjahara et al. (2006) e é uma exten-

são do modelo κ-anonymity. Essa extensão consiste na redução das pequenas partes da

representação de dados, protegendo o conjunto de dados contra a divulgação de atributos

sensíveis predefinidos. Dessa forma, os valores dos atributos devem ser pelo menos `-

diversificados dentro de cada classe de equivalência. O modelo `-diversity também implica

`-anonimato, pois os dados devem ser `-anonimizados (similar ao modelo κ-anonymity),

para posteriormente serem `-diversificados. Para cumprir a definição básica de `-diversity,

um atributo sensível não deve possuir granularidade de valores intra-grupo maior que o

Page 33: HebertdeOliveiraSilva ...repositorio.unicamp.br/jspui/bitstream/REPOSIP/... · vem, big data e conectividade massiva de usuários. A solução foi aplicada em sistemas de cidades

33

1 dividido por “`” (quantidade mínima de valores distintos dentro de cada classe de equi-

valência). Os valores dos atributos sensíveis para cada registro não podem ser distintos

(únicos), devendo respeitar a quantidade miníma de valores iguais determinados por `-

diversity. É possível verificar na figura 2.7, essa propriedade onde o atributo Diagnóstico

(Disease) possui no mínimo dois registros com valores de atributos iguais dentro do mesmo

grupo de registros anonimizados por κ-anonymity. Dessa forma, o modelo `-diversity

adiciona a promoção da diversidade intra-grupo, anonimizados por κ-anonymity, para

valores dos atributos sensíveis no mecanismo de anonimização (MACHANAVAJJHALA

et al., 2006).

Figura 2.7: Tabela anonimizada por `-diversity (SUMATHIE, 2016)

Na Figura 2.7 podemos verificar que o indivíduo procurado (Bob) está dentro da

faixa generalizada por κ-anonymity. Quando observamos o atributo sensível, diagnóstico

(Disease), não é possível inferir qual o diagnóstico (pneumonia ou dyspepsia) do indivíduo

procurado, uma vez que a probabilidade é de 1/2 dentro do mesmo grupo de equivalência.

O modelo τ -closeness faz com que as classes de equivalência monstradas em `-diversity

não possam se destacar no conjunto de dados. Isso é feito através da distribuição do

atributo sensível dentro de cada classe de equivalência, mantendo uma distância menor

que τ -closeness para a distribuição dos valores no conjunto de dados original (N. LI; T.

LI; V., 2007).

Conforme podemos verificar na Tabela 2.1, τ -closeness requer que a distribuição de

um atributo sensível em qualquer classe de equivalência, definida por κ-anonymity, seja

próxima da distribuição do atributo na tabela global (ou seja, a distância entre as duas

distribuições não deve ser maior do que um limite “T”). Sendo assim, a distribuição de

Page 34: HebertdeOliveiraSilva ...repositorio.unicamp.br/jspui/bitstream/REPOSIP/... · vem, big data e conectividade massiva de usuários. A solução foi aplicada em sistemas de cidades

34

Tabela 2.1: Tabela anonimizada por τ -closeness (N. LI; T. LI; V., 2007)ZIP CODE AGE DISEASE COUNT

12

476**476**

2*2*

CancerFlu

300300

34

479**479**

4*4*

CancerFlu

2001800

56

476**476**

3*3*

CancerFlu

200200

atributos sensíveis (Disease) dentro de cada grupo de semi-identificadores deve estar “pró-

xima” de sua distribuição em todo o banco de dados original.

Ferramentas Para Anonimização

Nesta subseção foram avaliadas quatro ferramentas Open Source (gratuitas), utilizadas

para anonimização de dados em tabelas. Esta avaliação foi realizada utilizando as docu-

mentações oficiais de cada ferramenta, sob o ponto de vista dos recursos documentados

em seus manuais de usuário. Para a comparação, foram considerados apenas os recursos

disponibilizados e descritos em suas documentações oficiais.

A ferramenta SDCMICRO (TEMPL; KOWARIK; MEINDL, 2015) é um pacote de

código aberto gratuito compilado em linguagem R. Tem como objetivo a geração de dados

de domínio público direcionada a pesquisadores (por exemplo, dados do censo demográ-

fico). Este pacote pode ser usado para a geração de conjuntos de micro dados (o menor

nível de desagregação de dados recolhidos por pesquisas, avaliações e exames realizados)

confidenciais anônimos, ou seja, para a criação de arquivos públicos e de uso científico.

O Pacote SDCMICRO inclui os métodos populares de risco e perturbação de divulgação,

tais como recodificação global, supressão local, pós-aleatorização, micro agregação, adi-

ção de ruído correlacionado, embaralhamento, entre outros. A ferramenta também possui

uma interface gráfica, chamada SDCMICROGUI, para utilização dos usuários. Na mesma

linha de produtos, com pacote disponível para linguagem R, a ferramenta SDCTABLE

(MEINDL, 2011) possui código aberto e gratuito para proteger dados tabulares, forne-

cendo métodos para o controle da divulgação estatística, tais como, supressão de células

primárias e secundárias.

Similarmente à família SDC, o software Argus tem o µ-ARGUS (HUNDEPOOL; VAN

DE WETERING et al., 2005), que é um pacote de software para o controle de divulgação

Page 35: HebertdeOliveiraSilva ...repositorio.unicamp.br/jspui/bitstream/REPOSIP/... · vem, big data e conectividade massiva de usuários. A solução foi aplicada em sistemas de cidades

35

de microdados e o τ -ARGUS (HUNDEPOOL; WETERING et al., 2004) para dados ta-

bulares. Os pacotes foram desenvolvidos usando a linguagem Visual C++ e é compatível

com o sistema operacional Windows a partir da versão 2000 ou superior. µ-ARGUS imple-

menta técnicas de anonimização como recodificação global (agrupamento de categorias),

supressão local, método pós-padronização (PRAM), adição de ruído e micro agregação.

Também implementa uma metodologia para estimativa de risco individual utilizando o

peso da amostra. τ -ARGUS também lida com o problema de supressão de células secun-

dárias (HUNDEPOOL, 2004), assim como a SDCTABLE e SDCMICRO.

Outra importante ferramenta de anonimização para dados estruturados, é a ARX

(PRASSER; KOHLMAYER, 2015), que suporta métodos de controle de divulgação de

dados estáticos, fornecendo: i) técnicas de anonimização, tais como generalização, su-

pressão e microagregação; ii) modelos de privacidade, tais como κ-anonymity, `-diversity,

τ -closeness e δ-presence; iii) modelos para análise de riscos de reidentificação; iv) métodos

para avaliação de utilidade de dados. A ferramenta ARX é capaz de anonimizar dados

em big data, pois suporta o uso de milhões de registros, oferecendo uma interface gráfica

abrangente para o usuário, tutoriais de ajuda e visualizações que orientam os usuários em

diferentes aspectos durante o processo de anonimização.

A Tabela 2.2 mostra um resumo das características de cada ferramenta analisada,

como por exemplo Licenciamento, linguagem de programação, entre outros.

Tabela 2.2: Características das ferramentas de anonimizaçãoFerrametas Licenciamento Liguagem GUI Dependência de softwares API

SDCTABLE GPL (>= 2) R SIM Software R and GTK+ package SIMT-ARGUS GPL (>= 2) Java SIM Java Runtime Environment SIMSDCMICRO GPL (>= 2) R SIM Software R and GTK+ package SIMARX GPL (>= 2) Java SIM Java Runtime Environment SIM

A Tabela 2.3, traz a comparação dos recursos disponíveis, tais como implementação

do modelo κ-anonymity, análise de riscos e técnicas de perturbação, supressão ou gene-

ralização. Os itens marcados com “X” representam os recursos disponíveis. A Tabela 2.3

mostra que a ARX possui a maior quantidade de recursos disponíveis para uso. As fer-

ramentas SDCTABLE (TEMPL, 2018) e SDCMICRO (TEMPL; MEIND; KOWARIK,

2018) dependem da linguagem R, podendo criar dificuldades para instalação e utilização.

A ferramenta T-ARGUS (ARGUS, 2015) não possui dependências, porém a quantidade

Page 36: HebertdeOliveiraSilva ...repositorio.unicamp.br/jspui/bitstream/REPOSIP/... · vem, big data e conectividade massiva de usuários. A solução foi aplicada em sistemas de cidades

36

Tabela 2.3: Análise de recursos disponíveisSoftwares ARX SDCMICRO T-ARGUS SDCTABLE

κ-anonymity x x - -`-diversity x x - -τ -closeness x - - -κ-map x - - -δ-presence x - - -Risco de média Estrita x - - -Singularidade de População x - - -Singularidade da Amostra x - - -δ-disclosure privacy x x - -Adicão de Ruído x x - -Cálculo da Utilidade dos Dados x x - -Análise de riscos x x x -Microagregação x x - xQuase-identificadores x x - -ghmitter (hypercube) - - x xGeneralização x x - -Perturbação x x x -Supressão x x x xSeleção de atributos sensíveis x x x x

de recursos é pequena, quando comparada com a ferramenta ARX (ARX, 2018). Por

esses motivos a ferramenta ARX foi escolhida para desenvolvimento do estudo de caso,

detalhados nos capítulos 4 e 5.

2.2.3 Risco de reidentificação

Um dos principais pontos de atenção na tarefa de anonimização é estimar o risco de

reidentificação para cada indivíduo. A ideia principal é calcular a frequência com que

os atributos semi-identificadores aparecem no conjunto anonimizado e demais conjuntos

passíveis de comparação, como por exemplo os registros públicos de cidadão. A contagem

da ocorrência dos atributos semi-identificadores atrelados aos conceitos de singularidade1, κ-anonymity, e/ou demais modelos implementados, geram a estimativa do risco de

reidentificação. Mais especificamente, o risco de reidentificação é dado pelo cálculo da

probabilidade de reidentificação, dada por: R=1/(Np). Onde, “R” representa a probabili-1Singularidade é uma medida comumente usada para cálculo do risco de reidentificação quando ana-

lisado sob a perspectiva de um ataque. Refere-se às características que distinguem um indivíduo dosdemais dentro de um conjunto de dados.

Page 37: HebertdeOliveiraSilva ...repositorio.unicamp.br/jspui/bitstream/REPOSIP/... · vem, big data e conectividade massiva de usuários. A solução foi aplicada em sistemas de cidades

37

dade do indivíduo ser reidentificado e “Np” representa o tamanho da classe de equivalência

correspondente à pesquisa (ou seja, quantidade de registros compatíveis).

De acordo com o guia para Anonimização de dados pessoais de saúde, de Khaled el

Emam (EL EMAM, 2013), os cenários que norteiam a estimativa de risco são: i) o cenário

do promotor, ii) o cenário do jornalista e iii) o cenário do profissional de marketing. No

modelo do promotor presume-se que o invasor sabe que os dados sobre o indivíduo, alvo do

ataque, estão contidos no conjunto de dados. No modelo de jornalista, esse conhecimento

sobre o indivíduo alvo não é assumido. No modelo de marketing supõe-se que o atacante

não está interessado em reidentificar um indivíduo específico, mas visa atacar um número

maior de indivíduos. Portanto, um ataque só pode ser considerado bem-sucedido se uma

grande parte dos registros puder ser reidentificada.

Nesta dissertação foram utilizados os modelos do promotor e jornalista, para os o

estudo de caso inicial (utilizando os dados do transporte público de Curitiba). Para

o estudo de caso estendido que utilizaram o repositório de dados para aprendizado de

máquina do UCI, utilizamos apenas o modelo do promotor que é o papel que detém

maior conhecimento sobre os dados. O modelo do promotor, portanto, foi escolhido para

a extensão do estudo de caso, pois configura-se no pior cenário do ponto de vista de risco a

privacidade, sendo possível a simulação comparando os dados anonimizados com os dados

originais.

2.3 Mineração de dados

Mineração de dados é o processo de análise de conjuntos de dados, que são geralmente

apresentados em grandes volumes (big data), com intuito de encontrar relacionamentos

desconhecidos e compilar os dados de maneiras novas, compreensíveis e úteis ao proprietá-

rio desses dados (HAND; MANNILA; SMYTH, 2001). As saídas podem ser, por exemplo,

regras, clusters, estruturas de árvore, gráficos, equações, padrões, entre outras. Um dos

objetivos da mineração de dados, é alavancar o conhecimento extraído a partir dos dados,

e com isso, alcançar o aumento de vendas e consequentemente dos lucros. Também pode

ser utilizado em outras áreas, como engenharia e medicina, ajudando, por exemplo, a

identificar regiões de epidemias.

Page 38: HebertdeOliveiraSilva ...repositorio.unicamp.br/jspui/bitstream/REPOSIP/... · vem, big data e conectividade massiva de usuários. A solução foi aplicada em sistemas de cidades

38

O processo de descobrir o conhecimento por meio dos dados, conhecido como KDD -

Knowledge Discovery in Databases, está subdivido nas etapas de: a) seleção de dados; b)

pré-processamento; c) transformação; d) mineração de dados; e) Interpretação e avaliação.

O objetivo de uso do processo de mineração de dados executado nesta dissertação foi

para determinar o impacto da anonimização nos algoritmos de classificação utilizados em

plataformas de análise de dados.

2.3.1 Classificação de dados

A Classificação é uma função da mineração de dados, aplicada durante o aprendizado de

máquina supervisionado, que seleciona atributos em um conjunto de dados para segmentar

categorias ou classes. O objetivo é prever com precisão a classe de destino testada para

cada registro existente no conjunto de dados (ORACLE, 2008). Por exemplo, um modelo

de classificação poderia ser usado para identificar candidatos a empréstimos com riscos

de crédito baixo, médio ou alto. Outro exemplo é um sistema de gerenciamento de e-mail

que pode tentar classificar um e-mail como legítimo ou spam.

A precisão combinada com a exatidão da classificação é conhecida como acurácia (do

inglês accuracy), que indica o número de previsões corretas entre todas as previsões feitas

pelo classificador. O cálculo da acurácia pode ser verificado através de uma matriz de

confusão. Nesta matriz são identificados os erros e exatidão na predição das classes.

Posteriormente, o número de acertos é dividido pelo número de registros testados, dando

origem à acurácia. A avaliação da acurácia nos ajuda a entender melhor a utilidade dos

dados após a anonimização.

O desempenho dos classificadores é medido pelo tempo de execução do modelo de

classificação. Avaliar o desempenho nos ajuda a entender melhor se há custos introduzidos

pela técnica de anonimização utilizada. Em nosso estudo de caso, apresentado no Capítulo

5, utilizamos os classificadores Zero R, K-NN (K-Nearest Neighbour) e SDGText (SVM)

(SAYAD, 2017) (WEKA, 2008). O classificador Zero R constrói sua tabela de previsão

pelo cálculo da frequência para a classe alvo e seleciona os valores mais frequentes. Esse

classificador é amplamente usado para parametrizar e guiar os testes de desempenho de

outros classificadores. O Classificador K-NN é um exemplo de aprendizagem preguiçosa

(isto é, mais onerosa), pois determina a classificação por meio de similaridade com os

registros vizinhos. Essa semelhança é medida através de funções de distância, tais como

Page 39: HebertdeOliveiraSilva ...repositorio.unicamp.br/jspui/bitstream/REPOSIP/... · vem, big data e conectividade massiva de usuários. A solução foi aplicada em sistemas de cidades

39

a distância euclidiana, Manhattan e Minkowski (SAYAD, 2017) (KAMBER; HAN; PEI,

2012). Após a verificação da distância, o classificador executa uma espécie de votação,

para determinar a classe com a maior similaridade. O classificador Naive Bayes é muito

útil para um conjunto de dados muito grande porque é um classificador estatístico capaz

de prever a probabilidade de uma amostra pertencer a uma determinada classe. Os

classificadores de SVM transformam os dados em um espaço maior e, nessa nova dimensão,

ele encontra um hiperplano que permite a separação de amostras entre classes (SAYAD,

2017) (KAMBER; HAN; PEI, 2012).

2.3.2 Utilidade dos dados

Medir a utilidade dos dados é uma tarefa difícil. Para se determinar a utilidade, é ne-

cessário comparar o conjunto de dados anonimizados com o conjunto de dados original.

Essa avaliação da utilidade deve ser realizada, pois a depender da técnica ou processo de

anonimização utilizado, os resultados da mineração de dados podem induzir resultados

parciais ou enganosos. Para melhor discussão vamos dividir em duas formas: utilidade

qualitativa e quantitativa. Na forma qualitativa é avaliada a qualidade do processo de

mineração de dados face à melhora ou piora na precisão da classificação ou predição

(KOHLMAYER; PRASSER; KUHN, 2015). A forma quantitativa consiste na verificação

da porcentagem de dados removidos de um conjunto de dados durante o processo de ano-

nimização, utilizando-se a métrica de perda de informação mostrada por (KOHLMAYER;

PRASSER; KUHN, 2015).

De acordo com Templ et al. (2017), existem dois tipos diferentes de abordagens

complementares para avaliar a perda de informação: (i) medição direta de distâncias /

frequências entre os dados originais e dados perturbados, e (ii) comparação de estatísticas

computadas nos dados originais e perturbados. É importante ressaltar que a perda da

informação não necessariamente implica na redução da qualidade da utilidade dos dados

para tarefa de mineração. Nos estudos de caso descritos no Capítulo 5 os resultados

mostraram que, apesar do crescimento da perda de informação, a qualidade da precisão

dos classificadores, em alguns casos, foi melhorada durante a tarefa de mineração.

Page 40: HebertdeOliveiraSilva ...repositorio.unicamp.br/jspui/bitstream/REPOSIP/... · vem, big data e conectividade massiva de usuários. A solução foi aplicada em sistemas de cidades

40

Capítulo 3

Trabalhos Relacionados

Com a finalidade de compreender melhor os diversos aspectos relacionados, neste capítulo

são apresentados os trabalhos relacionados à proposta desta dissertação. Para melhor

organização, foram criadas as seções: “avaliação do impacto da anonimização”; “avaliação

do risco de reidentificação” e “frameworks para preservação da privacidade”.

Os artigos selecionados para compor a revisão bibliográfica foram extraídos das ba-

ses eletrônicas da ACM (Association for Computing Machinery) Digital Library, IEEE

(Institute of Electrical and Electronics Engineers) Xplore Digital Library e ScienceDirect

(Elsevier) pois são consideradas, pela comunidade científica, as mais relevantes. Outros

tipos de materiais online também serviram de referencial bibliográfico, tais como data

sheet de ferramentas e documentos públicos resultantes de pesquisas realizadas no âmbito

do projeto EUBra-BIGSEA.

3.1 Avaliação do impacto da anonimização

De acordo com o trabalho de Inan et al. (2009), é espantoso a existência de um nú-

mero pequeno de pesquisas que visam a investigação do desempenho dos algoritmos de

mineração de dados em dados anonimizados. O estudo de Buratović et al. (2012), cuja

finalidade era determinar se é possível usar dados anonimizados para fins de pesquisa, ve-

rificou o efeito da anonimização em comparação ao conjunto de dados original, validando

os resultados da mineração do conjunto de dados alterados (anonimizados). Os conjuntos

de dados, contendo a informação de alunos, foram anonimizados usando κ-anonymity e

a mineração dos dados foi extraída com a ferramenta WEKA (Waikato Environment for

Page 41: HebertdeOliveiraSilva ...repositorio.unicamp.br/jspui/bitstream/REPOSIP/... · vem, big data e conectividade massiva de usuários. A solução foi aplicada em sistemas de cidades

41

Knowledge Analysis) (WITTEN et al., 2016). Os resultados do estudo mostraram que

a anonimização pode, ao mesmo tempo, preservar a privacidade e preservar os resulta-

dos da mineração de dados quase que sem alteração quando os dados anonimizados são

comparados aos dados originais.

Brickell e Shmatikov (2008) mediram o equilíbrio alcançado entre duas características

desejáveis e incompatíveis (em ingles, trade-off ) - privacidade e utilidade qualitativa dos

conjuntos de dados, utilizando-se a precisão dos algoritmos de mineração de dados. Para

tanto, o trabalho propôs um framework baseado em definições e métricas semânticas para

quantificar a divulgação de atributos. Os resultados evidenciaram que, na maioria dos

casos, a sanitização comum, utilizada nas etapas de pré-processamento quando todos os

semi-identificadores ou atributos sensíveis são removidos, fornece utilidade equivalente ou

melhor privacidade do que κ-anonymity, `-diversity e outros modelos similares baseados

apenas em generalização e supressão.

Paranthaman e Victoire (2013), verificaram como o κ-anonymity afeta o algoritmo

de classificação Naive Bayes. Os autores verificaram que, com o aumento da anonimi-

zação por κ-anonymity, o desempenho do classificador se degradou proporcionalmente.

Já o estudo de Nyati e Bhatnagar (2016) avaliou o desempenho de alguns algoritmos de

classificação sob o aspecto dos fluxos de dados, evidenciando que estes são preservados

usando técnicas de anonimização. Na mesma linha, o trabalho de Inan et al. (2009),

que também abordou o problema da classificação sobre dados anonimizados concluiu que

os dados anonimizados, mantém a privacidade individual e ao mesmo tempo preserva a

mineração de dados distribuída, sem prejuízo relevante à acurácia dos algoritmos de clas-

sificação. Nessa abordagem foi proposta a modelagem dos atributos generalizados para

dados anonimizados como informação não certa, isto é, cada campo generalizado de um

registro anonimizado é acompanhado por estatísticas coletadas dos registros na mesma

classe de equivalência. Com essa informação extra, gerada após os dados anonimizados,

foi possível realizar o cálculo preciso dos valores esperados na etapa de análise de dados.

A abordagem utilizada nessa dissertação difere dos trabalhos de Inan et al. (2009),

Brickell e Shmatikov (2008) e Buratović et al. (2012) em três aspectos principais. O

primeiro aspecto diz respeito a não abordarmos a semântica de dados (como é feito por

Brickell e Shmatikov et al. (2008)). A análise semântica torna a tarefa de anonimização

mais complexa, e o intuito desta dissertação é justamente tornar o processo de anoni-

Page 42: HebertdeOliveiraSilva ...repositorio.unicamp.br/jspui/bitstream/REPOSIP/... · vem, big data e conectividade massiva de usuários. A solução foi aplicada em sistemas de cidades

42

mização o mais simples possível. O segundo aspecto é que, diferentemente de Brickell

e Shmatikov (2008), usamos as métricas fornecidas pelas ferramentas usadas nos experi-

mentos, uma vez que elas já estão validadas e consolidadas pela comunidade científica. O

terceiro aspecto diz respeito a não adicionar informação ao dados brutos (como em Inan

et al.(2009)) porque isso poderia introduzir uma tendência na tarefa de mineração de

dados. Além desse fato, os experimentos mostrados no Capítulo 5 consideram, além dos

semi-identificadores, os principais atributos e informações sensíveis do conjunto de dados.

Assim, nossa análise foi realizada com um escopo mais amplo de tipos de atributos.

A metodologia de avaliação do impacto da anonimização de dados nos resultados dos

classificadores utilizada neste trabalho está mais próxima a Buratović et al. (2012). Na

nossa abordagem comparamos a acurácia do conjunto de dados original e do conjunto

de dados anonimizados utilizando ferramentas disponíveis, sem alterar os algoritmos e

tarefas efetuadas. Em complemento ao trabalho de Buratović et al. (2012), as fases de

anonimização propostas em nossa abordagem nos permitem fazer uma análise mais deta-

lhada do impacto de diferentes técnicas individualmente, levando-se em conta cada tipo de

dado (atributos identificadores, semi-identificadores e sensíveis), incluindo κ-anonymity.

Além da acurácia, foi avaliado também o impacto no desempenho do processo de anoni-

mização e da mineração de dados. Diferente de Nyati e Bhatnagar (2016), neste trabalho

usamos algoritmos tradicionais para banco de dados relacionais estáticos. Este trabalho

é mais parecido com Paranthaman e Victoire (2013), pois utiliza técnicas tradicionais de

anonimização, tais como a generalização e a supressão. Além disso, é complementada a

avaliação dos algoritmos de mineração de dados usando não somente Naive Bayes, mas

também outros classificadores como Zero-R, LWL(K-NN) e SDG Text (SVM).

3.2 Avaliação do risco de reidentificação

A respeito do risco de reidentificação, Dankar et al. (2012) avaliou a precisão de estima-

dores de singularidade, isto é, estimadores da proporção de características particulares de

indivíduos em conjuntos de dados clinicamente relevantes. Benitez e Malin (2010) forne-

ceram abordagens para estimar a probabilidade de que informações anonimizadas sejam

passíveis de reidentificação no contexto das políticas de compartilhamento de dados as-

sociadas à regra de privacidade do HIPAA. El Emam et al. (2009) avaliou a capacidade

Page 43: HebertdeOliveiraSilva ...repositorio.unicamp.br/jspui/bitstream/REPOSIP/... · vem, big data e conectividade massiva de usuários. A solução foi aplicada em sistemas de cidades

43

de reidentificar os pacientes dos registros de prescrição do Hospital Infantil de Eastern

Ontario. Lee e Lee (2017) analisaram a probabilidade de reidentificação de acordo com

semi-identificadores que podem ser deduzidos em um conjunto de dados anonimizados

fornecido pelo Sistema Estadual de Cooperativas de Planejamento e Pesquisa do Depar-

tamento de Saúde de Nova York.

A metodologia utilizada nesta dissertação, para preservação da privacidade dos dados

em plataformas de análise de dados, está mais próxima da metodologia de El Emam et

al. (2009) e Lee e Lee (2017) no sentido de que se identificou como a anonimização re-

duz o risco de reidentificação usando técnicas e ferramentas existentes. Por outro lado,

a abordagem proposta, difere desses trabalhos principalmente pelo fato de que o pro-

cesso de anonimização é guiado por uma política de anonimização que inclui várias leis

de privacidade e respectivas regras (incluindo também a HIPAA). Outro ponto diferen-

cial, em termos de características do trabalho, reside no contexto do conjunto de dados,

que são oriundos do transporte público, bem como os dados do Repositório da UCI para

aprendizado de máquina. O objetivo da avaliação de riscos desta dissertação é verificar

o quanto a anonimização reduz o risco de reidentificação e, também, se os experimentos

realizados corroboram com os resultados de estudos anteriores (PARANTHAMAN; VIC-

TOIRE, 2013), (NYATI; BHATNAGAR, 2016), (INAN; KANTARCIOGLU; BERTINO,

2009), com a finalidade de complementá-los. Esse tipo de análise torna mais clara a rela-

ção entre privacidade e utilidade dos dados e garante que as suposições subjacentes sejam

trazidas para a superfície (EL EMAM; DANKAR et al., 2009).

Ainda sobre o cálculo do risco, três das ferramentas de anonimização analisadas forne-

cem métodos de estimativa de risco SDCMICRO (TEMPL; KOWARIK; MEINDL, 2015),

µ-ARGUS (HUNDEPOOL; VAN DE WETERING et al., 2005) e ARX Anonymization

Tool (PRASSER; KOHLMAYER, 2015). Embora essas ferramentas implementem muitos

recursos, elas não são guiadas por políticas e não implementam métodos iterativos para

aumentar o nível de anonimização. Outro ponto importante a se destacar, é que o uso

delas depende de conhecimentos específicos dos usuário para operá-las (especialistas em

privacidade). Um dos componentes do framework da abordagem proposta nesta disserta-

ção permite que os usuários analisem os resultados do risco de reidentificação, perda de

utilidade dos dados e os ataques de privacidade e, posteriormente de maneira automática,

decidam se continuam ou não o processo de anonimização considerando apenas o risco

Page 44: HebertdeOliveiraSilva ...repositorio.unicamp.br/jspui/bitstream/REPOSIP/... · vem, big data e conectividade massiva de usuários. A solução foi aplicada em sistemas de cidades

44

aceitável. Os detalhes do framework proposto, seus componentes e suas implementações

são apresentados nos capítulos 4 e 5.

3.3 Frameworks para preservação da privacidade

Alguns frameworks para preservação de privacidade em plataformas de análise de dados

sob a infraestrutura de big data podem ser encontrados na literatura. Drogkaris e Gritzalis

(2015) propuseram uma metodologia de preservação da privacidade para ser incorporada

em frameworks de governo eletrônico. O framework proposto fornece um nível adicional

de anonimização, usando técnicas de hashing para transformar identificadores pessoais em

dados digitais. O framework permite distinguir os dados dos indivíduos, mas não podem

ser ligado à sua identidade no mundo real. No entanto, a solução proposta é específica para

plataformas governamentais e apenas anonimiza as informações de identificação pessoal.

Além disso, é guiada por políticas de anonimização, exigindo, portanto, o conhecimento

avançado de especialistas em privacidade.

Al-Zobbi et al. (2017) propuseram um framework para anonimização de big data im-

plementado para análise de dados que trabalha com operações distribuídas e paralelas.

O framework fornece um método de autorização ao aplicar a anonimização em um con-

trole de acesso refinado. O objetivo é atribuir funções aos usuários e anonimizar os dados

de acordo com as regras de controle de acesso (por exemplo, os cirurgiões não precisam

conhecer a situação financeira dos pacientes, portanto, o proprietário dos dados prefere

anonimizar ou mesmo suprimir dados de status financeiro e anonimizar ligeiramente os

dados do status de saúde). No entanto, as políticas de anonimização não foram conside-

radas, bem como o trade-off entre utilidade de dados e anonimização.

O framework apresentado no trabalho de Basso et al. (2016) aborda desafios de

anonimização em um cenário típico de big data. Não era foco do trabalho a análise e

implementação de componentes. O framework proposto no Capítulo 5 implementa me-

lhorias no trabalho de Basso et al. (2016). Essas melhorias podem ser resumidas em

três aspectos principais: (i) alguns componentes são integrados à plataforma de análise

de big data, em vez de apenas interagir com a plataforma; (ii) as políticas de anonimi-

zação orientam os processos de anonimização de todos os componentes (em Basso et al.

(2016) eles orientaram apenas a anonimização no processo ETL); (iii) o componente Uti-

Page 45: HebertdeOliveiraSilva ...repositorio.unicamp.br/jspui/bitstream/REPOSIP/... · vem, big data e conectividade massiva de usuários. A solução foi aplicada em sistemas de cidades

45

lidade de dados / Risco de identificação foi movido para operar na etapa final da análise.

Essa mudança foi feita porque aumentar o nível de anonimização já no processo de ETL

reduziria a utilidade dos dados que seriam manipulados pela plataforma. Além disso,

essa mudança tornou os recursos desse componente suficientes para substituir dois outros

componentes definidos em Basso et al. (2016) (chamados anonimização de consultas e

controle de divulgação estática). Ambos os componentes não são mais necessários porque

o componente Utilitário de Dados/Risco de reidentificação reduz o risco de divulgação

de dados (reidentificação), mesmo quando o foco são consultas. O framework proposto é

detalhado no Capítulo 5. A Tabela 3.1 apresenta um resumo dos trabalhos relacionados

em comparação à esta dissertação.

Tabela 3.1: Resumo comparativo dos trabalhos relacionadosContribuições Trabalhos

Seção: Avaliação do impactoda anonimização

EstaDissertação

Inanet al.

Buratovi’cet al.

Brickell eShmatikov

Paranthamane Victoire

Nyati eBhatnagar

Comparação dadosde entrada e saída x - - - - -

Técnicas de anonimizaçãotradicionais x x x x x x

Modelo K-anonimity x - - - - -Equilíbrio entre

Privacidade e Utilidade x - - - - x

Naive Bayes x - - - x -Zero R x - - - - -SVM x - - - - -K-NN x - - - - -

Semântica dos dados - - - x - -Metodologia própria - - - x - -Uso de Metodologia

Consolidada x - - - - -

Adição de Informaçõesde agregação nos dados brutos - x - - - -

Algoritmos de fluxo de dados - - - - - xSeção: Avaliação do

Risco de ReidentificaçãoEsta

DissertaçãoDankaret al.

El Emamet al.

Lee eLee

Benitez eMalin

Precisão estimadapor singularidade - x - - -

Baseado na HIPAA x - - - xRegistros médicos - - x - -

Baseado emSemi-identificadores x - - x -

Cenários: Promotor,Jornalista e Marketing x - - - -

Seção: Frameworks parapreservação da privacidade

EstaDissertação

Drogkaris eGritzalis

Al-Zobbiet al.

Bassoet al.

Governo eletrônico euso de Hashing x x - x

Big Data eParalelização de processamento x - x -

Políticas guiadas por leisem todos os processos x - - x

Inclui o cálculodo risco de reidentificação x - - -

Inclui o cálculoda utilidade dos dados x - - -

-

-

Page 46: HebertdeOliveiraSilva ...repositorio.unicamp.br/jspui/bitstream/REPOSIP/... · vem, big data e conectividade massiva de usuários. A solução foi aplicada em sistemas de cidades

46

Capítulo 4

Abordagem Proposta

Neste capítulo serão utilizados os conceitos apresentados anteriormente, tais como modelos

e técnicas de anonimização, cálculo do risco, cálculo de utilidade e técnicas de reidenti-

ficação de indivíduos. A seção 4.1 apresenta a abordagem do processo de anonimização

para plataformas de análise de dados. A seção 4.2 apresenta o detalhamento dos processos

de anonimização propostos e implementados no projeto EUBra-BIGSEA. Ainda na seção

4.2.1, são detalhados os componentes de anonimização menos restritivo (Anonimizações

1.1 e 1.2) e o funcionamento do componente que implementa o modelo κ-anonymity, o

risco de reidentificação e a utilidade dos dados (Anonimização 2). A seção 4.2.2 refere-se

a Anonimização 2, descrevendo o funcionamento das hierarquias utilizadas para genera-

lizar atributos, que foram implementadas para balancear o trade-off entre privacidade e

utilidade dos dados. Na seção 4.3 é apresentada a extensão da política de anonimização

para o uso do risco de reidentificação aceito. Na seção 4.4 são apresentados maiores deta-

lhes dos componentes para abordagem para privacidade proposta nesta dissertação. Na

seção 4.5 são apresentados os cenários e métodos utilizados para injeção dos ataques de

reidentificação.

4.1 Abordagem de anonimização para plataformas de

análise de dados

Nesta seção é apresentada a abordagem de anonimização incluindo os componentes para

execução das técnicas e modelos de anonimização. Os componentes se integram na abor-

dagem em dois pontos, nominados como PRIVAaaS (Privacy as a Service - Privacidade

Page 47: HebertdeOliveiraSilva ...repositorio.unicamp.br/jspui/bitstream/REPOSIP/... · vem, big data e conectividade massiva de usuários. A solução foi aplicada em sistemas de cidades

47

como um serviço, com a finalidade de executar a aplicação das técnicas de anonimização

no processo de ETL (fase menos restritiva) e na saída dos dados das plataformas de aná-

lise de dados, implementando o modelo κ-anonymity, o cálculo do risco de reidentificação

e da perda de informação, para os dados de saída das plataformas de análise de dados.

A Figura 4.1 mostra o abordagem de anonimização para um cenário de big data e

análise de dados. As fontes de dados externas representam bancos de dados relacionais e

não relacionais, ou mesmo fluxos de dados. Esses dados são manipulados pelos módulos

de ETL (Extrair, Transformar, Carregar), que representam o processo de integrar os

dados de várias origens e reuni-los em um banco de dados de destino. Por sua vez, as

fontes de dados representam o banco de dados consolidado. As fontes de dados derivadas

representam bancos de dados preditivos resultantes do processo de análise de dados e

mineração de dados. As fontes de dados consolidadas no contexto de big data geralmente

são manipuladas por algoritmos de mineração e análise de dados, cujo objetivo é analisar

grandes conjuntos de dados para descobrir informações úteis.

Os dois componentes de anonimização (PRIVAaaS - Anonimização e PRIVAaaS -

Risco de Reidentificação) são guiados por uma política de anonimização. Basicamente,

essa política especifica os campos relacionados a informações pessoalmente identificáveis

e a técnica de anonimização a ser aplicada para cada campo. Sua definição deve ser ba-

seada nos princípios e leis de privacidade, ou seja, regulamentos e diretrizes existentes

para anonimização de dados (como por exemplo: GDPR - Regulamento geral de proteção

de dados da União Européia, PIPEDA - Lei de Proteção de Informações Pessoais e Do-

cumentos Eletrônicos do Canadá, HIPAA - Lei de Portabilidade e Responsabilidade do

Seguro de Saúde dos Estados Unidos, PCI-DSS - Padrão internacional de segurança de

dados do setor de pagamento com cartões e LGPD - Lei Geral de Proteção de Dados Pes-

soais do Brasil) e construída com base em seus pontos fortes (OLIVEIRA SILVA; BASSO;

OLIVEIRA MORAES, 2017). Normalmente ela deve ser fornecida pelo proprietário das

fontes de dados.

Os componentes de anonimização são introduzidos nas camadas que representam os

dois limites que os dados devem cruzar, respectivamente: (i) o processo ETL; e (ii) antes

que os dados deixem a plataforma de análise de dados, ou seja, antes que se tornem

públicos para visualização por usuários externos à plataforma.

Page 48: HebertdeOliveiraSilva ...repositorio.unicamp.br/jspui/bitstream/REPOSIP/... · vem, big data e conectividade massiva de usuários. A solução foi aplicada em sistemas de cidades

48

Os componentes propostos nesta dissertação também são contribuições do projeto

EUBRA-BIGSEA e foram incluídas nos entregáveis do projeto. PRIVAaaS é um conjunto

de bibliotecas que permite controlar e reduzir o vazamento de dados no contexto de

processamento de big data e, consequentemente, proteger informações sensíveis que são

processadas por algoritmos de análise de dados. Os códigos fontes dos serviços, propostos

nesta dissertação, estão disponíveis no Github 1.

Figura 4.1: Abordagem para Anonimização e cálculo do Risco de reidentificação paraAnálise de Dados em Big Data

Ainda na Figura 4.1, a detecção de violação de privacidade representa um componente

que, similarmente aos atuais sistemas de detecção de intrusão (IDS), monitora, coleta e

avalia eventos que indicam possível violação de privacidade, no momento da divulgação

de dados. O objetivo é detectar e evitar vazamentos de dados e ataques de privacidade.

Embora esse componente faça parte da estrutura e possa ajudar a aumentar a proteção

da privacidade em plataformas de análise de dados, seu foco não está na anonimização e

não será abordado neste trabalho.1Disponível em: https://github.com/eubr-bigsea/PRIVAaaS.

Page 49: HebertdeOliveiraSilva ...repositorio.unicamp.br/jspui/bitstream/REPOSIP/... · vem, big data e conectividade massiva de usuários. A solução foi aplicada em sistemas de cidades

49

4.2 Detalhamento da abordagem de anonimização

Nesta seção é detalhada a abordagem de anonimização proposta, que foi também im-

plementada no projeto EUBra-BIGSEA (EUBRA-BIGSEA, 2017a). No projeto, foram

definidas três fases de anonimização, onde cada fase é regulamentada por uma política de

anonimização específica, contendo as respectivas diretrizes necessárias para que os dados

sejam anonimizados, conforme a Figura 4.2.

Figura 4.2: Arquitetura de integração do PRIVAaaS no Projeto EUBra-BIGSEA(EUBRA-BIGSEA, 2017a)

A fase de Anonimização 1.1 é aplicada nos dados brutos fornecidos como entrada.

Nessa anonimização executa-se um processo de conjunção com base nas políticas forneci-

das: isto é, aplica-se uma operação “AND” , anonimizando apenas os campos nos dados

brutos que possuam um atributo correspondente em todas as políticas fornecidas. Nesta

fase aplicam-se as políticas menos restritivas, maximizando a utilidade dos dados.

A Anonimização 1.2 é aplicada nos dados dos resultados intermediários, que podem ser

divulgados durante a análise dos algoritmos. Executa-se um processo de disjunção guiado

pelas políticas de anonimização, ou seja, aplica-se uma operação “OR” , anonimizando

todos os campos dos conjuntos de dados que foram citados nas políticas fornecidas. Nesta

fase aplicam-se políticas mais restritivas, o que resulta na queda da utilidade dos dados

numa fase em que os resultados da mineração já foram obtidos.

Na Anonimização 2, trata-se o risco de reidentificação dos dados finais que têm como

destino a saída de resultados do ecossistema do projeto EUBra-BIGSEA destinado aos

usuários externos. Nessa fase, o risco de reidentificação do conjunto de dados é calculado

Page 50: HebertdeOliveiraSilva ...repositorio.unicamp.br/jspui/bitstream/REPOSIP/... · vem, big data e conectividade massiva de usuários. A solução foi aplicada em sistemas de cidades

50

e modelos de anonimização (κ-anonymity, `-diversity, entre outros) são aplicados para

reduzir esse risco.

As fases de anonimização utilizadas na abordagem proposta nesta dissertação são

melhores detalhadas nas seções a seguir.

4.2.1 Anonimização 1 - Políticas e ferramenta de anonimização

No projeto EUBra-BIGSEA, para a Anonimização 1.1 e Anonimização 1.2, várias técnicas

e algoritmos foram implementados na biblioteca PRIVAaaS, visando proteger a privaci-

dade dos dados de indivíduos que são utilizados nas soluções de análise de dados. Estas

técnicas foram descritas no Capítulo 2 (Fundamentação teórica) e incluem as técnicas de:

Generalização, Supressão, Criptografia e Perturbação/Mascaramento. Do ponto de vista

da implementação, as duas fases de anonimização (1.1 e 1.2) são semelhantes, já que a

mesma ferramenta é usada em ambos os casos aplicando-se o processo de anonimização

com base no arquivo de políticas de anonimização informado como entrada do processo.

Para a Anonimização 1 e 2, foi integrado ao PRIVAaaS o componente de anonimização

descrito no trabalho de Ferreira et al. (FERREIRA et al., 2017). Portanto, a política

deve fornecer os seguintes atributos:

• FIELD_NAME: nome do campo dos dados que devem ser anonimizados;

• TIPO: técnica de anonimização que deve ser aplicada;

• DETALHE: especifica informações adicionais exigidas pela técnica de anonimização,

como por exemplo comando para encriptação de atributos, generalização e substi-

tuição de valores.

Mais informações sobre o campo Detalhe são fornecidos na documentação do PRIVAaaS2. O trecho a seguir mostra um exemplo de um arquivo de política (no formato JSON) que

exige que a técnica de supressão (SUP) seja aplicada no campo “name” e que o atributo

seja substituido por “*” :

{

“FIELD_NAME” : “NAME”,

“TYPE” : “SUP”,2Documentação disponível em: https://github.com/eubr-bigsea/PRIVAaaS/blob/master/documents/

Page 51: HebertdeOliveiraSilva ...repositorio.unicamp.br/jspui/bitstream/REPOSIP/... · vem, big data e conectividade massiva de usuários. A solução foi aplicada em sistemas de cidades

51

“DETALHE” : “*”

}

O serviço PRIVAaaS, utilizado para a Anonimização 1.1 e 1.2, usa dois arquivos JSON

como entrada: um com os dados a serem anonimizados (input.json) e outro com a política

de anonimização (policy.json). O resultado do processo é a versão anonimizada dos dados

de entrada (input_anonymized.json), gravando os dados de resultado na mesma pasta

que os dados de entrada foram disponibilizados. A execução do serviço de anonimização

pode ser feita por linha de comando conforme segue:

java -jar anonymization.jar input.json policy.json

Figura 4.3: Exemplo de uso da anonimização 1.1 e 1.2 utilizando a biblioteca PRIVA-aaS(EUBRA-BIGSEA, 2017a)

A Figura 4.3 mostra um exemplo do uso da Anonimização 1, executada no âmbito

do projeto EUBra-BIGSEA para dados do transporte público da cidade de Curitiba. No

exemplo da Figura 4.3 é aplicada a anonimização sobre o número do cartão eletrônico

utilizado pelos munícipes de Curitiba. No caso apresentado, o campo “NUMEROCAR-

TAO” é anonimizado usando a técnica de criptografia (função de resumo criptográfico

hash). O arquivo de entrada (input file), é apresentado no canto superior esquerdo. Logo

ao lado pode-se verificar o processamento executado pelo componente de anonimização

provido pelo PRIVAaaS. Ainda na Figura 4.3, no canto inferior esquerdo observa-se o

arquivo de dados resultante do processo de anonimização, sendo que ao lado é apresen-

Page 52: HebertdeOliveiraSilva ...repositorio.unicamp.br/jspui/bitstream/REPOSIP/... · vem, big data e conectividade massiva de usuários. A solução foi aplicada em sistemas de cidades

52

tado um exemplo do arquivo da política de anonimização, necessária para este processo.

A Anonimização 1, executada no processo de ETL, utilizou uma extensão da política

de anonimização proposta em Matsunaga et al. (2017). A política adotada será melhor

detalhada no estudo de caso 5.3.

A fase de Anonimização 1.2, descrita na Figura 4.2, não foi utilizada no estudo de caso

realizado nesta dissertação (capítulo 5 estudo de caso), porque os dados intermediários

eram todos agregados (média, soma, etc.). A fase de Anonimização 2 é descrita na seção

4.2.2.

4.2.2 Anonimização 2 - Anonimização com inclusão do risco de

reidentificação

As identidades das pessoas podem ser recuperadas quando os conjuntos de dados pro-

duzidos pelos algoritmos de análise e mineração são atacados, conforme discutido na

fundamentação teórica - Capítulo 2. Assim, o componente que avalia o risco de reidentifi-

cação (também disponibilizado na plataforma PRIVAaaS para a Anonimização 2), verifica

os limites de risco aceitável que são pré-definidos juntamente com as políticas. Isso faz

com que o nível de anonimização seja aprofundado para os dados oriundos da análise e

mineração de dados, caso o risco esteja acima do limite imposto. Isso significa que, se o

limite imposto não for atendido, o processo de anonimização é reaplicado e o novo risco

é recalculado. O objetivo é reduzir o risco de reidentificação até que o valor calculado se

iguale ou fique abaixo do limite pré-definido. A Anonimização 2 é aplicada no momento

anterior à exportação dos dados resultantes da análise de big data, tornando-os públicos.

Este componente explora as funcionalidades da ferramenta ARX (ARX, 2018), que

calcula o risco de reidentificação considerando os atributos semi-identificadores existentes

nos dados resultantes do processo de mineração. Para o controle do nível de anonimização

considerando o risco de reidentificação foi utilizado o modelo κ-anonymity, sendo que o va-

lor de κ é aumentado progressivamente até satisfazer a condição do risco aceitável. Tanto

o limite de risco aceitável quanto a classificação dos campos em que deverá ser aplicado o

processo de anonimização são especificados no arquivo de políticas de anonimização que

foi estendido (ver 4.3 para ser utilizado em conjunto com a ferramenta ARX, seguindo os

mesmos critérios da política de anonimização anterior, definida no trabalho de Ferreira

et al (FERREIRA et al., 2017) e utilizada nas etapas de anonimização 1.1 e 1.2. Os

Page 53: HebertdeOliveiraSilva ...repositorio.unicamp.br/jspui/bitstream/REPOSIP/... · vem, big data e conectividade massiva de usuários. A solução foi aplicada em sistemas de cidades

53

atributos devem ser classificados como sensíveis, semi-identificadores, identificadores ou

insensíveis. As subseções a seguir especificam com maior detalhes a extensão da política

de anonimização e fornecem exemplos de uso.

O processo de anonimização 2 se mostrou eficiente considerando o limite de risco de

reidentificação que o provedor da amostra de dados configurou como sendo aceitável para

o contexto em que se insere a amostra. Além disso, não houve impacto no processo de

análise de dados pois o processo é executado no momento exatamente anterior a publicação

do resultado da pesquisa aos usuários externos às plataformas de análise de dados.

4.3 Extensão da política de anonimização para o risco

de reidentificação

A política de anonimização baseada no trabalho de Matsunaga et al. (2017) precisou ser

estendida e adaptada para o funcionamento em conjunto com o componente de anonimi-

zação que inclui o risco de reidentificação. O objetivo do arquivo de extensão da política

de anonimização é definir os parâmetros necessários à operação do componente de privaci-

dade, deixando o usuário livre de interações com o sistema durante o processo. A política

deve definir: (i) os atributos, isto é, os nomes que identificam as colunas dos conjuntos de

dados; (ii) o tipo de atributo, que deve ser: identificador, semi-identificador, sensível ou

não sensível. O tipo de atributo irá implicar diretamente na técnica de anonimização a ser

aplicada; (iii) o limite de risco de reidentificação. A sintaxe utilizada para a construção

da política é: “Nome do Atributo”;“Classificação do atributo ou técnica desejada”.

A última linha da política deve conter, obrigatoriamente, o risco máximo aceitável

e deve ser expresso em porcentagem no formato decimal, precedido do comando Rmax,

conforme apresentado na Figura 4.4: “Rmax” de 1% expresso em número decimal.

A Figura 4.4 mostra um exemplo de política de anonimização para uso do compo-

nente quando integra funcionalidades da ferramenta ARX. O formato adotado para o

arquivo de política utilizado foi construído para atender aos requisitos de funcionamento

da ferramenta ARX (ARX, 2018). A primeira coluna da Figura 4.4 (isto é ZIPCODE,

DATETIME, MIN, MAX, COUNT, SUM) representam os atributos das tuplas do banco

de dados. Na primeira linha, usando a abreviatura “SR”, o CEP (ZIPCODE ) será ca-

tegorizado como identificador, e seus dígitos suprimidos da direita para a esquerda. A

Page 54: HebertdeOliveiraSilva ...repositorio.unicamp.br/jspui/bitstream/REPOSIP/... · vem, big data e conectividade massiva de usuários. A solução foi aplicada em sistemas de cidades

54

Figura 4.4: Exemplo do arquivo de política de anonimização incluindo limite aceito parao risco de reidentificação

supressão pode ser feita da esquerda para a direita usando a abreviação “SL”. Nas linhas

restantes (exceto a última), o número “1” categoriza os campos como não-sensíveis, sendo

que nesse caso eles não serão anonimizados.

Além de “SR”, “SL” e “1”, usados no exemplo da Figura 4.4, outras classificações podem

ser usadas ao definir uma política. São elas: o número “2” categoriza os campos como iden-

tificador, sendo automaticamente suprimidos; o número “3” categoriza os campos como

semi-identificadores, sendo automaticamente micro-agregados; o número “4” categoriza os

campos como sensível, sendo automaticamente suprimidos; a abreviação “DT” categoriza o

atributo como semi-identificador, e combina a técnica de generalização de datas utilizando

hierarquia pré-definida; “AG” categoriza o atributo como semi-identificador, e combina a

técnica de generalização de idade, utilizando hierarquia pré-definida; e “CT” categoriza o

atributo como semi-identificador, combinando as técnicas de generalização customizadas,

que podem ser adicionadas ao componente. Essas hierarquias são explicadas na próxima

seção.

A última linha da política deve definir o limite de risco de reidentificação, identificado

pela abreviação “Rmax” seguido do valor para o limite de risco desejado, expresso em

percentagem no formato decimal. É importante mencionar que, ao definir o limite para

o risco de reidentificação, a utilidade dos dados deve ser considerada (quanto menor o

limite, menor será a utilidade dos dados).

4.3.1 Hierarquias de generalização

Com o uso da abreviação “CT” na política de anonimização, o componente proposto

permite criar diferentes níveis de generalização especificamente para cada atributo a ser

Page 55: HebertdeOliveiraSilva ...repositorio.unicamp.br/jspui/bitstream/REPOSIP/... · vem, big data e conectividade massiva de usuários. A solução foi aplicada em sistemas de cidades

55

anonimizado com essa técnica. Em anonimização, esse nível de generalização do atributo

é conhecida como hierarquia (PRASSER, 2018).

A Tabela 4.1 mostra um exemplo de hierarquia de anonimização. A partir da hierar-

quia criada, o módulo de anonimização pode decidir qual nível de generalização deverá

ser implementado no conjunto de dados para atender ao limite de risco de reidentificação

definido na política de anonimização. Para utilizar a hierarquia customizada é necessá-

rio que o usuário crie uma tabela de comparação para cada possível valor do atributo e

o valor correspondente que deverá substituí-lo para a generalização. Uma vez criada a

hierarquia, a mesma deverá ser armazenada em uma pasta específica na implementação

do componente.

Tabela 4.1: Exemplo de hierarquia para anonimizaçãoNivel 1 Nivel 2 Nivel 3

Casado Legalmente Côjunge Presente *Divorciado Cônjuge Não Presente *Nunca Casado Legalmente Cônjuge Não Presente *Separado mas não divorciado legalmente Cônjuge Não Presente *Solteiro Cônjuge Não Presente *Casado não legalmente Côjunge Presente *

A primeira coluna da Tabela 4.1 (Nível 1) registra seis possibilidades para o atributo

“estado civil”. Na segunda coluna (Nível 2) verificamos que as opções foram generalizadas

para apenas duas possibilidades (Cônjuge Presente ou cônjuge Não Presente). Na terceira

coluna (Nível 3) as possibilidades foram suprimidas, ou seja, foram substituídas por “*”.

4.4 Detalhamento do componente de anonimização que

inclui o risco de reidentificação

Nesta seção é apresentado o detalhamento do componente para a Anonimização 2, que

utiliza o risco de reidentificação. Esse detalhamento tem como objetivo apresentar o fluxo

dos dados e como os módulos do componente foram integrados entre si, como por exemplo,

na tomada de decisão para o aumento do valor de κ. Algumas partes do componente

proposto não foram totalmente integrados, porém todo o processo descrito foi executado

durante o estudo de caso e validado no âmbito do projeto EUBra-BIGSEA.

Page 56: HebertdeOliveiraSilva ...repositorio.unicamp.br/jspui/bitstream/REPOSIP/... · vem, big data e conectividade massiva de usuários. A solução foi aplicada em sistemas de cidades

56

A Figura 4.5 mostra os principais módulos do componente para proteção de privaci-

dade com base no risco de reidentificação, utilizado na fase de Anonimização 2 da abor-

dagem. Esse componente executa as funções de anonimização baseadas em uma política

pré-definida pelo usuário.

O componente, primeiramente, recebe os dados de entrada e sua respectiva política

de anonimização. Em seguida, executa a anonimização guiada pela política, aplicando

o modelo de anonimização κ-anonymity com um valor mínimo κ=2. Posteriormente,

calcula o risco de reidentificação considerando o cenário de ataque do promotor, e a

utilidade dos dados de forma quantitativa. Depois do cálculo do risco de reidentificação,

o componente verifica se esse risco é maior que o definido como limite na política de

anonimização e, em caso positivo, reaplica a execução da anonimização com o valor de κ

incrementado, até que a condição do risco aceito seja satisfeita. Uma vez que a condição

do risco de reidentificação é satisfeita, o componente grava o conjunto de dados e informa

o valor de κ implementado, o risco de reidentificação para os três cenários de ataques:

promotor, jornalista e marketing e grava os dados no local determinado pelo usuário ou

aplicação. Finalmente, para reforçar as garantias de privacidade, foram executados os

ataques de reidentificação, conforme definidos no Capítulo 5, para validação do risco de

reidentificação.

Ao final, os requisitos de privacidade estabelecidos são alcançados através dos diver-

sos módulos integrantes do componente: aplicação do modelo κ-anonymity, aplicação da

política de anonimização, execução do mecanismo de cálculo do risco e da utilidade quan-

titativa dos dados (calculados utilizando funcionalidades da ferramenta ARX). Em geral,

cada módulo é implementado independente do outro, sendo interligados por meio de uma

estrutura desenvolvida na plataforma Java. As informações integradas entre cada um

dos subcomponentes foram fundamentais para o correto funcionamento do componente

de privacidade. Por exemplo, o módulo que aplica o modelo κ-anonymity depende da

classificação dos atributos contidos na política, para que seja executada a anonimização.

Por sua vez, a integração dos módulos compara o risco máximo aceitável que foi declarado

na política e o resultado apresentado pelo cálculo do risco, para decidir se o processo de

anonimização, com o incremento do κ, será reaplicado.

O objetivo do cálculo da utilidade dos dados é verificar qual a perda de informação

registrada nos dados após o processo de anonimização, comparando os dados que existiam

Page 57: HebertdeOliveiraSilva ...repositorio.unicamp.br/jspui/bitstream/REPOSIP/... · vem, big data e conectividade massiva de usuários. A solução foi aplicada em sistemas de cidades

57

Figura 4.5: Fluxo de execução do PRIVAaaS para anonimização 2

antes com os dados obtidos após o processo de anonimização. Neste processo, o cálculo

da utilidade limita-se a quantidade de informação removida no processo de anonimização,

expresso pela métrica information loss disponibilizada pela ferramenta ARX. A quantifi-

cação da utilidade em termos da qualidade da mineração de dados é discutida no Capítulo

5, sendo esta verificada com a ferramenta WEKA (Waikato Environment for Knowledge

Analysis) (WITTEN et al., 2016). A integração com as plataformas analíticas também

foi uma preocupação durante o desenvolvimento do componente de privacidade. Dessa

forma, o componente funciona totalmente independente, utilizando apenas dos recursos

de ambiente Java (ORACLE, 2018). Um administrador de plataforma analítica precisará

apenas do executável. Uma vez que traga o executável para a sua plataforma, o usuário

deverá fazer a chamada por comandos, informando o caminho para o conjunto de dados,

Page 58: HebertdeOliveiraSilva ...repositorio.unicamp.br/jspui/bitstream/REPOSIP/... · vem, big data e conectividade massiva de usuários. A solução foi aplicada em sistemas de cidades

58

para a política de anonimização (ambos em csv - Comma-separated) e o local onde se

deseja gravar o conjunto de dados anonimizados.

A Figura 4.5 contempla um ponto de melhoria implementado, um ponto de melhoria

parcialmente implementado e um ponto de melhoria futura. O ponto de melhoria im-

plementado é o cálculo da perda de informação - com objetivo de informar a utilidade

quantitativa (implementada) dos dados. Essa extensão é feita justamente porque ao au-

mentar o nível de anonimização se reduz a utilidade do conjunto de dados. O ponto de

melhoria parcialmente implementado é a ferramenta de injeção de ataque - permite evi-

tar futuras tentativas semelhantes de reidentificação, restando ainda realizar integração

do script de ataque à biblioteca PRIVAaaS. O ponto de melhoria futura é a inclusão de

um painel de usuários - permitirá que os usuários (especialistas em privacidade) validem

os resultados do risco de reidentificação, perda de informação e ataques de privacidade

injetados para, com base nos resultados do cálculo do risco, decidir se continuam ou não o

processo de anonimização. Na versão atual esta funcionalidade é totalmente automática e

considera apenas o risco de reidentificação configurado na política, de forma que o usuário

não tem chance de interagir com o componente e tomar a decisão de quando parar de

anonimizar os dados.

4.4.1 Exemplo de uso do PRIVAaaS

Esta seção apresenta um exemplo de anonimização utilizando a biblioteca PRIVAaaS que

inclui o cálculo do risco. Neste exemplo, o risco de reidentificação do conjunto de dados

é calculado e os dados são anonimizados a fim de atingir um valor de risco predefinido,

considerado aceitável para o conjunto.

Conforme é apresentado na Figura 4.6, os dados de entrada podem ser oriundos de

uma plataforma de análise de dados ou de uma fonte de dados provida pelo usuário (ambos

em formato csv). A política de anonimização, por sua vez, é construída com os nomes

dos atributos do conjunto de dados a serem anonimizados, seguidos da classificação dos

atributos e/ou técnicas a serem aplicadas. A última linha da política, nominada por Rmax,

representa o risco de reidentificação aceitável para o conjunto de dados anonimizado.

Ainda na Figura 4.6, após a finalização do processo de anonimização, são apresentados

os valores calculados para o risco de reidentificação dos três cenários de ataque e o valor

Page 59: HebertdeOliveiraSilva ...repositorio.unicamp.br/jspui/bitstream/REPOSIP/... · vem, big data e conectividade massiva de usuários. A solução foi aplicada em sistemas de cidades

59

do κ implementado para o modelo κ-anonymity. A tabela à direita mostra o resultado

final da anonimização.

Figura 4.6: Exemplo de uso do PRIVAaaS - Anonimização 2

Podemos verificar, na Figura 4.6, que o atributo “ZIPCODE” (CEP), foi generalizado

por meio da supressão dos dígitos à direita. Vemos também que o risco para o cenário do

ataque do promotor (pior cenário) é de 0,27% e o valor implementado para κ foi de 24.

4.5 Injeção dos ataques de reidentificação

Nesta seção são apresentados os cenários utilizados para a injeção dos ataques de reiden-

tificação para conjuntos de dados anonimizados pelo componente baseado em anonimiza-

ção. Para a injeção de ataques, foram considerados dois cenários. No primeiro cenário

foi escolhido o atacante com o perfil do promotor, pois é justamente o pior cenário de

ataques à privacidade de dados, uma vez que o promotor tem informações privilegiadas

sobre os dados que estão sendo analisados. No segundo cenário escolhido foi o ataque do

jornalista, que é o melhor cenário, uma vez que ele tem interesse em um indivíduo mas

não tem informação se esse indivíduo está incluído no conjunto de dados analisado. A

execução de ataques considerando estes cenários tem como finalidade verificar se, mesmo

estando anonimizados e atendendo ao risco predefinido, um ataque contra a privacidade

dos dados seria bem sucedido. Caso um ataque fosse bem sucedido, isso poderia indicar

a necessidade de uma melhor anonimização, ou seja, da definição de um risco menor.

A primeira simulação de ataques é realizada a partir da perspectiva do atacante promo-

tor (prosecutor attacker), representado na Figura 4.7. Nesse caso, dados de um indivíduo

Page 60: HebertdeOliveiraSilva ...repositorio.unicamp.br/jspui/bitstream/REPOSIP/... · vem, big data e conectividade massiva de usuários. A solução foi aplicada em sistemas de cidades

60

específico são procurados no conjunto de dados anonimizado. Este cenário de ataque é

replicado para cada registro do conjunto de dados original (não anonimizado), isto é, cada

registro do conjunto de dados original é considerado a base de busca (target) no conjunto

de dados anonimizado. O número total de ataques realizados para cada conjunto de da-

dos é igual ao quadrado do número total de registros. Por exemplo, para o conjunto de

dados adulto, do repositório da UCI, que possui 32.560 registros, devem ser efetuados

1.060.153.600 (32.560 * 32.560) ataques de reidentificação.

Figura 4.7: Primeiro cenário - Ataque do Promotor

Ainda no primeiro cenário de ataque, apresentado na Figura 4.7, o atacante (Prosecu-

tor Attacker) procura um alvo específico (target), ou seja, o atacante tem conhecimento

da identidade do alvo procurado. O ataque é executado, tentando comparar os registros

anonimizados ao seu indivíduo alvo, que retornará quais são os registros compatíveis (i.e.

que poderiam corresponder ao seu alvo). Um indivíduo seria reidentificado caso um único

registro retornasse como resultado.

No segundo cenário de ataque, apresentado na Figura 4.8, é assumido que o atacante

não possui conhecimento de nenhuma identidade dos indivíduos. Os ataques são realizados

a partir dos registros anonimizados (ataque do jornalista), tentando identificar qualquer

registro ao compará-lo com uma lista de registros de indivíduos. Na prática, um atacante

poderia utilizar, por exemplo, uma lista de eleitores do município a que os dados pertencem

(public records).

Em linhas gerais, o objetivo de ambos os cenários é identificar registros únicos e,

consequentemente, reidentificar os indivíduos (ou seja, de-anonimizar os dados). Ao final

de cada etapa do estudo de caso no Capítulo 5, são apresentados os resultados para a

injeção dos ataques de reidentificação. O cenário de ataque do profissional de marketing

Page 61: HebertdeOliveiraSilva ...repositorio.unicamp.br/jspui/bitstream/REPOSIP/... · vem, big data e conectividade massiva de usuários. A solução foi aplicada em sistemas de cidades

61

Figura 4.8: Segundo cenário - Ataque do Jornalista

não foi utilizado porque seu método é parecido com o do jornalista, diferenciando-se

apenas na forma de contabilização de ataques bem sucedidos.

Page 62: HebertdeOliveiraSilva ...repositorio.unicamp.br/jspui/bitstream/REPOSIP/... · vem, big data e conectividade massiva de usuários. A solução foi aplicada em sistemas de cidades

62

Capítulo 5

Estudo de Caso

Este capítulo apresenta o estudo de caso executado de acordo com a abordagem experi-

mental detalhada na Seção 5.1. O principal objetivo deste capítulo é validar a aplicabi-

lidade da abordagem sob um framework e os processos propostos nesta dissertação. Os

resultados apresentados neste capítulo também endereçam as questões Q11, Q22, Q33 e

Q44 levantadas no capítulo 1. Nas próximas seções são descritos os passos envolvidos na

preparação e execução dos experimentos e os resultados observados. A seção 5.2 (conjunto

de dados), fornece os detalhes referentes aos dados utilizados, o seu contexto e adaptações

que foram necessárias para execução deste estudo de caso. A seção 5.3 descreve como foi

feita a avaliação do impacto do processo de anonimização nos algoritmos de classificação,

acrescida das avaliações e discussões sobre os resultados desta etapa. A seção 5.4 apre-

senta o processo para a anonimização de dados em plataformas de análise de dados no

contexto de big data, incluindo a avaliação e discussões desta etapa do estudo de caso.

A seção 5.5 descreve e avalia a extensão dos experimentos em plataformas de análise de

dados, utilizando os dados do repositório da UCI.1Q1. A anonimização de dados contribui ou prejudica a qualidade dos resultados dos algoritmos de

classificação utilizados no processo de mineração de dados?2Q2. Duas fases de anonimização, uma menos restritiva e outra mais restritiva, podem contribuir

para manter a utilidade dos dados utilizados em plataformas analíticas?3Q3. Considerando os dados utilizados nos experimentos, é possível determinar um ponto de equilíbrio

entre a privacidade e a utilidade dos dados?4Q4. O processo de anonimização, utilizando o risco de reidentificação, é viável, sob o aspecto da

utilidade de dados e da eficácia da proteção da privacidade?

Page 63: HebertdeOliveiraSilva ...repositorio.unicamp.br/jspui/bitstream/REPOSIP/... · vem, big data e conectividade massiva de usuários. A solução foi aplicada em sistemas de cidades

63

5.1 Abordagem experimental

Para alcançar os objetivos e respostas às questões desta pesquisa projetou-se a abordagem

experimental apresentada na Figura 5.1. O objetivo é fornecer uma visão geral sobre as

etapas de implementação e os experimentos realizados neste trabalho. Cada etapa desta

abordagem experimental é descrita a seguir.

Figura 5.1: Abordagem experimental

Definições de Escopo: essa etapa consistiu em definir a abordagem de anonimização,

seus respectivos componentes e os conjuntos de dados a serem utilizados nos experimentos.

Codificação, adaptação e implementação dos componentes de privacidade:

nesta etapa foram escritos os códigos executáveis para os dois processos de anonimização,

ambos desenvolvidos em Java. Nesta etapa, também foi executada a validação e testes ini-

ciais para os processos utilizando o componente proposto por Ferreira et al. (FERREIRA

et al., 2017) e para o componente de anonimização que usa o risco de reidentificação. O

código proposto foi primeiramente executado para anonimização de um conjunto de dados

reduzido, com a finalidade de corrigir possíveis erros e desvios na implementação, tanto

na perspectiva da codificação quanto na definição do processo.

Primeira Etapa do Estudo de Caso - Análise do impacto da anonimização

nos algoritmos de classificação: o objetivo desta etapa foi avaliar como a acurácia e

o desempenho dos classificadores utilizados na mineração de dados são afetados pelo pro-

cesso de anonimização. Foram feitas comparações da execução da tarefa de classificação

usando um conjunto de dados originais e, em seguida, o mesmo experimento foi repetido

Page 64: HebertdeOliveiraSilva ...repositorio.unicamp.br/jspui/bitstream/REPOSIP/... · vem, big data e conectividade massiva de usuários. A solução foi aplicada em sistemas de cidades

64

utilizando-se o mesmo conjunto de dados, porém anonimizados. Uma amostra de dados

reais gerados pelo sistema de transporte público da cidade de Curitiba foi anonimizada em

diferentes estágios e submetida aos algoritmos de classificação Zero R, KNN (K-Nearest

Neighbor), Naive Bayes e SVM (Suporte à vetor de máquina). A avaliação proposta nesta

etapa possibilitou uma melhor compreensão de como a anonimização dos tipos de atribu-

tos (identificador, semi-identificador e sensível) impactam os algoritmos de classificação

(conforme questão Q1 levantada no Capítulo 1). Esse entendimento contribuiu significa-

tivamente para a determinação dos atributos que deveriam (ou não) ser anonimizados na

etapa mais restritiva (Anonimização 2) e menos restritiva (Anonimização 1.1 e 1.2).

Segunda etapa do estudo de caso - Integração com plataforma de análise

de dados: o principal objetivo desta etapa foi validar a abordagem proposta, face a

uma plataforma real, utilizando-se um estudo de caso como prova de conceitos. Os com-

ponentes implementados na etapa anterior foram desenvolvidos de maneira a permitir

integração em diferentes plataformas de análise de dados. Para este estudo de caso, os

componentes foram integrados à plataforma Ophidia (FIORE et al., 2013). A plata-

forma Ophidia é uma plataforma de análise de dados desenvolvida pelo CMCC - Centro

Euro-Mediterrânico sobre as Alterações Climáticas (CMCC, 2017), que também colabora

com as pesquisas no âmbito do projeto EUBra-BIGSEA (EUBRA-BIGSEA, 2017b). O

processo de anonimização foi executado em dois estágios: durante o processo de ETL e

antes de exportar os resultados estatísticos da análise de dados para usuários externos à

plataforma.

Terceira etapa do estudo de caso - Extensão de experimentos com outras

bases de dados: esta etapa teve como objetivo estender os experimentos apresentados na

etapa de análise do impacto da anonimização nos classificadores, utilizando outras fontes

de dados. Além de corroborar com os resultados das etapas anteriores, a extensão dos

experimentos para outros contextos de dados ajudou a consolidar o processo proposto e

a identificar melhorias necessárias ao componente de privacidade. Os conjuntos de dados

utilizados nesta etapa são detalhados na Seção 5.2.

Ao final da segunda e da terceira etapas do estudo de caso, foram realizadas injeções de

ataques de reidentificação (linkage attack). Os ataques foram realizados em dois cenários

diferentes e seguiram os métodos de ataque à privacidade para os cenários do promotor e

do jornalista (MERENER, 2012), conforme exemplificado nas Figuras 4.7 e 4.8 na seção

Page 65: HebertdeOliveiraSilva ...repositorio.unicamp.br/jspui/bitstream/REPOSIP/... · vem, big data e conectividade massiva de usuários. A solução foi aplicada em sistemas de cidades

65

4.5 - Injeção dos ataques de reidentificação. De forma resumida, no primeiro cenário o

atacante possui informações referentes ao indivíduo alvo. No segundo cenário assume-se

que o atacante não possui conhecimento dos indivíduos e que deseja reidentificar qualquer

indivíduo.

5.2 Conjuntos de dados utilizados

Conforme mencionado na abordagem experimental, foi utilizado um conjunto de dados do

transporte público de Curitiba, fornecidos pelo projeto EUBra-BIGSEA. Posteriormente,

o framework foi reavaliado utilizando-se conjuntos de dados provenientes do repositório

da UCI. As características desses dados são detalhadas nas próximas seções.

5.2.1 Dados de transporte da cidade de Curitiba

O conjunto de dados apresentado nesta seção corresponde a um dia útil do uso do sistema

de transporte da cidade de Curitiba. Mais especificamente, 480 mil transações de cartões

de usuários de ônibus registradas foram utilizadas na composição da base de dados dos

experimentos. Em média, cada cartão de ônibus é utilizado duas vezes por dia (ida e

volta). Em um dia útil o sistema de ônibus chega a ser utilizados por 245 mil usuários.

Os dados do transporte público foram utilizados para validar a política de anonimização

menos restritiva, onde se desejava avaliar o impacto da anonimização nos algoritmos

de classificação. Entretanto, os dados disponibilizados não possuíam os dados pessoais

dos usuários. Isso limitaria bastante os testes de anonimização e posterior tentativa de

reidentificação. O único atributo que poderia ser anonimizado nos dados originais seria o

identificador do cartão de ônibus, atributo único, referente a cada usuário.

Para contornar essa importante lacuna nos dados originais, 245 mil registros de usuário

fictícios foram criados utilizando a ferramenta Fake Name Generator (WORKS, 2011).

Esses registros foram criados respeitando as informações demográficas da cidade, de forma

que foi utilizada a mesma distribuição de faixa etária, conforme o censo publicado pelo

IBGE - Instituto Brasileiro de Geografia Estatística, em 2010 (ver Figura 5.2). Na Figura

5.2 podemos observar que a população da cidade possui proporções, em percentagem,

semelhantes ao Estado do Paraná e à população geral do Brasil. Diferencia-se apenas na

Page 66: HebertdeOliveiraSilva ...repositorio.unicamp.br/jspui/bitstream/REPOSIP/... · vem, big data e conectividade massiva de usuários. A solução foi aplicada em sistemas de cidades

66

faixa etária de 10 a 14 anos e 15 a 19 anos, em que as proporções são um pouco menores

do que o Estado do Paraná e do Brasil.

Figura 5.2: Pirâmide etária da cidade de Curitiba (GEOGRAFIA E ESTATÍSTICA -IBGE, 2010)

Ao todo foram criados mais de 35 atributos diferentes para cada registro, tais como

nome, sobrenome, cor de preferência, data de nascimento, endereço, entre outros, con-

forme a relação abaixo: “Numero, Gênero, Nome Completo, Título, Primeiro Nome, Nome

do Meio, Último Nome, Logradouro, Cidade, Abrev. Estado, Estado, Código Postal,

Abrev. País, País, Endereço de E-mail, Usuário, Senha, Agente de usuário do Nave-

gador, Numero de Telefone, Cod. área Telefone, Nome da Mãe, Nascimento, Idade,

Signo, Tipo de Cartão de crédito, CCNumero, CVV2, CC Expiração, CPF, UPS, Wester-

nUnionMTCN, MoneyGramMTCN, COR, Ocupação, Empresa, Veículo, Domínio, Tipo

Sanguíneo, Peso, Quilogramas, Polegadas, Centímetros, GUID”

Os dados de Transporte de Curitiba, fornecidos pelo projeto EUBra-BIGSEA, estão

estruturados conforme os seguintes tipos:

Dados Estacionários: esses dados são providos pela Prefeitura de Curitiba, sendo

referentes ao ano de 2016 e do IPPUC - Instituto de Pesquisa e Planejamento Urbano

de Curitiba, sendo referentes ao ano de 2017. Contém informações geográficas instaladas

em um banco de dados espacial em PostGIS. Essas informações geográficas referenciam

arruamentos, rios, limites legais, hidrografia e trajeto fixo percorrido pelos ônibus.

Dados Dinâmicos: são amostras de dados da Web referentes ao transporte de ônibus

pela prefeitura de Curitiba. A combinação dos dados do cartão com os dados dos ônibus

Page 67: HebertdeOliveiraSilva ...repositorio.unicamp.br/jspui/bitstream/REPOSIP/... · vem, big data e conectividade massiva de usuários. A solução foi aplicada em sistemas de cidades

67

tornam possível a identificação de tempo e espaço exato em que cada bilhete foi validado

na catraca do ônibus.

Dados Cartão: com os dados do cartão é possível identificar a data, horário, ônibus

utilizado, conforme o exemplo:

{

“CODLINHA”: “515”,

“NOMELINHA”: “IGUAPE II”,

“CODVEICULO”: “EA195”,

“NUMEROCARTAO”: “0002480682”,

“DATAUTILIZACAO”: “07/10/15 18:05:50,000000”

}

Onde “CODLINHA” representa código numérico da linha de ônibus,“NOMELINHA”

representa o nome da linha, “CODVEICULO” representa o código do veículo, “NUME-

ROCARTAO” representa o número do cartão do usuário que utilizou o ônibus, “DATAU-

TILIZAÇÃO” representa a data e hora em que o cartão foi utilizado no ônibus.

Dados Ônibus: Os dados do ônibus identificam o posicionamento geográfico de cada

veículo, data e horário, conforme o exemplo:

{

“CODLINHA”: “820”,

“VEIC”: “AA005”,

“LAT”: “-25,441645”,

“LON”: “-49,345408”,

“DTHR”: “07/10/2015 23:10:11”

}

Onde “VEIC” representa o número que identifica exatamente o veículo (ônibus) utili-

zado, “LAT” representa latitude coletada, “LON” representa longitude coletada, “DTHR”

representa a hora em que o ônibus estava no momento em que o registro foi coletado,

“CODLINHA” representa o código da linha em que o veículo estava percorrendo.

A partir da base de transporte público (dados reais) e da base dos dados pessoais dos

usuários (dados fictícios) foi criado mais um atributo para realizar o relacionamento entre

as tabelas dessas bases. O atributo será o número de identificação do bilhete eletrônico

do usuário (ID User card), conforme representado na Figura 5.3.

Page 68: HebertdeOliveiraSilva ...repositorio.unicamp.br/jspui/bitstream/REPOSIP/... · vem, big data e conectividade massiva de usuários. A solução foi aplicada em sistemas de cidades

68

Figura 5.3: Integração de base fictícia com dados reais de transporte da cidade de Curitiba

5.2.2 Dados do repositório da UCI

Atualmente, o repositório da UCI (University of California, Irvine), mantém 437 conjun-

tos de dados como um serviço para a comunidade científica de aprendizado de máquina.

Para serem publicamente disponíveis eles já foram anonimizados, ou seja, foram supri-

midos todos os identificadores. Mesmo assim, ainda possuem dados semi-identificadores

(isto é, atributos que podem ser combinados com informações externas para expor al-

guns indivíduos ou reduzir a incerteza sobre suas identidades como, por exemplo, data de

nascimento, CEP, posição, trabalho, tipo sanguíneo). Foram selecionados três conjuntos

de dados relacionados a dados sociais: Adults (amostra de dados extraída do banco de

dados do Censo dos EUA de 1994), Internet (contém informações demográficas gerais

de usuários de internet dos EUA coletados de outubro a novembro de 1997) e Opção

do Método Contraceptivo (subconjunto do Questionário de Prevalência Contraceptiva da

Indonésia de 1987). Além disso, foram selecionamos cinco bases de dados sobre dados

médicos: mamográfico (discriminação de massas mamográficas benignas e malignas, de

mamografias digitais coletadas no Instituto de Radiologia da Universidade de Erlangen-

Nuremberg entre 2003 e 2006), Hepatite (conjunto de dados com informações de pacientes

com esta doença, do Programa de Seguro de Saúde de Ontário, 1998), dados do Breast

Cancer Wisconsin (casos clínicos obtidos nos Hospitais da Universidade de Wisconsin de

1989 a 1991), Dermatologia (conjunto de dados com amostras de pele para determinar o

tipo de doença eritematoescamosa, da Turquia, 1998), Câncer do colo do útero (informa-

ções demográficas, hábitos, e um histórico médico coletado no ’Hospital Universitário de

Caracas’ na Venezuela, 2017). Essas oito bases de dados foram selecionadas porque são as

únicas no repositório que possuem semi-identificadores suficientes para serem utilizadas

Page 69: HebertdeOliveiraSilva ...repositorio.unicamp.br/jspui/bitstream/REPOSIP/... · vem, big data e conectividade massiva de usuários. A solução foi aplicada em sistemas de cidades

69

Tabela 5.1: Quantidade de registros nos conjuntos de dados selecionados do repositórioUCI

Conjunto de Dados Número de Registros

Adults 32.651Internet 10.104

CMC - Contraceptive Method Choice 1.473Mammographic 961

Hepatitis 155WDBC - Wisconsin Breast Cancer (Diagnostic) 199

Dermatology 358CCRF - Cervical Cancer Risk Factors 858

nos experimentos. A Tabela 5.2.2 apresenta a quantidade de registros em cada conjunto

de dados selecionado para uso.

5.3 Primeira etapa do estudo de caso: Avaliação do

impacto da anonimização nos algoritmos de classi-

ficação

Nesta primeira etapa do estudo de caso foi avaliado o impacto na acurácia e no desempenho

dos algoritmos de classificação ao aplicar as técnicas de anonimização nos atributos que

poderiam identificar os usuários unicamente. A medição da acurácia ajuda a identificar

a utilidade dos dados do ponto de vista qualitativo. A medição do desempenho ajuda a

identificar o custo do processamento dos dados a serem anonimizados e, consequentemente,

se o impacto é significativo o suficiente para se configurar uma desvantagem do uso do

processo de anonimização proposto.

Para esta etapa dos experimentos, a acurácia é calculada com o auxílio de uma matriz

de confusão, utilizada na avaliação de modelos para aprendizado de máquina. O valor é

dado pela porcentagem de previsões de classes corretas e pelo número total de previsões

feitas. As métricas de desempenho e da acurácia foram calculadas por meio da coleta de

logs gerados pela ferramenta WEKA (WITTEN et al., 2016).

Para esta etapa do estudo de caso foram utilizados os dados de usuários fictícios

integrados aos dados do transporte público de Curitiba, pois são compostos pelos atributos

Page 70: HebertdeOliveiraSilva ...repositorio.unicamp.br/jspui/bitstream/REPOSIP/... · vem, big data e conectividade massiva de usuários. A solução foi aplicada em sistemas de cidades

70

de identificação pessoal mencionados nas regulamentações. Podemos verificar na Tabela

5.2, as técnicas aplicadas para os principais atributos contidos nesta base.

Tabela 5.2: Técnicas de anonimização aplicadas aos principais atributos dos dados detransporte da cidade de Curitiba com base no trabalho de Matsunaga et al. (2017)

Campos da Tabela Tipo de Dados Técnica Política Base

Nome Identificador Supressão Safe Harbor method - HIPAAGênero - Manter Dados Nenhuma diretriz - HIPAAData de Nascimento Semi-ident. Generalização Safe Harbor method - HIPAADocumento de Identidade Identificador Supressão Safe Harbor method - HIPAAEndereço Semi-ident. Supressão Safe Harbor method - HIPAACidade Semi-ident. Supressão Safe Harbor method - HIPAAEstado - Manter Dados Safe Harbor method - HIPAAPaís - Manter Dados Safe Harbor method - HIPAACódigo Postal Semi-ident. Generalização Safe Harbor method - HIPAANumero de Telefone Semi-ident. Supressão Safe Harbor method - HIPAAVeiculo Semi-ident. Supressão Safe Harbor method - HIPAAE-mail Identificador Supressão Safe Harbor method - HIPAACor - Manter Dados Nenhuma diretriz - HIPAATipo de Cartão de Crédito - Manter Dados Requirement 3 from PCI-DSSData de Expiração - Manter Dados Requirement 3 from PCI-DSSCVV Sensível Supressão Requirement 3 from PCI-DSSOcupação Semi-ident. Manter Dados Safe Harbor method - HIPAANome da Empresa Semi-ident. Supressão Safe Harbor method - HIPAAId do Cartão de Usuário Identificador Encriptar - Função Hash -

A política proposta pelo trabalho de Matsunaga et al. (2017) precisou ser estendida,

pois não previa a aplicação de uma técnica para o atributo id do usuário do cartão de

ônibus (User ID Card). Dessa forma, foi escolhida a técnica de criptografia, utilizando

uma função de hash (geralmente a função hash é utilizada para armazenamento seguro de

senhas em repositórios eletrônicos) de forma que os registros não perdessem a segurança

e ainda mantivessem o seu lastro, uma vez que, ao saber o número do cartão, se pode

reproduzir a técnica e encontrar o registro. Isso acontece pois a função hash é uma função

matemática de mão única, ou seja, podemos obter um hash para um determinado valor

mas não é possível fazer o inverso.

5.3.1 Avaliação da classificação

Conforme mencionado, na análise do impacto dos algoritmos de classificação para a im-

plementação dos classificadores, utilizamos o ambiente da ferramenta WEKA (WITTEN

et al., 2016), que permite a implementação de algoritmos de aprendizado de máquina,

pré-processamento, classificação, predição e agrupamento. A biblioteca da WEKA, em

sua versão 3.8, pré-define uma verificação de capacidades de cada algoritmo de classifi-

Page 71: HebertdeOliveiraSilva ...repositorio.unicamp.br/jspui/bitstream/REPOSIP/... · vem, big data e conectividade massiva de usuários. A solução foi aplicada em sistemas de cidades

71

cação antes que o classificador que está sendo construído seja executado, para calcular a

classificação do conjunto de dados. Em outras palavras, quando inserimos os dados de

entrada no WEKA, ele verifica, de acordo com os atributos do conjunto de dados, quais

classificadores são capazes de processar os dados inseridos. Então, com base nessa pré-

seleção do WEKA, foram utilizados os classificadores: Zero R, LWL (K-NN), SDGText

(SVM) e Navie Bayes (WITTEN et al., 2016).

O objetivo do processo de classificação é prever as classes existentes em determinado

atributo (coluna) do conjunto de dados, utilizando uma parte do conjunto de dados para

treinamento e outra parte para testes. Os dados, então, são submetidos ao processo de

classificação, e ao final é possível verificar a acurácia (taxa de acertos) do classificador

para os dados testados. Com isso, podemos verificar se o processo de anonimização

impactou ou não os resultados da classificação. Foram aplicadas diferentes técnicas de

anonimização, em diferentes estágios, determinando a acurácia e o desempenho para os

atributos Veículo, Cor, Agente de Usuário do Navegador e Tipo de Cartão de Crédito.

Selecionamos esses atributos porque eles são os que melhor representam as escolhas de cada

usuário contido nos registros do conjunto de dados e podem indicar suas preferências (por

exemplo, os dados do agente do navegador web utilizado podem indicar as preferências do

sistema operacional; os dados do veículo podem indicar a preferência de marcas, modelos,

características específicas do carro, e até mesmo determinar as classes do atributo socio-

econômico). Assim, esses Atributos são os mais interessantes para identificar padrões

usando mineração de dados.

Para melhor avaliar o impacto das diferentes técnicas de anonimização separadamente,

definimos quatro estágios para os experimentos, conforme a seguir:

No primeiro estágio, foi realizada a classificação da tabela original sem qualquer anoni-

mização, a fim de determinar os parâmetros iniciais de comparação. No segundo estágio,

foi anonimizada a tabela original usando a técnica de supressão. Todos os atributos iden-

tificadores e atributos sensíveis (tais como nomes, identidade nacional, número de cartão

de crédito, nome de usuário e senhas) foram suprimidos. Em seguida, foram aplicados os

classificadores nos dados anonimizados e coletados os resultados.

No terceiro estágio, foram utilizadas as técnica de generalização e supressão, aplicadas

aos campos de semi-identificadores (tais como estado, data de nascimento, idade, empresa

Page 72: HebertdeOliveiraSilva ...repositorio.unicamp.br/jspui/bitstream/REPOSIP/... · vem, big data e conectividade massiva de usuários. A solução foi aplicada em sistemas de cidades

72

e veículo). Novamente, os dados anonimizados foram submetidos aos classificadores para

avaliação de desempenho e acurácia.

No quarto e último estágio, foi aplicado o modelo κ-anonymity, com um valor paraκ=

2 (menor valor possível para essa configuração). Ao final, os resultados de cada um dos

quatro estágios foram comparados em relação ao desempenho e a acurácia.

Resultados do impacto da anonimização

Nesta seção são apresentados os resultados dos classificadores para cada estágio de ano-

nimização. Para melhor entendimento, em primeiro lugar, discutimos os resultados da

avaliação da acurácia e, em seguida, os resultados da avaliação de desempenho do pro-

cesso de classificação executados pelo WEKA. Em ambas as subseções os resultados são

apresentados por atributos: Tipo de Cartão de Crédito, Cor, Agente do Usuário do Na-

vegador e Veículo, respectivamente. Para todas as figuras apresentadas a abreviação “T0”

representa o primeiro estágio, ou seja, os dados brutos, sem a aplicação de qualquer técnica

de anonimização; “T1” representa o segundo estágio, onde todos os campos identificadores

e sensíveis foram anonimizados; “T2” representa a terceira etapa, onde os dados foram ge-

neralizados de acordo com a política de anonimato proposta por Matsunaga et al. (2017);

“Tk2” representa os dados anônimos usando o modelo κ-anonymity, considerando κ = 2.

A seguir, com exceção do último estágio, “Tk2” (que seria inviável a visualização devido

o tamanho da tabela), apresenta algumas imagens com exemplos do conjunto de dados

utilizado para etapa de classificação com a ferramenta Weka. A Figura 5.4 apresenta uma

amostra dos dados brutos, enquanto a amostra de dados anonimizados no primeiro estágio

é apresentada na Figura 5.5; a Figura 5.6 apresenta a amostra de dados anonimizados no

segundo estágio.

Análise da acurácia

Em todos os experimentos, a acurácia dos classificadores foi testada pela ferramenta

WEKA, ou seja, o processo de cálculo executado foi o mesmo para os atributos, inde-

pendentemente da sua frequência (número de classificações possíveis) ou quantidade de

registros no conjunto de dados. Em cada atributo escolhido para a predição das classes,

a acurácia foi calculada por meio da construção de uma matriz de confusão, provida pela

ferramenta WEKA, onde foi possível constatar a acurácia dos classificadores.

Page 73: HebertdeOliveiraSilva ...repositorio.unicamp.br/jspui/bitstream/REPOSIP/... · vem, big data e conectividade massiva de usuários. A solução foi aplicada em sistemas de cidades

73

Figura 5.4: Amostra de dados brutos

Figura 5.5: Amostra de dados anonimizados no primeiro estágio

Figura 5.6: Amostra de anonimização executada no segundo estágio

A Figura 5.7 mostra os resultados da acurácia para a predição das classes do atributo

Tipo de Cartão de Crédito. Para esta classe, a frequência (número de classes possíveis) é

de apenas duas classes,Mastercard ou Visa, ou seja, o classificador deve ter a capacidade

de avaliar, no mínimo, dados booleanos (por exemplo 0 ou 1, verdadeiro ou falso).

Page 74: HebertdeOliveiraSilva ...repositorio.unicamp.br/jspui/bitstream/REPOSIP/... · vem, big data e conectividade massiva de usuários. A solução foi aplicada em sistemas de cidades

74

Figura 5.7: Acurácia para o tipo do cartão de crédito

Analisando a tabela na Figura 5.7, podemos observar que para o classificador Zero R,

SDG e Navie Bayes, a precisão dos classificadores foi similar em todos os estágios, com

pequenas variações (menores do que 1 ponto percentual). O ponto que chama atenção

é a redução da acurácia do classificador LWL (K-NN) combinado com Zero R, com uma

diminuição na acurácia de 18 pontos percentuais (variando de 69% para aproximadamente

51%). Isso aconteceu devido à supressão das informações do número do cartão de crédito.

Os primeiros quatro dígitos do número do cartão de crédito representam a emissora do

cartão; removê-los torna mais difícil realizar a predição das marcas. O classificador LWL

combinado com Zero R apresentou maior impacto ao anonimizar esse atributo. Essa

redução pode ser corrigida com a aplicação da supressão das partes finais dos dígitos do

cartão, ao invés da supressão total. Embora esses quatro dígitos sejam determinantes para

os classificadores, eles não são tão relevantes do ponto de vista de qualidade da mineração

de dados, uma vez que não revelam informações sobre as preferências dos clientes (por

exemplo, determinar o perfil de usuários de cada emissora do cartão ou revelar as razões

de escolha por uma das emissoras de cartão de crédito). É importante mencionar que

o classificador SDG (SVM) processa apenas classes binárias, ou seja, com apenas dois

atributos, ele não apresentou resultados para os demais atributos testados na predição

de classe, isto é, não foi possível utilizá-lo para classificar os atributos Veículo, Cor,

Navegador de internet.

Ao classificar as classes do atributo Veículo, cuja variedade de classes era superior a

dois mil tipos diferentes de veículos (mais precisamente, 2641), obtivemos os resultados

apresentados na Figura 5.8. Observa-se que a precisão em T0 não alcançou nem 1% e T1

Page 75: HebertdeOliveiraSilva ...repositorio.unicamp.br/jspui/bitstream/REPOSIP/... · vem, big data e conectividade massiva de usuários. A solução foi aplicada em sistemas de cidades

75

Figura 5.8: Acurácia para o tipo de veículo

teve acurácia igual a 0 para todos os classificadores. A razão para esta baixa precisão é

a alta frequência de classes, isto é, a variação de veículos é tão grande que o classificador

não consegue definir um padrão para a escolha do veículo.

Ao executar o estágio T2, a acurácia subiu de 0 para 6%, em todos os classificadores

testados. Neste caso, ao observarmos os dados, verificamos que a classe foi anonimizada

pela técnica de generalização, reduzindo a frequência de classe de 2641 para 23 classes de

veículos possíveis. Considerando esta redução, entende-se que o classificador conseguiu

determinar uma correlação nos dados quando a classe objetivo veiculo foi anonimizada

pela técnica de generalização.

No estágio “TK2”, a acurácia aumentou significativamente para todos os classificadores

(aproximadamente, entre 15% e 18%). É importante mencionar que retiramos do conjunto

de dados as amostras que não possuíam pelo menos κ = 2, reduzindo a amostra de

3000 para 167 registros. Essa remoção foi necessária devido a uma particularidade do

modelo κ-anonymity, que suprime os registros que são exclusivos (únicos no conjunto

de dados), substituindo alguns dados pelo símbolo asterisco “*”. Como no conjunto de

dados existiam vários registros únicos, essa supressão comprometeu os resultados dos

classificadores, que construíram sua matriz de confusão considerando todos os “*“ como

pertencentes à mesma classe. Assim sendo, o classificador classificou a maior parte dos

registros como asterisco, apontando como correto na matriz de confusão. Para contornar

essa situação, o conjunto de dados foi reduzido com a finalidade de avaliar o real impacto

Page 76: HebertdeOliveiraSilva ...repositorio.unicamp.br/jspui/bitstream/REPOSIP/... · vem, big data e conectividade massiva de usuários. A solução foi aplicada em sistemas de cidades

76

na qualidade da predição da classe veiculo. Conjuntos de dados menores podem ter um

impacto negativo em relação às habilidades de aprendizagem de máquina. Entretanto,

nos experimentos, pudemos observar que os padrões foram descobertos pelo processo de

mineração apesar dessa redução do número de registros, uma vez que o conjunto de dados

completo não representava bons padrões para se validar a tarefa de classificação.

Figura 5.9: Acurácia para o tipo de cor

A Figura 5.9 mostra os resultados da acurácia para a classe cor. Essa classe possuía

uma frequência de 10 atributos em todos os estágios, ou seja, o classificador deveria clas-

sificar as amostras como Preto, Roxo, Verde, Azul, Marrom, Vermelho, Laranja, Branco,

Amarelo ou Prata. Observando a tabela da Figura 5.9, podemos observar que para os

classificadores Zero R e LWL combinado com Zero R, a acurácia foi similar em todos

os estágios, com um pequeno aumento para T2. Ao observar os resultados para o clas-

sificador Naive Bayes, verificamos uma alta variabilidade nos resultados. Uma vez que

o classificador é baseado em probabilidades, entende-se que esse tenha sido mais afetado

pela remoção dos atributos identificadores. A perda de informação alterou os pesos dentro

dos cálculos de probabilidade, fazendo com que esse classificador seja mais impactado. O

mesmo comportamento é observado também na Figura 5.10, quando verifica-se a acurácia

para o navegador de internet utilizado.

A frequência de possibilidades para a classe do navegador de internet utilizado é de

76, pois combina a versão do navegador com a versão do sistema operacional do com-

putador utilizado pelo usuário, por exemplo, Mozilla/5.0 (Windows NT 6.1; WOW64;

Trident/7.0; rv: 11.0); Gecko, Mozilla/5.0 (Macintosh; Intel Mac OS X 10.10; rv: 50.0

Page 77: HebertdeOliveiraSilva ...repositorio.unicamp.br/jspui/bitstream/REPOSIP/... · vem, big data e conectividade massiva de usuários. A solução foi aplicada em sistemas de cidades

77

Figura 5.10: Acurácia para o navegador de internet utilizado

); Gecko/20100101 Firefox/50.0, etc. Novamente, a variação de acurácia entre Zero R e

LWL combinado com Zero R foi muito pequena. Para os Naive Bayes, embora a variação

da precisão seja maior que os demais classificadores, a diferença não chega a 3%.

Análise do desempenho

Da mesma forma que foi apresentada a acurácia, nesta subseção apresentamos o desempe-

nho dos classificadores para cada classe. A medida de desempenho é da ordem de minutos

e segundos. Em alguns casos, o classificador não foi capaz de classificar ao menos um re-

gistro. Mesmo nesses casos, entende-se que é importante registrar o tempo da tentativa

de classificação, pois os parâmetros experimentados podem ajudar na redução do tempo

gasto, mesmo em casos de insucesso na mineração de dados. As Figuras 5.11, 5.12, 5.13

e 5.14 mostram o tempo gasto para concluir o processo de classificação. Considerando o

tempo como a variável para mensurar o desempenho, quanto maior o tempo gasto, pior é

o desempenho do classificador.

Na Figura 5.11, o tempo de execução do Zero R e do Naive Bayes foi da ordem

de milissegundos. O tempo do classificador LWL combinado com Zero R, foi na ordem

de apenas um segundo. A variação do SDG (SVM) foi de 3 segundos, 4 segundos e

6 segundos, respectivamente, em cada estágio. Nesse caso, a anonimização impactou

o desempenho apenas do classificador SDG, porém a diferença máxima de 3 segundos

precisa ser melhor explorada nos demais experimentos, para verificar se este foi apenas

Page 78: HebertdeOliveiraSilva ...repositorio.unicamp.br/jspui/bitstream/REPOSIP/... · vem, big data e conectividade massiva de usuários. A solução foi aplicada em sistemas de cidades

78

Figura 5.11: Desempenho para o tipo de cartão de crédito

um caso isolado ou foi uma tendência. Esse aumento do tempo também pode ser explicado

pela necessidade do classificador recalcular seu modelo baseado em vetor de máquina. A

remoção dos atributos nos estágios pode ter exigido o recálculo do modelo de classificação,

aumentando, portanto, o tempo na tarefa de classificação.

Figura 5.12: Desempenho para o tipo de veículo

A Figura 5.12 mostra o resultado do desempenho dos classificadores, para a classe

veículo. Para essa classe, no estágio T0, gastou em média 13 segundos para execução de

todos os classificadores (Zero R, LWL combinado com Zero R e Naive Bayes). O estágio

Page 79: HebertdeOliveiraSilva ...repositorio.unicamp.br/jspui/bitstream/REPOSIP/... · vem, big data e conectividade massiva de usuários. A solução foi aplicada em sistemas de cidades

79

“T1”, foi o que consumiu mais tempo, em média 4 minutos e 22 segundos. Esse consumo do

tempo pode ser explicado porque os classificadores não conseguiram classificar nenhuma

informação, como já pode ser observado na Figura 5.8 (acurácia do veículo). Isso aconteceu

devida à alta variedade de classes possíveis para o atributo veículo, que apesar da supressão

dos dados identificadores e sensíveis ainda apresentou 2641 tipos diferentes de veículos. O

classificador que mais consumiu tempo foi o Naive Bayes, pouco mais de 8 minutos. Como

esse classificador é baseado em probabilidade, a alta frequência de possíveis classes dentro

do atributo veículo, impactam na quantidade de cálculos necessários para verificação da

probabilidade de um registro ser classificado em uma das 2641 classes, e que ao final

não resultaram em nenhuma predição correta. No segundo estágio o desempenho foi

melhorado, reduzindo para uma média de menos de 1 segundo. Isso se deve a generalização

aplicada ao atributo veículo, que diminuiu a frequência dentro da classe (de 2641 para

23 possibilidades para veículos). O mesmo aconteceu no estágio Tk2, onde o tempo de

execução foi zero, exceto para o classificador Zero R.

Figura 5.13: Desempenho para o tipo de cor

Conforme é apresentado na Figura 5.13, para a classe cor a execução de Zero R e Naive

Bayes foi instantânea e LWL combinado com Zero R apresentou variações de 1 segundo.

Podemos observar que o tempo gasto para o classificador LWL combinado com Zero R

foi melhor em TK2 quando comparado ao T0. O mesmo acontece para o classificador

de Navie Bayes, nos estágios T1 e TK=2 em relação ao T0. Esse comportamento era

Page 80: HebertdeOliveiraSilva ...repositorio.unicamp.br/jspui/bitstream/REPOSIP/... · vem, big data e conectividade massiva de usuários. A solução foi aplicada em sistemas de cidades

80

esperado porque, embora as diferenças sejam pequenas, os dados foram suprimidos ou

generalizados, facilitando a tarefa do classificador.

Figura 5.14: Desempenho para o tipo de navegador de internet

Similarment, ao desempenho do tipo de cor (Figura 5.13), o desempenho para o tipo

de navegador, mostrado na Figura 5.14, apresenta um baixo impacto no desempenho

quando executados os estágios de anonimização. Podemos observar que o maior tempo

gasto na classificação foi de 4 segundos, para o estágio T1, utilizando o classificador LWL

combinado com Zero R. Entretanto, esse classificador teve seu melhor desempenho no

estágio Tk2, quando comparado com T0. O mesmo acontece para o classificador Navie

Bayes no estágio T1 e Tk=2 comparado com T0. Esse comportamento era esperado pois

as diferenças são pequenas e os dados foram suprimidos ou generalizados, facilitando a

tarefa dos classificadores.

5.3.2 Avaliação do risco de reidentificação

O risco de reidentificação que é apresentado na Figura 5.15 foi calculado pela ferramenta

ARX (ARX, 2018). O objetivo do cálculo do risco é verificar o número de registros da

amostra que são únicos dentro da tabela. A média do risco representa a porcentagem

do valor médio, considerando todos os registros do conjunto de dados. O maior risco

encontrado no conjunto de dados é apresentado na segunda linha da tabela (Maior Risco).

A porcentagem de registros afetados pelo maior risco é apresentada na terceira linha da

tabela (Registros Afetados).

Page 81: HebertdeOliveiraSilva ...repositorio.unicamp.br/jspui/bitstream/REPOSIP/... · vem, big data e conectividade massiva de usuários. A solução foi aplicada em sistemas de cidades

81

Figura 5.15: Risco de reidentificação para os dados integrados

Como pode-se verificar, no estágio “T0”, o risco médio, o risco mais alto, e a quantidade

de registros afetados é igual a 100% (Figura 5.15). Esse valor é o mais alto, justamente

porque neste estágio o conjunto de dados não foi anonimizado. O mesmo resultado é

apresentado no estágio “T1”, entretanto, no estágio “T1”os atributos identificadores e

sensíveis foram suprimidos. O problema é que a supressão é somente dessas informações

(identificadores e sensíveis), mas não protegem contra a reidentificação dos indivíduos,

uma vez que os semi-identificadores, não foram suprimidos. Esses dados são críticos, pois

podem ser combinados com outros semi-identificadores para reidentificar os indivíduos. No

estágio “T2”, a média do risco diminuiu para 59%, mas o risco mais alto ainda permaneceu

em 100% , sendo que 31% dos registros apresentam esse risco, apresentando uma redução

significativa. Isso ocorreu porque nesse estágio a técnica de generalização foi aplicada

para os semi-identificadores.

O risco de reidentificação mais baixo foi obtido no estágio TK2, com 0,03% para ambas

as métricas (highest and average risk). A porcentagem de registros afetadas nesse estágio

foi de 100%, isto significa que o conjunto de dados como um todo tem o risco de 0.03%

de ser reidentificado. Essa forte diminuição, em relação ao estágio T2, se deve a aplicação

Page 82: HebertdeOliveiraSilva ...repositorio.unicamp.br/jspui/bitstream/REPOSIP/... · vem, big data e conectividade massiva de usuários. A solução foi aplicada em sistemas de cidades

82

do modelo κ-anonymity, alcançando o objetivo deste trabalho, em remover os registros

únicos de um conjunto de dados e, consequentemente reduzindo o risco de reidentificação.

5.3.3 Discussão dos resultados da primeira etapa

Os experimentos realizados foram norteados pelas questões endereçadas no Capítulo 1.

A primeira questão - Q1 - “A anonimização de dados contribui ou prejudica a qualidade

dos resultados dos algoritmos de classificação de dados utilizados no processo de minera-

ção de dados?” - precisou ser subdividida em outras questões: a) O quanto é efetiva a

aplicação das técnicas e modelos de anonimização para cada tipo de atributo dos dados

(identificadores, sensíveis, semi-identificadores, insensíveis)? b) Quanto a acurácia e o

desempenho são impactados na mineração dos classificadores? c) Até que ponto vale a

pena anonimizar os dados no cenário apresentado (ou seja, o ganho com a privacidade

vale a pena em relação a impacto no desempenho e na utilidade do conjunto de dados)?

d) Qual é o melhor balanceamento entre anonimização e a utilidade dos dados para o

cenário avaliado?

Endereçando a questão Q1.a observa-se que, para os experimentos testados nesta etapa

da abordagem experimental, aplicando-se o κ-anonymity com o seu valor mínimo (k=2),

o risco de reidentificação foi reduzido consideravelmente de 100% para 0,03%. Apesar de

que a supressão dos atributos identificadores e sensíveis, no estágio T1, não foi efetiva para

coibir o risco de reidentificação, entende-se que ela é necessária para a prevenção de outros

problemas, tais como o roubo/vazamento de informações em massa, não contemplados

nesta pesquisa. Foi possível observar que a generalização dos semi-identificadores reduziu

a quantidade de registros afetados pelo maior risco (de 100% para 31%).

Para contribuir com a questão Q1.b, os resultados mostram que a anonimização pode,

ao mesmo tempo, preservar a privacidade e manter os resultados obtidos pelos classifica-

dores intactos, ou seja, a sua acurácia e desempenho, na maioria dos casos, se mantêm

inalterados. Também contribuindo para a questão Q1.c, o uso da anonimização no con-

texto dos classificadores pode otimizar o balanceamento entre a utilidade e a proteção da

privacidade dos indivíduos, uma vez que o custodiante dos dados pode escolher o nível de

a anonimização desejado em função da privacidade e da utilidade desejada.

Para contribuir com a questão Q1.d, foi possível entender melhor o impacto da ano-

nimização nos diferentes tipos de atributos e o efeito de cada técnica e modelo utilizado

Page 83: HebertdeOliveiraSilva ...repositorio.unicamp.br/jspui/bitstream/REPOSIP/... · vem, big data e conectividade massiva de usuários. A solução foi aplicada em sistemas de cidades

83

(κ-anonymity). Em linhas gerais, para os experimentos efetuados nesta etapa do estudo

de caso, os classificadores apresentaram pequenas variações para os atributos anonimiza-

dos, melhorando a acurácia e o desempenho dos classificadores, e até melhorando para

classificação de alguns atributos.

5.4 Segunda etapa do estudo de caso: Integração com

a plataforma Ophidia

Observando os resultados da etapa anterior foi possível verificar que a anonimização não

criou impacto impeditivo para o uso da solução no ambiente de análise de dados. Sendo

assim, o componente de anonimização e a abordagem proposta foram integrados na plata-

forma de análise de dados Ophidia. Essa integração foi validada, como prova de conceito

no contexto do estudo de caso de uso de um aplicativo desenvolvido no projeto EUBra-

BIGSEA (EUBRA-BIGSEA, 2017b). Este aplicativo tem como objetivo a identificação

de tendências estatísticas agregadas no uso de transporte público (ônibus) fornecidos pela

cidade de Curitiba. As estatísticas são obtidas a partir de dados de cartões de usuários.

Essas tendências estatísticas podem ser potencialmente exploradas pelo município para

fins de gestão e planejamento urbano. Para esse fim, milhares de registros e também da-

dos pessoais de passageiros de ônibus são agregados e processados para obter informações

relevantes sobre a qualidade do atendimento dos serviços de transportes na cidade. Por-

tanto, para preservar a privacidade dos usuários de ônibus, as técnicas de anonimização

são essenciais. A Figura 5.16 destaca como os componentes de privacidade e análise de

dados interagem uns com os outros para realizar o processamento dos dados, garantindo

a privacidade dos usuários utilizando-se da técnica de anonimização.

O processo começa com um primeiro estágio de anonimização dos dados brutos de

entrada, usando o componente de anonimização utilizando-se as políticas de anonimiza-

ção, ou seja, a anonimização menos restritiva é aplicada nos campos de dados brutos. Na

Figura 5.16, a etapa é chamada de privacidade para fontes de dados brutos (PRIVAaaS -

Anonimização para Dados Brutos), onde são aplicadas as políticas menos restritivas, man-

tendo a utilidade dos dados. Isso garante que o processo de análise de dados subsequente

(ETL) obtenha informações suficientes para calcular as estatísticas e, ao mesmo tempo,

os atributos mais sensíveis sejam protegidos nos armazenamentos internos à plataforma.

Page 84: HebertdeOliveiraSilva ...repositorio.unicamp.br/jspui/bitstream/REPOSIP/... · vem, big data e conectividade massiva de usuários. A solução foi aplicada em sistemas de cidades

84

Figura 5.16: Integração com a plataforma Ophidia

Em particular, a política de anonimização determina que os campos identificadores devem

ser removidos na primeira etapa. Após o processamento dos dados ETL pela plataforma

Ophidia, são gerados os dados intermediários utilizados no processamento da análise des-

critiva dos dados.

O bloco de análise descritiva explora os recursos da plataforma Ophidia para executar

vários tipos de análise de dados. A saída resultante contém uma série de informações

estatísticas agregadas em diferentes níveis (por exemplo, agregação por linha de ônibus ou

agregação por usuários dos ônibus) e frequências de uso dos ônibus (por exemplo, diárias,

semanais, mensais, entre outros). Do ponto de vista da privacidade de dados, as mais

interessantes são aquelas relacionadas aos usuários de ônibus, particularmente a data de

nascimento e gênero. Esses campos, como descrito anteriormente, são considerados semi-

identificadores e requerem anonimização adequada para evitar o risco de reidentificação

dos usuários na saída de dados para usuários externos. Portanto, antes de exportar os

dados para visualização, o componente que inclui o risco de reidentificação é aplicado

sobre esses dados.

O segundo estágio de anonimização é chamado de PRIVAaaS - Risco de Reidentifica-

ção e Anonimização para Dados de Saída, na Figura 5.16. Esse estágio permite identificar

o risco de reidentificação do conjunto de dados e, se for necessário, aumentar o nível

de anonimização com base no limite de risco definido no arquivo de políticas de anoni-

mização, aplicando o algoritmo de κ-anonymity, conforme descrito anteriormente. Esse

segundo estágio autua sobre a saída da análise de dados provida pela plataforma Ophi-

Page 85: HebertdeOliveiraSilva ...repositorio.unicamp.br/jspui/bitstream/REPOSIP/... · vem, big data e conectividade massiva de usuários. A solução foi aplicada em sistemas de cidades

85

dia. O componente de privacidade é acionado para aplicação da política mais restritiva e

consequente cálculo do risco de reidentificação. Nesta etapa também é verificada a perda

de informação, para que o usuário do sistema possa avaliar o trade-off entre a privacidade

dos indivíduos e a utilidade dos dados.

Em particular, para esse estudo de caso, a política define que o campo de data de

nascimento do usuário de ônibus (BIRTHDATE) deve ser anonimizado com a técnica

de generalização, enquanto o campo de gênero (GENDER) deve ser anonimizado com a

técnica de supressão. Em ambos os casos, os valores de NaN (não numérico, ou valores

faltantes) também foram considerados no processo de anonimização. O limite de risco é

definido dentro do intervalo de 0,05 a 0,001 (de 5% até 0,1%). Esses valores foram definidos

com base na literatura que aponta o limiar de 5% como o maior valor aceitável para o

risco de reidentificação (EL EMAM; PATON et al., 2011) (HOWE; LAKE; SHEN, 2006).

Já o valor menor (0,1%) é o limite de anonimização para o conjunto de dados quando a

perda de informação alcança 100%. O procedimento de anonimização aplicado neste caso

é semelhante ao descrito no Capítulo 4, embora os campos dos dados de entrada incluam

o atributo BIRTHDATE e GENDER, e não o ZIPCODE descrito naquele capítulo.

Um exemplo do estágio de anonimização aplicado às estatísticas de usuários de ônibus

é mostrado na Figura 5.17. Nesse caso, as estatísticas são avaliadas em cada semana (por

exemplo, 2017 W18 - onde WNN é o número da semana ISO).

Na Figura 5.17, uma pequena amostra de dados de saída do Ophidia resultante da

análise de dados é fornecida. Esta amostra refere-se aos processos analíticos sobre dados

reais de sistemas de transporte público da cidade de Curitiba. Cada linha dos dados

de entrada fornece estatísticas sobre a quantidade de vezes que um passageiro específico,

utilizou o ônibus em determinado período. Para cada semana do passageiro, as seguintes

estatísticas agregadas são fornecidas: “DATETIME ” ano e o número da semana do ano;

“MIN” número mínimo de vezes, em um mesmo dia em que o passageiro utilizou um

ônibus; “MAX”número máximo de vezes, em um mesmo dia em que o passageiro utilizou

um ônibus; “COUNT ” número de dias que o passageiro utilizou pelo menos um ônibus;

“SUM ” total de vezes que o passageiro utilizou um ônibus. O exemplo na Figura 5.17,

também inclui o campo “ZIPCODE” como semi-identificador.

A plataforma Ophida foi utilizada para avaliar um conjunto de dados referente ao

intervalo de três meses do transporte público de Curitiba, com aproximadamente 3,3 GB

Page 86: HebertdeOliveiraSilva ...repositorio.unicamp.br/jspui/bitstream/REPOSIP/... · vem, big data e conectividade massiva de usuários. A solução foi aplicada em sistemas de cidades

86

Figura 5.17: Detalhamento do processo de anonimização - política mais restritiva

de dados (cerca de 19 milhões de registros), usados para extrair estatísticas agregadas.

Para acelerar o primeiro processo de anonimização, uma vez que o número de registros de

entrada era alto, o componente Anonimização guiado por políticas foi executado simul-

taneamente em vários arquivos de entrada (processo foi paralelizado) da etapa de ETL.

O framework COMP Superscalar (COMPSs) (LORDAN et al., 2014) foi usado para pa-

ralelizar a execução desta fase. O componente que inclui o risco de reidentificação, por

outro lado, foi executado em um único arquivo de saída produzido pela análise descritiva

com um limite de risco de 5%. Nesse caso, o arquivo de saída contém cerca de 3 mi-

lhões de registros (semelhante aos fornecidos na Figura 5.17) para um tamanho total de

aproximadamente 113 MB.

Os resultados preliminares mostraram que a sobrecarga introduzida pelos dois estágios

de anonimização na plataforma Ophidia, em termos de tempo de execução, foi medido

em torno de 4% do tempo total de execução.

De modo geral a abordagem proposta foi integrada à plataforma Ophidia sem grandes

esforços. Como os componentes da solução são modulares e independentes de aplicativos

Page 87: HebertdeOliveiraSilva ...repositorio.unicamp.br/jspui/bitstream/REPOSIP/... · vem, big data e conectividade massiva de usuários. A solução foi aplicada em sistemas de cidades

87

computacionais externos, também foi possível integrá-los, com pequenas adaptações, ao

ambiente LEMONADE5 (LiveEnvironment for Mining Of Non-trivial Amount of Data

from Everywhere), que é uma plataforma baseada em aplicação web, para análise de dados

que permite que o usuário interaja com a plataforma para montar o fluxo das operações

e fontes de dados na fase de ETL e de aprendizado de máquina.

5.4.1 Avaliação da Abordagem integrada à plataforma Ophidia

Nesta seção serão apresentados os resultados coletados durante o estudo de caso execu-

tado para a validação da abordagem proposta e da implementação da abordagem para

anonimização de dados que inclui o risco de reidentificação para a plataforma de análise

de dados Ophidia.

Antes de explorar os resultados desta etapa do estudo de caso, conforme é apresentado

na Figura 5.18, é importante mencionar que durante o primeiro estágio de anonimização,

no processo ETL, não existiu a perda de informação porque, de acordo com o processo

de conjunção, somente o ID do cartão de ônibus do usuário representava um atributo que

poderia ser anonimizado usando a função hash. A função hash foi aplicada, de forma

que os números dos cartões dos ônibus foram trocados por um valor correspondente em

hash, mantendo a rastreabilidade dos registros durante o processo de análise dos dados.

O objetivo principal nesta etapa foi anonimizar apenas os atributos sensíveis (aplicando

o processo de conjunção, para obter a menor perda de informação possível. Do ponto

de vista matemático a perda de informação permaneceu inalterada, pois a entropia dos

dados permaneceu a mesma (para verificar como o cálculo da perda da informação é feito

verifique o capítulo 2).

Durante o segundo estágio de anonimização, apresentado na Figura 5.18, o conjunto

de dados resultante da saída da plataforma Ophidia se iniciou sem qualquer perda inicial

de informação e com risco de reidentificação em 100% (sob a perspectiva do promotor).

Para o limite de risco, conforme mencionado no estudo de caso, foram adotados os limites

de 0,1% a 5%. Podemos observar que o modelo κ-anonymity alcançou o valor de k=2

e perda de informação de aproximadamente a 25,5% para as configurações de limite de

risco 5%, 1% e 0,5%. Os valores foram mantidos no gráfico apresentado na Figura 5.18,

justamente para ilustrar essa características. O último limite avaliado, demandou um5Disponível em - http://www.eubra-bigsea.eu/technology/lemonade

Page 88: HebertdeOliveiraSilva ...repositorio.unicamp.br/jspui/bitstream/REPOSIP/... · vem, big data e conectividade massiva de usuários. A solução foi aplicada em sistemas de cidades

88

Figura 5.18: Riscos de reidentificação para o framework

valor mais alto para κ (neste caso, κ-anonymity alcançou κ=301), porém implicou em

uma perda de informação igual a 100%. O κ foi aumentado consideravelmente na última

etapa do teste e com isso o risco de reidentificação foi diminuído de 0,003048 (0,3%) para

0,000322 (0,03%), ou seja, o risco de reidentificação foi reduzido em 89,43%. É importante

notar que, para este conjunto de dados, os limites de risco entre 5% a 0,5% conservam

a mesma perda de dados e não produzem melhora no risco de reidentificação (já para o

percentual de 5% o valor de risco alcançado foi de 0,003048 ou 0,3%). Além disso, para

esse conjunto de dados, este é o risco que permite o melhor balanceamento com a perda

de dados em torno de 25,5%, uma vez que para o limiar de 0,1% a perda de dados já

atinge os 100%.

5.4.2 Avaliação da injeção dos ataques de reidentificação para os

dados de saída da plataforma Ophidia

Para avaliação da efetividade do resultado da anonimização executada sobre os dados de

saída do Ophidia, foram executados alguns experimentos baseados em ataques de ligação

Page 89: HebertdeOliveiraSilva ...repositorio.unicamp.br/jspui/bitstream/REPOSIP/... · vem, big data e conectividade massiva de usuários. A solução foi aplicada em sistemas de cidades

89

(linkage attack). Nestes tipos de ataques, o atacante utiliza algumas informações auxilia-

res sobre um individuo específico podendo determinar qual registro divulgado corresponde

ao indivíduo procurado (MERENER, 2012). Por exemplo, um atacante pode facilmente

usar uma lista de eleitores de um município para fazer uma espécie de referência cruzada.

Para melhor entendimento, vamos tratar aqui os dados integrados do transporte de Cu-

ritiba em dois conjuntos de dados. O primeiro conjunto de dados, registros públicos dos

cidadãos, é formado apenas pelos usuários fictícios. O segundo conjunto de dados traz os

dados oriundos da saída do Ophidia, que contém os dados anonimizados referentes à data

de nascimento (birthdate) e gênero (gender).

Os ataques foram executados a partir de duas perspectivas: i) selecionar um cida-

dão conhecido a partir da amostra de cidadãos (Citizens Sample) e procurar por ele no

conjunto de dados anonimizado; ii) selecionar um registro anonimizado e procurá-lo na

amostra de dados públicos de cidadãos. O objetivo de ambas as perspectivas é justa-

mente tentar identificar registros únicos e, consequentemente, conseguir a sua identidade

(ou seja, desfazer a anonimização do conjunto de dados). A amostra de dados públicos

possui 250 mil registros e, por sua vez, a amostra anonimizada resultante da plataforma

Ophidia tinha 3.096 registros. Os experimentos foram executados para cada registro exis-

tente no conjunto de dados, totalizando mais de 253 mil ataques de reidentificação. A

quantidade de comparações executadas pelos ataques foi em torno de 770 milhões, re-

sultado da busca entre os dois conjunto de dados (registros públicos versus amostra de

dados do Ophidia). As Tabelas 5.3 e 5.4 mostram os resultados obtidos para os ataques e

apresentam o cálculo da probabilidade de reidentificação. Em ambas as tabelas a coluna

Combinações Possíveis representa o número de possibilidades que um registro pode ser

combinado com informações adicionais visando a reidentificação. A coluna Número de

Registros representa a quantidade de registros da tabela que retornaram com o valor de

combinações possíveis.

A Tabela 5.3, mostra os resultados dos ataques executados usando a primeira pers-

pectiva.

Na primeira perspectiva, os ataques simularam o cenário em que o atacante procura

por indivíduos específicos e que possui informações adicionais respeito dos indivíduos

procurados (ataque do promotor), o que contribui com a sua reidentificação quando com-

parados com os dados anonimizados. A Tabela 5.3 mostra os resultados para esse primeiro

Page 90: HebertdeOliveiraSilva ...repositorio.unicamp.br/jspui/bitstream/REPOSIP/... · vem, big data e conectividade massiva de usuários. A solução foi aplicada em sistemas de cidades

90

Tabela 5.3: Resultados para ataques de ligação na tabela anonimizadaCombinações Possíveis Número de Registros Probabilidade de Reidentificação

1460 6615 0.0685%1085 7273 0.0921%167 89104 0.5988%130 95173 0.7690%0 51835 0%

cenário. Observa-se que, para este cenário de ataque, o menor valor para combinações

possíveis foi igual a zero, ou seja, para 51.835 registros públicos não foram encontradas

combinações possíveis, logo a probabilidade de reidentificação é igual a 0%. Isto significa

que não existe risco de reidentificação para esses registros. O segundo menor valor de

combinações possíveis foi de 130. Isto significa que a probabilidade de reidentificação,

para 95.173 desses registros do conjunto de dados é aproximadamente 0,769% (1 / 130),

que representam o maior risco de reidentificação para este cenário. Os registros com a

maior quantidade de combinações possíveis e, portanto, com o menor risco, atingiu 1.460

registros com uma probabilidade de reidentificação de aproximadamente 0,0685%.

Figura 5.19: Probabilidade de reidentificação - Primeira perspectiva de ataques

Para melhor entender os resultados, os percentis (P0 a P99) foram calculados. Neste

caso, observamos 3 partições de probabilidades. A partir do gráfico na Figura 5.19, pode-

mos observar que mais de 60% das probabilidades calculadas são menores que 0,005989

apresentados na Figura 5.19. Calculando o desvio padrão para a amostra obtém-se um

desvio igual a 0,003042. Entretanto, para este cenário o maior risco é pouco mais de 1%

se considerar a maior probabilidade e o desvio padrão. Ainda assim, o valor obtido é

Page 91: HebertdeOliveiraSilva ...repositorio.unicamp.br/jspui/bitstream/REPOSIP/... · vem, big data e conectividade massiva de usuários. A solução foi aplicada em sistemas de cidades

91

menor do que o tolerado na literatura que é de até 5% (HOWE; LAKE; SHEN, 2006)

(EL EMAM; PATON et al., 2011).

Na segunda perspectiva, considera-se que o atacante não tem conhecimento de ne-

nhuma identidade dos indivíduos e busca reidentificar qualquer registro anonimizado. Na

Tabela 5.4, a primeira linha apresenta 270 registros atacados que retornaram com 6.609

combinações possíveis, resultando numa probabilidade de reidentificação igual a 0,0151%,

ou seja, cada um (dentre o grupo de 270 registros anonimizados) combinam com 6.609 in-

divíduos dos registros públicos. Para a segunda linha, 281 registros da tabela anonimizada

tiveram 7.263 possibilidades de combinações possíveis dentro dos dados públicos, e assim

por diante. A terceira coluna (De-anonymization Probability) apresenta a probabilidade

de um único registro ser reidentificado. O menor valor para possibilidade de combinações

que retornou dos ataques tem 6609 registros, sendo que, neste pior cenário, 270 registros

tem a uma probabilidade de ser escolhido como correto igual a 0,015%, que representa o

maior risco para o experimento. Por outro lado, a maior parte dos registros tem 95.175

de combinações possíveis com probabilidade de 0,001%, o que representa o menor risco

para este cenário.

Tabela 5.4: Resultados para ataques de ligação na tabela anonimizadaCombinações Possíveis Número de Registros Probabilidade de Reidentificação

6609 270 0.0151%7263 281 0.0137%24193 130 0.0041%27155 167 0.0036%89102 955 0.0011%95175 1293 0.0010%

Novamente, para melhor entendimento dos resultados, os percentis (P0 a P99) foram

calculados e apresentados Figura 5.20, resultando em 5 partições dos resultados. Anali-

sando o gráfico podemos observar que mais de 80% dos registros têm probabilidade menor

que 0,00004134 com um desvio padrão na amostra igual a 0,005059. Considerando es-

ses resultados estatísticos, o maior risco nesse cenário é em torno de 0,51% (ou seja, a

maior probabilidade de reidentificação + desvio padrão), é menor que o risco aceitável

encontrado na literatura (de até 5%). Além disso, à medida que a probabilidade de rei-

dentificar um registro aumenta, o número de registros com a maior probabilidade de risco

de reidentificação diminui.

Page 92: HebertdeOliveiraSilva ...repositorio.unicamp.br/jspui/bitstream/REPOSIP/... · vem, big data e conectividade massiva de usuários. A solução foi aplicada em sistemas de cidades

92

Figura 5.20: Probabilidade de reidentificação - Segunda perspectiva de ataques

Analisando os resultados dos experimentos é possível observar que, para as amostras de

dados, os valores para a probabilidade de reidentificação são considerados baixos. Mesmo

se atacante que possuir informações específicas de um indivíduo, encontrará dificuldade

para identificar um indivíduo. No conjunto de dados do transporte público de Curitiba

(anonimizados a partir da saída da plataforma Ophidia), foi possível verificar que mesmo

com o uso da informação auxiliar (registros públicos dos cidadãos), necessários para ten-

tar quebrar a anonimização do conjunto de dados, não foi possível ter a certeza sobre

qual registro pertence a cada indivíduo especificamente. Essa proteção foi obtida especi-

almente pelo componente de riscos desenvolvido utilizando o a abordagem proposta para

anonimização de dados em plataforma de análise de dados. A combinação do componente

de anonimização que inclui o risco de reidentificação, garantiu que os registros únicos não

fossem liberados.

5.5 Terceira etapa do estudo de caso: Extensão dos

experimentos com dados do repositório da UCI

Nesta seção serão apresentados os resultados da avaliação do risco de reidentificação e

perda de informação de bases de dados já anonimizadas, disponíveis no repositório pú-

blico da UCI. Para extrair um entendimento complementar, os dados foram divididos em

conjunto de dados alinhados ao contexto em: sociais e médicos. Em seguida, são apre-

sentados os resultados para a simulação dos ataques de reidentificação realizados para

cada conjunto de dados (sociais e médicos) do repositório. Por fim, são apresentados os

Page 93: HebertdeOliveiraSilva ...repositorio.unicamp.br/jspui/bitstream/REPOSIP/... · vem, big data e conectividade massiva de usuários. A solução foi aplicada em sistemas de cidades

93

resultados referentes ao processo de classificação (mineração de dados) para os conjuntos

de dados resultantes do processo executado pelo componente de anonimização que inclui

o risco. É importante ressaltar que os conjuntos de dados do UCI são próprios para uso

em machine learning, onde a anonimização menos restritiva já foi realizada. Dessa forma,

consideramos que esses conjuntos de dados representam a última etapa do processo de

anonimização no framework implementado.

5.5.1 Avaliação da anonimização

As Figuras 5.21 e 5.22 mostram os resultados médios do processo de anonimização para os

dados sociais e médicos, respectivamente. Para os dois segmentos de conjuntos de dados,

realizamos testes com limites de risco entre 100% a 0,5% (limites definidos para execução

da anonimização pelo componente que inclui o risco). A faixa de risco tem como objetivo

produzir resultados que possibilitem avaliar o impacto da anonimização sobre os dados.

Como o componente de privacidade tem como configuração mínima o valor de κ igual a

2 (o valor implementado para o κ), já nesse primeiro estágio de anonimização o risco de

reidentificação em cada conjunto de dados sociais e médicos foi reduzido consideravelmente

(de 100% para 38% e de 100% para 16%, respectivamente).

Para dados sociais (Figura 5.21), o risco diminuiu de 100% para aproximadamente

38.7%. A perda de informação (information loss) para κ = 2 foi de 0,5%. Ainda assim,

uma redução considerável ocorreu quando o limite de risco aceitável foi ajustado para

50%. O κ-implementado foi aumentado para 7 e o risco de reidentificação diminuiu para

aproximadamente 5.1%. A perda de informação, nesse caso, foi de 10,1% (isto significa

que os dados ainda permanecem com alto nível de utilidade).

Os experimentos mostram que quanto menor o limite definido (ou seja, quanto menor

o risco aceitável para o conjunto de dados), maior é o κ implementado para o modelo

κ-anonymity e, consequentemente, maior é a perda de informação (verifique o limite de

risco aceito para 10%, 1% e 0,5%, com κ=9, κ=38 e κ=63, e a perda de informação 15,8

%, 45,7% e 50% respectivamente).

Como era esperado, o tempo de execução da tarefa de anonimização (representado em

minutos) aumenta de acordo com o valor de κ. Isso se deve ao número de iterações que o

componente realiza para atingir o κ ideal, até que o limite pré-definido seja alcançado. No

último experimento, com o limite definido como 0,5%, o valor de κ atingiu 651, causando

Page 94: HebertdeOliveiraSilva ...repositorio.unicamp.br/jspui/bitstream/REPOSIP/... · vem, big data e conectividade massiva de usuários. A solução foi aplicada em sistemas de cidades

94

Figura 5.21: Resultados médios do processo de anonimização - Dados Sociais

uma perda de informação de 100%. Embora o limite implementado, neste caso, seja muito

baixo (aproximadamente 0,03%), o que fornece um bom nível de proteção de privacidade,

o conjunto de dados não é considerado útil do ponto de vista qualitativo e quantitativo

para a análise de dados. Isso esclarece e corrobora com o trade-off entre a anonimização

e a utilidade de dados.

Padrões semelhantes aos dos resultados dos experimentos utilizando conjuntos de da-

dos sociais foram apresentados para os experimentos utilizando dados médicos. Na Figura

5.22, para o conjunto de dados médicos, quando o limite do risco é definido como 100%,

o valor implementado para κ é igual a 2. O risco obtido já na primeira iteração cai dras-

ticamente para aproximadamente 16,3%, com perda de informação de aproximadamente

59%. O conjunto de dados fica inutilizável (com 100% de perda de informação) para o

limite de risco de 5%, com κ=6 (κ-implementado).

O tempo de execução do processo de anonimização, representado em segundos, embora

muito baixo, aumenta de acordo com a diminuição do risco aceitável.

Claramente, o impacto da anonimização para minimizar a reidentificação do conjunto

de dados médicos é maior. Para o conjunto de dados médico, com um limite de risco de

Page 95: HebertdeOliveiraSilva ...repositorio.unicamp.br/jspui/bitstream/REPOSIP/... · vem, big data e conectividade massiva de usuários. A solução foi aplicada em sistemas de cidades

95

Figura 5.22: Resultado médios do processo de anonimização - Dados Médicos

5%, a perda de utilidade dos dados já atinge 100%, enquanto que para os dados sociais

a perda de 100% só ocorre para o limite do risco de 0,5%. No entanto nesse caso, as

diferenças nos valores para os dois grupos de dados (Sociais e Médicos) se devem muito

mais à diferença do número de registros em cada um dos segmentos do conjunto de dados

do que os dados em si. Os dados sociais têm, em média, 14.712 registros e os dados

médicos 506 registros. Isso indica que as características (por exemplo, quantidade de

quasi-identificadores) e o número de registros dos conjuntos de dados influenciam os re-

sultados do processo de anonimização, sinalizando que a abordagem proposta tem melhor

desempenho para grandes volumes de dados (Big Data). Isso ocorre porque com maiores

volumes de dados é possível implementar o modelo κ-anonymity para valores mais alto

do κ sem que a perda de informação atinja altos índices.

Page 96: HebertdeOliveiraSilva ...repositorio.unicamp.br/jspui/bitstream/REPOSIP/... · vem, big data e conectividade massiva de usuários. A solução foi aplicada em sistemas de cidades

96

5.5.2 Avaliação da classificação

Assim como nas etapas anteriores, a acurácia dos classificadores foi obtida por meio do

número de predições corretas sobre o total das predições feitas. Esse valor é expresso

em porcentagem da acurácia para cada classe. Quando o processo de classificação não

é acurado, utiliza-se o coeficiente de correlação que é uma métrica para avaliação da

força da associação entre duas ou mais variáveis. Os valores do coeficiente de correlação

são registrados entre -1 e +1 (significando -100% e 100%, i.e., graficamente podem ser

plotados de forma positiva ou negativa). Se o valor for positivo, indica que duas variáveis

estão perfeitamente associadas de forma linear positivamente (ascendendo graficamente).

Se o valor for negativo, indica que duas variáveis estão perfeitamente associadas ao linear

negativo (descendendo graficamente). Se os valores forem zero isto significa que não

há associação entre as variáveis. Dessa forma, quanto mais próximo de 1 (negativo ou

positivo) melhor é a correlação dos dados.

Os experimentos de classificação foram realizados para cada atributo alvo de classifi-

cação (também conhecidos como classes). Todos os atributos existentes no conjunto de

dados foram considerados, inclusive os atributos semi-identificadores que foram anoni-

mizados. Para melhor entendimento dos resultados, apresentamos apenas os resultados

onde os atributos tiveram uma melhor correlação ou melhor acurácia quando executado

no processo de mineração pela ferramenta WEKA. Nas Figuras 5.23 e 5.24, os resultados

da acurácia referem-se aos dados que puderam ser classificados de acordo com o atributo

alvo. O coeficiente de correlação resultou em atributos que não puderam ser classifica-

dos devido às característica do conjunto de dados (seu processo de classificação não foi

acurado), mas apresentaram alguma correlação que pudesse ser analisada.

Na Figura 5.23 (Dados Sociais), o atributo Classe Econômica foi classificado pelo

processo de mineração para o conjunto de dados Adultos (Adults). A idade foi o atributo

classificado para o conjunto de dados Internet. Ambos os conjuntos de dados foram

analisados pelo classificador Zero R. Para o conjunto de dados Adultos, os resultados

são constantes, justamente porque a classe Econômica não foi anonimizada. Embora

esse atributo seja semi-identificador, não precisou ser anonimizado para atingir qualquer

um dos limites estabelecidos na política de anonimização. Para o conjunto de dados

Internet, o atributo idade foi anonimizado e a classificação foi melhorada (de 6% para

50%). O motivo é a aplicação da técnica de generalização, o que reduz a frequência de

Page 97: HebertdeOliveiraSilva ...repositorio.unicamp.br/jspui/bitstream/REPOSIP/... · vem, big data e conectividade massiva de usuários. A solução foi aplicada em sistemas de cidades

97

Figura 5.23: Resultado do processo de mineração para os conjunto de dados sociais

Figura 5.24: Resultado do processo de mineração para os conjunto de dados Médicos

possíveis classes e, consequentemente, facilita a classificação. No entanto, quando a perda

de informação chega a 100%, o classificador não é mais capaz de classificar os dados,

apresentando o resultado 0. Isto ocorreu para o limite de risco aceitável de 0,5%.

Para o conjunto de dados CMC (referente a opção de método contraceptivo contendo

1473 registros) com os resultados do coeficiente de correlação são praticamente constantes,

com variações muito pequenas. Esse resultado indica que, embora o classificador possa

Page 98: HebertdeOliveiraSilva ...repositorio.unicamp.br/jspui/bitstream/REPOSIP/... · vem, big data e conectividade massiva de usuários. A solução foi aplicada em sistemas de cidades

98

prever a classe, a anonimização não afetou os resultados ou a estrutura de associação

existente neste conjunto de dados.

Ainda na Figura 5.24, a acurácia do conjunto de dados WDBC (referente a casos clíni-

cos sobre sobre câncer de mama em hospitais da Universidade de Wisconsin contendo 199

registros) é praticamente constante porque o atributo testado no processo de classificação

(Atributo Diagnóstico) não foi anonimizado para alcançar os limites de riscos aceitáveis.

A acurácia do processo de classificação para o conjunto de dados CCRF (referente ao

câncer de colo de útero de pacientes do Hospital Universitário de Caracas na Venezuela

contendo 858 registros) melhorou devido à generalização do atributo idade, diminuindo

para 0 (zero) quando atingiu 100% de perda de informação para o limite de risco con-

figurado em 10%. Os resultados do coeficiente de correlação para conjuntos de dados

Mamografia (Mammographic), Hepatite (Hepatitis) e Dermatologia (Dermatology) tam-

bém são praticamente constantes, indicando que a anonimização não afetou os resultados

dos classificadores nesses casos.

5.5.3 Avaliação da injeção dos ataques de reidentificação

As injeções dos ataques foram realizadas a partir da perspectiva do atacante promotor,

representado na Figura 4.7. Neste cenário de ataque procura-se, dentro do conjunto

de dados anonimizados, uma pessoa específica sobre a qual se tem mais informações.

Conforme descrito na Seção 4.5 - Injeção de ataques de reidentificação, este ataque foi

replicado para cada registro do conjunto de dados original, buscando as combinações

possíveis. Os ataques foram executados para cada registro anonimizado, então o número

de ataques executados por conjunto de dados é igual ao número de registros existentes no

conjunto de dados elevado ao quadrado, por exemplo, para o conjunto de dados Adults

que possui 32.560 registros, foram executados um total de 1.060.153.600 (32.560 * 32.560)

ataques de reidentificação.

Para realizar os experimentos dos ataques de maneira completa, foi utilizado cada

registro conhecido (do conjunto de dados original não anonimizado, emulando uma lista

de registros públicos) e procurou-se por ele no conjunto de dados anonimizados. Para

os conjuntos de dados sociais foram realizados um total de 3.493.251.276 ataques e, para

dados médicos, 3.640.758. Os resultados são apresentados nas Figuras 5.21 e 5.22.

Page 99: HebertdeOliveiraSilva ...repositorio.unicamp.br/jspui/bitstream/REPOSIP/... · vem, big data e conectividade massiva de usuários. A solução foi aplicada em sistemas de cidades

99

Os limites de risco configurados e os respectivos valores de κ alcançados nas etapas de

anonimização foram apresentados para cada conjunto de dados nos segmentos dos dados

sociais (CMC, Internet, Adultos) e para os dados médicos (Mamografia, Hepatite, WDBC,

Dermatologia, CCRF). Cada ataque realizado retornou a quantidade de possíveis registros

cujos atributos combinam com os dados pesquisados no ataque. O resultado do ataque

são apresentados em quartis, considerando-se a variabilidade e extensão dos resultados

para cada conjunto de dados. Para melhor entendimento, os dados foram agrupados da

seguinte forma: menor valor possível, primeiro, segundo e terceiro quartil, seguido pelo

maior valor. Isto significa que quanto maior a quantidade de registros que correspondem

à pesquisa de ataque, melhor será a proteção de privacidade.

Nas Figuras 5.21 e 5.22 observa-se que a quantidade de registros que corresponderam

ao ataque do promotor permaneceu constante para a maioria dos conjuntos de dados

médicos. Isso se deve às características do conjunto de dados (quantidade de atributos

identificadores, semi-identificadores e sensíveis) e ao baixo número de registros no conjunto

de dados, atingindo o limite com um valor baixo de κ.

Para os conjuntos de dados sociais (que contém número mais alto de registros), foi

possível implementar um valor mais alto de κ para o modelo κ-anonymity. Como era

esperado, as possibilidades de combinações aumentam, conforme o aumento do κ, logo a

probabilidade de reidentificação diminui.

Para melhor representação dos resultados obtidos com os ataques, os resultados (Figu-

ras 5.25 e 5.26) foram apresentados em gráficos do tipo caixas (box plot), que é utilizado

para avaliar a distribuição empírica dos dados. Nos dois gráficos (tanto para os dados

sociais quanto médicos), as linhas (verticais) das caixas representam, respectivamente, o

primeiro quartil, mediana (segundo quartil) e terceiro quartil. As hastes inferiores e su-

periores, conectadas à caixa central (primeiro, segundo e terceiro quartis) representam os

limites inferior e superior. As bolhas representam outliers, ou seja, pontos fora da curva

(valores isolados). As tabelas 5.5e 5.6, respectivamente, mostram os valores registrados

para cada ponto nos gráficos 5.25 e 5.26.

As Tabelas 5.5 e 5.6 apresentam informações complementares aos gráficos das Figuras

5.25 e 5.26. Devido ao fato do resultado do ataque apresentar os mesmos valores para

alguns conjuntos de dados, são apresentados apenas os valores com limite mais restritivo

alcançado, sendo identificados (na Tabela 5.5 e 5.6) pelo valor implementado para o

Page 100: HebertdeOliveiraSilva ...repositorio.unicamp.br/jspui/bitstream/REPOSIP/... · vem, big data e conectividade massiva de usuários. A solução foi aplicada em sistemas de cidades

100

Figura 5.25: Distribuição dos resultados dos ataques para os dados Sociais

Figura 5.26: Distribuição dos resultados dos ataques para os dados Médicos

modelo κ-anonymity. A primeira linha das tabelas representa o limite de risco aceitável

ao qual a coluna pertence. A primeira coluna apresenta o significado de cada dado das

colunas subsequentes, sendo, respectivamente, o valor limite superior, o terceiro quartil,

Page 101: HebertdeOliveiraSilva ...repositorio.unicamp.br/jspui/bitstream/REPOSIP/... · vem, big data e conectividade massiva de usuários. A solução foi aplicada em sistemas de cidades

101

Tabela 5.5: Resultados dos ataques para conjunto de dados Sociais

EstatísticasCMCT1

(K2̄,5,13)

CMCT0.5(K5̄5)

InternetT10(K2̄)

InternetT1

(K1̄1)

InternetT.0.5(K3̄51)

AdultsT1

(K2̄,4,48)

AdultsT0.5

(K1̄23,1546)

Maior Valor 210 565 322 960 9798 4363 211013o Quartil 186 565 276 774 9798 4193 211012o Quartil (Meio) 164 451 224 646 5153 3913 211011o Quartil 112 317 194 540 5153 2795 11460Menor Valor 18 53 71 189 309 807 11460Qtd. de Registros 1473 1473 10104 10104 10104 32560 32560Média 150,45 423,80 564,47 654,38 7151,42 3405,65 17250,52

Tabela 5.6: Resultados dos ataques para conjunto de dados Médicos

Estatísticas Hepatities.T100(K=2)

Mamography.T.100(K=2)

WDC.T.100(K=2)

Dermatology.T10(K=12)

RCCF.T50(K=2)

Maior Valor 155 652 199 209 933o Quartile 155 652 199 209 852o Quartil (Meio) 155 652 199 209 701o Quartil 155 277 199 140 52Menor Valor 155 277 199 140 3Qtd. de Registros 155 960 199 358 858Média 155 533,25 199 176,43 65,56

mediana ou segundo quartil, primeiro quartil, número de registros no conjunto de dados

e o valor médio para a série de dados.

Na segunda coluna da Tabela 5.5 são apresentados os resultados das possíveis combi-

nações para o conjunto de dados CMC, para o limite de risco aceitável (Threshold Set - T )

igual a 1% (CMC.T1), na terceira coluna para o limite de 0,5% CMC.T0.5). Na quarta

coluna são apresentados os resultados para o conjunto de dados Internet (Internet.T1),

para o limite de risco aceitável igual a 10%, e assim por diante.

Podemos verificar na Tabela 5.5 que os registros atacados com menor número de

combinações possíveis ainda são maiores do que o valor de κ implementado para o modelo

κ-anonymity. Os valores mais baixos representam o pior cenário, pois possuem maior

risco de reidentificação. Para o conjunto de dados CMC, o registro com menor risco de

reidentificação apresentou 210 combinações possíveis, logo, calculando a probabilidade

de reidentificação é de 0,4% (1 / 210) para os valores de κ iguais a 2, 5 e 13. Nesta

etapa, o pior cenário, com maior risco de reidentificação, possui 18 combinações possíveis,

com probabilidade de reidentificação de 5,5%. O maior número de ocorrências possíveis,

registrado no conjunto de dados Adultos (adults), possui 21101 ocorrências possíveis. A

probabilidade de reidentificação é a mais baixa registrada com 0,0047%.

Page 102: HebertdeOliveiraSilva ...repositorio.unicamp.br/jspui/bitstream/REPOSIP/... · vem, big data e conectividade massiva de usuários. A solução foi aplicada em sistemas de cidades

102

Similar ao verificado no conjunto de dados sociais, na Tabela 5.6, os registros refe-

rentes aos dados médicos atacados com menor número de combinações possíveis ainda

são maiores do que o valor κ implementado para o modelo κ-anonymity. O registro com

menor risco de reidentificação possui 652 combinações possíveis para o conjunto de da-

dos Mamografia (Mamography), com probabilidade de reidentificação de 0,15% para os

valores de κ igual a 2. O pior cenário foi registrado para o conjunto de dados RCCF

com maior risco de reidentificação, com apenas 3 combinações possíveis e probabilidade

de reidentificação de 33%.

Page 103: HebertdeOliveiraSilva ...repositorio.unicamp.br/jspui/bitstream/REPOSIP/... · vem, big data e conectividade massiva de usuários. A solução foi aplicada em sistemas de cidades

103

Capítulo 6

Conclusão

Nesta dissertação foi apresentada uma abordagem baseada no processo de anonimização

de dados que utiliza uma politica de anonimização e o risco de reidentificação. A aborda-

gem foi desenvolvida e integrada a plataformas de análise de grandes volumes de dados

(Ophidea e LEMONADE), buscando melhorar o equilíbrio na relação entre a utilidade dos

dados e a proteção da privacidade dos indivíduos envolvidos. A abordagem apresentada

utilizou as técnicas e modelos de anonimização existentes na literatura, combinando-as

e adaptando-as de forma a proporcionar melhor eficácia em relação ao trade-off entre

anonimização e utilidade de dados e em relação ao impacto da anonimização na acurácia

e desempenho na mineração e classificação dos dados. A partir da abordagem proposta

foi implementado um framework para a execução de duas fases de de anonimização. A

primeira fase, menos restritiva, foi executada no processo de ETL (Extração, Transforma-

ção e Carga de dados); A segunda fase, mais restritiva, foi executada na saída dos dados

da plataforma de análise considerando o risco de reidentificação do conjunto de dados

a ser disponibilizado publicamente. A abordagem para anonimização proposta faz uso

de políticas de anonimização de anonimização de Matsunaga et al. (2017), adotando a

recentes legislações e normativas nacionais e internacionais.

O framework construído foi utilizado no projeto EUBra-BIGSEA, e integrado com a

plataforma Ophidia sem que exigisse esforços significativos. Posteriormente, também foi

integrada ao ambiente LEMONADE com pequenas adaptações. Isto foi possível dado o

funcionamento modular e independente dos componentes de privacidade desenvolvidos.

Durante o estudo de caso, foram avaliados os impactos da anonimização dos dados na

acurácia e o desempenho dos classificadores de mineração de dados. O estudo de caso

Page 104: HebertdeOliveiraSilva ...repositorio.unicamp.br/jspui/bitstream/REPOSIP/... · vem, big data e conectividade massiva de usuários. A solução foi aplicada em sistemas de cidades

104

inicial foi executado utilizando dados providos pelo projeto EUBra-BIGSEA, referentes

a dados do transporte público da cidade de Curitiba. Esses experimentos foram pos-

teriormente estendidos utilizando conjuntos de dados para aprendizado de máquina da

UCI.

De acordo com os resultados apresentados nos estudos de caso, pode-se concluir que

é possível adaptar as técnicas de anonimização e combiná-las com diferentes técnicas (de

injeção de ataques e mineração de dados) para manter a utilidade dos dados em diferen-

tes contextos e, consequentemente, aumentar a proteção de privacidade dos indivíduos em

plataformas de análise de dados utilizando as fases de anonimização. Quando a anonimi-

zação é aplicada cuidadosamente, avaliando a perda de informação, seu impacto sobre a

acurácia e o desempenho dos classificadores pode ser aceitável, e até mesmo melhora-los

em alguns casos. Os resultados obtidos nessa dissertação corroboram com estudos ante-

riores, que afirmam que a aplicação das técnicas de anonimização não causam impactos

relevantes na acurácia e desempenho dos classificadores. Além disso, o componente de

anonimização que inclui o risco diminuiu a possibilidade de reidentificação dos indivíduos.

Mesmo com a injeção de ataques, em duas perspectivas diferentes (ataque do promotor e

do jornalista) nenhum indivíduo foi reidentificado.

Este trabalho também se propôs a responder quatro questões de pesquisa (ver seção

1.1 Motivação) que justificam o tema e as contribuições do trabalho. As discussões e

respostas são desenvolvidas a seguir.

Q1. A anonimização de dados contribui ou prejudica a qualidade dos resultados dos

algoritmos de classificação utilizados no processo de mineração de dados?

A anonimização executada em estágios, na primeira etapa do estudo de caso, permitiu

uma melhor avaliação do impacto da anonimização dos diferentes atributos nos algoritmos

de classificação. De acordo com nossos experimentos podemos verificar que a aplicação de

técnicas de anonimização não causaram impactos relevantes na acurácia e no desempenho

dos classificadores. A avaliação da terceira etapa do estudo de caso, utilizando os dados

estendidos do repositório da UCI, demonstrou que a anonimização não causa grandes

impactos na acurácia e desempenho dos classificadores para que se impeça seu uso nos

ambientes de análise de dados. Dessa forma, os resultados da avaliação dos classificadores

na terceira etapa corroboram com os resultados obtidos na primeira etapa.

Page 105: HebertdeOliveiraSilva ...repositorio.unicamp.br/jspui/bitstream/REPOSIP/... · vem, big data e conectividade massiva de usuários. A solução foi aplicada em sistemas de cidades

105

Mais especificamente a respeito da avaliação do impacto na classificação, algumas par-

ticularidades observadas nos experimentos devem ser consideradas. Quando a técnica de

generalização é aplicada em atributos que serão alvo da classificação, observamos que a

acurácia dos classificadores tende a aumentar, até que a perda de informação seja alcan-

çada, pois a generalização diminui a frequência de classes possíveis. A redução da entropia

dos dados facilita a execução dos cálculos necessários para a classificação, aumentando

a acurácia. Porém, quando a perda de informação chega a 100%, isto significa que a

generalização chegou ao seu limite. Em termos práticos, restou apenas 1 possibilidade

de classe (faixa de dados que engloba todas as possibilidades). Nesse caso, não faz mais

sentido classificar este atributo pois todas as saídas serão iguais.

A técnica de supressão, por sua vez, deve ser executada com cautela, observando o

resultado de saída da classificação. Os atributos sensíveis precisam ser removidos com

cuidado, sempre observando a saída dos dados, de modo que a supressão não inviabilize

a classificação.

Com relação à implementação do modelo κ-anonymity, é recomendável remover do

conjunto de dados as tuplas que não atendam ao critério estabelecido pelo modelo, onde

a quantidade de registros únicos não deve ser menor que κ. Como verificado na primeira

etapa do estudo de caso, alguns valores da classe Veículo (alvo da classificação), ao im-

plementar o modelo κ-anonymity, foram substituídos por asterisco, causando uma falsa

melhoria da acurácia na classificação.

Diante dos resultados apresentados, entende-se que a anonimização, se realizada de

forma adequada, pode contribuir para o processo de classificação na mineração de dados

quando executada no processo de ETL.

Q2. Duas fases de anonimização, uma menos restritiva e outra mais restritiva, podem

contribuir para manter a utilidade dos dados utilizados em plataformas analíticas?

A anonimização realizada em duas fases foi importante para evitar a perda da utilidade

(qualitativa) dos dados e isso foi constatado principalmente por meio dos estudos de caso

realizados após a integração do framework proposto com a plataforma de análise de dados

Ophidia. A primeira etapa considerou as principais regulamentações e leis existentes para

aplicação das técnicas de anonimização. Essa anonimização foi executada no processo de

ETL, onde foram removidos principalmente dados identificadores. Nessa etapa não houve

um impacto significativo na análise de dados quando o processo de mineração de dados foi

Page 106: HebertdeOliveiraSilva ...repositorio.unicamp.br/jspui/bitstream/REPOSIP/... · vem, big data e conectividade massiva de usuários. A solução foi aplicada em sistemas de cidades

106

executado nas plataformas. Por sua vez, a anonimização na segunda etapa, utilizando κ-

anonymity, foi importante para aumentar a proteção da privacidade dos indivíduos antes

dos dados serem disponibilizados para usuários externos à plataforma (para visualização

pública). Essa anonimização em daus fases, portanto, permitiu lidar com o trade-off

entre a privacidade e a utilidade de dados em diferentes momentos, facilitando a análise

de dados, e ainda preservando a privacidade dos indivíduos envolvidos (foco principal do

projeto EUBra-BIGSEA).

Os resultados na primeira fase, aplicando a política menos restritiva, atendem os valo-

res requisitados pelas leis e a conformidade com as diretrizes do proprietário do conjunto

de dados. Além disso, a anonimização menos restritiva também viabilizou a utilidade dos

dados para análise nas plataformas analíticas. Quando verificamos os dados estendidos

antes e depois da execução da anonimização na segunda fase, percebemos que apesar da

anonimização introduzir perda da informação (avaliação quantitativa), do ponto de vista

de mineração de dados (avaliação qualitativa) os resultados apresentaram pouca varia-

ção ou até melhoraram. Essa melhora foi evidenciada até o momento em que perda de

informação alcançasse 100%, conforme a linha verde nas Figuras 5.21 e 5.24. Para o con-

junto de dados sociais (Figura 5.21) o melhor ponto de equilíbrio entre a privacidade e a

utilidade se deu com o limite de risco configurado em 0,5%, abaixo do recomendado na

literatura.

Os resultados obtidos no segundo estágio de anonimização mostraram um baixo risco

de reidentificação, mesmo sob ataques de ligação. Mesmo no pior cenário da injeção de

ataques, onde o atacante conhecia a identidade do alvo dos ataques de reidentificação, na

maioria dos casos o risco de reidentificação ficou em torno de 1% e nenhum ataque foi

bem sucedido a ponto de identificar o indivíduo alvo. No entanto, cabe destacar que es-

ses valores podem ser reajustados alterando o limite de risco aceito e, consequentemente,

aumentando ou diminuindo o nível da anonimização de acordo com as necessidades. A

utilização das duas fases de anonimização foi positiva, de forma que cada etapa disponibi-

lizou os dados mais adequadamente anonimizados para a análise de dados na plataforma

ou externa a ela.

Resultados semelhantes foram obtidos por meio de estudos de caso utilizando dados

o repositório do UCI. No entanto, neste caso, os dados disponíveis no repositório já eram

anonimizados, atendendo aos critérios do primeiro nível de anonimização (menos restri-

Page 107: HebertdeOliveiraSilva ...repositorio.unicamp.br/jspui/bitstream/REPOSIP/... · vem, big data e conectividade massiva de usuários. A solução foi aplicada em sistemas de cidades

107

tivo). Dessa forma, o componente que inclui o risco foi utilizado na segunda etapa sem

ter sido integrado em uma plataforma específica.

Q3. Considerando os dados utilizados nos experimentos, é possível determinar um

ponto de equilíbrio entre a privacidade e a utilidade dos dados?

O ponto de equilíbrio entre a privacidade e a utilidade dos dados é relativo, dependendo

do limite de risco estabelecido e da característica dos dados. Observando os resultados

da última avaliação (Figuras 5.21 5.22), no momento exatamente anterior à perda de

informação alcançar 100%, temos os seguintes valores para os dados médicos: para o

limite de risco aceito igual a 10%, o valor implementado de K foi igual a 4, com uma perda

de 88% e o risco de reidentificação implementado em torno de 2,27%. Diferentemente,

para os dados sociais o limite de risco para 10%, o valor implementado de K foi 63, a

perda de informação 50% e o risco de reidentificação implementado foi 0,137%; para os

dados integrados o equilíbrio se deu com o limite de risco aceito de 0,5%, onde, o valor

implementado de κ foi igual a 2, a perda de informação foi 25% e risco de reidentificação

implementado foi 0,3%. Diante disso, percebe-se que não existem valores comuns de

trade-off para todos os conjuntos de dados que possa determinar um valor similar de

ponto de equilíbrio. Entretanto, o componente de anonimização que inclui o risco de

reidentificação pode ser utilizado para que o melhor balanceamento seja determinado

pelo próprio usuário, proprietário dos dados, que poderá reajustar o limite aceito até que

sejam satisfeitos os requisitos de equilíbrio desejado ou exigidos em cada contexto.

Q4. O processo de anonimização, utilizando o risco de reidentificação, é viável, sob o

aspecto da utilidade de dados e da eficácia da proteção da privacidade?

Os resultados obtidos nesta dissertação indicam que o componente de anonimização

que inclui o risco pode contribuir para promover um melhor balanceamento entre manter

a privacidade das informações de identificação pessoal e manter (ou até melhorar) os

resultados dos classificadores na mineração de dados. Com o componente de anonimização

que inclui o risco, foi possível a definição de limites de risco de reidentificação aceitáveis,

e ao final do processo o usuário ser informado sobre os valores alcançados para o risco

em três cenários distintos (promotor, jornalista e marketing), complementando-se com a

informação do valor para a perda de informação. Com isso, o limite de risco aceitável

pode ser reajustado de acordo com as necessidades de cada conjunto de dados, plataforma

ou requisitos das organizações.

Page 108: HebertdeOliveiraSilva ...repositorio.unicamp.br/jspui/bitstream/REPOSIP/... · vem, big data e conectividade massiva de usuários. A solução foi aplicada em sistemas de cidades

108

Os resultados apresentados nessa dissertação mostraram e validaram as soluções pro-

postas, tanto para integração com a plataforma de análise de dados quanto para a preser-

vação da privacidade dos indivíduos envolvidos. Os estágios de anonimização permitiram

que a proteção de privacidade de indivíduos fosse aumentada com menor impacto na

utilidade de dados, indicando que a abordagem proposta é viável.

6.1 Trabalhos futuros

Trabalhos futuros podem implementar outros modelos de anonimização, tais como `-

diversity e τ -closeness no framework definido para abordagem proposta neste trabalho.

Esses modelos devem ser executados nos experimentos com o objetivo de melhorar a

preservação da privacidade dos dados. Além disso, pode-se ampliar os experimentos para

melhor validação da abordagem proposta, utilizando diferentes conjuntos de dados para

diversos contextos.

Um trabalho futuro de maior proporção pode ser desenvolvido implementando-se um

componente para detecção de Violação de Privacidade, tal como descrito na abordagem

geral da proposta nessa dissertação (4.1). Este componente, similarmente aos atuais Siste-

mas de Detecção de Intrusão (IDS), deve monitorar, coletar e avaliar eventos que indiquem

possível violação de privacidade na divulgação de dados. O objetivo desse componente é

detectar e evitar vazamentos de dados e ataques de ligação. A ferramenta de detecção da

violação da privacidade poderá fazer parte também de uma implementação futura de um

painel (dashboard) para a interação de usuários. Esse painel pode permitir que os usuários

(especialistas em privacidade) validem os resultados do risco de reidentificação, perda de

informação e ataques de privacidade para que, observando os resultados do cálculo do

risco, possam decidir se continuam ou não o processo de anonimização.

6.2 Publicações

A lista a seguir inclui os trabalhos publicados que serviram como suporte e fundamentação

para esta dissertação. A maior parte deles é classificados pelo ranking brasileiro Qualis

2013-2016 (MEDEIROS; SOUZA, 2019), como mostrado a seguir:

Page 109: HebertdeOliveiraSilva ...repositorio.unicamp.br/jspui/bitstream/REPOSIP/... · vem, big data e conectividade massiva de usuários. A solução foi aplicada em sistemas de cidades

109

Hebert de Oliveira Silva, Tânia Basso, Regina Moraes, Donatello Elia, Sandro Fi-

ore: A Re-Identification Risk-Based Anonymization Framework for Data Analytics Plat-

forms. EDCC 2018: 101-106 - Qualis B3 (Área: Ciências da Computação).

Hebert de Oliveira Silva, Tânia Basso, Regina Lúcia de Oliveira Moraes: Pri-

vacy and Data Mining: Evaluating the Impact of Data Anonymization on Classification

Algorithms. EDCC 2017: 111-116 - Qualis B3 (Área: Ciências da Computação).

Ferreira, André, Tania Basso,Hebert Silva, and Regina Moraes: Priva: a policybased

anonymization library for cloud and big data platform. In XVIII Workshop de Testes e

Tolerância a Falhas (WTF), pp. 1-11. 2017 -Qualis B5 (Área: Ciências da Computação).

O artigo seguinte, foi submetido a edição especial do periódico International Journal

of Critical Computer-Based Systems e está em revisão.

Tania Basso, Hebert Silva, and Regina Moraes: Extending a re-identification risk-

based anonymizationframework and evaluating its impact on data mining classifiers, In-

ternational Journal of Critical Computer-Based Systems, ISSN 1757-8779 - Fator de

impacto 0,55 (RESEARCHGATE, 2015) (Área: Ciências da Computação).

Page 110: HebertdeOliveiraSilva ...repositorio.unicamp.br/jspui/bitstream/REPOSIP/... · vem, big data e conectividade massiva de usuários. A solução foi aplicada em sistemas de cidades

110

Referências Bibliográficas

ARGUS. ARGUS ReleaseNoteTAU4.1.3.docx. [S.l.: s.n.], nov. 2015. http://neon.vb.

cbs.nl/casc/Software/ReleaseNoteTAU4.1.3.pdf. (acesso em: 12/10/2018).

ARMERDING, T. The 18 biggest data breaches of the 21st century. [S.l.: s.n.], 2018.

https://www.csoonline.com/article/2130877/data-breach/the-biggest-data-

breaches-of-the-21st-century.html. (acesso em: 01/02/2019).

ARX. ARX Data Anonymization Tool. 2018. Disponível em: <http://arx.deidentifier.

org/>.

BASSO, T.; MATSUNAGA, R. et al. Challenges on anonymity, privacy, and big data.

In: IEEE. Dependable Computing (LADC), 2016 Seventh Latin-American Symposium on.

[S.l.: s.n.], 2016. p. 164–171.

BASSO, T.; MORAES, R. et al. Requirements, design and evaluation of a privacy refe-

rence architecture for web applications and services. In: ACM. Proceedings of the 30th

Annual ACM Symposium on Applied Computing. [S.l.: s.n.], 2015. p. 1425–1432.

BBC. BBC NEWS | UK | England | Gloucestershire | Personnel records stolen from MoD.

[S.l.: s.n.], 2008. http://news.bbc.co.uk/2/hi/uk_news/england/gloucestershire/

7639006.stm. (acesso em: 12/13/2018).

— Entenda o escândalo de uso político de dados que derrubou valor do Facebook e o

colocou na mira de autoridades. Mar. 2018. Disponível em: <https://g1.globo.com/

economia/tecnologia/noticia/entenda-o-escandalo-de-uso-politico-de-dados-

que-derrubou-valor-do-facebook-e-o-colocou-na-mira-de-autoridades.ghtml>.

BENITEZ, K.; MALIN, B. Evaluating re-identification risks with respect to the HIPAA

privacy rule. Journal of the American Medical Informatics Association, BMJ Group BMA

House, Tavistock Square, London, WC1H 9JR, v. 17, n. 2, p. 169–177, 2010.

Page 111: HebertdeOliveiraSilva ...repositorio.unicamp.br/jspui/bitstream/REPOSIP/... · vem, big data e conectividade massiva de usuários. A solução foi aplicada em sistemas de cidades

111

BERTINO, E.; LIN, D.; JIANG, W. A survey of quantification of privacy preserving data

mining algorithms. In: Privacy-preserving data mining. [S.l.]: Springer, 2008. p. 183–205.

BRANCO JR, E. C.; MACHADO, J. C.; MONTEIRO, J. M. Estratégias para proteção

da privacidade de dados armazenados na nuvem. Simpósio Brasileiro de Banco de Dados.

Citado na pág, v. 6, 2014.

BRICKELL, J.; SHMATIKOV, V. The cost of privacy: destruction of data-mining uti-

lity in anonymized data publishing. In: ACM. Proceedings of the 14th ACM SIGKDD

international conference on Knowledge discovery and data mining. [S.l.: s.n.], 2008. p. 70–

78.

BRITÂNICO, P. Data protection act of 1998. [S.l.: s.n.], 1998.

BURATOVIĆ, I.; MILIČEVIĆ, M.; ŽUBRINIĆ, K. Effects of data anonymization on

the data mining results. In: IEEE. MIPRO, 2012 Proceedings of the 35th International

Convention. [S.l.: s.n.], 2012. p. 1619–1623.

CAMENISCH, J.; FISCHER-HÜBNER, S.; RANNENBERG, K. Privacy and identity

management for life. [S.l.]: Springer Science & Business Media, 2011.

CMCC. Ophidia - High Performance Data Mining & Analytics for eScience. [S.l.: s.n.],

2017. Disponível em: <http://ophidia.cmcc.it/>.

CONSTANTIN, L. Reborn LulzSec Claims Hack of Dating Site for Military Personnel

| PCWorld. [S.l.: s.n.], 2012. https://www.pcworld.com/article/252647/reborn_

lulzsec_claims_hack_of_dating_site_for_military_personnel.html. (acesso em:

12/10/2018).

CORREIOS, B. Estrutura CEP. [S.l.: s.n.], 2018. https://www.correios.com.br/

precisa-de-ajuda/o-que-e-cep-e-por-que-usa-lo/estrutura-do-cep. (acesso em:

12/10/2018).

COUNCIL, P. S. S. Data Security and Credit Card Security Standards. [S.l.: s.n.], 2006.

(acesso em: 11/18/2018).

DANKAR, F. K. et al. Estimating the re-identification risk of clinical data sets. BMC

medical informatics and decision making, BioMed Central, v. 12, n. 1, p. 66, 2012.

Page 112: HebertdeOliveiraSilva ...repositorio.unicamp.br/jspui/bitstream/REPOSIP/... · vem, big data e conectividade massiva de usuários. A solução foi aplicada em sistemas de cidades

112

DROGKARIS, P.; GRITZALIS, A. A Privacy Preserving Framework for Big Data in

e-Government Environments. In: SPRINGER. International Conference on Trust and

Privacy in Digital Business. [S.l.: s.n.], 2015. p. 210–218.

EL EMAM, K. Guide to the de-identification of personal health information. [S.l.]: Auer-

bach Publications, 2013.

EL EMAM, K.; DANKAR, F. K. Protecting Privacy Using k-Anonymity. Journal of the

American Medical Informatics Association, v. 15, n. 5, p. 627–637, 2008. DOI: 10.1197/

jamia.M2716. eprint: /oup/backfile/content_public/journal/jamia/15/5/10.

1197_jamia.m2716/2/15-5-627.pdf. Disponível em: <http://dx.doi.org/10.1197/

jamia.M2716>.

EL EMAM, K.; DANKAR, F. K. et al. Evaluating the risk of re-identification of patients

from hospital prescription records. The Canadian journal of hospital pharmacy, Canadian

Society Of Hospital Pharmacists, v. 62, n. 4, p. 307, 2009.

EL EMAM, K.; PATON, D. et al. De-identifying a public use microdata file from the

Canadian national discharge abstract database. BMC medical informatics and decision

making, BioMed Central, v. 11, n. 1, p. 53, 2011.

EUBRA-BIGSEA. D4.3-BIGSEA v1.0 final. [S.l.: s.n.], 2017. http : / / www . eubra -

bigsea.eu/sites/default/files/D4.3- BIGSEA_v1.0_final.pdf. (acesso em:

01/02/2019).

— EUBra-BIGSEA. Europe - Brazil Collaboration of Big Data Scientific Research Th-

rough Cloud-Centric Applications. [S.l.: s.n.], 2017. http://www.eubra-bigsea.eu/.

Acesso em: 18 jan. 2017.

EUROPÉIA, U. EUGDPR – Information Portal. [S.l.: s.n.], 2018. https://eugdpr.org/.

(acesso em: 12/10/2018).

EUROPEU, P. General Data Protection Regulation (GDPR) – Final text neatly arranged.

[S.l.: s.n.], 2018. https://gdpr-info.eu/. (acesso em: 18/11/2018).

FERREIRA, A. et al. PRIVA: a policy-based anonymization library for cloud and big

data platform. In: XVIII Workshop de Testes e Tolerancia a Falhas (WTF). [S.l.: s.n.],

2017. p. 1–11.

Page 113: HebertdeOliveiraSilva ...repositorio.unicamp.br/jspui/bitstream/REPOSIP/... · vem, big data e conectividade massiva de usuários. A solução foi aplicada em sistemas de cidades

113

FIORE, S. et al. Ophidia: Toward big data analytics for escience. Procedia Computer

Science, Elsevier, v. 18, p. 2376–2385, 2013.

GEOGRAFIA E ESTATÍSTICA - IBGE, I. B. de. Censo 2010, IBGE. [S.l.: s.n.], 2010.

Disponível em: <http://www.censo2010.ibge.gov.br>.

HAND, D. J.; MANNILA, H.; SMYTH, P. Principles of data mining. [S.l.]: MIT press,

2001.

HHS, U. Health Information Privacy | HHS.gov. [S.l.: s.n.], 2017. https://www.hhs.gov/

hipaa/index.html. (acesso em: 11/18/2018).

HOWE, H. L.; LAKE, A. J.; SHEN, T. Method to assess identifiability in electronic data

files. American Journal of Epidemiology, Oxford University Press, v. 165, n. 5, p. 597–601,

2006.

HUNDEPOOL, A.; VAN DE WETERING, A. et al. µ-ARGUS version 4.0 Software and

User’s Manual. Statistics Netherlands, Voorburg NL, 2005.

HUNDEPOOL, A. The ARGUS-software. Monographs of official statistics, p. 347, 2004.

HUNDEPOOL, A.; WETERING, A. van de et al. User’s Manual, 2004.

INAN, A.; KANTARCIOGLU, M.; BERTINO, E. Using anonymized data for classifica-

tion. In: IEEE. Data Engineering, 2009. ICDE’09. IEEE 25th International Conference

on. [S.l.: s.n.], 2009. p. 429–440.

INFORMATION technology - Security techniques - Information security management

systems - Requirements. International Organization for Standardization. Out. 2013.

KAMBER, M.; HAN, J.; PEI, J. Data mining: Concepts and techniques. [S.l.]: Elsevier,

2012.

KOHLMAYER, F.; PRASSER, F.; KUHN, K. A. The cost of quality: Implementing

generalization and suppression for anonymizing biomedical data with minimal information

loss. Journal of biomedical informatics, Elsevier, v. 58, p. 37–48, 2015.

LEE, Y. J.; LEE, K. H. Re-identification of medical records by optimum quasi-identifiers.

In: IEEE. Advanced Communication Technology (ICACT), 2017 19th International Con-

ference on. [S.l.: s.n.], 2017. p. 428–435.

Page 114: HebertdeOliveiraSilva ...repositorio.unicamp.br/jspui/bitstream/REPOSIP/... · vem, big data e conectividade massiva de usuários. A solução foi aplicada em sistemas de cidades

114

LI, N.; LI, T.; V., S. t-closeness: Privacy beyond k-anonymity and l-diversity. In: IEEE.

Data Engineering, 2007. ICDE 2007. IEEE 23rd International Conference on. [S.l.: s.n.],

2007. p. 106–115.

LOCAL, O. Swedish authority handed over ’keys to the Kingdom’ in IT security slip-up.

2017. Disponível em: <https://www.thelocal.se/20170717/swedish-authority-

handed-over-keys-to-the-kingdom-in-it-security-slip-up>.

LORDAN, F. et al. Servicess: An interoperable programming framework for the cloud.

Journal of Grid Computing, Springer, v. 12, n. 1, p. 67–91, 2014.

MACHANAVAJJHALA, A. et al. ell-Diversity: Privacy Beyondkappa-Anonymity. In:

IEEE. null. [S.l.: s.n.], 2006. p. 24.

MATSUNAGA, R. et al. Towards an ontology-based definition of data anonymization

policy for cloud computing and big data. In: IEEE. Dependable Systems and Networks

Workshop (DSN-W), 2017 47th Annual IEEE/IFIP International Conference on. [S.l.: s.n.],

2017. p. 75–82.

MCCANN, E.Walgreens company announces data breach | Healthcare IT News. [S.l.: s.n.],

fev. 2013. https://www.healthcareitnews.com/news/walgreens-company-announces-

data-breach. (Accessed on 12/10/2018).

MEDEIROS, J.; SOUZA, R. d. QUALIS. [S.l.: s.n.], 2019. http://qualis.ic.ufmt.br/.

(Accessed on 01/17/2019).

MEINDL, B. A computational framework to protect tabular data-R-package sdcTable,

2011.

MELHORAMENTOS.Dicionário online Michaelis. [S.l.: s.n.], 2019. https://michaelis.

uol.com.br/.

MERENER, M. M. Theoretical results on de-anonymization via linkage attacks. Transac-

tions on Data Privacy, IIIA-CSIC, v. 5, n. 2, p. 377–402, 2012.

NYATI, A.; BHATNAGAR, D. Performance Evaluation of Anonymized Data Stream

Classifiers. International Journal of Computer Science and Network-IJCSN, DLAR LABS,

v. 5, n. 2, 2016.

OHM, P. Broken promises of privacy: Responding to the surprising failure of anonymiza-

tion. UCLA Law Review, v. 57, p. 1701, 2009.

Page 115: HebertdeOliveiraSilva ...repositorio.unicamp.br/jspui/bitstream/REPOSIP/... · vem, big data e conectividade massiva de usuários. A solução foi aplicada em sistemas de cidades

115

OLIVEIRA SILVA, H. de; BASSO, T.; OLIVEIRA MORAES, R. L. de. Privacy and Data

Mining: Evaluating the Impact of Data Anonymization on Classification Algorithms. In:

IEEE. 2017 13th European Dependable Computing Conference (EDCC). [S.l.: s.n.], 2017.

p. 111–116.

ORACLE. Data Mining Concepts 11g Release 1 (11.1). Oracle Corp, v. 2005, 2008.

— Java SE Development Kit 8 - Downloads. [S.l.: s.n.], 2018. https://www.oracle.

com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html. (acesso

em: 12/09/2018).

PANDURANGAN, V. On Taxis and Rainbows. [S.l.: s.n.], jun. 2014. https://tech.

vijayp.ca/of-taxis-and-rainbows-f6bc289679a1. (acesso em: 12/10/2018).

PARANTHAMAN, J.; VICTOIRE, T. A. A. Performance Evaluation of K-Anonymized

Data. Global Journal of Computer Science and Technology, 2013.

PONEMON, L. 2018 Cost of a Data Breach Study: Global Overview. Benchmark research

sponsored by IBM Security Independently conducted by Ponemon Institute LLC, 2018.

PRASSER, F. Configuration | ARX - Data Anonymization Tool. [S.l.: s.n.], 2018. https:

//arx.deidentifier.org/anonymization-tool/configuration/. (acesso em: 12/09/2018).

PRASSER, F.; KOHLMAYER, F. Putting statistical disclosure control into practice: The

ARX data anonymization tool. In: Medical Data Privacy Handbook. [S.l.]: Springer, 2015.

p. 111–148.

PRESS, A. Facebook é multado no Reino Unido por violação de dados de usuários |

Tecnologia | G1. [S.l.: s.n.], 2018. https://g1.globo.com/economia/tecnologia/

noticia/2018/10/25/facebook-e-multado-no-reino-unido-por-violacao-de-

dados-de-usuarios.ghtml. (acesso em: 12/19/2018).

QUICK, M. et al.World’s Biggest Data Breaches and Hacks. [S.l.: s.n.], 2018. http://www.

informationisbeautiful.net/visualizations/worlds-biggest-data-breaches-

hacks/. (acesso em: 19/11/2018).

REPÚBLICA, P. da. LEI No 13.709 - Lei Geral de Proteção de Dados". 2018. Disponível

em: <http://www.planalto.gov.br/ccivil_03/_Ato2015-2018/2018/Lei/L13709.

htm>.

Page 116: HebertdeOliveiraSilva ...repositorio.unicamp.br/jspui/bitstream/REPOSIP/... · vem, big data e conectividade massiva de usuários. A solução foi aplicada em sistemas de cidades

116

RESEARCHGATE. International Journal of Critical Computer-Based Systems | RG Im-

pact Rankings 2018 and 2019. [S.l.: s.n.], 2015. https : / / www . researchgate . net /

journal / 1757 - 8779 _ International _ Journal _ of _ Critical _ Computer - Based _

Systems. (Accessed on 01/17/2019).

SAMARATI, P.; SWEENEY, L. Protecting privacy when disclosing information: k-anonymity

and its enforcement through generalization and suppression. [S.l.], 1998.

SAYAD, S. An Introduction to Data Mining. 2017. Disponível em: <http://www.saedsayad.

com>.

SUMATHIE, S. apresentação da Tese Sumathie Sundaresan. [S.l.: s.n.], 2016. https:

//slideplayer.com/slide/9180203/. (acesso em: 12/20/2018).

SWEENEY, L. k-anonymity: A model for protecting privacy. International Journal of Un-

certainty, Fuzziness and Knowledge-Based Systems, World Scientific, v. 10, n. 05, p. 557–

570, 2002.

TABLEAU. 10 Pricipais Tendências de Big Data. [S.l.: s.n.], 2018. https : / / www .

tableau . com / sites / default / files / whitepapers / 849188 _ big _ data _ trends _

_slideshare_edits_pt-br.pdf?ref=lp&signin=001c4307e8838b35616b169d17530616.

(acessso em 11/18/2018).

TEMPL, M. CRAN - Package sdcTable. [S.l.: s.n.], 2018. https://cran.r-project.

org/web/packages/sdcTable/index.html. (acesso em: 12/10/2018).

— Data Utility and Information Loss. In: Statistical Disclosure Control for Microdata.

[S.l.]: Springer, 2017. p. 133–156.

TEMPL, M.; KOWARIK, A.; MEINDL, B. Statistical Disclosure Control for Micro-Data

Using the R Package sdcMicro. Journal of Statistical Software, v. 67, n. 1, p. 1–36, 2015.

TEMPL, M.; MEIND, B. l.; KOWARIK, A. CRAN - Package sdcMicro. [S.l.: s.n.], 2018.

https://cran.r-project.org/web/packages/sdcMicro/index.html. (acesso em:

12/10/2018).

WANG, H.; LEE, M. K.; WANG, C. Consumer privacy concerns about Internet marketing.

Communications of the ACM, ACM, v. 41, n. 3, p. 63–70, 1998.

WARREN, S. D.; BRANDEIS, L. D. The right to privacy. Harvard law review, JSTOR,

p. 193–220, 1890.

Page 117: HebertdeOliveiraSilva ...repositorio.unicamp.br/jspui/bitstream/REPOSIP/... · vem, big data e conectividade massiva de usuários. A solução foi aplicada em sistemas de cidades

117

WEKA. Classifiers. [S.l.: s.n.], out. 2008. http://weka.sourceforge.net/doc.dev/

weka/classifiers/functions/SGD.html. (Accessed on 10/01/2019).

WITTEN, I. H. et al. Data Mining: Practical machine learning tools and techniques. [S.l.]:

Morgan Kaufmann, 2016.

WORKS, C. FakenameGenerator. [S.l.: s.n.], 2011. www.fakenamegenerator.com/.

AL-ZOBBI, M.; SHAHRESTANI, S.; RUAN, C. Implementing A Framework for Big Data

Anonymity and Analytics Access Control. In: IEEE. Trustcom/BigDataSE/ICESS, 2017

IEEE. [S.l.: s.n.], 2017. p. 873–880.