Thiago J. T. Á[email protected] Uma proposta de modelo de processo para publicação de...
-
Upload
nathalia-di-castro-gama -
Category
Documents
-
view
244 -
download
14
Transcript of Thiago J. T. Á[email protected] Uma proposta de modelo de processo para publicação de...
Thiago J. T. Ávila [email protected]
Uma proposta de modelo de processo para publicação de dados abertos conectados governamentais
Estudo empírico
Thiago José Tavares ÁvilaMestrando
Mestrado em Modelagem Computacional do ConhecimentoInstituto de Computação – Universidade Federal de Alagoas
OrientadorProf. Dr. Ig Ibert Bittencourt
20/10/2015
Thiago J. T. Ávila [email protected]
2
Agenda• Contextualização• Motivação• Modelo de Processo• O Estudo Empírico
Thiago J. T. Ávila [email protected]
3
• 40 trilhões de gigabytes de dados em 2020• Volume irá dobrar 40x entre 2012-2020 (EMC, 2012)
Figura 1 – Perspectiva de crescimento da oferta de dados digitais até 2020 [EMC, 2012).
Oferta de Dados no mundo em 2020
Thiago J. T. Ávila [email protected]
4
• 434 Catálogos de Dados Abertos Governamentais no mundo até hoje
Figura 2 – Mapa Mundi dos Catálogos de Dados Abertos Governamentais (DataPortals, 2015)
Oferta de Dados Governamentais - 2015
Thiago J. T. Ávila [email protected]
5
E.U.A.+150.000 conjuntos de dados
UNIÃO EUROPÉIA+30.000 conjuntos de dados
ÍNDIA+3.500 conjuntos de dados BRASIL
+1.000 conjuntos de dados
REINO UNIDO+25.000 conjuntos de dados
JAPÃO+13.000 conjuntos de dados
Oferta de Dados Governamentais - 2015
Thiago J. T. Ávila [email protected]
6
Acesso à Informação
Figura 04 – Mapa dos países que possuem Lei de Acesso à Informação na América Latina e Caribe
Lei 12.527/2011 - Art. 8 § 3º
II - possibilitar a gravação de relatórios em diversos formatos eletrônicos, inclusive abertos e não proprietários, tais como planilhas e texto, de modo a facilitar a análise das informações; [...]
Lei 12.527/2011 - Art. 8 § 3º
III - possibilitar o acesso automatizado por sistemas externos em formatos abertos, estruturados e legíveis por máquina [...]
Thiago J. T. Ávila [email protected]
PÚBLICO-ALVO EXEMPLOS DE INFORMAÇÃO PÚBLICA FINALIDADESetor Produtivo - Indicadores Sociais, Econômicos, Demográficos, Planos de
Governo, Relatórios Fiscais.- Informações Geográficas (imagens aéreas, vetores com distâncias entre localidades, mapas e cartogramas sobre dados socioeconômicos), etc.
- Projetos de Consultoria- Expansão e/ou Manutenção de Negócios- Desenvolvimento ou aprimoramento de produtos e serviços
Setor Acadêmico
- Indicadores Sociais, Econômicos, Demográficos, Planos de Governo, Relatórios Fiscais.- Informações Geográficas (imagens aéreas, vetores com distâncias entre localidades, mapas e cartogramas sobre dados socioeconômicos), etc.
- Artigos Científicos, Trabalhos Acadêmicos- Projetos de Pesquisa- Monografias, Dissertações, Teses- Projetos de Pesquisa e Extensão- Projetos para captação de recursos em instituições de fomento
Setor Público - Indicadores Sociais, Econômicos, Demográficos, Planos de Governo, Relatórios Fiscais.- Informações Geográficas (imagens aéreas, vetores com distâncias entre localidades, mapas e cartogramas sobre dados socioeconômicos), etc.- Pesquisas acadêmicas, estudos e análises, relatórios de tendência, projeções de cenários.
- Diagnósticos governamentais, diagnósticos sobre áreas ou demandas específicas (ex: problemas ambientais)- Formulação de planos e programas de governo, execução de ações, monitoramento e avaliação governamental.- Publicidade de ações governamentais- Projetos para captação de recursos em instituições de fomento
Imprensa - Dados orçamentários e financeiros- Pesquisas e indicadores socioeconômicos- Dados Populacionais- Relatórios de Monitoramento e Acompanhamento de Ações Governamentais
- Matérias e investigações jornalísticas- Publicidade de ações governamentais- Denúncias de não-conformidades em ações governamentais
Sociedade em Geral
- Dados orçamentários e financeiros- Pesquisas e indicadores socioeconômicos- Dados Populacionais
Monitoramento e Controle Social do GovernoElaboração de Projetos para captação de recursos
Tabela 1 – Exemplos de informações públicas e respectivas finalidades por público-alvo (Elaborado pelo autor)
Thiago J. T. Ávila [email protected]
Mas problemas existem ...• Quão reutilizáveis estes dados são ?• Quão confiáveis ?• Quão duplicados estão estes dados ao longo da web ?• Estes dados estão de acordo com a legislação vigente ?• Estão licenciados ?• É possível gerar conhecimento a partir destes dados ? Eles
possuem algum elemento semântico ?
• Destes 434 catálogos de dados, seria possível extrair respostas para perguntas como:
• “Quantas universidades existem em cada país que oferta dados abertos governamentais ?”
Thiago J. T. Ávila [email protected]
Identificar os dados
Modelar e enriquecer os
dados
Tornar os dados mais
“encontráveis” na web
Conectar os dados
Dados Conectados: Um caminho para resolver ...
Figura 6 – Princípios dos dados conectados (Berners-Lee, 2006)
Thiago J. T. Ávila [email protected]
Esquema 5-Estrelas: Um caminho evolutivo
Figura 6 – Esquema 5-estrelas dos Dados Abertos (Berners-Lee, 2006)
Thiago J. T. Ávila [email protected]
• Evolução: Dados -> Dados Abertos Conectados • Vantagens, Requisitos de qualidade, etc.
• Dados Abertos Conectados -> Dados Abertos Governamentais
• Agregam enorme potencial nestes dados (Heath and Bizer, 2011);
• Situação verificada:• Existem processos que apoiam a publicação de dados abertos
governamentais, dados abertos e dados abertos conectados • Desenvolvidos pela comunidade científica e por órgãos
governamentais;• Poucos processos apoiam a publicação de dados abertos
conectados governamentais
Motivação
Thiago J. T. Ávila [email protected]
• Problemática:• Potencial prejudicado – Dados Abertos Conectados
Governamentais -> Ausência de condições para transformar dados brutos em dados altamente qualificados (Linked Open Data) em larga
escala (Maali, Cyganiak and Peristeras, 2010).• Produção e publicação de dados abertos conectados ->
Desenvolvidos sem um conjunto comum e claro de etapas que permitam a sua geração em escala;
• Ausência de processos detalhados e softwares que apóiem todo o ciclo de vida de publicação de dados governamentais conectados
• Pois os processos que existem são direcionados à desenvolvedores de software, não para agentes governamentais (Villazón-Terrazas et. al, 2011);
• Processos existentes, aparentemente, não consideram o nível de maturidade em gestão e publicação de dados das organizações publicadoras.
Motivação
Thiago J. T. Ávila [email protected]
Um Referencial Comparativo“Melhores Práticas para Publicação de Dados Conectados” (W3C)
1. Prepare Stakeholders
2. Select a Dataset
3. Model the Data
4. Specify an Appropriate License
5. The Role of "Good URIs" for Linked Data
6. Standard Vocabularies
7. Convert Data to Linked Data
8. Provide Machine Access to Data
9. Announce to the Public
10. Social Contract of a Linked Data Publisher
Figura 11 – 10 MelhoresPráticas para publicação de dados conectados estabelecidos pelo W3C (W3C, 2014)
Thiago J. T. Ávila [email protected]
Modelo de Processo“Piece of Cake”
Thiago J. T. Ávila [email protected]
• Modelo de processo evolutivo (incremental) de publicação de dados abertos governamentais que proporciona o aprimoramento dos dados através das camadas 3,4 e 5 do esquema 5-Estrelas dos Dados Abertos
• Busca reduzir a complexidade para publicação de Dados Abertos Conectados Governamentais (DACG) mediante a incorporação gradual de atividades de maior complexidade
• Considera as “Melhores Práticas para Publicação de Dados Conectados” como grandes etapas para publicação de DACG
• Apresenta um conjunto de atividades obrigatórias e desejáveis a serem desenvolvidas para publicação de DACG nas camadas 3,4 e 5 do esquema 5-Estrelas
Thiago J. T. Ávila [email protected]
16
Thiago J. T. Ávila [email protected]
17
Thiago J. T. Ávila [email protected]
18
Thiago J. T. Ávila [email protected]
O Estudo Empírico
Thiago J. T. Ávila [email protected]
20
Escopo do estudo• Objeto de estudo: O objeto de estudo é o processo de
publicação de dados abertos conectados governamentais• Finalidade: Avaliar a publicação de dados abertos
governamentais (DAG) e dados abertos conectados governamentais (DACG)
• Foco da qualidade: Verificar a eficácia na publicação de DACG
Thiago J. T. Ávila [email protected]
21
Metodologia• 3 equipes formadas por 1 profissional, 1 aluno de pós-
graduação e 4 alunos de graduação em computação• Objetivo de cada equipe:
– Publicar dois arquivos, originalmente no nível sem estrela, como dado conectado (5 estrelas)
– Utilizando o modelo de processo “Piece of Cake”– Documentando as atividades desenvolvidas
• EQUIPE A: experiência alta• EQUIPE B: experiência média• EQUIPE C: pouca ou nenhuma experiência
Thiago J. T. Ávila [email protected]
22
Metodologia• Material fornecido
– Apresentação e slides sobre publicação de dados abertos conectados governamentais
– Documento com atividades (recomendações) publicação de dados abertos conectados governamentais
– Planilha para apoiar a documentação das atividades– Disponíveis em: https://goo.gl/F3nm5Z
• Duração do estudo– 2 dias úteis (aproximadamente 16 horas)
• Avaliação – Responder questionário com avaliação breve (não-identificada),
disponível aqui: https://goo.gl/cmdPqP
Thiago J. T. Ávila [email protected]
Atividades sugeridas pelo Modelo de Processo “Piece of Cake”
Thiago J. T. Ávila [email protected]
24
Thiago J. T. Ávila [email protected]
1. Preparar Partes Interessadas
Capacitar os envolvidos na publicação dos dados
Definir grupos de usuários dos dados
Definir perfis profissionais a serem envolvidos
Elaborar um plano de ações para publicação dos dados
Identificar as partes interessadas
Identificar os benefícios para a abertura de dados
2. Selecionar Conjuntos de Dados
Analisar a estrutura organizacional da instituição publicadora
Analisar o esforço para abertura de dados
Analisar o nível de sigilo dos dados e informações
Analisar relatórios anuais e documentações da instituição publicadora
Estabelecer diretrizes que orientem a priorização da publicação de dados abertos
Fazer e validar mapa de responsabilidades entre conjuntos de dados e unidades de negócio responsáveis
Identificar e analisar sistemas de informação que poderão ser objeto da abertura de dados
Identificar os dados que serão abertos
Realizar consultas aos usuários sobre a demanda de dados
Thiago J. T. Ávila [email protected]
3. Modelar os Dados
Anonimizar dados sensíveis
Estabelecer rotinas de conversão de dados para formatos legíveis por máquina
Gerar cópias de segurança das bases de dados que serão abertas
Higienizar os dados
Modelar rotinas automatizadas (ETL)
4. Especificar uma Licença Apropriada
Adotar licenças de uso dos dados não restritivas
Apresentar opções de licenças de dados a serem adotadas
Estabelecer questões-chave para definição de licenças
8. Prover Acesso Automatizado aos Dados
Desenvolver uma API
Disponibilizar bases completas para download (dumps)
Estabelecer um Mapa de Decisões Tecnológicas
Thiago J. T. Ávila [email protected]
9.Anunciar Conjuntos de Dados
Disponibilizar os dados com o menor custo possível ao usuário, preferencialmente de modo gratuito na internet
Divulgar dados em meios complementares (Catálogos, FTP, Torrent)
Divulgar dados em seções destacadas de sítios de governo
Estabelecer dados tecnicamente e legalmente abertos
Estabelecer recursos de consulta parcial da base de dados como uma API ou webservice
Estabelecer visualizações e demais recursos de exploração dos dados
Publicar metadados junto aos dados
10.Estabelecer um contrato social para os dados publicados
Disponibilizar leis e atos normativos que explicitem aos usuários quanto as obrigações dos governos em publicarem dados com qualidade e disponibilidade
Estabelecer com clareza que o processo de publicação contempla etapas de manutenção e atualização dos dados
Estabelecer espaços para recebimento do feedback do usuário, preferencialmente publicando dados de uma pessoa e/ou telefone de contato para esclarecimento de dúvidas sobre o uso e disponibilidade dos dados
Estabelecer mecanismos de monitoramento e avaliação da oferta de dados disponibilizados ao público
Thiago J. T. Ávila [email protected]
28
Thiago J. T. Ávila [email protected]
2. Selecionar Conjuntos de Dados Identificar dados que podem ser conectados
3.Modelar os Dados Analisar se os dados serão conectados ou nãoEstabelecer ou aprimorar documentação de dados (esquemas, vocabulários e ontologias)
Thiago J. T. Ávila [email protected]
5.Estabelecer bons identificadores universais (URIs) Estabelecer design simplificado de URIsEstabelecer URIs neutrasEstabelecer URIs persistentes, que não se alterem em nenhum momentoProporcionar pelo menos um recurso de dados em formato que seja legível por máquina para cada URIURIs das entidades (conjuntos de dados ou recursos) sejam diferentes das URIs das páginas que apresentam estes recursos para a leitura feita por humanosUsar URIs como nomes para as coisasUsar URIs HTTP para que pessoas e máquinas possam encontra-las via web utilizando estes endereçosUtilizar datas em URIs com moderaçãoUtilizar hashs (#) em URIs cautelosamenteUtilizar identificadores relacionados a informações do mundo realUtilizar URIs para conectar os dados
Thiago J. T. Ávila [email protected]
6.Utilizar Vocabulários Padrão Criar um esquema de dados para cada conjunto de dadosDeterminar linguagens para expressar esquemas de dadosEstabelecer critérios de escolha de vocabuláriosEstabelecer os metadados obrigatóriosIncentivar o reúso de vocabuláriosPublicar esquemas de dados em arquivos diferentes
7. Converter e Enriquecer Dados Converter dados para múltiplas finalidades e usos
Thiago J. T. Ávila [email protected]
32
Thiago J. T. Ávila [email protected]
6.Utilizar Vocabulários Padrão Certificar que os dados estão conectados a outros conjuntos de dados
7. Converter e Enriquecer Dados Permitir o envolvimento de várias pessoas na identificação de como os dados a serem convertidos se relacionam com outros dados
8.Prover Acesso Automatizado aos Dados Desenvolver um endpoint SPARQL
09.Anunciar Conjuntos de Dados Disponibilizar dados conectados em servidores de triplasMelhorar os dados para serem melhor divulgados e encontrados por máquinas
Thiago J. T. Ávila [email protected]
34
Thiago J. T. Ávila [email protected]
6.Utilizar Vocabulários Padrão Desenvolver ou utilizar ontologias para estruturar a semântica dos dados
7. Converter e Enriquecer Dados Adotar rotinas ETL para enriquecimento de dados
Thiago J. T. Ávila [email protected]
36
Muito obrigado !!!
Thiago José Tavares ÁvilaMestrando em Modelagem Computacional do Conhecimento – IC/UFAL
Núcleo de Excelência em Tecnologias Sociais - NEES