UNIVERSIDADE METODISTA DE SÃO PAULO - …tede.metodista.br/jspui/bitstream/tede/1585/2/Andre Rosa...

163
UNIVERSIDADE METODISTA DE SÃO PAULO ESCOLA DE COMUNICAÇÃO, EDUCAÇÃO E HUMANIDADES Programa de Pós-Graduação em Comunicação Social ANDRÉ ROSA DE OLIVEIRA METADADOS COMO ATRIBUTOS DA INFORMAÇÃO ESTRUTURADA EM BASES DE DADOS JORNALÍSTICAS NA WEB São Bernardo do Campo-SP, 2016

Transcript of UNIVERSIDADE METODISTA DE SÃO PAULO - …tede.metodista.br/jspui/bitstream/tede/1585/2/Andre Rosa...

Page 1: UNIVERSIDADE METODISTA DE SÃO PAULO - …tede.metodista.br/jspui/bitstream/tede/1585/2/Andre Rosa de... · Este es uno de los cambios producidos ... estructuras son indispensables

UNIVERSIDADE METODISTA DE SÃO PAULO

ESCOLA DE COMUNICAÇÃO, EDUCAÇÃO E HUMANIDADES

Programa de Pós-Graduação em Comunicação Social

ANDRÉ ROSA DE OLIVEIRA

METADADOS COMO ATRIBUTOS DA

INFORMAÇÃO ESTRUTURADA EM BASES DE

DADOS JORNALÍSTICAS NA WEB

São Bernardo do Campo-SP, 2016

Page 2: UNIVERSIDADE METODISTA DE SÃO PAULO - …tede.metodista.br/jspui/bitstream/tede/1585/2/Andre Rosa de... · Este es uno de los cambios producidos ... estructuras son indispensables
Page 3: UNIVERSIDADE METODISTA DE SÃO PAULO - …tede.metodista.br/jspui/bitstream/tede/1585/2/Andre Rosa de... · Este es uno de los cambios producidos ... estructuras son indispensables

UNIVERSIDADE METODISTA DE SÃO PAULO

ESCOLA DE COMUNICAÇÃO, EDUCAÇÃO E HUMANIDADES

Programa de Pós-Graduação em Comunicação Social

ANDRÉ ROSA DE OLIVEIRA

METADADOS COMO ATRIBUTOS DA

INFORMAÇÃO ESTRUTURADA EM BASES DE

DADOS JORNALÍSTICAS NA WEB

Tese apresentada em cumprimento

parcial às exigências do Programa de

Pós-Graduação em Comunicação Social

da Universidade Metodista de São Paulo

(UMESP) para obtenção do grau de Doutor.

Orientadora: Profa. Marli dos Santos

Co-orientador: Prof. Walter Teixeira Lima Júnior

São Bernardo do Campo-SP, 2016

Page 4: UNIVERSIDADE METODISTA DE SÃO PAULO - …tede.metodista.br/jspui/bitstream/tede/1585/2/Andre Rosa de... · Este es uno de los cambios producidos ... estructuras son indispensables

FICHA CATALOGRÁFICA

Ol4m Oliveira, André Rosa de

Metadados como atributos da informação estruturada em

bases de dados jornalísticas na web / André Rosa de Oliveira.

2016.

163 p.

Tese (doutorado em Comunicação Social) --Escola de

Comunicação, Educação e Humanidades da Universidade

Metodista de São Paulo, São Bernardo do Campo, 2016.

Orientação: Marli dos Santos.

Co-orientação: Walter Teixeira Lima Júnior.

1. Jornalismo 2. Internet 3. Metadados 4.

Interdisciplinaridade I. Título.

CDD 302.2

Page 5: UNIVERSIDADE METODISTA DE SÃO PAULO - …tede.metodista.br/jspui/bitstream/tede/1585/2/Andre Rosa de... · Este es uno de los cambios producidos ... estructuras son indispensables

FOLHA DE APROVAÇÃO

A tese Metadados como atributos da informação estruturada em bases de dados

jornalísticas na Web, elaborada por André Rosa de Oliveira, foi defendida e aprovada em 19

de setembro de 2016, perante a banca examinadora composta pelos professores Marli dos

Santos, Walter Teixeira Lima Júnior, Ronaldo Cristiano Prati, Leandro Key Higuchi Yanaze e

Roberto Joaquim de Oliveira.

Declaro que o autor incorporou as modificações sugeridas pela banca examinadora, sob a

minha anuência enquanto orientadora, nos termos do Art.34 do Regulamento dos Cursos de

Pós-Graduação.

São Bernardo do Campo, 19 de novembro de 2016.

____________________________________________________________________

Assinatura do orientador (Profa. Dra. Marli dos Santos)

____________________________________________________________________

Visto do Coordenador do Programa de Pós-Graduação

Programa: Pós-Graduação em Comunicação Social

Área de concentração: Processos Comunicacionais

Linha de pesquisa: Inovações Tecnológicas na Comunicação Contemporânea

Page 6: UNIVERSIDADE METODISTA DE SÃO PAULO - …tede.metodista.br/jspui/bitstream/tede/1585/2/Andre Rosa de... · Este es uno de los cambios producidos ... estructuras son indispensables
Page 7: UNIVERSIDADE METODISTA DE SÃO PAULO - …tede.metodista.br/jspui/bitstream/tede/1585/2/Andre Rosa de... · Este es uno de los cambios producidos ... estructuras son indispensables

“Papai, é sério que vocês

perdiam tempo escrevendo

sobre a necessidade de cruzar

campos do conhecimento

para avançar cientificamente?

Caramba, vocês eram muito antiquados!”

Para Joana,

a menina que vai perceber o óbvio:

vivemos num tempo em que é preciso

parar de chamar ruído de informação.

Page 8: UNIVERSIDADE METODISTA DE SÃO PAULO - …tede.metodista.br/jspui/bitstream/tede/1585/2/Andre Rosa de... · Este es uno de los cambios producidos ... estructuras son indispensables
Page 9: UNIVERSIDADE METODISTA DE SÃO PAULO - …tede.metodista.br/jspui/bitstream/tede/1585/2/Andre Rosa de... · Este es uno de los cambios producidos ... estructuras son indispensables

“Olho o mapa da cidade

Como quem examinasse

A anatomia de um corpo...

(E nem que fosse o meu corpo!)

Sinto uma dor infinita

Das ruas de Porto Alegre

Onde jamais passarei...

Há tanta esquina esquisita,

Tanta nuança de paredes,

Há tanta moça bonita

Nas ruas que não andei

(E há uma rua encantada

Que nem em sonhos sonhei...)

Quando eu for, um dia desses,

Poeira ou folha levada

No vento da madrugada,

Serei um pouco do nada

Invisível, delicioso

Que faz com que o teu ar

Pareça mais um olhar,

Suave mistério amoroso,

Cidade de meu andar

(Deste já tão longo andar!)

E talvez de meu repouso...”

Mário Quintana

“A map is not the territory”.

Alfred Korzybski

Page 10: UNIVERSIDADE METODISTA DE SÃO PAULO - …tede.metodista.br/jspui/bitstream/tede/1585/2/Andre Rosa de... · Este es uno de los cambios producidos ... estructuras son indispensables
Page 11: UNIVERSIDADE METODISTA DE SÃO PAULO - …tede.metodista.br/jspui/bitstream/tede/1585/2/Andre Rosa de... · Este es uno de los cambios producidos ... estructuras son indispensables

AGRADECIMENTOS

Entre os nomes imprescindíveis, esta lista precisa começar com o nome da Kátia

Bizan. Não fosse por sua disponibilidade e agilidade, ouso dizer, nenhum mestrando ou

doutorando do PósCom da Metodista conseguiria seu título.

Ao Walter “Waiãpi” Lima, pesquisador que quero ser quando crescer e fonte de

inspiração e admiração há dez anos. Por sua seriedade, estímulo e paciência.

À Marli dos Santos, por compartilhar sua paixão pelo Jornalismo e, especialmente,

pela confiança ao acolher este trabalho.

Ao Fábio Josgrilberg e à Pró-Reitoria de Pós-Graduação e Pesquisa da UMESP, pelo

apoio e concessão de benefício por meio do Programa de Suporte à Pós-Graduação de

Instituições de Ensino Particulares (PROSUP), financiado pela Coordenação de

Aperfeiçoamento de Pessoas de Nível Superior (CAPES).

Ao Ronaldo Prati, por suas observações na etapa de qualificação (e por ter apresentado

o GATE!). E, antecipadamente, aos membros da banca examinadora.

Aos meus colegas de disciplinas, professores e membros multidisciplinares dos grupos

de pesquisa Tecccog e Human Data, personificados na figura realizadora e guerreira da

Amanda Luiza.

À Iara Mola e à Aline Veingartner, pelo dedicado e meticuloso trabalho de

lanternagem e polimento destas páginas.

À Patrícia Rangel, incentivadora desta e de muitas outras jornadas, e aos colegas das

Faculdades Rio Branco, pela troca de pensamentos.

Aos meus alunos. Na prática, meus companheiros de viagem. No futuro, minhas

referências bibliográficas.

A cada interlocutor que perguntava “sobre o que é sua tese?” ou “o que você tem na

cabeça?”, em especial a amigos como o Cassio Politi, pela oportunidade de organizar ideias

ao tentar explicá-las – não sem antes questionar: “quanto tempo você tem?”.

Ao Seu Rui, à Dona Helena, ao Dani e à Claudinha, professores da minha vida. E à

Dona Eugênia (que foi professora de verdade), pelas orações.

Por último, mas não menos importante, à Rina, minha garotinha ruiva, mãe da Jojô,

companheira de aventuras, redatora e editora dos nossos melhores momentos, por tudo o que

somos e seremos.

Page 12: UNIVERSIDADE METODISTA DE SÃO PAULO - …tede.metodista.br/jspui/bitstream/tede/1585/2/Andre Rosa de... · Este es uno de los cambios producidos ... estructuras son indispensables
Page 13: UNIVERSIDADE METODISTA DE SÃO PAULO - …tede.metodista.br/jspui/bitstream/tede/1585/2/Andre Rosa de... · Este es uno de los cambios producidos ... estructuras son indispensables

LISTA DE QUADROS

Quadro 2.1 – Exemplos de marcação semântica de localidade .................................................. 68

Quadro 4.1 – Etapas para a construção de um instrumento de observação ............................. 111

Quadro 4.2 – Diretrizes iniciais para coleta de dados ............................................................... 114

Quadro 5.1 – Metadados em bases de dados jornalísticas do El País ..................................... 122

Quadro 5.2 – Metadados em bases de dados jornalísticas da Globo.com ............................... 125

Quadro 5.3 – Metadados em bases de dados jornalísticas do The Washington Post .............. 127

Quadro 5.4 – Metadados em bases de dados jornalísticas do The New York Times ............... 130

Quadro 5.5 – Metadados em bases de dados jornalísticas do The Guardian .......................... 134

Quadro 5.6 – Metadados em bases de dados jornalísticas da BBC .......................................... 138

Quadro 5.7 – Adoção de metadados em bases de dados jornalísticas: proposta para análise 140

Page 14: UNIVERSIDADE METODISTA DE SÃO PAULO - …tede.metodista.br/jspui/bitstream/tede/1585/2/Andre Rosa de... · Este es uno de los cambios producidos ... estructuras son indispensables
Page 15: UNIVERSIDADE METODISTA DE SÃO PAULO - …tede.metodista.br/jspui/bitstream/tede/1585/2/Andre Rosa de... · Este es uno de los cambios producidos ... estructuras son indispensables

LISTA DE FIGURAS

Figura 0.1 – Estrutura da tese ....................................................................................................... 29

Figura 1.1 – Componentes da informação jornalística na web ................................................. 43

Figura 2.1 – Ciclo de um objeto de informação ......................................................................... 53

Figura 2.2 – Conexões interdisciplinares em torno de metadados ............................................ 54

Figura 2.3 – Classificação proposta para níveis de detalhamento e relacionamento de

metadados................................................................................................................... 61

Figura 2.4 – Representação simples de um esquema de triplas ................................................. 71

Figura 2.5 – Modelo possível de ontologia para notícias ........................................................... 72

Figura 2.6 – Diagrama do projeto Linking Open Data .............................................................. 73

Figura 2.7 – Pilha da web semântica............................................................................................ 75

Figura 3.1 – Relação entre as tecnologias computacionais e os objetivos jornalísticos ........... 92

Figura 3.2 – Cadeia de valor por meio de linked data .............................................................. 100

Figura 4.1 – Processo para condução de um estudo de caso .................................................... 116

Figura 5.1 – Código-fonte de uma notícia do site El País ........................................................ 121

Figura 5.2 – Esquema simplificado do Sistema de Dados Esportivos da Globo.com ............ 124

Figura 5.3 – Arquitetura do sistema de gerenciamento de notícias do The Guardian............ 134

Figura 5.4 – Exemplo de ontologia da BBC para um evento dos Jogos Olímpicos de 2012 . 136

Page 16: UNIVERSIDADE METODISTA DE SÃO PAULO - …tede.metodista.br/jspui/bitstream/tede/1585/2/Andre Rosa de... · Este es uno de los cambios producidos ... estructuras son indispensables
Page 17: UNIVERSIDADE METODISTA DE SÃO PAULO - …tede.metodista.br/jspui/bitstream/tede/1585/2/Andre Rosa de... · Este es uno de los cambios producidos ... estructuras son indispensables

SUMÁRIO

INTRODUÇÃO ........................................................................................................................... 25

Capítulo I – COMUNICAÇÃO E TECNOLOGIA ............................................................... 33

1.1 Inquietação histórica por interdisciplinaridade ..................................................................... 34

1.2 Relação entre Jornalismo e bases de dados na Web ............................................................. 40

1.3 Jornalismo e bases de dados: uma linha do tempo ............................................................... 46

Capítulo II – METADADOS ..................................................................................................... 51

2.1 Apresentação de um conceito: além dos “dados sobre dados” ............................................ 52

2.2 Conexões interdisciplinares dos metadados .......................................................................... 55

2.3 Objetos de informação rotulados na Web: uma classificação .............................................. 60

Capítulo III – INOVAÇÃO JORNALÍSTICA ....................................................................... 79

3.1 Inovação e mídia: para fugir das “buzzwords” ...................................................................... 80

3.2 Jornalismo Computacional para “hackear” processos ......................................................... 88

3.3 Relação entre Jornalismo Computacional e metadados ....................................................... 98

Capítulo IV – MÉTODO PARA ANÁLISE.......................................................................... 103

4.1 Discussões preliminares sobre o uso de casos .................................................................... 104

4.2 Exemplos de casos em estudos de Jornalismo na Web ...................................................... 107

4.3 Elaboração de um instrumento de observação .................................................................... 111

Capítulo V – OBSERVAÇÃO E DISCUSSÃO .................................................................... 119

5.1 Apresentação e observação de veículos jornalísticos ......................................................... 120

5.2 Apontamentos sobre o uso de metadados no Jornalismo ................................................... 139

CONCLUSÃO ........................................................................................................................... 145

REFERÊNCIAS ........................................................................................................................ 151

Page 18: UNIVERSIDADE METODISTA DE SÃO PAULO - …tede.metodista.br/jspui/bitstream/tede/1585/2/Andre Rosa de... · Este es uno de los cambios producidos ... estructuras son indispensables
Page 19: UNIVERSIDADE METODISTA DE SÃO PAULO - …tede.metodista.br/jspui/bitstream/tede/1585/2/Andre Rosa de... · Este es uno de los cambios producidos ... estructuras son indispensables

RESUMO

OLIVEIRA, A. R. Metadados como atributos da informação estruturada em bases de

dados jornalísticas na web. 2016. 163 p. Tese (Doutorado em Comunicação Social) –

Universidade Metodista de São Paulo, São Bernardo do Campo.

Bases de dados abastecidas com notícias produzidas para a Web representam um repositório

de informação com potencial tecnológico de ser reutilizado de inúmeras formas e por outras

plataformas digitais conectadas via redes. No processo de produção jornalística, esta é uma

das transformações provocadas pela evolução tecnológica que exigem novas habilidades ‒

entre elas, a necessidade de organizar, recuperar e reutilizar esse material. Diante disso, este

trabalho pretende mostrar de que forma a adoção de estruturas baseadas em metadados

contribui para o desenvolvimento da informação jornalística produzida e armazenada nessas

bases. Para tanto, ele se apoia no conceito de pensamento computacional para encorajar o

cruzamento de conhecimentos entre a Comunicação e as Ciências da Computação e da

Informação, além de investigar o impacto dessas relações nas rotinas de produção e

elaboração de produtos de mídia. Impulsionado pela importância da memória para a produção

jornalística e pelas discussões em torno da Web de Dados e de padrões semânticos abertos,

discute ainda a possibilidade de veículos noticiosos se tornarem plataformas, estimulando a

obtenção de relações invisíveis entre temas e contextos, bem como a intersecção entre

jornalistas e desenvolvedores. Com base em um estudo exploratório envolvendo cinco

organizações de mídia, na identificação de atributos que caracterizem diferentes níveis de

estruturação e na proposição de um instrumento de análise baseado em funcionalidades

adotadas por esses veículos, defende-se que a adoção de marcações, esquemas com

vocabulários controlados, ontologias formais ou outras estruturas são indispensáveis para a

adaptação do Jornalismo diante de um cenário em constante mudança.

Palavras-chave: Jornalismo. Internet. Metadados. Interdisciplinaridade.

Page 20: UNIVERSIDADE METODISTA DE SÃO PAULO - …tede.metodista.br/jspui/bitstream/tede/1585/2/Andre Rosa de... · Este es uno de los cambios producidos ... estructuras son indispensables
Page 21: UNIVERSIDADE METODISTA DE SÃO PAULO - …tede.metodista.br/jspui/bitstream/tede/1585/2/Andre Rosa de... · Este es uno de los cambios producidos ... estructuras son indispensables

RESUMEN

Bases de datos alimentadas con noticias producidas por la Web representan un repositorio de

información con potencial tecnológico para ser reutilizado en varias formas y por otras

plataformas digitales conectados por medio de redes. Este es uno de los cambios producidos

por los avances tecnológicos en el proceso de producción de periódicos, que requieren nuevas

habilidades incluyendo la necesidad de organizar, recuperar y reutilizar este material. Por este

motivo, este trabajo tiene como objetivo mostrar cómo la adopción de estructuras basadas en

los metadatos contribuye con el desarrollo de la información periodística producida y

almacenada en estas bases de datos. Por consiguiente, se basa en el concepto de pensamiento

computacional para estimular la interacción de conocimientos entre la Comunicación y

Ciencias de la Computación e Información, además de investigar el impacto de estas

relaciones en las rutinas de producción y desarrollo de productos informativos. Impulsado por

la importancia de la memoria para la producción periodística y los debates en torno a la Web

de datos y estándares semánticos abiertos, también se discute la posibilidad de que los medios

de convertirse en plataforma, animando para encontrar relaciones invisibles entre temas y

contextos, así como la intersección entre periodistas y programadores. Con base en un estudio

exploratorio que incluía cinco medios de comunicación, en la identificación de atributos que

caracterizan a los diferentes niveles de estructuración y en una propuesta de instrumento de

análisis basado en las características adoptadas por estos vehículos, se argumenta que la

adopción de marcas, esquemas de vocabulario controlado, ontologías formales u otras

estructuras son indispensables en la adaptación del periodismo ante escenarios en cambio

constante.

Palabras clave: Periodismo. Internet. Metadatos. Interdisciplinariedad.

Page 22: UNIVERSIDADE METODISTA DE SÃO PAULO - …tede.metodista.br/jspui/bitstream/tede/1585/2/Andre Rosa de... · Este es uno de los cambios producidos ... estructuras son indispensables
Page 23: UNIVERSIDADE METODISTA DE SÃO PAULO - …tede.metodista.br/jspui/bitstream/tede/1585/2/Andre Rosa de... · Este es uno de los cambios producidos ... estructuras son indispensables

ABSTRACT

Databases fed with news produced for the Web represent an information repository with

technological potential to be reused in a number of ways and by other digital platforms

connected via networks. This is one of the transformations in the journalistic production

process, induced by the technological evolution which demand new abililites. Among them,

the need to organise, recover and reuse this material. For this reason, this work intends to

show how the adoption of structures based in metadata contributes to the development of

news information produced and stored in these databases. Therefore, it relies on the concept

of computational thinking to encourage the intersection of knowledges between

Communications, Information and Computer Science, in addition to investigate the impact of

this relationships in the routines of production and creation of media products. Propelled by

the importance of the memory for the journalistic production and the discussions around the

Web of Data and open semantic standards, the discussions also goes on the possibility of

news channels to become platforms, encouraging to have invisible relationships between

themes and contexts, the intersection between journalists and Web developers. Based on an

exploratory study involving five media organisations, in the identification of attributes that

characterize different levels of structuration and an analytical tool proposition based on

features adopted by these vehicles, it is argued that the adoption of markups, controlled

vocabulary schemas, formal onthologies or other schemas are crucial for journalism

adaptation facing a new and constantly changing scenery.

Keywords: Journalism. Internet. Metadata. Interdisciplinarity.

Page 24: UNIVERSIDADE METODISTA DE SÃO PAULO - …tede.metodista.br/jspui/bitstream/tede/1585/2/Andre Rosa de... · Este es uno de los cambios producidos ... estructuras son indispensables
Page 25: UNIVERSIDADE METODISTA DE SÃO PAULO - …tede.metodista.br/jspui/bitstream/tede/1585/2/Andre Rosa de... · Este es uno de los cambios producidos ... estructuras son indispensables

25

INTRODUÇÃO

O Jornalismo está em crise. As evidências são claras: em linhas gerais, o que

circula a partir de portais de notícias está baseado em informações superficiais, binárias

(são boas ou ruins, sem contexto) e banais. Elas são emotivas, espetaculares, coloridas,

perseguem sentimentos do leitor com objetivos comerciais. Têm medo de ousar ou

transgredir. Favorecem o narcisismo e a busca pela notoriedade, extrapolando

arquétipos culturais e comerciais. Trata-se de captar a atenção a qualquer preço.

A visão é do pesquisador espanhol Ramón Reig (2015, p. 46), que propõe uma

“teoria estrutural do Jornalismo” para compreendermos as relações políticas e

econômicas nas quais a profissão do jornalista está alicerçada, culminando com

questões relevantes desde a formação de novos profissionais até a constituição e práticas

de organizações noticiosas. Em sua visão, o avanço da tecnologia é apenas uma das

variáveis que afetam as redações, ao lado de outras de caráter mercadológico: mesmo a

informação baseada em dados obtidos por mecanismos computacionais, mas fora de

contexto, sem interpretação ou atendendo a algum direcionamento da empresa

informativa, não serve para nada (REIG, 2015, p. 84).

O debate a respeito das transformações do jornalismo sob prismas distintos ‒

como a função social do jornalismo (sintetizada na expressão watchdog), discussões

éticas, organização das redações e pressões mercadológicas, entre outras práticas

profissionais ‒, foi potencializado graças a fenômenos relacionados, entre outras

variáveis, à evolução tecnológica e à consequente “era da convergência” (JENKINS,

2009), a partir do impacto provocado pela comunicação mediada por computador e

conectado em rede a partir dos anos 1970 (HILTZ; TUROFF, 1993).

Esse direcionamento pode trazer reflexões futuristas, relacionando modelos de

jornal adaptados ao gosto e preferências do leitor (NEGROPONTE, 1995) a uma

geração influenciada por dispositivos conectados à internet, carregados de aplicações

úteis “para aliviar as tensões de nossa existência diária” (TURKLE, 2011, p. 160).

Nesse contexto, surgem novas plataformas midiáticas, capazes de acelerar o consumo, a

Page 26: UNIVERSIDADE METODISTA DE SÃO PAULO - …tede.metodista.br/jspui/bitstream/tede/1585/2/Andre Rosa de... · Este es uno de los cambios producidos ... estructuras son indispensables

26

produção e a distribuição de conteúdos informativos. Para tanto, já estão em curso

modificações em estruturas tradicionais ‒ o que inclui, entre outras possibilidades, uma

reconfiguração dos meios e da prática jornalística como objeto de estudo (LIMA

JUNIOR, 2012) segundo formatos e linguagens das narrativas digitais, incluindo-se aí

signos textuais e audiovisuais (RAMOS, 2011). Além disso, sua evolução também se

verifica por meio do uso de softwares ou algoritmos (CORRÊA; BERTOCCHI, 2012b),

tendo-se também como base a convergência física das redações e o papel polivalente

dos profissionais que as ocupam (SALAVERRÍA; GARCÍA AVILÉS, 2008).

Sejam quais forem as motivações das redações em publicar notícias num

ambiente digital, David Caswell, pesquisador do Reynolds Journalism Institute, observa

que, historicamente, a produção e exibição de informação no ambiente amigável da

internet acessado por navegadores – a Web – se baseia nos mesmos princípios editoriais

de qualquer produto: não levam em conta potenciais continuidades da história ou

variações possíveis; só fazem sentido em suas próprias edições, sem levar em conta os

recursos inerentes ao ambiente digital (CASWELL, 2015).

Em um cenário amplo e cético pautado pela sombra da crise, ele oferece outra

interpretação para a expressão “jornalismo estruturado”. Seu experimento, denominado

Structured Stories1 ‒ um protótipo que coleta fragmentos de notícias relacionados a

eventos específicos e que, a partir de uma codificação prévia desses elementos, oferece

ao usuário narrativas maiores ‒, valida um fenômeno que já acontece: o consumo de

textos únicos ou isolados vem dando lugar a streamings digitais reunidos e apresentados

a partir de modelos matemáticos traduzidos em algoritmos (CASWELL, 2015).

A ideia de David Caswell se fundamenta em um conceito descrito e

desenvolvido desde os anos 1970, denominado “bases de dados relacionais” ‒ uma

estrutura ubíqua para reunir dados em tabelas separadas e relacionadas entre si, de

forma que novos dados e estruturas possam ser adicionados, removidos ou cruzados.

Com a digitalização de conteúdos, a popularização de dispositivos computacionais e a

interconexão destes em redes telemáticas, há grande quantidade de dados sendo

armazenada nessas bases, o que representa um desafio para qualquer área do

conhecimento ‒ inclusive para as Ciências Humanas ‒ no que diz respeito a transformá-

los em algo potencialmente útil e, ao mesmo tempo, reutilizável (GITELMAN, 2013, p.

3).

1 Disponível em: <http://www.structuredstories.com/>. Acesso em: 29 dez. 2015.

Page 27: UNIVERSIDADE METODISTA DE SÃO PAULO - …tede.metodista.br/jspui/bitstream/tede/1585/2/Andre Rosa de... · Este es uno de los cambios producidos ... estructuras son indispensables

27

O termo “jornalismo estruturado”, focado em sua relação com bases de dados,

surgiu pela primeira vez numa proposta do editor de inovação e dados da Thomson

Reuters, Reginald Chua2

. Em essência, ele propõe a fragmentação de narrativas

jornalísticas em partes reunidas e relacionadas entre si. Chava Gourarie, do Columbia

Journalism Review, aponta o artigo Why the Islamic State leaves tech companies torn

between free speech and security, do The Washington Post3, como um protótipo de

jornalismo estruturado4. E tanto essas iniciativas quanto o projeto Structured Stories

permitem uma definição preliminar:

Jornalismo estruturado é uma nova forma de jornalismo baseada em reportagens como componentes estruturados em uma base de dados, e

posterior recuperação destes componentes estruturados para gerar produtos informativos. A abordagem ainda é incipiente, mas lida diretamente com diversos problemas sistêmicos enfrentados por produtores e consumidores de notícias em um ecossistema de mídia digital, e pode potencialmente facilitar o rearranjo do Jornalismo em redes, bem como a criação de produtos informativos controlados pelo consumidor num contexto que se estende além do artigo (CASWELL; RUSSELL; ADAIR, 2015, tradução nossa)5.

Longe de defender a premissa de que termos emergentes e baseados em

protótipos (como “jornalismo estruturado” ou equivalentes) representam o “santo graal”

do Jornalismo, este trabalho pretende amarrar uma palavra-chave ao processo de coletar

dados, organizá-los, dar-lhes sentido, apresentá-los e permitir seu compartilhamento

(sequência elementar de elaboração da informação jornalística), bem como reforçar, a

partir de uma visão interdisciplinar, a expectativa por trás da proposta sugerida por

Caswell, entendendo-se que, quanto à interdisciplinaridade:

Dada uma disciplina científica, existe uma interdisciplina que a vincula a outra. Esta máxima metodológica convida a ultrapassar as fronteiras das disciplinas – algo fértil, mas irrefutável. Além disso, ajuda a distinguir a

2 Disponível em: <https://structureofnews.wordpress.com/structured-journalism/>. Acesso em: 6 nov.

2015. 3 Disponível em: <http://www.washingtonpost.com/world/national-security/islamic-states-embrace-of-

social-media-puts-tech-companies-in-a-bind/2015/07/15/0e5624c4-169c-11e5-89f3-

61410da94eb1_story.html>. Acesso em: 6 nov. 2015. 4 “‘Structured journalism’ offers readers a different kind of story experience”. Disponível em:

<http://www.cjr.org/innovations/structured_journalism.php>. Acesso em: 6 nov. 2015. 5 Versão original: “Structured Journalism is a new form of journalism based on reporting news as

structured components into a database, and subsequent retrieval of those structured components to

generate news products. The approach is still nascent but it directly addresses several systemic problems

facing news producers and news consumers in the digital media ecosystem, and it may potentially

facilitate the rebundling of journalism as networks and the creation of consumer-controlled news

products with context that extends beyond the article”.

Page 28: UNIVERSIDADE METODISTA DE SÃO PAULO - …tede.metodista.br/jspui/bitstream/tede/1585/2/Andre Rosa de... · Este es uno de los cambios producidos ... estructuras son indispensables

28

ciência da pseudociência, que normalmente está isolada (BUNGE, 2007, p. 114, tradução nossa)6.

A palavra-chave deste trabalho é metadados. Pretende-se aqui verificar a sua

importância num processo imaginado por David Weinberger, conhecido autor do

Manifesto Cluetrain. Ele publicou sua “teoria unificada da Web”, que, na prática,

resume-se no título de seu livro: Small pieces loosely joined (em uma tradução livre,

“Fragmentos unidos livremente”). Em linhas gerais, as nossas conexões na Web e os

diálogos resultantes delas funcionam como documentos ligados, que seriam

equivalentes a “livros construídos individualmente” (WEINBERGER, 2002). Podemos

aplicar esse mesmo princípio a bases de dados com conteúdo jornalístico armazenado,

nas quais os metadados funcionam como um tipo de “cola” entre fragmentos. Ou,

usando outra metáfora, é isso o que diferencia uma “sala cheia de livros” de uma

“biblioteca”.

Assim como outros trabalhos que procuram relacionar Jornalismo, bases de

dados, computação e suas consequências (ANDREW, 2008; STAVELIN, 2013), este

também se propõe a observar a informação jornalística sob a perspectiva de áreas como

as Ciências da Computação e da Informação ‒ mais especificamente, por meio dos

metadados. Estruturada a partir da ilustração da Figura 0.1, esta tese parte da premissa

segundo a qual, a partir de um conceito indispensável para qualquer nível de

recuperação da informação, caminhos interdisciplinares oferecem relações entre

aspectos teóricos, tecnológicos e sociais capazes de responder à seguinte questão: de

que forma o uso de metadados contribui na estruturação e no desenvolvimento da

informação jornalística produzida e armazenada em bases de dados? Presume-se que

esta relação possa influenciar não apenas produtos informativos, mas os processos para

sua elaboração – entre eles sistemas capazes de personalizar recomendações,

individualizando decisões como critérios editoriais ou de noticiabilidade.

Os conhecidos critérios de noticiabilidade não preveem como o jornalista deva guardar um certo dado em um banco de dados e como ele poderá recuperá-lo mais tarde, extraindo pautas ou gerando visualizações de dados... Será preciso um novo estudo para observar as novas práticas sistêmicas e delas assumir quais novos critérios de noticiabilidade dialogam com dados e

metadados (BERTOCCHI, 2014, p. 12).

6 Versão original: “Dada una disciplina científica existe una interdisciplina que la vincula a otra disciplina

científica. Esta máxima metodológica invita a traspasar las fronteras de las disciplinas, lo cual resulta

fecundo aunque irrefutable. Además, ayuda a distinguir la ciencia de la seudociencia, que típicamente

está aislada”.

Page 29: UNIVERSIDADE METODISTA DE SÃO PAULO - …tede.metodista.br/jspui/bitstream/tede/1585/2/Andre Rosa de... · Este es uno de los cambios producidos ... estructuras son indispensables

29

Figura 0.1 – Estrutura da tese

Fonte: Produzida pelo autor.

Ainda no que tange à estruturação deste trabalho, o Capítulo I destaca a

trajetória interdisciplinar marcada pela influência tecnológica no Jornalismo –

interdisciplinaridade esta que ocorre desde o Império Romano (PAVLIK, 2000), mas

que ganhou corpo somente no final dos anos 1960 com o desenvolvimento do

Jornalismo de Precisão e obteve um novo sentido diante de uma virada computacional

na postura dos pesquisadores das Ciências Humanas (BERRY, 2011). Apesar de

necessárias, as conexões entre as disciplinas não são simples: fatores culturais, sociais e

relações de poder estão ligados à dificuldade de serem realizadas pesquisas envolvendo

outras áreas do conhecimento. Conexões entre a Comunicação e a Filosofia da Mente ou

a Neurociência, por exemplo, são muito distantes do imaginário da maioria dos

pesquisadores na área (LIMA JUNIOR, 2014).

Além disso, o Capítulo I contextualiza a apropriação do termo “memória” pelo

Jornalismo e introduz uma proposta elaborada pelo W3C, consórcio criado por Tim

Berners-Lee (inventor da Web) e responsável pela elaboração de padrões para mantê-la

em crescimento organizado. Na visão dele, a Web pode saltar do patamar de repositório

de documentos ‒ ainda que estes sejam gerados dinamicamente, possibilitando aos

computadores interpretarem e estabelecerem inferências e relações entre esses dados,

Page 30: UNIVERSIDADE METODISTA DE SÃO PAULO - …tede.metodista.br/jspui/bitstream/tede/1585/2/Andre Rosa de... · Este es uno de los cambios producidos ... estructuras son indispensables

30

automação, integração e o reuso em sistemas diferentes (BERNERS-LEE; HENDLER;

LASSILA, 2001). Essa proposta catapultou expectativas envolvendo agentes

inteligentes e relações invisíveis entre temas e contextos obtidas por eles em uma “Web

Semântica” – uma ideia intrincada, já que vamos “começar a falar sobre semântica, que

quer dizer ‘o que as coisas significam?’. E, claro, todo mundo tem uma opinião

diferente sobre isso, de modo que as conversas podem ser infinitas” (HEY; TANSLEY;

TOLLE, 2009, p. xxix, tradução nossa)7.

Aproveitar a informação jornalística a partir da lógica da Web de Dados

significa elaborar modelos de estrutura e formalizar relações para que elas possam ser

aplicadas em outros datasets – conjuntos externos de bases de dados. É o que se discute

no Capítulo II, no qual a palavra-chave do trabalho é examinada. Para que a notícia

possa ser rotulada e categorizada por metadados, de maneira a descrevê-la ou indicar a

sua natureza ou propriedades (inclusive com dados que auxiliaram o jornalista a

construí-la), torna-se pertinente compreender técnicas envolvendo iniciativas já

propostas para relacionar elementos e gerar conexões significativas para usuários. Essas

práticas foram organizadas a partir de uma escala: marcações (níveis de utilização mais

elementares), esquemas e ontologias (níveis mais sofisticados) e interconexão

(disponibilidade e compreensão por máquinas). Assim, reforça-se novamente a

relevância (e a complexidade) de uma abordagem interdisciplinar:

Desde o fim dos anos 1990 centenas – se não milhares – de físicos, cientistas da computação, matemáticos e outros pesquisadores do núcleo duro da ciência interessaram-se por questões que tradicionalmente eram pertencentes às ciências sociais... Bancos de dados de proporções imensas foram analisados, inúmeros novos modelos teóricos foram propostos e milhares de artigos foram publicados... Quão próximo estão de responder às grandes

questões das ciências sociais, como o desenvolvimento econômico das nações, a globalização da economia ou a relação entre imigração, desigualdade e intolerância? Peguem um jornal e julguem vocês mesmos, mas eu diria que não muito (WATTS, 2011, p. 10).

Talvez Watts não tenha se dado conta, mas o fato de não ter encontrado o que

procura em jornais pode ter outra razão, e não estamos falando na potencial frustração

com os resultados diante dos limites da recuperação de informação via Web. Em um

ambiente de mídia social conectada, a informação jornalística passa a ser um bem

7 Versão original: “[...] you’re going to start talking about semantics, which is to say, ‘What do things

mean?’ And of course everybody has a different opinion of what things mean, so the conversations can

be endless”.

Page 31: UNIVERSIDADE METODISTA DE SÃO PAULO - …tede.metodista.br/jspui/bitstream/tede/1585/2/Andre Rosa de... · Este es uno de los cambios producidos ... estructuras son indispensables

31

comum, não mais uma exclusividade do veículo. Mais do que um potencial para

aproximar as empresas de mídia do seu público, ou mesmo para conquistar uma

vantagem competitiva em um cenário de constante evolução, o Jornalismo tenta

encontrar meios e formatos para se reinventar e sobreviver nesse ambiente.

A apropriação de tecnologias ‒ que inclui a estruturação de bases de dados em

um sistema complexo como a internet e remete ao histórico movimento refratário dos

profissionais envolvidos (DAGIRAL; PARASIE, 2011) ‒ se coaduna ao foco do

Capítulo III: a palavra em latim da qual surgiram os verbos “mudar” e “renovar” ‒

innovare.

Inovação é uma proposição ampla e heterogênea o suficiente para que, num

contexto acadêmico, aceite incontáveis apropriações. É inegável, no entanto, que a

associação entre inovação e Jornalismo represente “percepções heterogêneas e

interdisciplinares, experiências e conhecimentos sintetizados em novas formas de ver,

compreender e apresentar questões sociais” (GYNNILD, 2014, tradução nossa)8. Desta

associação, emerge uma linha de pensamento: a de que é possível otimizar processos de

produção da notícia como um programador faria ao depurar um software. Essa é a

essência do Jornalismo Computacional (COHEN; HAMILTON; TURNER, 2011).

Daniela Bertocchi (2014) sugere novas experimentações e oportunidades tendo

como pano de fundo o aspecto computacional na produção de notícias. Mais do que

isso, defende que a informação jornalística comporta-se como um sistema aberto e

complexo, cuja sobrevivência depende da adaptabilidade em relação aos sistemas com

os quais interage. A inclusão de metadados em bases de dados noticiosas pode

representar novos modelos de uso e reaproveitamento desse material. Com base nisso,

como estruturar o conteúdo jornalístico armazenado em bases de dados por meio de

metadados? Quais as possibilidades de diálogo entre essas estruturas e os objetivos

jornalísticos? Quais os desafios para a adoção dessas práticas e suas implicações nas

rotinas produtivas das redações?

Em torno dessas perguntas, uma investigação exploratória qualitativa, detalhada

nos Capítulos IV e V, conduz uma observação a cinco veículos cujas práticas são

reconhecidamente inovadoras: Globo.com, The Washington Post, The New York Times,

The Guardian e BBC. Os processos que envolvem o uso de metadados nessas

8 Versão original: “In processes of journalism innovation, heterogeneous and cross-disciplinary insights,

experiences and knowledge are synthesized into new ways of seeing, understanding and presenting

societal issues”.

Page 32: UNIVERSIDADE METODISTA DE SÃO PAULO - …tede.metodista.br/jspui/bitstream/tede/1585/2/Andre Rosa de... · Este es uno de los cambios producidos ... estructuras son indispensables

32

organizações, listados e categorizados de acordo com os níveis de utilização propostos,

demonstram o esforço desses grupos de mídia voltado ao enriquecimento do material

jornalístico produzido ‒ otimizando o trabalho de armazenamento, recuperação,

relacionamento, distribuição de notícias. O estudo dessas práticas auxiliam na

compreensão de processos produtivos e de distribuição ou difusão e no levantamento de

hipóteses, ajudando igualmente no desenvolvimento de um instrumento de análise

(EISENHARDT, 1989; YIN, 2009) para futuras investigações sobre práticas de

jornalismo estruturado em dados. Além da justificativa em relação aos procedimentos

de investigação, ainda são discutidos os limites e cuidados para a elaboração de estudos

baseados em casos.

A combinação de variáveis humanas (na produção de conteúdo e na construção

de esquemas de metadados) e computacionais (algoritmos e sistemas que culminam em

produtos automatizados) contribui para que o Jornalismo possa fortalecer a notícia,

identificando objetivos jornalísticos (qualidade, clareza, profundidade, precisão, formas

de organização). Enquadrar essas etapas a partir de uma lógica computacional

representa uma série de barreiras que exige uma visão crítica, desejada neste trabalho.

Page 33: UNIVERSIDADE METODISTA DE SÃO PAULO - …tede.metodista.br/jspui/bitstream/tede/1585/2/Andre Rosa de... · Este es uno de los cambios producidos ... estructuras son indispensables

33

Capítulo I – COMUNICAÇÃO E TECNOLOGIA

“Em poucos anos, homens poderão se comunicar mais efetivamente, face a face,

com uma máquina”. Assim começa o texto The Computer as a Communication Device,

de Joseph Carl Robnett Licklider, um dos nomes mais importantes da história na

Ciência da Computação. Ele defendia que a comunicação poderia compreender um

processo ativo envolvendo a relação entre máquinas e a informação. Mais do que isso:

poderia existir algo não trivial nessa relação, indo além do que estamos acostumados,

por exemplo, entre livros e bibliotecas. Isto porque sistemas envolvendo computadores

representam áreas a serem exploradas: mais informação pode ser utilizada para

responder a questões de relevância. Sistemas capazes de se relacionar com dados são,

portanto, cruciais (LICKLIDER; TAYLOR, 1968).

A proposição do autor pode parecer uma obviedade nos dias de hoje, em que

usuários comuns se relacionam com a informação por meio de múltiplas telas e

sistemas. Conforme a referência acima, o texto de Licklider é do final dos anos 1960 ‒ o

que revela a proximidade das Ciências da Computação e a Comunicação. Esta

aproximação, defendida aqui como necessária mas ao mesmo tempo difícil de fazer, é o

assunto deste capítulo.

Page 34: UNIVERSIDADE METODISTA DE SÃO PAULO - …tede.metodista.br/jspui/bitstream/tede/1585/2/Andre Rosa de... · Este es uno de los cambios producidos ... estructuras son indispensables

34

1.1 Inquietação histórica por interdisciplinaridade

O pensamento de Licklider disfarça uma questão inicial: com qual conceito de

comunicação, entre as 249 teorias distintas relacionadas ao tema (CRAIG, 1999) ele

trabalha? A associação entre máquinas e informações sugere, como explica Robert T.

Craig, uma atitude prática e que valoriza a complexidade de seus problemas seguindo a

lógica de seu processamento humano e não humano, derivada do trabalho de pensadores

como Shannon, Wiener, von Neumann, e Turing – a cibernética.

Durante as conferências de Macy, entre os anos 1940 e 1950, os cibernéticos

procuravam criar ligações entre pesquisadores da engenharia, biologia, psicologia e

outras ciências sociais, entre eles o sociólogo Paul Lazarsfeld (LIMA JÚNIOR, 2014).

A origem das modernas teorias da comunicação é tão distante quanto os obstáculos para

estas ligações. Em maio de 1959, Charles Percy Snow compartilhou com a sua

audiência, em Cambridge, uma preocupação oriunda da sua convivência com

intelectuais da ciência e das humanidades: trata-se de dois grupos que observam os

mesmos fenômenos, mas que não se compreendem entre si. Mais do que isso: suas

atitudes e visões constroem uma polarização capaz de criar duas culturas.

Segundo Snow (1959, tradução nossa), as razões dessa separação são profundas

e complexas, enraizadas na história do homem. E ele mesmo já apontava a dificuldade

em se criarem pontes entre essas duas culturas:

Todas as setas apontam para o mesmo caminho. Fechar a lacuna entre nossas

culturas é uma necessidade, tanto no sentido intelectual mais abstrato quanto no mais prático. Enquanto estes dois sensos crescerem separados, então a sociedade não será capaz de pensar com sabedoria9.

A necessidade premente em criar pontes entre a visão científica pautada pela

evolução tecnológica e as humanidades ‒ o que inclui a comunicação ‒ é o pano de

fundo deste trabalho. Mais de cinquenta anos se passaram da observação feita por Snow

e o debate permanece. Um dado contrastante foi obtido em uma pesquisa10

realizada

entre 2008 e 2010 pelo Observatório Ibero-americano de Ciência, Tecnologia e

9 Versão original: “All the arrows point the same way. Closing the gap between our cultures is a necessity

in the most abstract intellectual sense, as well as in the most practical. When those two senses have

grown apart, then no society is going to be able to think with wisdom”. 10

Reportagem da Revista Pesquisa FAPESP, fevereiro de 2012. Disponível em:

<http://revistapesquisa.fapesp.br/2012/02/27/o-que-voc%C3%AA-n%C3%A3o-quer-ser-quando-

crescer/>. Acesso em: 16 set. 2012.

Page 35: UNIVERSIDADE METODISTA DE SÃO PAULO - …tede.metodista.br/jspui/bitstream/tede/1585/2/Andre Rosa de... · Este es uno de los cambios producidos ... estructuras son indispensables

35

Sociedade (Ryct/Cyted) com jovens entre 15 e 19 anos em sete capitais: Assunção, São

Paulo, Buenos Aires, Lima, Montevidéu, Bogotá e Madri. Essa geração, imersa em

tecnologia, espera se profissionalizar na área das Ciências Sociais (resposta de 56% dos

entrevistados). Menos de 3%, no entanto, vislumbram atuar nas áreas das Ciências

Exatas ou Naturais. O levantamento questionou a escolha dos estudantes: a maioria

acredita que essa área é “chata” ou “muito difícil”.

A visão dos jovens que chegarão ao mercado de trabalho nos próximos anos é

aparentemente paradoxal, mas se revela como um reforço ao pensamento de Snow. Por

um lado, o imediatismo gerado pelas novas tecnologias estrutura a sua presença em

praticamente todos os aspectos de suas vidas; por outro, a ideia (simplista) de que é

possível se desenvolver com pouco esforço, a partir de uns poucos comandos ou

cliques, provoca um sinal de alerta sobre como a sociedade do futuro irá compreender

seu universo.

Nota-se que os obstáculos a serem percorridos estão além da complexidade das

tecnologias, abrangendo também uma cultura fortemente arraigada e visível aos olhos

de quem enxerga o campo da comunicação ao longe: a de que os necessários caminhos

que passam pelo cruzamento de campos do conhecimento não são tão fáceis quanto

simplesmente dizer “interdisciplinaridade”.

Tal como ocorre com outras definições, essa relação gera intermináveis

discordâncias acadêmicas. Afinal, se as definições podem representar amarras fortes na

análise de um fenômeno, também podem representar armadilhas. Diante da experiência

com estudantes de Filosofia e Ciências Naturais, o filósofo da tecnologia Val Dusek

(2006, p. 26) observa “duelos de definições pautados por impaciência e arbitrariedade”.

Essas definições são frequentemente chamadas de “meramente semânticas” ou talvez

pareçam exageradamente detalhistas. De início, o termo “interdisciplinaridade” ganha

força diante da necessidade de compreender fenômenos a partir de uma visão plural. No

caso da Comunicação,

Entende-se que há necessidade de o pesquisador da área de comunicação digital e em redes compreender que a evolução da ciência, e, por consequência, da tecnologia, é um processo humano natural. O pesquisador deve dominar os conceitos e se ambientar no campo de produção de tecnologias voltadas para a comunicação social (LIMA JUNIOR, 2007, p. 124).

Page 36: UNIVERSIDADE METODISTA DE SÃO PAULO - …tede.metodista.br/jspui/bitstream/tede/1585/2/Andre Rosa de... · Este es uno de los cambios producidos ... estructuras son indispensables

36

Na vida diária, preocupamo-nos pouco com as definições precisas, com as

descrições exatas ou com as medições afinadas, como exige o conhecimento dito

científico (BUNGE, 1987). Por outro lado, a própria fragilidade inerente ao homem –

que, por sua vez, é transferida para a ciência – faz com que a construção desse

conhecimento, sustentado a partir de definições que procurem aguçar as fronteiras da

sua aplicabilidade, transforme-se em algo desafiador, independentemente da área do

conhecimento que se pretende observar. Para Martino e Boaventura (2013), essa

construção exige um esforço muito maior que o trabalho especializado (já bastante

difícil), e corre o risco de sofrer apropriações e usos indevidos de conceitos de

diferentes ciências, assimilando a produção de conhecimento ao trabalho de lidar com

informação. Conexões entre disciplinas, portanto, seria um mito.

Será mesmo?

Tradicionalmente, as humanidades enxergam a realidade a partir do pensamento

e da reflexão mais abstratos, tendo como prisma uma ou mais disciplinas – de acordo

com o que se estabeleceu nos Estados Unidos pelo ato National Foundation on the Arts

and the Humanities, em 1965:

O termo ‘humanidades’ inclui, mas não se limita, ao estudo e interpretação de: linguagem, tanto moderna e clássica; linguística; literatura; história; jurisprudência; filosofia; arqueologia; religião comparada; ética; história,

crítica e teoria das artes; aspectos das ciências sociais que empregam conteúdo humanístico e empregam métodos humanistas; e o estudo e aplicação das humanidades para o ambiente humano, com particular atenção ao reflexo de nosso patrimônio diversificado, tradições e história; e para a relevância das humanidades com as exigências atuais da vida nacional (tradução nossa)11.

E onde entra a tecnologia nesse cenário? Para Bunge (1987), “a tecnologia

moderna se alimenta da ciência, e a ciência moderna depende de equipamentos e

estímulos provenientes de uma indústria altamente tecnificada”. Assim, da mesma

forma que a tecnologia permeia a sociedade diante de um irreversível processo de

digitalização da informação, da constituição de infraestrutura tecnológica, ferramentas

11

Versão original: “The term ‘humanities’ includes, but is not limited to, the study and interpretation of

the following: language, both modern and classical; linguistics; literature; history; jurisprudence;

philosophy; archaeology; comparative religion; ethics; the history, criticism and theory of the arts; those

aspects of social sciences which have humanistic content and employ humanistic methods; and the

study and application of the humanities to the human environment with particular attention to reflecting

our diverse heritage, traditions, and history and to the relevance of the humanities to the current

conditions of national life”. Disponível em: <http://www.neh.gov/about>. Acesso em: 22 out. 2014.

Page 37: UNIVERSIDADE METODISTA DE SÃO PAULO - …tede.metodista.br/jspui/bitstream/tede/1585/2/Andre Rosa de... · Este es uno de los cambios producidos ... estructuras son indispensables

37

digitais e condições para seu uso, o pensamento que norteia as Ciências da Computação

passou a ser entendido como uma lógica necessária a outras áreas do conhecimento.

Diante da necessidade de resolver problemas, Wing (2006) propõe o conceito de

“pensamento computacional”. A ideia é recorrer a conceitos da Ciência da Computação,

abstrair questões que podem ser solucionadas por sistemas – não se trata de entender

códigos e programar – e encontrar modelos eficientes para buscar respostas. Ao propor

o conceito e observar a sua influência em outros campos do conhecimento (como a

Estatística), a autora reforça o caráter interdisciplinar dos conceitos da Ciência da

Computação, ao afirmar que “o pensamento computacional é uma habilidade

fundamental para qualquer um, não apenas para cientistas da computação” (WING,

2006, p. 33).

Novas metodologias baseadas em sistemas computacionais, bem como

ambientes colaborativos entre diferentes perfis interdisciplinares, fizeram emergir um

campo de estudo (ou, sob um ponto de vista crítico, um “guarda-chuva acadêmico”)

pautado no objetivo de fortalecer o pensamento, sem perder de vista a compreensão

humanística sobre esses fenômenos: o campo das digital humanities12, ou “humanidades

digitais” (SCHREIBMAN; SIEMENS; UNSWORTH, 2004).

Os autores enxergam dois momentos no desenvolvimento das Digital

Humanities: o primeiro, quantitativo, ressaltando tanto a infraestrutura quanto a

capacidade em recuperar dados em largas bases e em digitalizar projetos; o segundo,

qualitativo, fortalece os métodos das humanidades, incluindo metodologias híbridas.

Pesquisador e professor sênior da Swansea University, David M. Berry (2011) sugere

um terceiro momento, denominado “virada computacional”, no qual é preciso

“encontrar o código-fonte” correspondente a cada projeto, o significado de conceitos

após eles terem sido “softwerizados”:

Se o código e o software tornaram-se objetos de pesquisa para as Ciências Humanas e Sociais, incluindo a Filosofia, precisamos compreender as dimensões ôntica e ontológica dos códigos de computador. De modo geral, sugerimos uma abordagem filosófica para o código e o software, prestando atenção aos seus aspectos mais amplos e conectando-os à materialidade deste crescente mundo digital. Com isso em mente, a questão do código torna-se fundamental para a compreensão das digital humanities, e serve

como condição para uma possibilidade das muitas formas computacionais

12

Como não há uma expressão consensual equivalente em português (a tradução remete a um grupo de

pesquisa da USP que trata do tema), optou-se por manter o termo original.

Page 38: UNIVERSIDADE METODISTA DE SÃO PAULO - …tede.metodista.br/jspui/bitstream/tede/1585/2/Andre Rosa de... · Este es uno de los cambios producidos ... estructuras son indispensables

38

que mediam a experiência da cultura e sociedade contemporâneas (BERRY, 2011, p. 17, tradução nossa)13.

Ao lembrar que a tecnologia ignora filtros ao permitir acesso a distintas bases de

dados de conhecimento a partir de qualquer lugar, o autor afirma que essa virada

computacional nas disciplinas humanas, na qual o código-fonte faz parte do contexto,

poderia representar o começo de um movimento de “ciência revolucionária”, bem como

o aparecimento da constelação de uma nova “ciência normal”, sob o prisma das

revoluções científicas de Thomas Kuhn. Tal ponto de vista remete a uma percepção de

Snow (1959): as humanidades (ou os “não cientistas”) costumam definir cientistas como

otimistas, desconhecendo a condição humana; por outro lado, os cientistas acreditam

que os “intelectuais da literatura” são totalmente imprecisos. Natural, portanto,

considerar a percepção de Berry com cautela.

A tensão entre o homem, a tecnologia e os seus valores reforçam o binômio

entre as humanidades e a tecnologia, pautado por encantamento e conflito. Ao buscar

compreensão sobre a tecnologia, Andrew Feenberg (2001), filósofo e um dos pioneiros

no estudo da comunicação mediada por computador, recupera a origem grega da palavra

techné: os gregos associam a produção de artefatos à natureza, de acordo com

propósitos bem definidos. Num contexto moderno, no entanto, ela aparece em uma

abordagem instrumental, na qual a tecnologia é isenta de valores, sem qualquer

essência. Desta forma, no decorrer dos séculos, a tecnologia pode ser definida ao longo

de dois eixos. O primeiro diz respeito ao que a tecnologia é ou não: neutra ou carregada

de valores, como os gregos acreditavam. O segundo permite enxergar a tecnologia como

autônoma, isto é, que possui as suas próprias leis ou se são humanamente controláveis,

se temos liberdade em decidir como ela será desenvolvida – e isso se aplica à internet,

criada para fins militares, desenvolvida pelas universidades e explorada pelos mais

diversos segmentos.

A internet suporta uma visão de convivência harmoniosa entre os seres humanos e suas máquinas. Mas suas aplicações políticas a posicionam para outra dimensão da sociedade tecnológica moderna. A tecnologia é um

13

Versão original: “If code and software are to become objects of research for the humanities and social

sciences, including philosophy, we will need to grasp both the ontic and ontological dimensions of

computer code. Broadly speaking, then, this paper suggests that we take a philosophical approach to the

subject of computer code, paying attention to the wider aspects of code and software, and connecting

them to the materiality of this growing digital world. With this in mind, the question of code becomes

central to understanding in the digital humanities, and serves as a condition of possibility for the many

computational forms that mediate out experience of contemporary culture and society”.

Page 39: UNIVERSIDADE METODISTA DE SÃO PAULO - …tede.metodista.br/jspui/bitstream/tede/1585/2/Andre Rosa de... · Este es uno de los cambios producidos ... estructuras son indispensables

39

fenômeno de dois lados: em uma das mãos há o operador; em outra, o objeto. Num lugar onde tanto o operador quanto o objeto são humanos, a ação técnica é um exercício de poder. Além disso, onde a sociedade é organizada em torno da tecnologia, o poder tecnológico é a principal forma de poder na sociedade. Este é seu potencial distópico (FEENBERG, 2001, tradução nossa)14.

A Web, entendida como a janela amigável da internet, começou a se popularizar

nos anos 1990, quando experimentou um crescimento exponencial graças às suas

características de auto-organização: pessoas e empresas das mais variadas áreas

(inclusive jornalísticas) passaram a criar páginas HTML e a relacioná-las com outras.

Cientistas que estudam sistemas complexos verificaram que a rede tem propriedades

inesperadas em função da sua estrutura global, da forma como informações se

propagam em suas conexões e do comportamento de motores de busca. Tais

propriedades conduzem a algo que pode ser chamado de um “comportamento

adaptativo”, definindo a Web como um sistema complexo:

Um sistema em que grandes redes de componentes sem controle central e com regras simples de operação dá origem a um comportamento coletivo complexo, a um sofisticado processamento de informação e a adaptação por meio de aprendizagem ou evolução (MITCHELL, 2009, p. 13, tradução

nossa)15.

A partir de um debate profundo entre a existência de valores intrínsecos em

artefatos tecnológicos e o envolvimento humano com esses instrumentos, Feenberg

(2001) nos lembra de que não se trata de uma simples relação de meios e fins.

Escolhemos usar máquinas e, diante das múltiplas alternativas oferecidas por um

sistema complexo (como é o caso da Web e dos seus dispositivos conectados), fazemos

usos e apropriações rotineiras ainda norteadas por variáveis políticas e econômicas.

14

Versão original: “The Internet supports a vision of harmonious coexistence between humans and their

machines. But these political applications of the Internet point to another dimension of modern

technological society. Technology is a two-sided phenomenon: on the one hand there is the operator, on

the other the object. Where both operator and object are human beings, technical action is an exercise of

power. Where, further, society is organized around technology, technological power is the principle

form of power in the society. This is its dystopian potential”. 15

Versão original: “a system in which large networks of components with no central control and simple

rules of operation give rise to complex collective behavior, sophisticated information processing, and

adaptation via learning or evolution”.

Page 40: UNIVERSIDADE METODISTA DE SÃO PAULO - …tede.metodista.br/jspui/bitstream/tede/1585/2/Andre Rosa de... · Este es uno de los cambios producidos ... estructuras son indispensables

40

1.2 Relação entre Jornalismo e bases de dados na Web

Desde janeiro de 1994, quando o semanário Palo Alto Weekly16 reproduziu na

Web parte do material de sua edição impressa, o Jornalismo busca as melhores

alternativas para compartilhar e armazenar informação nesse ambiente, que é composto

por documentos codificados em marcação hipertextual e relacionados entre si,

acessados por meio de softwares específicos (navegadores). E aqui cabe pontuar, ainda

que de forma primária, uma definição de informação no contexto da Web:

Informação, como estritamente definido por Shannon, diz respeito à previsibilidade de uma fonte de mensagem. No mundo real, no entanto, informação é algo analisado por seu significado, que é lembrado e

combinado com outras informações, produzindo resultados ou ações. Em suma, a informação é processada através de computação (MITCHELL, 2009, p. 57, tradução nossa)17.

Matéria-prima para o Jornalismo, a informação é um labirinto conceitual. Em

linhas gerais, podemos definir informação em termos de dados e significado. A

informação é feita com dados organizados a partir de uma sintaxe predefinida – um

código ou linguagem (FLORIDI, 2010, p. 21). Informação, como nos lembra Melanie

Mitchell (2009), é um conceito que a Comunicação tomou emprestado do matemático

Claude Shannon, entre outros autores. Ele adaptou ideias da termodinâmica, associadas

à concentração de energia e entropia, desenvolvidas em nível molecular por Ludwig

Boltzmann no século XIX, para abstrair a comunicação entre telefones. Em essência, o

volume de informação tem relação com a entropia da mensagem de origem ‒ não tem

relação alguma com o significado da mensagem, mas sim com a qualidade do sinal.

Intrigado com esse problema, Shannon publicou, em 1948, um artigo de 79

páginas no The Bell System Technical Journal, dividido nas edições de julho e outubro,

denominado A Mathematical Theory of Communication. Conhecido entre os

pesquisadores da área graças ao seu esquema “emissor-receptor”, ele apresentou ainda

um neologismo: bit, derivado de binary digits, uma unidade para medir informação

(SHANNON, 1948). Aos olhos da ciência, o termo “informação” só passou a fazer

16

“Palo Alto Weekly becomes the first newspaper to publish its entire editorial content to the internet”.

Disponível em: <http://www.paloaltoonline.com/about/palo_alto_online_timeline.php>. Acesso em: 28

mar. 2015. 17

Versão original: “Information, as narrowly defined by Shannon, concerns the predictability of a

message source. In the real world, however, information is something that is analyzed for meaning, that

is remembered and combined with other information, and that produces results or actions. In short,

information is processed via computation”.

Page 41: UNIVERSIDADE METODISTA DE SÃO PAULO - …tede.metodista.br/jspui/bitstream/tede/1585/2/Andre Rosa de... · Este es uno de los cambios producidos ... estructuras son indispensables

41

sentido quando deixou de ser vago, abstrato, impreciso ‒ como a ideia de movimento

antes das Leis de Newton. Portanto, um “rito de purificação” se tornou necessário. Só

assim podemos entender “informação” como algo que corre por todo o mundo: o sangue

e o combustível, o princípio vital (GLEICK, 2011, p. 3). Já na Computação, o termo

possui significados diversos a partir do seu uso (recuperação ou armazenamento de

informação), sendo que, neste sentido, os dados são binários, capazes de ser

processados por computadores.

Entretanto, o desejo humano de extrair conhecimento por meio do

relacionamento de dados e informações provenientes de diversas fontes é anterior ao

advento das tecnologias digitais conectadas. Ele existe desde as formulações do filósofo

e cientista Gottfried Wilhelm von Leibniz (Biblioteca Universal) e do dispositivo

modulado por Vannevar Bush ‒ capaz de armazenar e recuperar informação (Memex) ‒,

passando pela cooperação entre homem e máquina imaginada por Licklider (Libraries

of future). Depois, ele chega ao processamento da informação por máquinas

computacionais, bem como à construção e à formalização de uma rede de informações

que culminou com hiperlinks criados por Tim Berners-Lee (Web), até alcançar a

formatação de estrutura para colaboração e para obtenção de conhecimento implantada

por Jimmy Wales (Wikipedia). E o Jornalismo convive e se apropria de recursos

oriundos dos Sistemas da Informação nessa nada breve linha do tempo, mais

especialmente a partir dos anos 1970, quando as bases de dados passam a integrar as

suas rotinas produtivas (RIBAS, 2007).

Um exemplo de plataforma de mídia nesse contexto é o Google News18, no qual

usuários que visitam a sua primeira página identificam as suas manchetes (as top

stories) e editorias como em um jornal tradicional. A diferença, porém, está na

composição da página: a edição é feita automaticamente, por meio de um algoritmo que

classifica notícias provenientes de múltiplas fontes.

Se um usuário estiver conectado ao Google e permitir explicitamente a função ‘Histórico da Web’, o sistema irá registrar seu histórico de navegação e gerar uma seção personalizada, denominada ‘Recomendado para [conta]’,

contendo sugestões de links baseados em seus cliques. A gravação desse registro é totalmente anônima e é mantida em segurança, de acordo com as políticas de privacidade do Google (LIU; DOLAN; PEDERSEN, 2010, tradução nossa)19.

18

Disponível em: <http://news.google.com>. Acesso em: 22 out. 2014. 19

Versão original: “If a user signs in to her Google Account and explicitly enables Web History, the

system will record her click history and generate a personalized section for her, named ‘Recommended

Page 42: UNIVERSIDADE METODISTA DE SÃO PAULO - …tede.metodista.br/jspui/bitstream/tede/1585/2/Andre Rosa de... · Este es uno de los cambios producidos ... estructuras son indispensables

42

Antes de ser um exemplo de ferramenta baseado em algoritmos, o Google News

está na Web, um sistema de documentos codificados em marcação hipertextual e

relacionados entre si, acessados por meio de softwares específicos (navegadores).

Criada pelo físico britânico Tim Berners-Lee em 1989, a Web se transformou em um

ambiente amigável de navegação, permitindo o desenvolvimento de ferramentas para a

produção e o compartilhamento de conteúdos com facilidade.

Entendendo a Web como um espaço de mudanças significativas tanto na

comunicação quanto em atividades como pesquisa científica, Berners-Lee observa um

considerável volume de disciplinas interessado em desenvolvê-la em seu potencial. No

entanto, essas disciplinas não a identificam claramente como seu principal foco de

atenção. Apesar do interesse espalhado em Ciências Humanas e em estudos ligados à

Computação, é comum encontrar essas discussões restritas em silos disciplinares. Susan

Halford, Cathy Pope e Leslie Carr, da Universidade de Southampton, valorizam a

interdisciplinaridade e a abertura de informações como forma de estudar e compreender

a Web como um fenômeno humano, além de projetar seu crescimento e capacidades

futuras. É delas o “manifesto por uma ciência da Web” (HALFORD; POPE; CARR,

2010).

Apesar do claro interesse da Matemática e da Ciência da Computação, o lado

social da Web precisa ser melhor entendido a partir de disciplinas como Geografia,

Psicologia, etc. No Jornalismo, a Web é reconhecida como um poderoso repositório de

informação, fortalecendo o uso de bases de dados (BARBOSA; TORRES, 2013). A

Figura 1.1 apresenta uma relação entre os atributos da informação nesse ambiente.

for [account]’, containing stories recommended based on her click history in Google News. The

recorded click histories were fully anonymized and kept secure according to the Google Privacy

Policy”.

Page 43: UNIVERSIDADE METODISTA DE SÃO PAULO - …tede.metodista.br/jspui/bitstream/tede/1585/2/Andre Rosa de... · Este es uno de los cambios producidos ... estructuras son indispensables

43

Figura 1.1 – Componentes da informação jornalística na web

Fonte: Produzida pelo autor.

No Jornalismo, por exemplo, bases informacionais seriam compostas tanto por

bancos de dados com matérias de veículos diversos (históricos) quanto por dados

oriundos de fontes externas – os datasets. Em ambos, o desafio proposto há dezenas de

anos permanece: de que forma recuperá-los diante de potenciais inconsistências,

redundâncias e ruídos?

Um dos pesquisadores mais interessados na questão da memória jornalística no

Brasil, o professor Marcos Palacios, sintetiza esse modelo: a construção da realidade

pelo Jornalismo se baseia em um universo de significados disputados conflitivamente,

ocupando um lugar de memória ao lado de outros documentos – uma espécie de

“rascunho histórico” à espera de que um historiador consolide o texto final

(PALACIOS, 2010, p. 41).

O autor aponta, no entanto, que o acervo de um veículo informativo não se

limita a esse olhar externo: para a produção jornalística de qualidade, a consulta e a

apropriação de informações em bases de dados internas e externas ao veículo é evidente

(PALACIOS, 2008). O seu acionamento é comum para produção de conteúdos

relacionados a efemérides e retrospectivas. Ele também aparece de maneira recorrente

em comparações e analogias para contribuir com a construção de um retrato do

presente. Por fim, há a relação entre os veículos e seu público – público este que passa a

dispor de recursos para investigar aspectos históricos em torno do material que lhe é

oferecido. O usuário se torna cada vez mais presente a partir da popularização de

Page 44: UNIVERSIDADE METODISTA DE SÃO PAULO - …tede.metodista.br/jspui/bitstream/tede/1585/2/Andre Rosa de... · Este es uno de los cambios producidos ... estructuras son indispensables

44

ferramentas sociais conectadas em rede. Parte do discurso formulado nessa relação

acaba incorporado aos produtos jornalísticos contemporâneos.

Se é fato que nem toda informação é jornalismo e que a atividade jornalística

não se confunde com o simples testemunho, é igualmente fato que a comunicação

rizomática e a liberação do polo emissor multiplicaram – a perder de vista – os lugares

de memória em rede (PALACIOS, 2010, p. 45).

Palacios usa, portanto, o termo “lugar de memória” para definir um local onde as

lembranças são externalizadas – arquivos, repositórios de documentos nos quais o

jornalismo se insere. A esse propósito, a palavra “memória” (do latim memor oris, “que

se lembra”) também aparece na Biologia: refere-se a um grupo de habilidades de

aprendizado e à retenção de experiências que humanos e outros animais possuem. A

mesma analogia serviu de inspiração para o matemático John Von Neumann elaborar a

arquitetura de computadores: eles se tornariam mais rápidos se as instruções

elementares fossem armazenadas em sua memória. O modelo proposto por Neumann

ainda é seguido pela maioria dos computadores atuais (LIMA JUNIOR, 2013a, p. 110).

A visão de que a memória tem sua importância, como se não houvesse

necessidade de comprovação, pode fazer sentido dentro dos limites da comunicação

social, como se não houvesse necessidade de comprovação. Mas ela exige

contextualização num cenário de apropriação, pelo Jornalismo, das técnicas oriundas de

outras áreas, associadas à tecnologia, como as Ciências da Computação – incluindo

processos de armazenamento e recuperação da informação, englobando “aspectos

intelectuais da descrição de informações e suas especificidades para a busca, além de

quaisquer sistemas, técnicas ou máquinas empregados para o desempenho da operação”

(MOOERS, 1951, apud SARACEVIC, 1996, p. 44).

As tecnologias online não são uma panaceia que magicamente transformará as notícias, carregando-as com alto teor de relevância social. Como ferramenta de auxílio à profissão, a pesquisa em fontes digitais facilita o

trabalho do jornalista na tarefa de localização da informação. Um profissional não bem preparado para usar esse tipo de processo encontrará problemas na verificação dos dados (LIMA JUNIOR, 2006, p. 122).

Marcos Palacios (2010) observa que os textos jornalísticos precisam caminhar

para uma efetiva incorporação de elementos relacionados à memória em sua

estruturação. Um dos modelos teóricos preocupados com essa relação é o Paradigma do

Jornalismo Digital em Bases de Dados (JDBD), considerado lugar de inovação

Page 45: UNIVERSIDADE METODISTA DE SÃO PAULO - …tede.metodista.br/jspui/bitstream/tede/1585/2/Andre Rosa de... · Este es uno de los cambios producidos ... estructuras son indispensables

45

continuada para esse campo em função de sua flexibilidade e, sobretudo, pelo seu

potencial de reinvenção – como ocorre, por exemplo, com a aproximação do data-

driven journalism (BARBOSA; TORRES, 2013). Para os autores, as bases de dados não

desempenham apenas uma função documental e auxiliar: hoje, elas têm o caráter

estruturante, proporcionando maneiras diferenciadas para o tratamento das informações

jornalísticas.

[O JDBD é] o modelo que tem as bases de dados como definidoras da estrutura e da organização, bem como da apresentação dos conteúdos de natureza jornalística, de acordo com funcionalidades e categorias

específicas, que vão permitir a criação, a manutenção, a atualização, a disponibilização e a circulação de produtos jornalísticos digitais dinâmicos (BARBOSA; TORRES, 2013, p. 154).

Dentro desta visão, algumas funcionalidades já foram sistematizadas, com

destaque para quatro delas, que se relacionam com este trabalho: “estocar o material

produzido e preservar os arquivos (memória), assegurando o processo de recuperação

das informações”, “garantir a flexibilidade combinatória e o relacionamento entre os

conteúdos”, “permitir usos e concepções diferenciadas para o material de arquivo” e

“armazenar anotações semânticas sobre os conteúdos inseridos”.

Assim como a “importância da memória” nos convida a um fortalecimento dos

conceitos, as funcionalidades como conectar, recuperar e reutilizar conteúdos associadas

a termos como “garantia assegurada” exigem questionamentos, notadamente dentro da

Web. Isto porque, mesmo com atributos simples (URLs conectadas por meio de uma

rica experiência hipertextual), o ambiente cresceu de forma descentralizada e, de certa

forma, sem regras. Explorar o conjunto de bases na Web por meio de ferramentas de

busca por palavras-chave revela-se um problema.

Bases de dados são continuamente produzidas por diferentes grupos e empresas, sem que conheçam o trabalho um do outro. Raramente alguém

para o processo e tenta definir um termo globalmente consistente para cada uma das colunas nas tabelas dessas bases. Quando pudermos ligar termos, mesmo muitos anos depois, um computador será capaz de compreender que, quando uma companhia chama ‘mean-diurnal-temperature’, é o mesmo que outra empresa chamando de ‘daily average-temp’ (BERNERS-LEE, 2000, p. 186, tradução nossa) 20.

20

Versão original: “Databases are continually produced by different groups and companies, without

knowledge of each other. Rarely does anyone stop the process to try define globally consistent term for

each of the columns in the database tables. When we can link terms, even many years later, a computer

will be able to understand that what one company calls ‘mean-diurnal-temperature’ is the same as what

another company calls ‘daily average-temp’”.

Page 46: UNIVERSIDADE METODISTA DE SÃO PAULO - …tede.metodista.br/jspui/bitstream/tede/1585/2/Andre Rosa de... · Este es uno de los cambios producidos ... estructuras son indispensables

46

1.3 Jornalismo e bases de dados: uma linha do tempo

Entre processos rotineiros de produção noticiosa, o Jornalismo procura

denunciar pessoas, instituições ou empresas cujas atividades atentam contra o interesse

público, utilizando-se, para isso, de ferramentas de investigação (QUESADA, 2004, p.

125). “Investigar” significa contrastar toda a informação que se manuseie – como fontes

documentais –, verificar todos e cada um dos dados e, especialmente, trabalhar

sustentando uma sólida ética profissional (QUESADA, 2004, p. 127). Nesse cenário, é

fácil identificar que a relação entre informação jornalística e tecnologias de

armazenamento não é nova. Há registro de o jornal britânico The Guardian ter apontado

o número de alunos matriculados nas escolas de Manchester, relacionando-o com os

custos totais, sendo possível identificar quantos recebiam educação gratuita. Isso foi em

1821 (GRAY; BOUNEGRU; CHAMBERS, 2012).

Ainda que seja bem próxima, a relação entre os processos de investigação

jornalística e a manipulação de dados por meio de computadores não é direta: nem toda

investigação jornalística que resulta em reportagens do gênero aplica metodologias e

conhecimentos das Ciências Sociais. Tanto que o método se fortaleceu nos Estados

Unidos ao final do século XIX, mais de cem anos antes de um computador ter sido

usado para apoiar uma cobertura – o ano era 1952, quando a CBS previu os resultados

das eleições presidenciais. A partir daí, no entanto, máquinas passaram a auxiliar o

jornalista a simplificar, tornar mais rápido ou expandir seu trabalho. A proximidade

entre processamento rápido de dados e ferramentas computacionais se fortaleceu, a

ponto de se tornar uma combinação essencial. Da mesma forma, a imprensa que se

consolida nos EUA, cuja influência chega ao Brasil, assume a sua função social de

fiscalização (watchdog), respaldada por esse tipo de notícia.

Contudo, ao perpassar o jornalismo, a palavra “informação” adquire contornos a

partir da forma como é fabricada: na visão de Adelmo Genro Filho (1987), além de

“zeros e uns” contextualizados, existem procedimentos, com vistas a objetivos

específicos, pautados por relações sociais produzidas pelo advento do capitalismo e dos

meios industriais de difundir informações. Mesmo em reportagens mais elaboradas, essa

variável não pode ser desprezada.

A notícia jornalística não pode ser considerada como uma modalidade da informação em geral. Não foi a transmissão genérica da experiência – o que sempre ocorreu em sociedade –, e sim a transmissão sistemática, por

Page 47: UNIVERSIDADE METODISTA DE SÃO PAULO - …tede.metodista.br/jspui/bitstream/tede/1585/2/Andre Rosa de... · Este es uno de los cambios producidos ... estructuras son indispensables

47

determinados meios técnicos, de um tipo de informação necessária à integração e universalização da sociedade, a partir da emergência do capitalismo, que deu origem à notícia jornalística (GENRO FILHO, 1987).

Por conta das práticas rotineiras atendendo aos interesses fundamentais do

veículo e do imediatismo da informação como ponto de chegada – e não como partida,

como ocorre na ciência –, o método científico pouco tem a ver com o jornalístico.

Todavia, é por meio das técnicas de investigação que eles se aproximam. O uso de

métodos de pesquisa social para relatar temas sociais objetivamente, juntando fatos

aparentemente desconexos e revelando os seus antecedentes, impulsionou a Reportagem

Assistida por Computador a partir do que se convencionou chamar de “Jornalismo de

Precisão” – do inglês Precision Journalism.

Antes de começar a usar computadores para investigar histórias e se tornar

pioneiro desse método, o jornalista Philip Meyer, ainda um jovem repórter do Miami

Herald, usou lápis e papel para criar uma base de dados, relacionando companhias de

seguros e candidatos à presidência do conselho de funcionários de escolas na

comunidade. O ano era 1959. Treze anos depois, em 1972, ele lançou seu livro sobre o

uso de práticas científicas próprias das Ciências Sociais (GALINDO ARRANZ, 2004).

Foi o professor Everette Dennis que, diante dos seus alunos da Universidade de

Oregon, empregou o termo Precision Journalism pela primeira vez, em 1971, sendo que

o mesmo termo foi adotado por Meyer logo depois. O surgimento do método coincidiu

com o caso Watergate, um escândalo político descoberto pelo The Washington Post e

sinônimo de investigação jornalística, além de também ter coincidido com o surgimento

de uma fundação denominada Investigative Reporters and Editors – IRE21 –, que deu

origem ao National Institute for Computer Assisted Reporting (NICAR), responsável

pelo treinamento de profissionais.

Inicialmente, o Jornalismo de Precisão se entende como outra forma de jornalismo investigativo, uma forma em que as novas tecnologias desempenham um papel decisivo. Surgiu como uma tentativa de se trazer

rigor científico ao jornalismo investigativo, desenvolvido principalmente para o uso de bancos de dados e de processamento por computador (GALINDO ARRANZ, 2004, p. 99, tradução nossa)22.

21

Disponível em: <http://www.ire.org>. Acesso em: 22 out. 2014. 22

Versão original: “Inicialmente, el periodismo de precisión se entiende como otra forma de hacer

periodismo de investigación, una forma en la que las nuevas tecnologías juegan un papel decisivo.

Surgido como un intento de aportar rigor científico al periodismo de investigación, se desarrolla

fundamentalmente con el uso de los bancos de datos y su tratamiento informatizado”.

Page 48: UNIVERSIDADE METODISTA DE SÃO PAULO - …tede.metodista.br/jspui/bitstream/tede/1585/2/Andre Rosa de... · Este es uno de los cambios producidos ... estructuras son indispensables

48

Mesmo tendo completado 40 anos, o Jornalismo de Precisão não se trata de uma

prática popular no Brasil. Uma explicação para essa percepção, corroborada por

Galindo Arranz (2004, p. 102), pode estar nas palavras do pesquisador alemão Michael

Kunczik. Ele toma emprestada a visão de Meyer, segundo a qual o jornalista precisa

gerenciar, processar, analisar e interpretar bancos de dados, e isso requer treinamento

intensivo nas técnicas. Existe um grande perigo em produzir informação incorreta em

função da má interpretação. Assim, das duas, uma: ou a investigação sociocientífica não

pode ser tarefa do Jornalismo, ou é preciso melhorar de forma geral o nível básico de

conhecimentos sociocientífico dos jornalistas (KUNCZIK, 1997, p. 104).

Outra explicação, observada por Lima Junior (2012, p. 209), está no atraso das

adoções tecnológicas nas redações brasileiras. Enquanto os jornais norte-americanos

como o USA Today, The Washington Post, Los Angeles Times e The New York Times

desenvolveram departamentos internos com especialistas em informática e estatística,

atuaram em conjunto com profissionais e tiveram suas reportagens premiadas com o

Prêmio Pulitzer entre os anos 1970 e 1980, a Folha de S. Paulo foi o primeiro jornal

brasileiro a introduzir terminais na redação, já em 1983.

Atualmente, como lembra o pesquisador, houve um barateamento das máquinas

computacionais e de outros dispositivos tecnológicos, ainda que o atraso persista. Mais

do que isso, o atual ambiente computacional conectado posiciona o Jornalismo no

cenário semelhante ao identificado pelas Digital Humanities, fazendo emergir novas

possibilidades no tratamento de informações e dados.

A produção jornalística, acostumada a um modelo anacrônico e cuja nostalgia ainda se mantém presente, não absorveu as evoluções tecnológicas de maneira significativa. O resultado disso é que a maioria dos profissionais

de jornalismo acredita que somente a utilização do computador de modo doméstico (uso de aplicativos como e-mail, mensageiros instantâneos, redes sociais, entre outros) já é suficiente para executar o modelo de Jornalismo baseado na era da escassez da informação (LIMA JUNIOR, 2011, p. 48).

Parece evidente pensar que, diante das mesmas questões, é tarefa importante

usar a maior quantidade possível de lentes para tentar compreendê-la. Da mesma forma,

por mais que o discurso acadêmico pautado pela interdisciplinaridade faça sentido, os

obstáculos para que esses enlaces aconteçam são fortes. Berry (2011, p. 2) vai além, ao

observar que as informações de que dispomos para construir nossa realidade nesse meio

Page 49: UNIVERSIDADE METODISTA DE SÃO PAULO - …tede.metodista.br/jspui/bitstream/tede/1585/2/Andre Rosa de... · Este es uno de los cambios producidos ... estructuras son indispensables

49

precisam, necessariamente, se transformar em um grid de dados capaz de ser

armazenado em computadores e transformado por algoritmos. Nessa escolha,

descartamos outras representações pertinentes.

A forma de escapar desse limite, pautado por conhecimentos produzidos por

uma mediação puramente tecnológica, é reforçar a interdisciplinaridade. Sem perder de

vista o fato de que a pesquisa acadêmica em Jornalismo Computacional pode de fato ser

útil, é preciso relacionar outras áreas do conhecimento, especialmente as que

tradicionalmente sustentam a pesquisa em comunicação – como a Filosofia, por

exemplo.

Desse debate, algumas lições podem ser pinçadas. Uma das mais importantes:

ainda que seja possível apostar num enraizamento profundo das tecnologias que nos

exigem um olhar rigoroso – e por mais que a onipresença das conexões somadas à

digitalização da realidade, potencializadas pela internet, tenham impactado em nossa

vida –, não é possível afirmar que estamos diante de uma revolução impulsionada por

elas. A tecnologia não é boa, ruim ou neutra per se: são os valores humanos que lhe

oferecem uma visão crítica. Como nos lembra Andrew Feenberg (2001, tradução nossa),

A questão não é se a internet vai nos libertar, como se uma tecnologia tivesse esse poder, mas sim quais as sutis mudanças nas condições de organização e nas atividades públicas que serão introduzidas pela rede. Essa mudança já havia começado antes da ascensão do novo meio, mas de um jeito intermitente e com muito trabalho. A internet promete melhorar a capacidade

da população em intervir nas decisões técnicas vitais em uma sociedade como a nossa. Isso tem a ver com mudanças fundamentais na estrutura da democracia em condições de avanço tecnológico23.

Novamente, não é difícil enxergar – seja de uma forma otimista ou apocalíptica

– um futuro no qual o pensamento computacional será parte intrínseca das disciplinas

tradicionais, tornando o termo digital humanities obsoleto. Não à toa, profissionais

como Nicholas Diakopoulos24

e Jonathan Stray25

– que ministram cursos ou disciplinas

de Jornalismo Computacional na City University of New York e na Columbia

Journalism School, respectivamente – identificam as perspectivas do Jornalismo

23

Versão original: “The issue is not whether the Internet will liberate us, as though a technology had that

power, but rather the subtle change in the conditions of public organization and activity introduced by

networking. This change had already begun before the rise of the new medium, but intermittently and

laboriously. The Internet promises to enhance the ability of the population to intervene in the technical

decisions so vital in a society like ours. This has to do with fundamental changes in the structure of

democracy under conditions of technological advance”. 24

Site pessoal. Disponível em: <http://www.nickdiakopoulos.com>. Acesso em: 22 out. 2014. 25

Site pessoal. Disponível em: <http://jonathanstray.com>. Acesso em: 22 out. 2014.

Page 50: UNIVERSIDADE METODISTA DE SÃO PAULO - …tede.metodista.br/jspui/bitstream/tede/1585/2/Andre Rosa de... · Este es uno de los cambios producidos ... estructuras son indispensables

50

Computacional (que será discutido no Capítulo III), aproximando ainda mais os

profissionais da Comunicação e da Tecnologia, demonstrando que o caminho do

diálogo entre as duas culturas apontadas por Snow é possível e necessário. Para tal,

tomando as palavras do pesquisador Lev Manovich, um dos dois lados precisa fazer

algum esforço para ver o outro. Que venham, portanto, os representantes da

Comunicação interessados em fazê-lo.

O modelo de pesquisa big data humanities que existe agora é o da colaboração entre humanistas e cientistas da computação. É o jeito certo de

começar a ‘mergulhar nos dados’. Entretanto, se cada projeto intensivo de dados feito nas humanidades tiver que ser apoiado por uma concessão que permitiria tal colaboração, nosso progresso será muito lento. Precisamos de humanistas capazes de usar a análise de dados e software de visualização em seu trabalho diário, para que eles possam combinar abordagens quantitativas e qualitativas em todo o seu trabalho. Como fazer com que isso aconteça é uma das questões chave para as ‘digital humanities’ (MANOVICH, 2011, tradução nossa)26.

Neste capítulo, a importância do diálogo estruturado entre áreas do

conhecimento como um caminho possível para a compreensão de fenômenos

contemporâneos no Jornalismo é reforçada. A Comunicação vivencia desafios

epistemológicos para ser reconhecida e fortalecida como ciência, ao passo que sua

relação com a Tecnologia amplia suas fronteiras com outras áreas do conhecimento e,

consequentemente, seu horizonte científico (PEREIRA, 2014). Não deixa de ser um

caminho parecido com o da Ciência da Informação, que começou quando, a partir de

1951, Calvin Mooers debruçou-se sobre o tema “recuperação de informação”. Ele

elaborou três perguntas que carregam o espírito das conexões interdisciplinares e que

permanecem atuais: como descrever intelectualmente a informação? Como especificar

intelectualmente a busca por ela? Quais sistemas, técnicas ou máquinas devem ser

utilizados para isso?

O próximo capítulo trata dessas relações, além de dar ênfase ao principal

elemento deste trabalho.

26

Versão original: “The model of big data humanities research that exists now is that of collaboration

between humanists and computer scientists. It is the right way to start ‘digging into data’. However, if

each data-intensive project done in humanities would have to be supported by a research grant which

would allow such collaboration, our progress will be very slow. We want humanists to be able to use

data analysis and visualization software in their daily work, so they can combine quantitative and

qualitative approaches in all their work. How to make this happen is one of the key questions for ‘digital

humanities’”.

Page 51: UNIVERSIDADE METODISTA DE SÃO PAULO - …tede.metodista.br/jspui/bitstream/tede/1585/2/Andre Rosa de... · Este es uno de los cambios producidos ... estructuras son indispensables

51

Capítulo II – METADADOS

Em agosto de 2015, o diário australiano ABC fez uma experiência: compartilhou

com seus leitores uma base de dados com informações pessoais do repórter Will

Ockenden27

, todas elas coletadas do seu telefone celular – um ano de informações como

chamadas, mensagens SMS, registros de dados, informações geolocais, enfim. A ideia

era confrontar o discurso oriundo das agências de vigilância, como a norte-americana

NSA, que não armazenam “conversas inteiras” dos cidadãos, apenas seus metadados.

A conclusão da reportagem? Muitos usuários, mesmo quem jamais tinha lidado

com uma base de dados parecida, fez inferências assustadoramente corretas sobre a

rotina do jornalista, incluindo detalhes de sua vida pessoal. Esse teste agrega novos

elementos para um debate atual sobre a palavra-chave que movimenta este trabalho,

discutida neste capítulo.

27

“What reporter Will Ockenden's metadata reveals about his life”. Disponível em:

<http://www.abc.net.au/news/2015-08-24/metadata-what-you-found-will-ockenden/6703626>. Acesso

em: 29 dez. 2015.

Page 52: UNIVERSIDADE METODISTA DE SÃO PAULO - …tede.metodista.br/jspui/bitstream/tede/1585/2/Andre Rosa de... · Este es uno de los cambios producidos ... estructuras son indispensables

52

2.1 Apresentação de um conceito: além dos “dados sobre dados”

Desde as revelações de Edward Snowden, em junho de 2013, sobre práticas de

monitoramento da Agência de Segurança Nacional norte-americana28

, os metadados

ficaram em evidência e a palavra entrou na agenda de conversa dos norte-americanos. O

mundo se deu conta de que estamos cercados por dados sobre dados, inclusive aqueles

produzidos por nossos próprios dispositivos móveis conectados.

Metadados são um tema onipresente e uma parte integrante da nossa infraestrutura de informação digital. Educação, artes, ciência, indústria, governo e as muitas atividades humanísticas, científicas e sociais que compõem o nosso mundo se uniram para desenvolver, implementar e aderir a alguma forma de prática de metadados. Há ampla evidência mostrando que os metadados tocaram praticamente todas as disciplinas e setores sociais que entram em contato com a informação digital (GREENBERG, 2009, tradução

nossa)29.

Em busca de uma definição ampla, podemos dizer que metadados são

informações que permitem rotular, catalogar e descrever dados para serem estruturados

de modo a serem compreendidos tanto por humanos quanto por máquinas. São

fundamentais para a criação, descrição, organização, atualização, reutilização,

validação, recuperação, preservação e recontextualização de objetos de informação. Eles

representam o que pode ser descrito a respeito desses objetos em qualquer nível. Nesse

contexto, os objetos de informação podem ser entendidos como qualquer coisa passível

de ser endereçada e manipulada por um ser humano ou um sistema – num processo

contínuo desde sua criação até sua disponibilização nesses sistemas – e que estão

relacionados com bases de dados – confirme ilustra a Figura 2.1. Um objeto

corresponde a um item isolado, a vários itens juntos ou a uma base de dados inteira

(BACA, 2008).

28

O jornal britânico The Guardian foi o primeiro a publicar as revelações. Cobertura disponível em

<http://www.theguardian.com/us-news/the-nsa-files>. Acesso em: 29 dez. 2015. 29

Versão original: “Metadata is an ubiquitous topic and an integral part of our digital information

infrastructure. Education, the arts, science, industry, government, and the many humanistic, scientific,

and social pursuits that comprise our world have rallied to develop, implement, and adhere to some

form of metadata practice. There is ample evidence showing that metadata has touched nearly every

discipline and societal sector coming into contact with digital information”.

Page 53: UNIVERSIDADE METODISTA DE SÃO PAULO - …tede.metodista.br/jspui/bitstream/tede/1585/2/Andre Rosa de... · Este es uno de los cambios producidos ... estructuras son indispensables

53

Figura 2.1 – Ciclo de um objeto de informação

Fonte: BACA, 2008.

Os metadados podem ser descritivos (voltados à descoberta e à identificação de

objetos), contextuais (como as informações técnicas registradas por uma câmera digital

em uma foto, bem como metadados administrativos que indicam a origem das

informações e direitos de uso) ou estruturais (que definem relações entre esses objetos).

Dificilmente os metadados são utilizados isoladamente: esquemas de metadados podem

especificar o significado de um item, regras de armazenamento, preservação e sintaxe.

Jeffrey Pomerantz, cientista da informação e entusiasta do termo, oferece uma

contribuição importante para essa definição: metadados são afirmações a respeito de um

objeto potencialmente informativo (POMERANTZ, 2015, p. 35). Por trás desta ideia

reside a dureza ao se construí-la a partir da profundidade de cada palavra: o que quer

dizer “descrição” ou “afirmação”? Ou mesmo “dados”, normalmente entendidos como

algo em “estado bruto”? E mais: um “assunto” ou “tópico” são rótulos costumeiramente

subjetivos.

A etimologia do termo remete ao prefixo grego “meta” (superior, em nível mais

alto) e à palavra latina “data” (plural de datum, ou seja, “pedaços de informação”).

Metadados seriam, portanto, dados sobre dados. Contudo, a ideia por trás da palavra é

Page 54: UNIVERSIDADE METODISTA DE SÃO PAULO - …tede.metodista.br/jspui/bitstream/tede/1585/2/Andre Rosa de... · Este es uno de los cambios producidos ... estructuras son indispensables

54

bem mais antiga: começa com Aristóteles, que discutia “o ser enquanto ser”, isto é, o

que está por trás dele, dando origem ao conceito de “metafísica”, por volta de 350 a.C.

(POMERANTZ, 2015). Mas a definição do termo vem sendo influenciada tanto pelos

objetos que o utilizam quanto pelas suas múltiplas aplicações. A Figura 2.2 sintetiza as

relações entre áreas do conhecimento que se interessam pelo termo, aproximando-as da

Comunicação e, consequentemente, do Jornalismo.

Figura 2.2 – Conexões interdisciplinares em torno de metadados

Fonte: Produzida pelo autor.

Page 55: UNIVERSIDADE METODISTA DE SÃO PAULO - …tede.metodista.br/jspui/bitstream/tede/1585/2/Andre Rosa de... · Este es uno de los cambios producidos ... estructuras son indispensables

55

2.2 Conexões interdisciplinares dos metadados

Como vimos, os problemas que envolvem a informação e a comunicação, suas

manifestações, o comportamento informativo humano e os problemas aplicados ligados

ao “tornar mais acessível um acervo crescente de conhecimento”, incluindo as tentativas

de ajustes tecnológicos, não podem ser resolvidos no âmbito de uma única disciplina

(SARACEVIC, 1996) – o que reforça o interesse do campo das Ciências Sociais por

pesquisas interdisciplinares: sozinha, a área não dá conta das relações estabelecidas

entre a sociedade e as mídias (LOPES, 2002).

A propósito das bases de dados, escopo deste trabalho, Dodgson e Gann (2010)

lembram que, no contexto do pós-guerra norte-americano, um dos maiores

incentivadores da relação entre pesquisa científica e inovação foi o engenheiro e

cientista do Massachusetts Institute of Technology (MIT) Vannevar Bush, considerado

um dos precursores da Ciência da Informação durante sua proximidade com o governo

norte-americano nos anos 1940. Os conceitos por trás do MEMEX, ideia abstrata

compartilhada em 1945 diante da questão da explosão informacional e de seus registros,

deram origem à problematização da recuperação de informação (SARACEVIC, 1996),

advindo daí a Ciência da Informação. A Comunicação é mencionada como uma das

quatro áreas do conhecimento, ao lado das Ciências Cognitivas, como fundamentais

para a definição de suas fronteiras.

No que se refere ao caminho percorrido pelos metadados, outras duas merecem

destaque: a Biblioteconomia e a Ciência da Computação. Dos caminhos percorridos por

essas áreas, o mais antigo é, seguramente, o da Biblioteconomia: são três mil anos

desenvolvendo ferramentas e técnicas para classificar e descrever a informação,

organizando-a e preservando-a como forma de garantir a permanência de verdadeiros

patrimônios culturais, sendo que a mesma lógica pode ser estendida a outras instituições

que lidam com memória, como os museus.

Apesar de sua atividade milenar, o problema da informação se tornou mais

complexo. Enquanto a Biblioteconomia direcionou seus estudos para processos de

documentação e sua preservação, emergia a Ciência da Computação, derivada da

Matemática a partir de pensamentos pioneiros como os de Alan Turing, que em 1936

imaginou um controlador capaz de ler, escrever e mover uma fita infinita, inscrita com

números. A partir de sua máquina abstrata, foi possível imaginar: tudo o que pudesse

Page 56: UNIVERSIDADE METODISTA DE SÃO PAULO - …tede.metodista.br/jspui/bitstream/tede/1585/2/Andre Rosa de... · Este es uno de los cambios producidos ... estructuras son indispensables

56

ser traduzido a partir de instruções sequenciais seria realizado, potencialmente, por uma

máquina como essa (WILSON; KEIL, 1999).

A abstração de problemas por meio do pensamento computacional provocou

estímulos em todas as áreas do conhecimento. De fato, a essência do pensamento de

Turing mudou quase tudo sobre a forma como a ciência é feita, bem como nossas vidas

acontecem à medida que as máquinas computacionais evoluem (MITCHELL, 2009, p.

69) – assim como os meios eletrônicos de armazenamento de informações traduzidas

nos binary digits imaginados por Claude Shannon.

Com o advento dos bancos de dados, tornou-se possível criar e armazenar dados estruturados sobre qualquer coisa, não apenas metadados descritivos

sobre recursos em coleções de bibliotecas. Claro que empresas e governos, em particular, têm sempre recolhidos e armazenados dados estruturados para fins que vão além da descrição: contabilidade de lucros e perdas, inventários, documentos fiscais, censos, etc. existem no papel – e em tecnologias ainda mais antigas – por milênios (POMERANTZ, 2015, p. 14, tradução nossa)30.

Para sistematizar o conhecimento por meio de uma relação entre processos e

declarações formais, a Ciência da Computação preocupou-se mais em definir e

especificar metadados (CAPLAN, 2003), possibilitando que as máquinas

computacionais realizem conexões entre eles e desenvolvam pesquisas relacionadas a

agentes de Inteligência Artificial, Processamento de Linguagem Natural, entre outras

ferramentas relacionadas ao armazenamento, recuperação e reutilização de informações

em bases de dados – e, a esse respeito, talvez a mais conhecida solução tenha sido

desenvolvida por dois alunos de Stanford no final do século passado (BRIN; PAGE,

2012). Derivada da Ciência da Computação, a Engenharia de Software pode aplicar

essas ferramentas e tecnologias na construção de modelos – a linguagem UML (Unified

Modeling Language) é usada para especificar os requisitos e funções para a construção

de sistemas de software por meio de diagramas, antes de sua execução. Pode parecer

distante de qualquer pesquisa em Comunicação, mas esta linguagem já dialoga com

problemas do Jornalismo (LIMA JUNIOR, 2006a; RAMOS, 2011).

De forma menos intrincada, o termo que define a sequência de instruções

imaginada por Alan Turing tornou-se altamente persuasivo: algoritmo.

30

Versão original: “With the advent of the database, it became possible to create and store structured data

about anything, not just descriptive metadata about resources in library collections. Of course, business

and governments, in particular, have always collected and stored structured data for more than

descriptive purposes: ledger of profit and loss, inventories, tax documents, censuses, and the like, have

existed on paper – and even earlier technologies – for millenia”.

Page 57: UNIVERSIDADE METODISTA DE SÃO PAULO - …tede.metodista.br/jspui/bitstream/tede/1585/2/Andre Rosa de... · Este es uno de los cambios producidos ... estructuras son indispensables

57

Trata-se de um passo-a-passo computacional, um código de programação, executado numa dada periodicidade e com um esforço definido. O conceito

de algoritmo permite pensá-lo como um procedimento que pode ser executado não apenas por máquinas, mas também por homens, ampliando seu potencial de acuidade associada à personalização. Deste modo, desenhar um algoritmo é elaborar uma série de instruções com a finalidade de resolver um problema (CORRÊA; BERTOCCHI, 2012b, p. 7).

Mesmo sendo uma sequência de instruções codificadas em softwares, os

algoritmos já foram capazes de escrever sinfonias tão comoventes quanto as de

Beethoven; de transitar por meio de decisões jurídicas e diagnósticos clínicos; de

controlar o tráfego em vias movimentadas; e, por fim, de escrever uma reportagem com

mão tão suave quanto a de um jornalista experiente (STEINER, 2012). De um lado, um

algoritmo pode ser visto como uma ferramenta capaz de realizar uma tarefa mais rápida

– se possível, automaticamente; de outro, está a imagem negativa de que sistemas

inteligentes prejudicam aspectos culturais na tentativa de equacionarem problemas

financeiros. Não à toa é que, para Steiner (2012), as pessoas que conseguem criar

códigos capazes de correr em oceanos de dados e de executar tarefas que pareciam

impossíveis há poucos anos estão em ascensão social.

Está claro que esses dois pontos de vista são defasados. E provavelmente ambos estão errados, ou melhor, estão nitidamente incompletos. Trata-se de um medo histórico da autonomia das máquinas aplicado a uma profissão que sofre e não aproveita a total incerteza que atravessa e que poderia contar a seu favor. Entender os algoritmos de outra maneira, menos reducionista, é uma grande missão intelectual para repensar o que fazemos nesta indústria

onde, supostamente, nada podia ser automatizado (MANCINI, 2011, p. 46, tradução nossa)31.

Com a consolidação da Web como meio de comunicação a partir dos anos 1990,

as preocupações se tornaram mais complexas. O fato de ela “desaparecer” aos poucos –

isto é, de uma “enorme quantidade de conhecimento inestimável sumir” – representa

desafios que motivaram, entre outras iniciativas, a criação de uma comunidade

internacional de arquivamento da Web, o International Internet Preservation

31

Versão original: “Está claro que esas dos miradas atrasan. Y que probablemente las dos estén

equivocadas o, mejor dicho, sean marcadamente incompletas. Se trata del miedo histórico a la

autonomía de las máquinas aplicado a una profesión que padece y no aprovecha la plena alza de

incertidumbre que atraviesa y podría contar a su favor. Entender a los algoritmos de otra manera, menos

reduccionista, es una misión intelectual mayúscula para repensar lo que hacemos en esta industria

donde, se suponía, nada podía ser automatizado”.

Page 58: UNIVERSIDADE METODISTA DE SÃO PAULO - …tede.metodista.br/jspui/bitstream/tede/1585/2/Andre Rosa de... · Este es uno de los cambios producidos ... estructuras son indispensables

58

Consortium32 (XIE et al., 2013), bem como o mais popular serviço de arquivamento da

Web, o Internet Archive33. O crescente volume de dados disponíveis e acessíveis por

navegadores, sejam eles publicadas originalmente na Web ou digitalizados para

posterior recuperação, também trouxe às bibliotecas preocupações quanto à descrição de

informações em níveis cada vez mais granulares, que funcionem a níveis mais

específicos e em partes pequenas, definindo novos esquemas e relacionando atributos

entre objetos (HAN, 2012).

No início da Web, muitas pessoas, especialmente a emergente comunidade de bibliotecas digitais, viram nos metadados a solução a longo prazo para o problema da descoberta de recursos na Web. O raciocínio por trás disso era muito lógico e remonta ao exemplo clássico de metadados: catálogos da biblioteca provaram sua eficácia ao fornecerem tanto o acesso quanto o controle de grandes coleções bibliográficas. Então por que a Web seria

diferente? (BACA, 2008, tradução nossa)34.

Paralelamente, a face mais amigável da internet e sua facilidade de acesso e

inserção de conteúdos (LIMA JUNIOR, 2013b) permitem que a elaboração de

estruturas, contextos ou de outras formas de organização de informações no ambiente

Web não seja feita, especificamente, por profissionais da Biblioteconomia, da Ciência

da Computação, da Comunicação ou, em sua “confluência”, da Ciência da Informação.

A proliferação de aplicações de relacionamento e disseminação de informações revelou

novos problemas acerca de sua preservação e recuperação – o que pode ser demonstrado

por meio de trabalhos que calculam a quantidade de recursos compartilhados pela Web

em mídias sociais que desaparecem em um ano, nos quais o número chega a 11%

(SALAHELDEEN; NELSON, 2012).

A relação entre as bibliotecas e o Jornalismo reside, por exemplo, no interesse

histórico em digitalizar e recuperar arquivos históricos de jornais. Nesse contexto, os

metadados precisam dar conta de descrever e estruturar grandes volumes de informação

baseados em antigas páginas impressas (ALLEN; SCHALOW, 1999). Um exemplo no

qual há convergência entre as áreas de interesse por metadados e o Jornalismo pode ser

encontrado no projeto NDNP (National Digital Newspaper Program), promovido pela

32

Disponível em: <http://www.netpreserve.org>. Acesso em: 15 dez. 2015. 33

Disponível em: <http://web.archive.org>. Acesso em: 15 dez. 2015. 34

Versão original: “In the early days of the Web, many people, particularly in the emerging digital library

community, saw metadata as the long-term solution to the problem of resource discovery on the Web.

The reasoning behind this was very logical and goes back to the classical example of metadata: Library

catalogs had proved their efficacy in providing both access to and control of large bibliographic

collections, so why should the Web be different?”.

Page 59: UNIVERSIDADE METODISTA DE SÃO PAULO - …tede.metodista.br/jspui/bitstream/tede/1585/2/Andre Rosa de... · Este es uno de los cambios producidos ... estructuras son indispensables

59

Biblioteca do Congresso norte-americano para criar e manter uma base de dados de

jornais históricos digitalizados. O resultado do projeto é o site Chronicling America35,

que disponibiliza, inclusive, uma API para consultas (YARASAVAGE; BUTTERHOF;

EHRMAN, 2012).

Ao mesmo tempo que a Web cresce por conta da facilidade em publicar

conteúdos, há uma expectativa diante de uma etapa avançada de desenvolvimento desse

ambiente. Ao lado de outros pesquisadores, seu criador, Tim Berners-Lee, debruça-se

sobre o desafio da Web de Dados (ou, ainda, da Web Semântica36

).

A Web Semântica vai trazer estrutura para um conteúdo significativo das páginas web, criadas em um ambiente onde agentes de software possam

passear entre as páginas e prontamente executar tarefas muito complexas para os usuários... A Web Semântica não é uma Web separada, mas uma extensão da atual, em que a informação é dada com um significado bem definido, permitindo que os computadores e as pessoas trabalhem em cooperação (BERNERS-LEE; HENDLER; LASSILA, 2001, tradução nossa)37.

Resumidamente, a Web de Dados refere-se à capacidade de os computadores

reconhecerem dados, em oposição ao paradigma da “web de documentos”. Uma

organização pode criar, por exemplo, uma base denominada mean-diurnal-temperature

(temperatura diária média), enquanto outra faz o mesmo, denominando-a daily average-

temp – é a mesma informação, com nomes diferentes. Trata-se de um problema enorme:

continuamente, as bases de dados são produzidas e disponibilizadas em rede por

diferentes grupos e empresas com as mais variadas intenções. Ainda nas palavras do

físico britânico, o poder dessa Web de Dados será visível “quando as pessoas criarem

muitos programas que coletam conteúdo da Web a partir de diversas fontes,

processarem a informação e fizerem o intercâmbio dos resultados”, de modo que

“muitas coisas antes impossíveis pareçam óbvias” (BERNERS-LEE, 2000, p. 198).

Com a emergência da Web como uma plataforma de produção e criação de

conteúdo (inclusive jornalístico), bem como ante seu objetivo de tornar seus conteúdos

interoperáveis a partir dessa visão, a importância dos metadados ganhou força.

35

Disponível em: <http://chroniclingamerica.loc.gov>. Acesso em: 15 dez. 2015. 36

O conceito original de Tim Berners-Lee pode ser explorado em: <http://www.w3.org/2001/sw/>.

Acesso em: 15 dez. 2015. 37

Versão original: “The Semantic Web will bring structure to the meaningful content of Web pages,

creating an environment where software agents roaming from page to page can readily carry out

sophisticated tasks for users... The Semantic Web is not a separate Web but an extension of the current

one, in which information is given well-defined meaning, better enabling computers and people to work

in cooperation”.

Page 60: UNIVERSIDADE METODISTA DE SÃO PAULO - …tede.metodista.br/jspui/bitstream/tede/1585/2/Andre Rosa de... · Este es uno de los cambios producidos ... estructuras son indispensables

60

2.3 Objetos de informação rotulados na Web: uma classificação

Como vimos, Berners-Lee (2000) elaborou uma teia descentralizada, na qual

fragmentos de texto seriam conectados num sistema universal, abrangente, flexível e

colaborativo. Enquanto trabalhava na Organização Europeia para a Pesquisa Nuclear

(em francês, CERN) e sentia a necessidade de organizar informações que eram perdidas

em função da rotatividade de pesquisadores, ele escreveu os primeiros programas que

funcionariam numa infraestrutura de comunicações baseada em computadores

conectados e definiu os parâmetros associados aos acrônimos URL (identificadores

universais de recursos), HTTP (protocolo de transferência de hipertexto) e HTML

(linguagem para marcação de hipertexto). Essas são as únicas premissas da World Wide

Web.

Modelos de metadados correspondem a uma estratégia para organização de

conteúdos para a Web (HALVORSON; RACH, 2012, p. 32). No Jornalismo, a criação,

a administração e o arquivamento desses recursos podem ser realizados a partir de

sistemas de publicação e gerenciamento de conteúdos, “dispositivos tecnológicos que

envolvem processos relacionais, ou seja, dependem do meio associado, do contexto no

qual estão inseridos, interconectando bancos de dados”, já são identificados como

ferramentas responsáveis pela gestão de blocos de informações a partir de “determinada

lógica, disponíveis ou não para outros aplicativos” (SCHWINGEL; CORREA, 2013).

A relação entre os metadados e as áreas do conhecimento preocupadas com a

descrição, recuperação e interoperabilidade de informações influenciou na criação de

modelos de processamento e relacionamento entre essas informações. Todavia, a

aplicação desses princípios em blocos de informações elaborados por sistemas de

gerenciamento é pouco explorada no paradigma do Jornalismo Digital em Bases de

Dados. Normalmente, ao lidar com o potencial aproveitamento de sistemas para

gerenciamento de conteúdo, a preocupação reside essencialmente em processos

amigáveis de publicação de conteúdos, resultando na melhor forma de apresentá-los em

uma página Web. Na prática, esses processos correspondem ao “negrito na assinatura do

autor, links manuais em nomes de cidades para as páginas relacionadas a elas, listas

com marcadores destacando empresas ao final de um artigo...” (WACHTER-

BOETTCHER, 2012, p. 68).

A partir da visão centrada em documentos – originária da Biblioteconomia – até

a formalização e representação da informação por algoritmos – desenvolvidas pela

Page 61: UNIVERSIDADE METODISTA DE SÃO PAULO - …tede.metodista.br/jspui/bitstream/tede/1585/2/Andre Rosa de... · Este es uno de los cambios producidos ... estructuras son indispensables

61

Computação –, percebe-se uma progressão entre tecnologias e padrões de metadados

possíveis para bases digitais na Web. Essa classificação começa em um nível mais

simples e desordenado, chegando a práticas de compartilhamento que potencialmente

alicerçam a Web de Dados.

É importante ressaltar que, num contexto como páginas Web, não se trata apenas

de um acréscimo do código HTML, comum em processos de otimização de páginas

Web, mas sim da descrição de objetos e de suas relações com outros conceitos,

alcançando um grau de uniformidade na descrição por meio de funções e esquemas

(SICILIA; LYTRAS, 2009). Em outras palavras: trata-se de metadados descritivos,

administrativos ou que definem estruturas que podem ter maior ou menor nível de

detalhamento e relacionamento. A Figura 2.3 sintetiza esses níveis, apresentando alguns

conceitos e tecnologias associados a cada um. É importante ressaltar que, quanto mais

sofisticados o modelo, a classificação, os critérios e os padrões tecnológicos usados,

mais complexos eles são – porém, também mais interessantes e promissores.

Figura 2.3 – Classificação proposta para níveis de detalhamento e relacionamento de metadados

Fonte: Produzida pelo autor.

Page 62: UNIVERSIDADE METODISTA DE SÃO PAULO - …tede.metodista.br/jspui/bitstream/tede/1585/2/Andre Rosa de... · Este es uno de los cambios producidos ... estructuras son indispensables

62

Marcações

Mesmo no processo elementar de transposição de um “jornal on-line” para esse

ambiente no qual cada texto está relacionado a uma seção ou canal, é fácil identificar

rótulos que tanto sejam descritivos quanto estruturais. O primeiro caso é mais evidente

– por exemplo, uma página identificada com a editoria “Cidades”; o segundo diz

respeito à linguagem de marcação, componente elementar de qualquer página

visualizada por um navegador.

Grosso modo, as tags HTML podem servir para descrever estruturas de texto em

uma página. Tanto um usuário quanto um sistema podem reconhecer que o título de um

documento é exatamente o conjunto de dados posicionado entre as marcações <title> e

</title>, por exemplo. Opcionalmente, palavras-chave e descrições podem ser

publicadas em marcações próprias para metadados descritivos para a Web – as tags

<meta>. Ou, ainda, por meio de links, podem indicar conteúdos relacionados.

No entanto, não há nenhuma regra de uso ou escolha para desenvolvedores ou

produtores de conteúdo rotularem dados em páginas Web: a escolha de uma palavra ou

expressão para servir de âncora a um link segue o mesmo critério de definição para se

nomear uma editoria de “Cidades”, “Geral”, “Cotidiano”, enfim. Da mesma forma,

qualquer indivíduo familiarizado com ambientes amigáveis da Web (ou, em outra ponta,

qualquer algoritmo programado para tal) utiliza sistemas em sites de relacionamento ou

outras ferramentas de publicação para compartilhar fragmentos de informação pela rede.

Nesses termos, a complexidade da rede se torna evidente: seja de um usuário ou de um

código de programação, não há como exigir algum esforço no sentido de se preocupar

com critérios que rotulem essas informações.

Assim, nessa proposta de classificação, a marcação corresponde à adoção de

metadados sem levar em conta algum critério ou padrão de escolha. Entre essas práticas,

o termo folksonomia ganhou fôlego. Folksonomia é o acúmulo de termos e palavras que

resultam de processos baseados em etiquetagem social (BACA, 2008), representando

uma coleção de dados úteis sobre interesses coletivos. Corrêa e Bertocchi (2012a, p.

127) reforçam que a folksonomia pode se tornar rica em jargões, expressões populares e

termos corriqueiros que passam a ganhar as características da linguagem natural: o

multilinguismo, a ambiguidade, a inventividade.

Por trás de ferramentas de compartilhamento populares, como, por exemplo, o

YouTube (para vídeos) e o Flickr (para fotos), a lógica das social tags é evidente:

Page 63: UNIVERSIDADE METODISTA DE SÃO PAULO - …tede.metodista.br/jspui/bitstream/tede/1585/2/Andre Rosa de... · Este es uno de los cambios producidos ... estructuras son indispensables

63

enquanto disponibilizam conteúdos, os usuários podem marcá-los (se desejarem) com

palavras-chave. Mas sua importância ficou evidente a partir de 2007, com a

popularização do Twitter38. Por se tratar de uma ferramenta para compartilhamento de

um fragmento de texto com apenas 140 caracteres, nunca houve espaço nativo para o

uso de tags. Até que o desenvolvedor Chris Messina deu uma sugestão para reduzir o

ruído na troca de mensagens: rotulá-las por meio de uma tag precedida do sinal # (em

inglês, hash). Não é preciso ir longe para reconhecer que esse estilo de marcação,

batizada de hashtag, foi muito além do próprio Twitter: está presente em outros sites de

relacionamento e fora dele – como na identificação de programas de tevê, por exemplo.

Para a pesquisadora Luciana Moherdaui, a lógica por trás das marcações sociais

por meio de tags e sua consequente reutilização em nuvens de comunicação (ideia por

trás da folksonomia) representam uma bagunça com organização própria, marcada

especialmente pela diversidade cultural. Além disso, “são a chave para a constituição

temporária e cambiante de projetos artísticos na rede ou para engajar pessoas em torno

de algo”, sendo possível aplicar o mesmo raciocínio à composição de notícias

(MOHERDAUI, 2011). Ainda envolvendo o Jornalismo como objeto de pesquisa,

Bahareh Heravi, pesquisadora do Digital Enterprise Research Institute39

, investiga

maneiras para o Jornalismo aproveitar marcações desestruturadas elaboradas por

usuários por meio de tecnologias semânticas – é o que ela define como Social Semantic

Journalism (HERAVI; BORAN; BRESLIN, 2012).

Marcações desestruturadas correspondem a um enorme desafio para quem lida

com metadados. Alguém poderia rotular uma notícia bizarra (no jargão jornalístico, fait

divers) com a tag “mundoidão”, termo inexistente em qualquer dicionário da Língua

Portuguesa, mas de fácil interpretação. Ainda assim, diante de processos

computacionais, o que a tag “mundoidão” representa? Quais as suas conexões?

O fato de a internet ser em grande parte não controlada torna o solo rico para o vocabulário descontrolado. Enquanto um vocabulário controlado proporciona um conjunto finito de termos que podem ser utilizados como valores para um elemento particular em um esquema de metadados, um vocabulário não controlado permite que qualquer termo possa ser usado. E qualquer termo significa realmente isso: não se trata apenas do completo

38

A primeira menção ao termo “hashtag” é atribuída ao blog do pesquisador Stowe Boyd, em “Hash

Tags = Twitter Groupings”. Disponível em: <http://stoweboyd.com/post/39877198249/hash-tags-

twitter-groupings>. Acesso em: 10 abr. 2016. 39

Disponível em: <http://www.deri.ie>. Acesso em: 10 abr. 2016.

Page 64: UNIVERSIDADE METODISTA DE SÃO PAULO - …tede.metodista.br/jspui/bitstream/tede/1585/2/Andre Rosa de... · Este es uno de los cambios producidos ... estructuras son indispensables

64

léxico da língua escolhida, como também da existência de termos inventados (POMERANTZ, 2015, p. 49, tradução nossa)40.

Tal cenário estimula esforços para criar padrões ou esquemas controlados

envolvendo metadados, sendo que, à medida que esse controle aumenta, maior o nível

de uso e estruturação. Mas, como veremos a seguir, “padrões são como escovas de

dentes: todo mundo concorda que a ideia é boa, mas ninguém gosta de compartilhar”41

.

Esquemas

Existe caminho possível no que tange à definição de critérios para a utilização

de metadados? Em um artigo provocativo, o jornalista e escritor canadense Cory

Doctorow (2001) sintetizou o que denominou metacrap, isto é, qualquer tentativa

humana de estabelecer algum padrão. Em sua visão, as pessoas são preguiçosas demais

para assumir algum padrão – ou mentem, como em um e-mail cujo assunto é

“informação importante para você”. Além disso, há muitas formas de descrever a

mesma coisa, tornando o ato dos “guardiões da epistemologia sentarem e racionalmente

mapearem uma hierarquia de ideias” uma meta-utopia (DOCTOROW, 2001). Embora

seu texto seja intencionalmente ficcional e bem-humorado, ele aponta para dificuldades

reais.

Para exemplificar, vejamos o que houve em março de 1995. A National Center

for Supercomputing Applications (NCSA, centro responsável pelo lançamento do

primeiro navegador Web, o Mosaic) e a Online Computer Library Center (OCLC)

organizaram um workshop para discutir padrões de metadados para a Web. O consenso

desse encontro, que reuniu cientistas da informação e da computação, permanece atual:

para que mecanismos de busca na Web sejam de fato úteis, as informações

compartilhadas nesse ambiente deveriam ser descritas de maneira adequada. Desse

encontro nasceu a iniciativa Dublin Core Metadata Element Set42.

40

Versão original: “The fact that the internet is largely uncontrolled, makes it rich soil for the

uncontrolled vocabulary. Where a controlled vocabulary provides a finite set of terms that may used as

values for a particular element in a metadata schema, an uncontrolled vocabulary allows any term to be

used. And any term really does mean any: not only is the entire range of words in your chosen language

fair game, but an uncontrolled vocabulary allows terms to be invented on the spot”. 41

Em inglês, a frase original é: “Standards are like toothbrushes, a good idea but no one wants to use

anyone elses”. No livro Metadata (POMERANZ, 2015), a expressão é atribuída à pesquisadora Murtha

Bacca. 42

Disponível em: <http://dublincore.org>. Acesso em: 15 dez. 2015.

Page 65: UNIVERSIDADE METODISTA DE SÃO PAULO - …tede.metodista.br/jspui/bitstream/tede/1585/2/Andre Rosa de... · Este es uno de los cambios producidos ... estructuras son indispensables

65

O padrão Dublin Core para descrição de elementos permite relacionar 15

elementos de metadados para cada objeto, sem contar a possibilidade de aumentar sua

especificidade por meio de orientações sobre a codificação e o processamento desses

objetos. Ele é um dos mais populares exemplos de esquema, ou seja, tal padrão

estabelece algum relacionamento entre objetos de informação por meio de critérios

designados previamente.

Paralelamente, outros projetos procuram esquematizar informações jornalísticas.

Um dos mais audaciosos é o Global Database of Events, Language, and Tone

(GDELT), plataforma que monitora a mídia e acumula informações relacionadas a

política e conflitos datadas de 1979, baseando-se em agências de notícia e em alguns

jornais norte-americanos. Em 2013, o set de dados registrava mais de 200 milhões de

eventos – são 100.000 novos eventos de todo o planeta adicionados diariamente a partir

de fontes como Associated Press, France Presse e a chinesa Xinhua –, codificados e

estruturados por meio de uma codificação automática de locais, personagens e eventos

políticos. O código foi batizado de Conflict and Mediation Event Observations – ou

simplesmente CAMEO (LEETARU; SCHRODT, 2013).

O GDELT conecta pessoas, organizações, localizações e temas43

, permitindo,

entre outras possibilidades, a predição de eventos por meio de variáveis como

abrangência global, densidade, codificação geográfica, precisão e disponibilidade de

acesso futuro. É possível, por exemplo, prever níveis de violência no Afeganistão

(YONAMINE, 2013).

Esquemas de metadados presumem, portanto, padrões de relacionamento (é o

caso do Dublin Core e do CAMEO), bem como termos e vocabulários controlados. Em

bases de dados estruturadas, o esquema mais elementar são os nomes atribuídos às

tabelas e suas colunas. Outra forma comum de nomear um sistema de classificações e

envolver termos e seus conceitos é denominada “taxonomia”. A prática relacionada ao

termo vem do século XVIII, quando o botânico e zoólogo Carl von Linné desenvolveu a

classificação de seres vivos por meio de uma hierarquia (WACHTER-BOETTCHER,

2012, p. 55). Dicionários de sinônimos (thesaurus) são exemplos de vocabulários

controlados que podem compor taxonomias.

O W3C, consórcio que estabelece boas práticas para a Web, recomenda

especificações baseadas em eXtensible Markup Language (XML). Trata-se da mais

43

Disponível em: <http://www.gdeltproject.org>. Acesso em: 22 out. 2014.

Page 66: UNIVERSIDADE METODISTA DE SÃO PAULO - …tede.metodista.br/jspui/bitstream/tede/1585/2/Andre Rosa de... · Este es uno de los cambios producidos ... estructuras son indispensables

66

comum entre as formas de descrever esquemas de metadados na Web44

. Isso é possível

porque, ao contrário do HTML, o XML permite definir seus próprios rótulos, dando

ênfase à descrição dos conteúdos e permitindo o acréscimo de rótulos de acordo com a

necessidade. Porém, uma linguagem flexível não é suficiente: para compartilhar um

significado, é necessário que um esquema de compartilhamento seja "consensual e

inteligível de forma não ambígua entre todos os participantes de uma comunidade"

(SOUZA; ALVARENGA, 2004, p. 135).

De acordo com seus objetivos, comunidades distintas definem padrões e

vocabulários relacionados a estrutura, conteúdo e sintaxe para organizar suas

informações utilizando metadados. É o caso do programa nacional de digitalização de

jornais45

proposto pela Biblioteca do Congresso dos Estados Unidos em 2004, que

desenvolveu a combinação de padrões de metadados estruturais – Metadata Encoding

and Transmission Standard (METS) e Technical Metadata for Optical Character

Recognition (ALTO). Ambos são usados em projetos de digitalização de acervos

jornalísticos históricos.

Além do padrão Dublin Core, já mencionado, existem outros esquemas: DITA,

FOAF, SIOC, SKOS, DOAP, vCard e OAI-ORE (BIZER; HEATH; BERNERS-LEE,

2009). As organizações de mídia também possuem padrões de codificação próprios,

como os definidos pelo International Press Telecommunications Council46. Os recursos

disponíveis pelo IPTC (entre eles, EventsML-G2, NewsML-G2, SportsML-G2, rNews,

IIM, NewsML 1, IPTC 7901 e NITF) permitem acrescentar metadados a objetos como

textos, fotografias, áudios e vídeos (TRONCY, 2008). Mesmo sendo uma iniciativa

conhecida e adotada por grandes jornais e agências de notícias, o pesquisador Tassilo

Pellegrini (2012, p. 126, tradução nossa) identifica um obstáculo em sua utilização:

A adoção prática dos códigos do IPTC na indústria de notícias e seu uso em sistemas de gerenciamento de conteúdo editorial e aplicativos é limitada a uma pequena fração do vocabulário existente, o que por um lado é um forte

indicador de especificações em excesso e, por outro, da falta de uma elaborada ‘cultura de metadados’ na gestão da informação dentro dos fluxos de trabalho editoriais47.

44

Uma descrição detalhada dos padrões XML está disponível em: <https://www.w3.org/standards/xml/>.

Acesso em: 22 out. 2014. 45

Disponível em: <http://www.loc.gov/ndnp>. Acesso em: 22 out. 2014. 46

Disponível em: <http://iptc.org/standards/>. Acesso em: 10 abr. 2016. 47

Versão original: “The practical uptake of the IPTC codes among the news industry and its usage in

editorial content management systems and applications is limited to a small fraction of the existing

vocabulary which is a strong indicator for over-specification on the one side and a lack of an elaborated

‘metadata culture’ in the management of information within editorial workflows on the other”.

Page 67: UNIVERSIDADE METODISTA DE SÃO PAULO - …tede.metodista.br/jspui/bitstream/tede/1585/2/Andre Rosa de... · Este es uno de los cambios producidos ... estructuras son indispensables

67

Além de questões culturais ou do número extenso de propostas, Jeffrey

Pomerantz (2015) apresenta outro fator para explicar os custos de adoção a qualquer um

desses esquemas: a ausência de simplicidade. Para elucidar o que entende por

complexidade, ele cita o sociólogo Everett Rogers, autor do livro Diffusion of

Innovations (POMERANTZ, 2015, p. 69, tradução nossa):

Para que seja adotada, uma inovação deve ser percebida como de uso simples. Ou, para dizer de outra forma: se aqueles que talvez achem uma

inovação útil perceberem que ela é muito complexa, então os usuários potenciais nunca se tornarão usuários de fato48.

Foi o discurso da simplicidade que provocou a criação de alternativas entre os

desenvolvedores Web. É o caso dos microformatos, um tipo simples de marcação usado

com frequência para a marcação de eventos, especificações de pessoas ou organizações.

Ou, ainda, os microdados se utilizam de vocabulários para descrever itens – tal como o

Schema.org, criado em conjunto por três empresas do ramo das buscas: Bing, Google e

Yahoo! (RONALLO, 2014).

Os microdados se apresentam como uma alternativa a outro padrão do W3C: o

Resource Description Framework (RDF) e sua evolução, o RDFa, sendo que a

diferença provocada pelo “a” ao fim da sigla diz respeito aos atributos que podem ser

definidos no próprio conteúdo, já que o RDF necessita de um arquivo separado. Ronallo

(2014, tradução nossa) observa que “com todo esse poder expressivo vem alguma

dificuldade, e a implementação do RDFa provou ser excessivamente complexa para a

maioria dos desenvolvedores Web”49

. O Quadro 2.1 ilustra exemplos valendo-se de

microformatos, microdados e RDFa.

Contudo, antes de compreender o significado de RDF, é preciso avançar mais

um degrau na utilização de metadados como elemento para descrição e estruturação de

bases de dados, observando a existência de sistemas inteligentes que “se baseiem mais

em ontologias do que em taxonomias” (CORRÊA; BERTOCCHI, 2012b).

48

Versão original: “In order to be adopted, an innovation must be perceived as being simple to use. Or, to

state this in reverse: if those who might find an innovation useful perceive it as being too complex, then

those potential users will never become actual users”. 49

Versão original: “With all that expressive power comes some difficulty, and implementing RDFa has

proven to be overly complex for most Web developers”.

Page 68: UNIVERSIDADE METODISTA DE SÃO PAULO - …tede.metodista.br/jspui/bitstream/tede/1585/2/Andre Rosa de... · Este es uno de los cambios producidos ... estructuras son indispensables

68

Quadro 2.1 – Exemplos de marcação semântica de localidade HTML simples <div>

L'Amourita Pizza

Localizado em rua Main St 123, Albuquerque, Novo México. Telefone: 206-555-1234

<a href="http://pizza.example.com">http://pizza.example.com</a>

</div>

Microformatos <div class="vcard">

<span class="fn org">L'Amourita Pizza</span>

Localizado em <div class="adr">

<span class="street-address">Main St 123</span>, <span

class="locality">Albuquerque</span>, <span class="region">Novo México</span>. </div>

<span class="geo">

<span class="latitude">

<span class="value-title" title="37.774929"></span> </span>

<span class="longitude">

<span class="value-title" title="-122.419416"></span>

</span> </span>

Telefone: <span class="tel">206-555-1234</span>

<a href="http://pizza.example.com/" class="url">http://pizza.example.com</a>

</div>

RDFa <div xmlns:v="http://rdf.data-vocabulary.org/#" typeof="v:Organization">

<span property="v:name">L'Amourita Pizza</span> Localizado em

<div rel="v:address">

<div typeof="v:Address">

<span property="v:street-address">Main St 123</span>, <span property="v:locality">Albuquerque</span>,

<span property="v:region">Novo México</span>.

</div>

</div> <div rel="v:geo">

<span typeof="v:Geo">

<span property="v:latitude" content="37.4149"></span>

<span property="v:longitude" content="-122.078"></span> </span>

</div>

Telefone: <span property="v:tel">206-555-1234</span>

<a href="http://pizza.example.com/" rel="v:url">http://pizza.example.com</a> </div>

Microdados <div itemscope itemtype="http://data-vocabulary.org/Organization">

<span itemprop="name">L’Amourita Pizza</span>

Localizado em

<span itemprop="address" itemscope itemtype="http://data-vocabulary.org/Address"> <span itemprop="street-address">123 Main St</span>,

<span itemprop="locality">Albuquerque</span>,

<span itemprop="region">Novo México</span>.

</span> Telefone: <span itemprop="tel">206-555-1234</span>.

<a href="http://www.example.com" itemprop="url">http://pizza.example.com</a>.

</div>

Fonte: Adaptado de GOUVÊA; LOH, 2012, p. 8050

.

50

As informações desta tabela foram extraídas do suporte oficial do Google disponível em:

<https://support.google.com/webmasters/answer/146861>. Acesso em: 22 out 2014.

Page 69: UNIVERSIDADE METODISTA DE SÃO PAULO - …tede.metodista.br/jspui/bitstream/tede/1585/2/Andre Rosa de... · Este es uno de los cambios producidos ... estructuras son indispensables

69

Ontologias

Até aqui, vimos que o nível de detalhamento das descrições e o controle de

vocabulários é um aspecto crucial na adoção de metadados. Do contrário, abordagens

que não especificam com clareza a forma como a representação dos elementos

acontecem resultam em relações ambíguas ou imprecisas. A representação da

informação é uma questão importante: de que forma é possível expressar dados e regras

em uma linguagem capaz de permitir o relacionamento entre os dados de forma mais

estruturada?

O W3C entende que o potencial caminho para a compreensão entre os

computadores passa pela adoção de padrões e de vocabulários definidos em grau de

detalhamento mais elevado. Níveis granulares de descrição exigem esquemas que

definem elementos, atributos, entidades, formas de codificação e relações entre eles,

regras de armazenamento e sintaxe. Os esquemas também podem especificar melhor as

restrições sobre quais os tipos de dados que um elemento pode conter, validando

registros de metadados ou garantindo sua extensibilidade no caso de modificações ou

ajustes (HAN, 2012).

Em Ciência da Computação, enquanto as relações taxonômicas buscam o

desenvolvimento de categorias para facilitar a inserção e a recuperação da informação,

há uma lógica relacionada à formalização mais estruturada de conceitos, fazendo

referência a um vocabulário comum dentro de um contexto definido e sem

ambiguidades. São as ontologias, entendidas como um aprimoramento, uma transição

entre classificações e esquemas e uma representação mais próxima do ponto de vista

semântico. Portanto, as ontologias são necessárias para que os computadores façam

inferências sobre o significado dos termos (CAPLAN, 2003, p. 52).

“Ontologia” deriva do grego onto (“ser”) e logia (“discurso escrito ou falado”).

Na Filosofia, refere-se ao estudo de conceitos, de características gerais da realidade, de

propriedades dos seres e das coisas (BUNGE, 2007, p. 155). Num contexto

computacional, as representações do conhecimento expressas pelas linguagens de

marcação oferecem estrutura semântica. Pesquisadores ligados à Inteligência Artificial e

à Web também se apropriaram do termo, definindo ontologias simplesmente como

documentos que detalham relações entre conceitos (BERNERS-LEE; HENDLER;

LASSILA, 2001), ou, mais especificamente, como vocabulário de representação voltado

Page 70: UNIVERSIDADE METODISTA DE SÃO PAULO - …tede.metodista.br/jspui/bitstream/tede/1585/2/Andre Rosa de... · Este es uno de los cambios producidos ... estructuras son indispensables

70

para um domínio compartilhado, que pode incluir definições de classes, relações,

funções e outros objetos (KASHYAP; BUSSLER; MORAN, 2008, p. 31). As

ontologias representam, portanto, mais um exemplo de relação interdisciplinar entre as

áreas da Ciência da Informação e da Computação – e, até por conta disso, um exemplo

de relação que requer ainda mais esforço (CAMPOS, 2004). Quanto maior o nível de

granularidade, detalhamento e preocupação com a descrição e os relacionamentos,

maior seu poder computacional. Consequentemente, igualmente maior seu custo de

desenvolvimento, manutenção e compreensão.

Definir ontologias é tarefa complicada, pois prevê um conjunto de métodos e técnicas automáticas ou semiautomáticas para aquisição de conhecimento

utilizando textos, dados estruturados e semiestruturados, esquemas relacionais e outras bases do conhecimento. (LAURENTIZ, 2010, p. 18).

Na prática, ontologias são compostas por listas de termos que fazem referência a

conceitos e seus sinônimos (os vocabulários), regras de nomenclatura e codificação,

compondo um modelo de representação (KASHYAP; BUSSLER; MORAN, 2008, p.

80). O padrão RDF, mencionado anteriormente, é um dos métodos mais comuns para

descrever conceitos e fundamentar ontologias. Mais especificamente, ele utiliza três

elementos para formar uma relação entre eles – sendo que essa declaração é capaz de

ser compreendida por máquinas: um sujeito, um predicado e um objeto, conforme

exemplificado na Figura 2.4. Essas “triplas”, como são conhecidas, formam uma teia de

relações. As ontologias, portanto, preocupam-se com estrutura e significado de seus

termos. É possível construir relações ainda mais detalhadas por meio da Web Ontology

Language (OWL)51, também definida como padrão pelo W3C, um esquema de triplas

RDF escrito em XML.

51

Mais detalhes sobre o padrão OWL em: <https://www.w3.org/OWL>. Acesso em: 20 abr. 2016.

Page 71: UNIVERSIDADE METODISTA DE SÃO PAULO - …tede.metodista.br/jspui/bitstream/tede/1585/2/Andre Rosa de... · Este es uno de los cambios producidos ... estructuras son indispensables

71

Figura 2.4 – Representação simples de um esquema de triplas

Fonte: Produzida pelo autor.

Sistemas automáticos para extração e criação de links RDF podem ser utilizados

para identificar metadados em acervos desestruturados (HEATH; BIZER, 2011, p. 67).

Também são comuns técnicas de anotações semânticas capazes de, de forma amigável,

associar metadados e ontologias a um conteúdo publicado em plataformas Web,

inclusive naquelas voltadas para o Jornalismo. O PundIt, por exemplo, é uma

ferramenta desenvolvida para que qualquer usuário possa criar uma estrutura de dados

semânticos em conteúdos Web (GRASSI et al., 2013). Já a ferramenta Hermes foi

pensada especificamente para ser um framework (modelo) capaz de personalizar

notícias a partir de uma combinação de técnicas (FRASINCAR; BORSJE; LEVERING,

2009). Por fim, há os criadores do Loomp, um software que torna intuitivo o processo

de anotações em conteúdos (LUCZAK-RÖSCH; HEESE, 2009). Anotações baseadas

em termos controlados são formas interessantes para criar mapas entre múltiplos

esquemas e ontologias (KASHYAP; BUSSLER; MORAN, 2008, p. 19).

Como resultado, caso estabelecesse um método para analisar conteúdo e

decidisse como relacionar os metadados desse material a partir de um modelo com

identificação e lógica próprias, um veículo poderia construir um modelo de

representação de notícias. Dias (2014) baseou-se em um destes modelos, construído

pela BBC (que também é objeto de análise deste trabalho), para a reutilização dos

metadados em coberturas jornalísticas, de forma que foi dado ao jornalista descobrir

outras informações em datasets internos ou externos.

Um exemplo genérico proposto pela autora pode ser visto na Figura 2.5. A

modelagem sugerida considera entidades (objetos que podem ser identificados, como

nomes, locais ou organizações), eventos datados e desdobramentos para coberturas mais

extensas. É preciso que um grupo pequeno de usuários, conduzido por um editor de

Page 72: UNIVERSIDADE METODISTA DE SÃO PAULO - …tede.metodista.br/jspui/bitstream/tede/1585/2/Andre Rosa de... · Este es uno de los cambios producidos ... estructuras son indispensables

72

dados, concorde com as definições de cada item e o significado de seus

relacionamentos. O editor de dados é o profissional responsável por manter as bases de

dados atualizadas ao longo do tempo (PENA, 2012).

Figura 2.5 – Modelo possível de ontologia para notícias

Fonte: DIAS, 2014, p. 41.

A expectativa da construção de uma Web legível por máquinas aumenta na

mesma medida em que novas camadas de metadados, encadeados de forma lógica, são

construídas e disponibilizadas em bases de dados na Web. Mas, além de lidar com a

informação a partir da perspectiva baseada em dados e em suas relações, há outro

atributo necessário: “destrancar” essas informações, possibilitando referências entre si.

É o que indica o último nível da classificação proposta.

Page 73: UNIVERSIDADE METODISTA DE SÃO PAULO - …tede.metodista.br/jspui/bitstream/tede/1585/2/Andre Rosa de... · Este es uno de los cambios producidos ... estructuras son indispensables

73

Figura 2.6 – Diagrama do projeto Linking Open Data52

52

Linking Open Data cloud diagram 2014, por Max Schmachtenberg, Christian Bizer, Anja Jentzsch e Richard Cyganiak. Disponível em: <http://lod-cloud.net>. Acesso em:

22 out. 2014.

Page 74: UNIVERSIDADE METODISTA DE SÃO PAULO - …tede.metodista.br/jspui/bitstream/tede/1585/2/Andre Rosa de... · Este es uno de los cambios producidos ... estructuras son indispensables

74

Intercâmbio

A relação entre informações envolvendo sujeitos e eventos, entre outros

episódios, implica a existência de dados estruturados dialogando entre si. A

intervenção de tecnologias e a adoção de modelos de metadados nessas bases

potencializa seu uso – bem como a atuação de usuários e sistemas –, conectando-as

com outras bases. Foi a partir dessa necessidade que surgiram as interfaces para

programação de aplicações – em inglês, APIs. Elas permitem que dados e

funcionalidades sejam abertos para outros desenvolvedores, negócios ou mesmo entre

departamentos da mesma organização (LANE, 2013).

Ao analisar o impacto de sua adoção no The New York Times e no The

Guardian, Pietoso (2009) destaca a autonomia técnica em criar e reutilizar aplicações,

mesmo para não desenvolvedores. Isso abre caminho para novas formas de interação

com públicos a partir da construção de novos produtos e serviços – o que pode

encorajar o envolvimento de uma audiência mais ampla, composta por entusiastas

interessados em transformações no contexto jornalístico.

A adoção de APIs na Web é uma forma eficiente de intercâmbio das

informações nesse ambiente por meio de linguagens como XML ou JSON53

– que,

como vimos, são facilmente relacionadas com outras linguagens. Dentro da

perspectiva aberta da Web, no entanto, existem limitações.

Embora os benefícios do acesso a dados estruturados por meio de programação sejam indiscutíveis, a existência de uma API especializada para cada conjunto de dados cria uma paisagem na qual é necessário um esforço significativo para integrar cada novo dataset. Todo programador deve compreender os métodos disponíveis para recuperar os dados de cada

API e escrever o código personalizado para acessar os dados de cada fonte (HEATH; BIZER, 2011, p. 3, tradução nossa)54.

A falta de padronização representa, portanto, uma barreira para o acesso a

dados de sites e serviços externos. Com as distintas preferências e vocabulários para a

53

Formatação de dados a partir da linguagem JavaScript. Mais em: <http://www.json.org>. Acesso em:

20 abr. 2016. 54

Versão original: “While the benefits of programmatic access to structured data are indisputable, the

existence of a specialized API for each data set creates a landscape where significant effort is

required to integrate each novel data set into an application. Every programmer must understand the

methods available to retrieve data from each API, and write custom code for accessing data from

each data source”.

Page 75: UNIVERSIDADE METODISTA DE SÃO PAULO - …tede.metodista.br/jspui/bitstream/tede/1585/2/Andre Rosa de... · Este es uno de los cambios producidos ... estructuras son indispensables

75

distribuição e a publicação de dados, o W3C reforça seu papel propagador ao

considerar o RDF (e suas variantes) por meio do protocolo HTTP como mecanismo

padrão para acesso e reutilização de dados – acredita-se que ele é um modelo mais

simples e menos heterogêneo do que as APIs. As tecnologias que compõem a Web de

Dados proposta por Tim Berners-Lee podem ser identificadas em um modelo em

camadas, conhecido como “bolo de noiva” ou “pirâmide da Web Semântica”. A

Figura 2.7 relaciona essa descrição com a proposta de classificação apresentada neste

capítulo. Ressalte-se que é possível o intercâmbio de dados mesmo em níveis de

esquemas. É o que acontece, por exemplo, no compartilhamento de informações

estruturadas para download por meio de arquivos separados por vírgulas (CSV).

Figura 2.7 – Pilha da web semântica

Fonte: Adaptado de HEBELER et al., 2009, p. 26.

O ato de conectar dados previamente impossíveis é o que movimenta o

conceito de linked data55, também liderado por Tim Berners-Lee. A ideia é criar uma

rede de sites e serviços que utilizam tecnologias semânticas padronizadas pela W3C,

estimulando a abertura, a vinculação e o compartilhamento de seus dados, abrindo as

portas dos silos informativos e habilitando os efeitos da rede a partir de novas

aplicações.

55

Mais em: <http://linkeddata.org>. Acesso em: 15 dez. 2015.

Page 76: UNIVERSIDADE METODISTA DE SÃO PAULO - …tede.metodista.br/jspui/bitstream/tede/1585/2/Andre Rosa de... · Este es uno de los cambios producidos ... estructuras son indispensables

76

Tecnicamente, linked data refere-se a dados publicados na Web que sejam legíveis por máquinas. Seu significado é explicitamente definido, e eles estão ligados a outros conjuntos de dados externos que, por sua vez, podem ser ligados a partir de conjuntos de dados externos (BIZER;

HEATH; BERNERS-LEE, 2009, tradução nossa) 56.

Iniciativas para relacionar dados abertos representam um primeiro passo para

a Web de Dados. Especificamente, Tim Berners-Lee identifica uma passagem entre a

publicação de dados na Web usando qualquer formato ao uso de conexões por meio

de recursos com URIs próprias – é o que define como “classificação de cinco

estrelas”57

. A Figura 2.6 mostra datasets publicados no formato linked data por

organizações (governos, publicações, mídia) e indivíduos (conteúdo gerado pelo

usuário, sites de relacionamento). Dados armazenados em triplas disponíveis em

iniciativas como DBpedia – projeto que visa a extrair conteúdo estruturado das

informações da Wikipedia58 –, podem ser utilizados como metadados por qualquer

objeto de informação. Existem ainda softwares especializados em analisar conteúdos

não estruturados para extrair seus conceitos de forma automatizada. Para ilustrar essa

técnica, podemos citar o Open Calais59, serviço lançado pela Thomson Reuters.

Contudo, apesar do entusiasmo da comunidade envolvida – em especial, do

Linked Data Open project 60 –, para Polleres et al. (2010) existem poucos dados

estruturados em meio à grande quantidade de bases disponíveis. Isto sem contar outro

volume de datasets inconsistentes ou fora das especificações, sendo que a existência

de formatos distintos contribui para essa prática.

No contexto das bibliotecas e museus, a iniciativa mais ousada é a da

Europeana61

, uma biblioteca virtual desenvolvida pelos países da União Europeia que

se baseia na troca de informações entre objetos a partir de linked data. O

enriquecimento das informações se dá a partir de um padrão estabelecido – o

56

Versão original: “Technically, Linked Data refers to data published on the Web in such a way that it

is machine-readable, its meaning is explicitly defined, it is linked to other external data sets, and can

in turn be linked to from external data sets”. 57

Disponível em: <http://5stardata.info/en/>. Acesso em: 10 jun. 2016. 58

Mais em: <http://wiki.dbpedia.org>. Acesso em: 20 abr. 2016. 59

Disponível em: <http://www.opencalais.com>. Acesso em: 20 abr. 2016. 60

Mais informações em:

<http://www.w3.org/wiki/SweoIG/TaskForces/CommunityProjects/LinkingOpenData>. Acesso em:

10 jun. 2013. 61

Disponível em: <http://www.europeana.eu>. Acesso em: 15 dez. 2015.

Page 77: UNIVERSIDADE METODISTA DE SÃO PAULO - …tede.metodista.br/jspui/bitstream/tede/1585/2/Andre Rosa de... · Este es uno de los cambios producidos ... estructuras son indispensables

77

Europeana Data Model62

, composto por vocabulários específicos (MARCONDES,

2012).

Já no enquadramento deste trabalho, que dialoga com a evolução tecnológica

do Jornalismo a partir da adoção estruturada de metadados, os trabalhos de Beatriz

Ribas (voltados ao Jornalismo) e de Silvia Laurentiz (com foco na arte) denotam a

necessária interdisciplinaridade entre a Comunicação e outras áreas do conhecimento.

Da mesma forma, a relação entre metadados e a Web Semântica foi objeto de estudo

de Lammel e Mielniczuk (2012).

Este capítulo procura reforçar o discurso apresentado anteriormente: a partir

de conexões interdisciplinares, é preciso compreender de que forma é possível

estabelecer marcações semânticas por meio de metadados na Web. Só assim é

possível ir além da sugestão de que informações estruturadas por meio de sistemas de

gerenciamento de dados possam adicionar valor ao lide informativo, proporcionando

um tipo de “jornalismo semântico” (GOUVÊA; LOH, 2012).

É possível identificar um potencial acúmulo de valor para a informação

jornalística estruturada por metadados, ainda que nem sempre a prática jornalística,

conduzida por questões de mercado ou motivações alimentadas pelo senso de

“inovação”, baseie-se em necessidades informativas.

É o que vamos tratar no capítulo seguinte.

62

Disponível em: <http://pro.europeana.eu/page/edm-documentation>. Acesso em: 15 dez. 2015.

Page 78: UNIVERSIDADE METODISTA DE SÃO PAULO - …tede.metodista.br/jspui/bitstream/tede/1585/2/Andre Rosa de... · Este es uno de los cambios producidos ... estructuras son indispensables

78

Page 79: UNIVERSIDADE METODISTA DE SÃO PAULO - …tede.metodista.br/jspui/bitstream/tede/1585/2/Andre Rosa de... · Este es uno de los cambios producidos ... estructuras son indispensables

79

Capítulo III – INOVAÇÃO JORNALÍSTICA

Jornalistas não resistem a um fetiche tecnológico – e, aqui, “fetiche” tem o

mesmo peso do título usado em 2000 por Sylvia Moretzsohn em sua dissertação de

mestrado sobre o discurso do “tempo real” nos primórdios da Web brasileira.

Enquanto este trabalho está sendo preparado, a ideia de “velocidade” se

relaciona com mais força a duas iniciativas propostas pelos gigantes Google e

Facebook, respectivamente: Accelerated Mobile Pages 63 e Instant Articles 64

projetos que prometem melhorar o acesso de conteúdo jornalístico em dispositivos

móveis. Algumas outras iniciativas inovadoras, envolvendo análise ou extração

automática de conteúdos por meio de algoritmos, são financiadas pelo Google por

meio de um projeto europeu, o The Digital News Initiative65.

Todavia, é preciso vigília permanente para que a última novidade, logo datada,

seja compreendida de forma adequada. Para isso, é necessário cuidado com um termo

frequentemente associado a qualquer conexão envolvendo Comunicação e

Tecnologia, inclusive tendo metadados como contexto. Trata-se da “inovação”, cuja

relação com os processos de produção e distribuição de notícias é objeto de discussão

neste capítulo.

63

Mais em: <http://www.ampproject.org>. Acesso em: 20 abr. 2016. 64

Mais em: <http://instantarticles.fb.com>. Acesso em: 20 abr. 2016. 65

Mais em: <https://www.digitalnewsinitiative.com>. Acesso em: 15 dez. 2015.

Page 80: UNIVERSIDADE METODISTA DE SÃO PAULO - …tede.metodista.br/jspui/bitstream/tede/1585/2/Andre Rosa de... · Este es uno de los cambios producidos ... estructuras son indispensables

80

3.1 Inovação e mídia: para fugir das “buzzwords”

Organizações, inclusive de mídia, reconhecem a importância do conteúdo –

produzido e distribuído por meio de canais digitais –, mas correm o risco de “caírem

em armadilhas”, caso esse material seja armazenado em silos. Este é o discurso dos

profissionais em estratégia de conteúdo Ann Rockley e Charles Cooper, que

desenvolveram uma solução mercadológica baseada em metadados, capaz de tornar

esse material digital “estruturalmente rico e semanticamente categorizado, permitindo

formas automatizadas de descobri-lo, reutilizá-lo, reconfigurá-lo e adaptá-lo”

(ROCKLEY; COOPER, 2012, p. 16). A esse processo, deram o nome de “conteúdo

inteligente”.

Colega da dupla na área de estratégia de conteúdo, Michael Andrews66

publicou um artigo na área de Inteligência do Content Marketing Institute no qual se

refere aos metadados como “algo invisível, como um tempero que funciona mesmo

sem saber que ele está ali”67

. Ao tomarmos a trajetória interdisciplinar entre

metadados e suas áreas de conhecimento, não é surpresa encontrar orientações

pragmáticas em publicações do gênero.

OWL, RDF, DITA, blá, blá, blá. Todas essas linguagens de marcação podem ser difíceis de acompanhar, especialmente se seu trabalho é mais sobre como e por que usar seu conteúdo do que determinar as melhores

linguagens baseadas em XML para mashups orientados a APIs ou o que seja. Em vez de se perder em todas as siglas, é provavelmente melhor apenas compreender que existem abordagens diferentes, ter uma compreensão básica do que elas significam e estar pronto para mergulhar em detalhes sobre a implicação na estrutura do seu conteúdo mais tarde, quando ou se a necessidade surgir (WACHTER-BOETTCHER, 2012, p. 102, tradução nossa)68.

Parece tentador construir um raciocínio a partir de termos como “conteúdo

inteligente”, “jornalismo semântico” ou “jornalismo estruturado”; no entanto, essa

66

Artigos e perfil pessoal disponível em: <http://storyneedle.com>. Acesso em: 22 out. 2014. 67

“Robust Metadata: The Secret Sauce of Relevance”. Disponível em:

<http://contentmarketinginstitute.com/intelligent-content/blog/metadata-secret-sauce-relevance/>.

Acesso em: 8 maio 2015. 68

Versão original: “OWL, RDF, DITA, blah blah blah. All these markup languages can be hard to keep

track of, especially if your job is more about the how and why of content than determining the best

XML-based languages for API-driven mash-ups or whatever. Rather than getting lost in all the

acronyms, it’s probably best to just understand that these different approaches exist, have a basic

understanding of what they mean, and be ready to delve into specifics about their implication for

your content’s structure later, when or if the need arises”.

Page 81: UNIVERSIDADE METODISTA DE SÃO PAULO - …tede.metodista.br/jspui/bitstream/tede/1585/2/Andre Rosa de... · Este es uno de los cambios producidos ... estructuras son indispensables

81

ideia esconde o fato dessas organizações experimentarem ferramentas – e não

necessariamente pensadas para o mesmo objetivo – enquanto procuram encontrar ou

consolidar modelos de negócio. A experimentação pura e simples pode funcionar num

contexto mercadológico, mas o exagero das promessas, o uso de metáforas e

analogias não dão conta dos desafios inerentes à utilização de uma nova tecnologia e

de suas consequências, podendo levar o campo da Comunicação Social para lugares

incipientes.

As transformações computacionais que começaram com Phillip Meyer anos

antes demonstram que o Jornalismo se movimenta por caminhos delineados pela

evolução tecnológica, fazendo proliferar visões nas quais o futuro está nas mãos de

quem se dispõe a entender como essas tecnologias funcionam e a aplicá-las. A

preocupação em embasar reflexões em contraponto ao volume de palavras,

expressões, chavões ou traduções de ideias pinçadas do imediatismo financeiro é

fundamental para que se possa fugir de um cenário polissêmico.

A pesquisa sobre Jornalismo On-Line é inundada por uma série de

conceitos que são permutáveis ou interpretados de formas diferentes por diferentes pesquisadores. Conceitos como interatividade, hipertextualidade e multimidialidade são compreendidos de maneiras diferentes, e outros conceitos, como gênero e inovação, são geralmente usados sem qualquer discussão teórica sobre o que eles representam e como eles podem informar a pesquisa sobre o Jornalismo On-Line. É, portanto, necessária uma maior ênfase na conceituação (STEENSEN, 2011, p. 321, tradução

nossa)69.

O autor pontua ainda que a pesquisa em torno do Jornalismo em meios digitais

está permeada por um “discurso de inovação tecnológica” cercado por utopias,

segundo o qual o Jornalismo “poderia acabar ou se transformar em algo positivo”

diante de abordagens inovadoras relacionadas a “interatividade, hipertextualidade e

multimidialidade”, ao passo que as organizações de mídia vivem períodos de

experimentação, procurando ainda encontrar e consolidar modelos de negócio. Nesse

cenário, tais empresas pavimentam caminhos diferentes. Então, todos os exemplos

69

Versão original: “The research on online journalism is flooded by a range of theoretical concepts that

are either interchangeable or are interpreted differently by different researchers. Concepts like

interactivity, hypertext and multimedia are understood in different ways, and other concepts, like

genre and innovation are generally used without any theoretical discussion on what they represent

and how they might inform the research on online journalism. A stronger emphasis on

conceptualization is therefore needed”.

Page 82: UNIVERSIDADE METODISTA DE SÃO PAULO - …tede.metodista.br/jspui/bitstream/tede/1585/2/Andre Rosa de... · Este es uno de los cambios producidos ... estructuras son indispensables

82

acima poderiam ser caracterizados como tal, bem como qualquer “experimentação”

num contexto informativo?

Tal discurso ganhou fôlego com os primórdios da Web, em meados dos anos

1990, quando veículos de mídia apresentavam seus conteúdos de modo a

praticamente reproduzirem as mesmas palavras (e algumas imagens) da edição

impressa. Essa transposição de conteúdos pautou praticamente seus primeiros dez

anos, demonstrando timidez no que se refere a criatividade e inovação (ALVES,

2006).

Nessa ótica, faz sentido afirmar que o The New York Times é um exemplo de

organização jornalística que flerta com a inovação: ele levou “a narrativa multimídia

em uma direção excitante, com um novo projeto que merece todos os elogios”. Foi

assim que Jeff Sonderman, do Poynter Institute 70, apresentou a reportagem Snow

Fall 71, uma celebrada combinação de texto, vídeos e infográficos que relatam

histórias de esquiadores e snowboarders surpreendidos por avalanches na Cordilheira

das Cascatas, nos Estados Unidos. A repercussão desse trabalho (que inclui um

prêmio Pulitzer) representa uma maneira de mostrar o esforço do veículo em

combinar técnicas variadas para contar boas histórias – o que inclui a abertura de

APIs e datasets específicos.

Em linhas gerais, inovação é um conceito que representa um desafio às

organizações a fim de que elas possam se expandir para prosperar ou mesmo

sobreviver. Não bastasse não ser nada confortável, esse desafio é ainda mais do que

isso: pauta-se tanto por acertos quanto por erros. Ao discutir o conceito, o professor

de Harvard, Clayton M. Christensen (2012), oferece uma razão para que isso ocorra:

“a mãe da invenção é a necessidade”.

Em última análise, todo o progresso econômico e social depende de novas

ideias que contestam a introspecção e a inércia do status quo, com possibilidades de mudança e melhoria. A inovação é o que acontece quando um novo pensamento é introduzido com sucesso em organizações e valorizado por elas. É a arena onde a criação e a aplicação de novas ideias é formalmente organizada e gerida. A inovação envolve preparativos deliberados, objetivos e benefícios previstos para novas ideias que precisam ser realizadas e implementadas na prática. É o teatro onde a emoção da experimentação e do aprendizado se encontra com a

70

“How The New York Times’ ‘Snow Fall’ project unifies text, multimedia”. Poynter.org, 20. dez.

2012. Disponível em: <http://www.poynter.org/latest-news/top-stories/198970/how-the-new-york-

times-snow-fall-project-unifies-text-multimedia/>. Acesso em: 22 out. 2014. 71

Disponível em: <http://www.nytimes.com/projects/2012/snow-fall>. Acesso em: 22 out. 2014.

Page 83: UNIVERSIDADE METODISTA DE SÃO PAULO - …tede.metodista.br/jspui/bitstream/tede/1585/2/Andre Rosa de... · Este es uno de los cambios producidos ... estructuras son indispensables

83

realidade organizacional com orçamentos limitados, rotinas estabelecidas, disputa de prioridades e imaginação limitada (DODGSON; GANN, 2010, p. 12, tradução nossa) 72.

Inovação é um conceito cuja importância se fortaleceu no contexto atual,

marcado por mudanças aceleradas nos mercados, nas tecnologias e nas formas

organizacionais; em contrapartida, conhecimentos cruciais que deveriam se tornar

apropriáveis permanecem enraizados nas pessoas e em locais específicos, apesar da

disseminação de novas tecnologias de comunicação (LEMOS, 1999).

Tanto Cristina Lemos (1999) quanto Clayton Christensen (2012) destacam, de

forma geral, dois tipos de inovação: a incremental e a radical. A primeira pode ser

entendida como a introdução de qualquer tipo de melhoria em um produto, processo

ou organização da produção, sem alteração na estrutura. A segunda, mais complexa,

trata do desenvolvimento e da introdução de um novo produto, processo ou forma de

organização da produção inteiramente nova.

Entre a visão incremental e a radical (ou “disruptiva”, como também é

chamada), o professor e diretor executivo no Center for Open Innovation em

Berkeley, Henry Chesbrough, cunhou o termo “inovação aberta” (CHESBROUGH;

VANHAVERBEKE; WEST, 2006, p. 2, tradução nossa), entendido como

o uso intencional dos fluxos internos e externos de conhecimento para acelerar a inovação interna e aumentar os mercados para uso externo das inovações, respectivamente. Inovação aberta é um paradigma que assume que as empresas podem e devem usar tanto ideias externas quanto internas, além de caminhos internos e externos para alcançar o mercado,

enquanto elas desenvolvem suas tecnologias73.

Ao contrário do que se reconhece como um modelo tradicional, envolvendo

uma estrutura vertical de pesquisa e atividades de desenvolvimento interno,

Chesbrough parte da premissa de que é impossível obter conhecimento útil sem se

72

Versão original: “All economic and social progress ultimately depends on new ideas that contest the

introspection and inertia of the status quo with possibilities for change and improvement. Innovation is what happens when new thinking is successfully introduced in and valued by organizations. It is

the arena where the creation and application of new ideas are formally organized and managed.

Innovation involves deliberate preparations, objectives, and planned benefits for new ideas that have

to be realized and implemented in practice. It is the theatre where the excitement of experimentation

and learning meets the organizational realities of limited budgets, established routines, disputed

priorities and constrained imagination”. 73

Versão original: “the use of purposive inflows and outflows of knowledge to accelerate internal

innovation, and expand the markets for external use of innovation, respectively. Open innovation is a

paradigm that assumes that firms can and should use external ideas as well as internal ideas, and

internal and external paths to market, as they look to advance their technology”.

Page 84: UNIVERSIDADE METODISTA DE SÃO PAULO - …tede.metodista.br/jspui/bitstream/tede/1585/2/Andre Rosa de... · Este es uno de los cambios producidos ... estructuras son indispensables

84

conectar e dialogar com fontes externas, exigindo ações com múltiplos atores em um

ambiente muito mais distribuído. Existe uma proximidade entre essa lógica e a visão

do hacker pioneiro Eric S. Raymond em um ensaio denominado “A Catedral e o

Bazar”, de 1999. Basicamente, trata-se de uma metáfora em que “catedral” indica o

modelo fechado, hierárquico, enquanto “bazar” é aberto e distribuído.

Pode-se dizer que, em seus primeiros dez anos, a adoção da Web pelos

veículos de mídia reflete a cautela intrínseca ao conceito de inovação incremental.

Nesse período, conforme lembra Christensen (2012), a própria Web fez com que

investidores “derramassem” bilhões de dólares em cima do potencial disruptivo da

rede. E eles falharam, pois a internet representou um lugar para inovações

incrementais em relação a distintos modelos de negócios.

Na visão de Dogruel (2014), é preciso ter em vista algumas características

específicas para entender a inovação em veículos de mídia, tomada como mudanças

nos produtos e nos processos de produção. No que diz respeito à adoção de

tecnologias, há forte relação entre a inovação e a necessidade contínua por novidade,

combinada com o alto risco de o desenvolvimento e a produção demandarem um

investimento que não necessariamente é sinônimo de sucesso. Ela também se

relaciona a um processo cíclico de interação envolvendo apropriações, feedback e

adoção de outros veículos já estabelecidos – algo que requer longo período de tempo.

Aqui é importante retomar a discussão referente à evolução tecnológica. O

ambiente digital conectado, normalmente identificado como uma “revolução”

(ALVES, 2006), obriga-nos a uma reflexão. Um computador, por exemplo, representa

o desenvolvimento de ferramentas que incluem calculadoras mecânicas, transistores e

circuitos integrados, etc. Sozinhas, essas máquinas não encontram soluções para

problemas, mas, diante de sua apropriação, “elas podem ser capazes de fazer a maior

parte do trabalho braçal necessário, auxiliando nossas mentes a, intuitivamente,

encontrarem maneiras por meio do labirinto” (BERNERS-LEE, 2000, p. 5). O mesmo

se aplica à rede que conecta esses computadores.

A internet certamente terá um impacto na sociedade, mas não revolucionará tudo. É ridículo compará-la com a Revolução Industrial, que

tirou quase todos da fazenda e os pousou em um ambiente urbano radicalmente diferente. Minha “migração” para o espaço virtual pelos últimos 20 anos dificilmente pode ser comparada com a migração que meus antepassados realizaram do campo para a cidade. A menos que algo muito mais inovador do que a internet se anuncie, o século XXI será

Page 85: UNIVERSIDADE METODISTA DE SÃO PAULO - …tede.metodista.br/jspui/bitstream/tede/1585/2/Andre Rosa de... · Este es uno de los cambios producidos ... estructuras son indispensables

85

contínuo com o nosso mundo, e não uma ruptura radical e disruptiva. O significado real da internet não está na inauguração de uma nova era, mas no que ela revela sobre a mudança social e tecnológica no nível atual de progresso (FEENBERG, 2001, tradução nossa) 74.

Em um universo modificado pelas novas tecnologias, onde o usuário da

informação pode acessar apenas o que lhe interessar (e por meio de qualquer

dispositivo habilitado para tanto), o Jornalismo se vê obrigado a inovar. Por outro

lado, o ritmo acelerado das evoluções tecnológicas também é considerado uma

ameaça ao modelo de negócio da mídia. Como se não bastasse, ainda existem

obstáculos de caráter econômico, resultando em redações mais enxutas ou com

preocupações difusas, apresentadas como “movimentos inovadores”: ao observar a

evolução dos processos de trabalho no jornal O Globo, que busca priorizar a

informação publicada na Web, Moretzsohn (2014) assinala que a informatização das

redações imprimiu aceleração ao ritmo de trabalho das redações, além de uma

preocupação com o volume de tráfego – oriundo tanto dos destaques em homes do

principal portal horizontal do grupo quanto de perfis em sites de relacionamento.

Questões que não se relacionam com processos de inovação, postura estratégica e

com uma perspectiva social e técnica mais ampla, que atenda à relação entre

jornalistas, tecnologias, executivos e público (WESTLUND; LEWIS, 2014).

Dessa forma, mais importante do que estimular inovações rompedoras no

Jornalismo é refletir a respeito de sua necessidade. A Columbia Journalism School,

por meio do Tow Center for Digital Journalism, apresentou um amplo relatório sobre

o cenário atual do jornalismo norte-americano. O documento, definido como uma

mistura de pesquisa com manifesto (ANDERSON; BELL; SHIRKY, 2014), sugere

recomendações neste momento denominado “pós-industrial”. Com a nova relação

entre o Jornalismo e seu público, capaz de provocar “mudanças tectônicas” e um

cenário de incerteza, as rotinas e os modelos de negócios precisam ser repensados,

bem como novas habilidades precisam ser aprendidas constantemente pelos

profissionais para garantir sua sobrevivência.

74

Versão original: “The Internet will certainly have an impact on society, but it will not revolutionize

everything. It is ludicrous to compare it with the industrial revolution, which pulled nearly everyone

off the farm and landed them in a radically different urban environment. My ‘migration’ to virtual

space over the last 20 years can hardly be compared with my ancestors’ migration from the country

to the city. Unless something far more innovative than the Internet comes along, the Twenty-first

Century will be continuous with our world, not a radical and disruptive break. The real significance

of the Internet lies not in the inauguration of a new era, but in what it reveals about social and

technological change at the current level of advance”.

Page 86: UNIVERSIDADE METODISTA DE SÃO PAULO - …tede.metodista.br/jspui/bitstream/tede/1585/2/Andre Rosa de... · Este es uno de los cambios producidos ... estructuras son indispensables

86

A divulgação do relatório provocou respostas. Em artigo publicado pelo The

Guardian 75, a professora Eugenia Siapera vai além da visão dos professores de

Columbia: em vez de táticas de sobrevivência, o Jornalismo precisa de uma estratégia

mais radical para permanecer socialmente relevante. Ainda que a tecnologia possa ser

entendida como um vetor determinante nessa mudança, ela não é o único.

A inovação técnica normalmente é baseada em decisões econômicas, e tanto os demais profissionais quanto os jornalistas usam novas ferramentas para contemplar suas próprias expectativas, habilidades e práticas. Assim, a convergência das redações será discutida não como um processo dirigido

pela tecnologia, mas como um processo que usa a inovação tecnológica para atingir objetivos específicos em configurações singulares, e é por isso que cada projeto de convergência tem resultados diferentes (GARCÍA AVILÉS; CARVAJAL, 2008, tradução nossa)76.

Tomando o The New York Times novamente como referência, a pesquisadora

Cindy Royal visitou a redação em junho de 2009 com o intuito de conhecer a área de

Interactive News Technology. Seu diálogo com os profissionais – entre eles, o então

editor Aron Pilhofer – revelou que os membros da equipe entendem que a

combinação de habilidades de texto e programação é rara; porém, tendo a perspectiva

jornalística como pré-requisito, acreditam que seja possível desenvolvê-la,

especialmente a partir da autoaprendizagem dentro do ambiente de trabalho. Além

disso, o departamento foi criado de modo a flexibilizar a criação e o desenvolvimento

de projetos, construindo uma filosofia pautada pela criatividade e inovação próprias

da cultura open-source (ROYAL, 2010).

A produção rotineira de notícias é constituída para que se torne produto de

consumo instantâneo. Se, no impresso, a ideia de que o jornal do dia seguinte se torna

“papel para embrulhar peixe”, na rede também é fato que essa premissa permanece.

Segundo Cohen, Hamilton e Turner (2011, p. 68), é nesse ponto que o pensamento

computacional (WING, 2006) pode ajudar. O encontro das Ciências da Computação e

do Jornalismo com profissionais do texto e do código compartilhando espaços em

75

“From post-industrial to post-journalism”. Media Network, The Guardian, 14 fev. 2013. Disponível

em: <http://www.guardian.co.uk/media-network/media-network-blog/2013/feb/14/post-industrial-

journalism-changing-society>. Acesso em: 22 out. 2014. 76

Versão original: “Technical innovation is usually based on professional and economic decisions and

journalists use new tools in order to fit their own expectations, skills and practices. Therefore,

newsroom convergence will be discussed not as a technology-driven process, but as a process that

uses technological innovation to achieve specific goals in particular settings and that is why each

convergence project might have a different outcome”.

Page 87: UNIVERSIDADE METODISTA DE SÃO PAULO - …tede.metodista.br/jspui/bitstream/tede/1585/2/Andre Rosa de... · Este es uno de los cambios producidos ... estructuras son indispensables

87

redações resulta em processos e produtos como visualizações de dados, algoritmos,

entre outros softwares em desenvolvimento.

Em linha, o conteúdo jornalístico pode ser produzido, adicionado, alterado

e reutilizado sempre. Para tirar proveito disso, o fluxo de trabalho precisa ser alterado a fim de dar suporte a essas novas capacidades tecnológicas e culturais. Criar um fluxo de trabalho que reflita a produção de conteúdos digitais mais flexíveis redundará em uma consequência secundária: tornar rotinas rígidas de redação mais “hackeáveis” (ANDERSON; BELL; SHIRKY, 2012, p. 71, tradução nossa)77.

77

Versão original: “Online, journalistic content can be produced, added to, altered and reused forever.

To take advantage of this change, workflow will have to be altered to support these new

technological and cultural affordances. Creating a workflow that reflects the more flexible production

of digital content will have the secondary consequence of making rigid newsroom routines more

‘hackable’”.

Page 88: UNIVERSIDADE METODISTA DE SÃO PAULO - …tede.metodista.br/jspui/bitstream/tede/1585/2/Andre Rosa de... · Este es uno de los cambios producidos ... estructuras son indispensables

88

3.2 Jornalismo Computacional para “hackear” processos

Em suas entrelinhas, a pesquisa da Ryct/Cyted, mencionada no princípio deste

trabalho (na qual menos de 3% dos entrevistados esperam atuar nas áreas das Ciências

Exatas ou Naturais78

), revela uma percepção acerca de uma pretensa “facilidade” das

Ciências Sociais. Não é muito diferente do que se vê, por exemplo, no ensino e na

prática do Jornalismo, em que o entendimento sobre o funcionamento dos sistemas

tecnológicos que suportam a mídia é relegado a um plano secundário.

Não é novidade que, desde os primórdios da evolução tecnológica, a atividade

jornalística tem sido impactada constantemente pelas introduções de novas formas de

produção e distribuição de conteúdo de relevância social. Contudo, no campo do

Jornalismo, somente agora existe uma percepção da importância de entender como as

tecnologias modificam ou modificarão os modos do fazer e consumir jornalismo

(LIMA JUNIOR, 2011, p. 47).

O “agora” citado pelo pesquisador diz respeito ao resultado de uma ideia

implantada ao final dos anos 1990 pelo físico britânico Tim Berners-Lee. Assim, uma

vez que alguém, em qualquer lugar, disponibilizasse um documento, este poderia ser

acessível a qualquer pessoa, em qualquer tipo de computador, sendo possível ainda

fazer uma referência – um link – a esse item para que outros pudessem encontrá-lo.

Ainda que tenha sido implantada por uma única pessoa, a gênese da Web

envolve muitas mentes com sonhos em comum. O britânico bebeu das ideias de

Vannevar Bush, bem como das ideias de Ted Nelson – que criou a expressão

“hipertexto” em 1965 –, de Paul Baran – idealizador do modelo de rede distribuída

que deu origem à internet – e de Vint Cerf – que programou o protocolo TCP/IP,

permitindo a qualquer dispositivo computacional, outrora incompatível, conectar-se a

essa rede (BERNERS-LEE, 2000).

Mesmo carregada de expectativa a partir da lógica da Web de Dados – cujas

contribuições remetem ainda à Teoria dos Grafos, a descrições lógicas, inteligência

artificial e outras tecnologias e filosofias fundamentais (HEBELER et al., 2009, p.

25), sua construção permanece coletiva, baseada em regras e códigos simples, mas

que adquiriram ares de complexidade diante das múltiplas apropriações. Esse

conjunto de dados acumulados a cada instante por serviços públicos, portais de

transparência governamentais, sites de relacionamento (como o Facebook ou Twitter)

78

Ver nota de rodapé número 10.

Page 89: UNIVERSIDADE METODISTA DE SÃO PAULO - …tede.metodista.br/jspui/bitstream/tede/1585/2/Andre Rosa de... · Este es uno de los cambios producidos ... estructuras son indispensables

89

ou mesmo repositórios documentais controversos como o WikiLeaks compõe um

lugar cujo tamanho vai além da habilidade comum em capturar, gerenciar e analisar,

dando origem a um fenômeno denominado por cientistas e engenheiros da

computação como Big Data (LIMA JUNIOR, 2012, p. 211).

A esse volume de dados soma-se a popularização da Web, bem como o

desenvolvimento de interfaces e ferramentas mais amigáveis. Num contexto bem

diferente daquele vivenciado por Philip Meyer, aplicações como OpenRefine79 – que

permite limpar os dados antes de avançar para análises – ou como o Google Fusion

Tables80

– plataforma para visualização de grandes conjuntos de dados – fazem

emergir novos métodos, fontes e caminhos para descobrir, apresentar, personalizar,

agregar e arquivar histórias, conectando comunidades com a informação da qual elas

precisam. Há casos como o próprio The Guardian, que nos últimos anos se tornou

uma plataforma aberta, encorajando o uso e reuso de seus recursos (DANIEL; FLEW,

2010).

Usher e Lewis (2013), que enxergam a prática jornalística com a mesma lente

dos códigos-fonte abertos, identificam a inovação sob o prisma da aproximação

tecnológica, como a capacidade de repensar ferramentas, culturas e modelos. Os

autores propõem uma “reinicialização” (reboot) com alterações nessas estruturas para

“produzir notícias de um jeito estruturalmente diferente”. De fato, nos últimos anos,

profissionais e pesquisadores se debruçam sobre as novas possibilidades de

potencializar os processos jornalísticos, praticamente entendendo-os como um sistema

narrativo (BERTOCCHI, 2014).

As dificuldades encontradas pelos adeptos da Reportagem Assistida por

Computador, que já exercitavam sua habilidade computacional nos primórdios,

tornaram-se oportunidades para que eles potencializem suas técnicas ao longo dos

anos a partir da facilidade de acesso a esses e outros softwares apropriados para a

mineração e filtragem de dados. Associadas ao uso de técnicas de computação nas

redações desde a coleta de dados, à sua curadoria e, finalmente, à sua visualização,

tais práticas podem ser sintetizadas no conceito de Jornalismo Computacional:

Com um conjunto de ferramentas para reportagem, um jornalista terá capacidade para digitalizar, transcrever, analisar e visualizar padrões em documentos. A adaptação de algoritmos e tecnologia, combinada com

79

Disponível em: <http://openrefine.org>. Acesso em: 22 out. 2014. 80

Disponível em: <http://tables.googlelabs.com>. Acesso em: 22 out. 2014.

Page 90: UNIVERSIDADE METODISTA DE SÃO PAULO - …tede.metodista.br/jspui/bitstream/tede/1585/2/Andre Rosa de... · Este es uno de los cambios producidos ... estructuras son indispensables

90

ferramentas livres e de código aberto, vai nivelar o campo de jogo entre interesses poderosos e o interesse público, ajudando a descobrir ligações e evidências que podem desencadear investigações. Essas mesmas ferramentas também podem ser usadas por grupos de interesse público e

cidadãos preocupados (COHEN; HAMILTON; TURNER, 2011, p. 71, tradução nossa) 81.

O que mais pode ser dito sobre Jornalismo Computacional? “Em última

análise, as interações entre os jornalistas, desenvolvedores de software, cientistas da

computação e outros estudiosos terão que responder a essa pergunta ao longo dos

próximos anos” (TURNER; HAMILTON, 2009, p. 4). Diante desses processos de

mudança, cabem ao modelo jornalístico – ou, melhor dizendo, aos profissionais

envolvidos – intervenções que apontem novas soluções, modificações,

reconfigurações ou reprogramações. Tal mescla entre a prática profissional do

jornalista e a cultura do código aberto, com ênfase em fluxos de trabalho em rede para

a abordagem complexa de tarefas, faz com que objetos de informação possam ser

abstraídos em escala granular – algo sem precedente em um jornalismo pré-

computadores (CODDINGTON, 2015).

Metaforicamente – e tomando a mesma lógica observada na digitalização das

Ciências Humanas –, é como se os veículos de mídia pudessem ser entendidos como

softwares. Desta forma, seguindo a lógica do “bazar” em oposição à “catedral”,

“hackeá-los” e “abrir seu código-fonte” permitiriam inovações ainda pouco

exploradas (MANCINI, 2011, p. 16).

Um novo fenômeno, crucial para essa intersecção entre Jornalismo e Tecnologia, ainda precisa ser examinado substancialmente: a união entre Ciência da Computação e Jornalismo, com programadores assumindo cada vez mais um papel central nas redações e contribuindo para o crescimento de visualização de dados e para o desenvolvimento de softwares, algoritmos de notícias e outros projetos baseados em códigos. Fora dessa

mistura, emerge uma nova categoria de profissional: o chamado jornalista-programador – ou “jornalista hacker” (USHER; LEWIS, 2013, p. 603, tradução nossa)82.

81

Versão original: “With a suite of reporting tools, a journalist will be able to scan, transcribe, analyze,

and visualize the patterns in these documents. Adaptation of algorithms and technology, rolled into

free and open source tools, will level the playing field between powerful interests and the public by

helping uncover leads and evidence that can trigger investigations by reporters. These same tools can

also be used by public-interest groups and concerned citizens”. 82

Versão original: “A new phenomenon, crucial to this intersection of journalism and technology, has

yet to be examined substantially: the fusion of computer science and journalism, as programmers take

an increasingly central role in newsrooms and contribute to the growth of data visualizations,

software development, news algorithms, and other coding-based projects. Out of this mixing has

emerged a new category of journalist: the so-called programmer-journalist, or hacker journalist”.

Page 91: UNIVERSIDADE METODISTA DE SÃO PAULO - …tede.metodista.br/jspui/bitstream/tede/1585/2/Andre Rosa de... · Este es uno de los cambios producidos ... estructuras son indispensables

91

Assim, um braço do Jornalismo Computacional começou a ser delineado a

partir de setembro de 2006, quando Adrian Holovaty publicou em seu blog o texto A

fundamental way newspaper sites need to change83. Lima Junior (2011, p. 51) lembra

que o antigo editor de inovações do Washington Post e criador do projeto Chicago

Crime salientou que os jornais precisam mudar sua postura em relação aos dados

armazenados. Ele argumentava que, além da narrativa, a informação jornalística

deveria contar com outros dados estruturados, capazes de serem compreendidos por

máquinas. Ao apresentar sua proposta para alguns de seus pares, no entanto, o autor

encontrava uma postura refratária: a de que, em vez de compartilhar outros dados, os

“jornalistas devem escrever reportagens para ajudar pessoas”.

Mais tarde, em 2009, o The Guardian publicou documentos que

contemplavam as despesas de parlamentares britânicos, em resposta ao escândalo

revelado pelo concorrente The Daily Telegraph. O diário contou com a ajuda dos

leitores para identificar os gastos com dinheiro público, num caso que se revelou uma

oportunidade para o Jornalismo Digital (DANIEL; FLEW, 2010).

A partir desses e de outros casos, os profissionais participaram de uma

conferência, em agosto de 2010, organizada pelo European Journalism Centre, a

partir da ação da pesquisadora Liliana Bounegru. O encontro, realizado em Amsterdã,

ratificou a expressão Data Journalism, da qual deriva a expressão Data-driven

Journalis 84 (DDJ) (GRAY; BOUNEGRU; CHAMBERS, 2012), traduzida para o

português como “Jornalismo Guiado por Dados” (TRÄSEL, 2013). A expressão

descreve um conjunto de práticas que usa dados para melhorar as notícias, desde o

tratamento, cruzamento e recuperação de dados até a geração de visualizações e

infográficos atraentes, independentemente da plataforma a ser publicada.

Num cenário em que sistemas computacionais coexistem com usuários, há a

possibilidade de combinar criatividade, conhecimento e tecnologias existentes para

inovar produtos ou processos. Diakopoulos (2012) acredita que, quando se trata de

inovação jornalística por meio da computação, existem oportunidades negligenciadas.

Ele considera que, para estruturar um caminho inovador pautado pelo pensamento

computacional, é necessário considerar: (1) quais inovações são necessárias para

resolver problemas, atender às necessidades dos usuários a partir de novas

83

Disponível em: <http://www.holovaty.com/writing/fundamental-change>. Acesso em: 22 out. 2014. 84

Mais em: <http://datadrivenjournalism.net>. Acesso em: 22 out. 2014.

Page 92: UNIVERSIDADE METODISTA DE SÃO PAULO - …tede.metodista.br/jspui/bitstream/tede/1585/2/Andre Rosa de... · Este es uno de los cambios producidos ... estructuras son indispensables

92

experiências ou aumentar a eficiência de processos; (2) se a inovação é viável

tecnicamente e como fazê-la funcionar; (3) se a solução é compatível, ou seja, se ela

se encaixa com os valores dos usuários pretendidos para ser adotada.

O pesquisador mapeou oportunidades e lacunas na relação entre o Jornalismo

e o pensamento computacional, elaborando uma matriz. No eixo vertical, apresentou

dimensões relevantes da computação e da tecnologia. Já no eixo horizontal, elencou

necessidades dos consumidores de notícias, objetivos jornalísticos e processos

informativos de valor agregado. O resultado, sintetizado na matriz reproduzida na

Figura 3.1, revela maior atenção em pesquisa por mineração de dados, visualização e

inteligência artificial – incluindo transformar dados desestruturados em repositórios

úteis e de interesse público. Isso revela um dos problemas que mais tomam tempo do

jornalista: documentos e fontes manuscritas ou escaneadas como imagens – material

do qual costumam emergir as melhores reportagens.

Figura 3.1 – Relação entre as tecnologias computacionais e os objetivos jornalísticos

Fonte: DIAKOPOULOS, 2012, p. 20.

Page 93: UNIVERSIDADE METODISTA DE SÃO PAULO - …tede.metodista.br/jspui/bitstream/tede/1585/2/Andre Rosa de... · Este es uno de los cambios producidos ... estructuras son indispensables

93

A matriz apresenta, no entanto, outras oportunidades envolvendo tecnologias

pouco exploradas e que podem inspirar inovações na personalização, agregação,

visualização e construção de sentido. Entre elas, segundo Cohen, Hamilton e Turner

(2011), estão a combinação de variadas fontes digitais; extração, pesquisa e

agrupamento de informação; indexação e análise de vídeos e áudios; e a identificação

dos assuntos no topo da agenda.

Tanto o Jornalismo quanto a Ciência da Informação se debruçam diante da

relação do homem com a informação, bem como diante de sua qualidade e

confiabilidade. Diakopoulos (2012, p. 8) cita Robert S. Taylor ao tratar do valor da

informação a partir de quatro variáveis: facilidade de uso, redução de ruído,

adaptabilidade e qualidade. A inovação pode ser empregada por quem produz notícias

para aumentar a eficiência de suas práticas e adicionar valor a essa informação.

Paralelamente, instituições e veículos – como o The New York Times, The Washington

Post, Huffington Post e ProPublica – congregam jornalistas e programadores, em

busca de novas alternativas para o Jornalismo.

Mesmo que esse caminho se apresente como uma chance para estabelecer

pontes entre as ciências duras e as humanidades, não há como fugir de uma certa

“inércia histórica”. Após uma visita ao Chicago Tribune, com acesso a uma variedade

de práticas experimentais e inovadoras, os pesquisadores franceses Éric Dagiral e

Sylvain Parasie reforçam o distanciamento. “Historicamente, tem sido difícil – ou

mesmo impossível – para um jornalista mostrar habilidades técnicas. A conexão entre

jornalistas e programadores, questionando as fronteiras entre as duas habilidades, não

é tão evidente quanto parece” (DAGIRAL; PARASIE, 2011, p. 145, tradução

nossa)85

.

O potencial do Jornalismo Computacional pode ser explorado com o

aperfeiçoamento de processos de produção e distribuição de notícias, além da busca

pela ubiquidade e poder do software – esta última, observada pela mudança no

consumo de notícias no mundo digital. A customização de conteúdos de qualidade,

por exemplo, é um atributo que atrai potenciais novos leitores (FLEW; SPURGEON;

DANIEL, 2011). Outros serviços auxiliam os jornalistas a lidarem com a análise e

85

Versão original: “Une telle démarche ne va pourtant pas de soi si l’on suit l’idée qu’il a été

historiquement difficile, sinon impossible, pour un journaliste de mettre en avant ses compétences

techniques”.

Page 94: UNIVERSIDADE METODISTA DE SÃO PAULO - …tede.metodista.br/jspui/bitstream/tede/1585/2/Andre Rosa de... · Este es uno de los cambios producidos ... estructuras son indispensables

94

apresentação de dados estruturados (como o ManyEyes86

) ou agrupam documentos

públicos como anotações (como o DocumentCloud 87 – este, inclusive, criado e

mantido por jornalistas do The New York Times e ProPublica). A popularização de

formatos de mídia social conectada, capaz de criar conexões sociais colaborativas

(tais como mensagens em blogs ou em sites de relacionamento como o Twitter e o

Facebook), também representa bases de dados potencialmente analisáveis (COHEN;

HAMILTON; TURNER, 2011).

Diante dessas possibilidades, a imaginação poderia resultar em um

neologismo como “charticles”, artigos que combinem texto, imagem, vídeo e

aplicações computacionais em um formato interativo em rede (BERRY, 2011, p. 15).

Com um conjunto de ferramentas para reportagem, um jornalista terá

capacidade para digitalizar, transcrever, analisar e visualizar padrões em documentos. A adaptação de algoritmos e de tecnologia combinada com ferramentas livres e de código aberto nivelará o campo de jogo entre interesses poderosos e o interesse público, ajudando a descobrir ligações e evidências que podem desencadear investigações. Essas mesmas ferramentas também podem ser usadas por grupos de interesse público e cidadãos preocupados (COHEN; HAMILTON; TURNER, 2011, p. 71,

tradução nosa)88.

Todos os exemplos acima apresentam algum sistema que demanda grande

quantidade de dados digitalizados e em volume cada vez maior. Esse fenômeno faz

com que cientistas e engenheiros da computação reforcem o discurso: vivemos a “era

do Big Data”. Ao citar um exemplo de dados gerados – o site WikiLeaks (já

mencionado), que se popularizou ao liberar cerca de 400 mil documentos militares

contendo informações sobre a guerra do Iraque e outras conversas diplomáticas –,

Lima Junior (2011, p. 50) lembra que essa quantidade de documentos só é

representativa se puder ser transformada em informação estruturada e de valor, seja

para criar transparência de órgãos governamentais ou até para inovar modelos de

negócio.

86

Serviço da IBM que permite organizar e gerar visualizações de dados. Disponível em: <http://www-

958.ibm.com>. Acesso em: 22 out. 2014. 87

Serviço para indexação e inserção de metadados em documentos. Disponível em:

<http://www.documentcloud.org>. Acesso em: 22 out. 2014. 88

Versão original: “With a suite of reporting tools, a journalist will be able to scan, transcribe, analyze,

and visualize the patterns in these documents. Adaptation of algorithms and technology, rolled into

free and open source tools, will level the playing field between powerful interests and the public by

helping uncover leads and evidence that can trigger investigations by reporters. These same tools can

also be used by public-interest groups and concerned citizens”.

Page 95: UNIVERSIDADE METODISTA DE SÃO PAULO - …tede.metodista.br/jspui/bitstream/tede/1585/2/Andre Rosa de... · Este es uno de los cambios producidos ... estructuras son indispensables

95

Ainda nessa relação entre linguagem e código-fonte, é possível pensar em

produção de informação jornalística da mesma forma que os softwares caracterizados

pela filosofia open-source? Usher e Lewis (2013) traçam esse paralelo, lembrando

que a postura participativa no desenvolvimento de programas possibilitou reflexões

para essa prática. Christopher W. Anderson (2012), jornalista e pesquisador, é um dos

autores que procuram equilíbrio diante dessas possibilidades. Ele observa que o uso

cada vez maior de sistemas em redações é tratado por muitas instituições educacionais

como “o futuro do jornalismo” – observação esta que merece uma visão crítica.

Afinal,

o que a tecnologia tira, a tecnologia devolve – apenas diferente, e talvez melhor que antes. Ao menos esta é a história de esperança do Jornalismo Computacional. E os poucos artigos escritos sobre o tema fazem eco a este arco narrativo (ANDERSON, 2012, p. 6, tradução nossa)89.

Para o autor, adotar uma postura meramente internalista no propósito de

desenvolver projetos e buscar uma saída para a crise da área pode, de fato, ser útil

para a indústria do Jornalismo; em contrapartida, reduz a presença das esferas

Política, Economia e Cultural no debate – áreas estas que estão enraizadas nos estudos

da Comunicação há décadas e que devem ser adaptadas a essa nova agenda

acadêmica.

Como nos estudos de Jornalismo em geral, as pesquisas têm se preocupado

principalmente em “construir coisas”:

Em primeiro lugar, essa pesquisa em Jornalismo Computacional tem se

preocupado principalmente em compreender a dinâmica das práticas contemporâneas de notícias; em segundo lugar, em projetar ferramentas digitais que podem complementar, criar rotinas ou, algoritmicamente, ampliar o alcance dessas práticas tradicionais (ANDERSON, 2012, p. 4, tradução nossa)90.

89

Versão original: “What technology taketh away, technology giveth – only differently, and perhaps

even better than before. Such, at least, is the hopeful story of computational journalism. And the few

scholarly articles that have thus far been written about computational journalism generally echo this

narrative arc.” 90

Versão original: “The research has, like journalism scholarship in general, been primarily concerned

with ‘building things’. This computational journalism research has primarily concerned itself with,

first, understanding the dynamics of contemporary news practices and, second, designing digital tools

that can supplement, routinize, or algorithmically expand the scope of these traditional practices”.

Page 96: UNIVERSIDADE METODISTA DE SÃO PAULO - …tede.metodista.br/jspui/bitstream/tede/1585/2/Andre Rosa de... · Este es uno de los cambios producidos ... estructuras son indispensables

96

Dentro desse contexto, o fenômeno do Big Data ocupa uma posição de

destaque: em busca de respostas para suas questões, diversos grupos pertencentes a

áreas do conhecimento distintas procuram padrões em grandes quantidades de dados.

Empresas dos mais variados segmentos se preocupam não apenas em obter mais bases

de dados ou em ter capacidade de filtrá-las, mas esperam contar com profissionais

capazes de identificar objetivos claros, de elaborar as perguntas certas e enquadrá-las

nos melhores indicadores. Não à toa, o posto de Big Data Scientist é considerado “o

mais sexy do século XXI”91

.

Até por conta dessa amplitude, o termo Big Data merece reflexão. Boyd e

Crawford (2012), por exemplo, questionam: qual o limite do “big”, tendo em vista as

demonstrações relacionadas a bancos de dados analisados sem a demanda de um

supercomputador? Além das questões tecnológicas, as autoras observam um atributo

mitológico: “a crença generalizada de que grandes conjuntos de dados oferecem uma

forma superior de inteligência e conhecimentos que podem gerar insights impossíveis

previamente, com a aura de verdade, objetividade e precisão”.

O questionamento das pesquisadoras (BOYD; CRAWFORD, 2012) é

concentrado em seis questionamentos-chave. Será que o Big Data mudará mesmo as

definições do conhecimento sem que sua complexidade seja compreendida? As

afirmações resultantes da interpretação dos dados não são fruto de um engano

metodológico? Até que ponto é vantajoso obter muitos dados – eles são capazes de

revelar o que se deseja? Ao reduzir tabelas para fazê-las caberem em um modelo

matemático, estaríamos tirando dados do contexto e distorcendo seu significado? Sob

o ponto de vista ético, é correto acessar uma base de dados pelo simples fato de ela

estar aberta? Por outro lado, restringir o acesso a esses dados significaria criar novas

barreiras?

Ainda que a “era do Big Data” esteja apenas começando, as autoras

consideram importante questionar seus pressupostos, valores e tendências por meio de

observações que compreendem como “óbvias para cientistas sociais, mas que

costumam surpreender pesquisadores de outras disciplinas” (BOYD; CRAWFORD,

2012, p. 664, tradução nossa)92

. Ou, como parece ser há mais de 50 anos,

pesquisadores de “culturas diferentes”. De toda forma, além de ser a “buzzword do

91

Reportagem da revista Harvard Business Review, outubro de 2012. 92

Versão original: “The questions that we ask are hard ones without easy answers, although we also

describe different pitfalls that may seem obvious to social scientists but are often surprising to those

from different disciplines.”

Page 97: UNIVERSIDADE METODISTA DE SÃO PAULO - …tede.metodista.br/jspui/bitstream/tede/1585/2/Andre Rosa de... · Este es uno de los cambios producidos ... estructuras son indispensables

97

momento”, Big Data pode ser um bom exemplo para discutir, dentro e fora das

organizações, como o Jornalismo se altera sob o viés epistemológico (a ciência do “o

que é”) da expertise econômica e ética. Em outras palavras: “a indústria da mídia

precisa se confrontar com a pergunta: o que fazer com isso?” (LEWIS; WESTLUND,

2014).

Page 98: UNIVERSIDADE METODISTA DE SÃO PAULO - …tede.metodista.br/jspui/bitstream/tede/1585/2/Andre Rosa de... · Este es uno de los cambios producidos ... estructuras son indispensables

98

3.3 Relação entre Jornalismo Computacional e metadados

Como vimos, a inovação é “frequentemente percebida como um atalho de

desenvolvimento, o que a torna supervalorizada” (SEELOS; MAIR, 2012). No

contexto do Jornalismo, é o resultado de uma equação complexa, na qual as variáveis

de origem organizacional (que incluem pressões de ordem econômica) colidem com

processos de evolução tecnológica e iniciativas pautadas por processos que remetem à

lógica do código aberto. Essas variáveis são independentes entre si e refletem

resultados positivos e negativos. Dentro de sua própria lógica, cada veículo

jornalístico dialoga com essas dimensões a partir de interlocutores internos e – cada

vez mais – externos.

Neste ponto do trabalho, os capítulos apresentados até aqui se encontram.

Partimos de uma discussão inicial enfatizando a necessidade de conexões

interdisciplinares entre a Comunicação e as áreas do conhecimento relacionadas à

Tecnologia, como a Ciência da Computação – a mesma interlocução que permitiu o

enraizamento dos metadados, oriundos da Biblioteconomia, em bases de dados na

Web utilizadas, entre outras aplicações, pelo Jornalismo. As apropriações

tecnológicas estimuladas pela busca por inovação culminaram com um elo promissor

entre esses dois mundos, num movimento definido por alguns autores como

“Jornalismo Computacional”. Coloca-se, desta forma, um caminho claro para a

investigação das habilidades comuns a essa intersecção, tendo os metadados como fio

condutor.

A essa altura, é possível interpretar a reutilização de conteúdos num ambiente

digital conectado, cuja evolução tecnológica altera as dinâmicas de produção,

distribuição e consumo de informação jornalística a partir de uma “visão hacker”. Ela

pede um esforço interdisciplinar capaz de culminar em processos de inovação – com

toda a dureza e complexidade das quais esses esforços necessitam. O tamanho dessa

força pode ser identificado na iniciativa de Tim Berners-Lee e na do consórcio W3C,

que desde 2001 planeja a evolução da teia de documentos conectados por meio de

links para a Web de Dados.

Ao publicar informações diárias e digitalizar acervos, disponibilizando esse

conteúdo na rede, os veículos jornalísticos contribuem para a expansão do volume de

informação na Web. Esse material é disponibilizado por meio de sistemas de

informação e publicação elaborados a partir de aspectos gerenciais de cada

Page 99: UNIVERSIDADE METODISTA DE SÃO PAULO - …tede.metodista.br/jspui/bitstream/tede/1585/2/Andre Rosa de... · Este es uno de los cambios producidos ... estructuras son indispensables

99

organização e de escolhas tecnológicas (SCHWINGEL; CORREA, 2013). Por meio

de um navegador (browser), já é possível seguir por links e encontrar informação por

meio de páginas, documentos. Isso já indica a universalização da Web concebida por

Berners-Lee, mas não é tudo.

Basicamente, a proposta é adotar sistemas de metadados que permitam

conteúdos autodescritivos e contextualizados nos códigos-fonte, de modo a

possibilitar sua interpretação por máquinas. Souza e Alvarenga (2004) resgatam o

conceito de linked data, que pretende criar e implantar padrões tecnológicos que

viabilizem a troca de informações e a atuação de agentes inteligentes por meio da

infraestrutura de dados da Web. Pode-se verificar, no entanto, que há um abismo entre

as possibilidades técnicas e sua aplicação.

Atualmente, os metadados para notícias são bastante heterogêneos e difíceis de serem enriquecidos ou detalhados o suficiente para cobrir todo o conhecimento que esses documentos contêm. Anotações manuais são impraticáveis e infindáveis. As ferramentas de marcação automáticas permanecem muito pouco desenvolvidas. Portanto, os serviços

informativos especializados exigem ferramentas que possam pesquisar e extrair informação específica diretamente de textos não estruturados na Web. Essas ferramentas podem ser guiadas por uma ontologia que determinaria qual tipo de informação seria extraído (KALLIPOLITIS; KARPIS; KARALI, 2012, p. 38, tradução nossa)93.

O reflexo desses obstáculos pode ser representado pelo projeto Neptuno94,

desenvolvido pelo Information Retrieval Group, ligado à escola politécnica da

Universidade Autónoma de Madrid. Ele propôs a construção e gestão do acervo

digital do jornal Diari SEGRE, preocupando-se com a ontologia adequada, a

semântica das palavras-chave, a arquitetura e as formas de navegação e visualização.

Além da redação e de duas instituições (Universidad Autónoma de Madrid e

Universitat de Lleida), o projeto envolveu ainda uma empresa provedora de

tecnologia. Como resultados, além de algumas respostas, surgiram mais perguntas.

93

Versão original: “Metadata for news items are currently quite heterogeneous and it is difficult to be

rich or detailed enough to cover all the knowledge that these documents contain. Manual annotation

is impractical and unscalable and automatic annotation tools remain largely undeveloped.

Therefore, specialized knowledge services require tools that can search and extract specific

knowledge directly from unstructured text on the Web. These tools could be guided by an ontology

that would determine what type of knowledge to harvest”. 94

Disponível em: <http://ir.ii.uam.es/neptuno/>. Acesso em: 15 fev. 2015.

Page 100: UNIVERSIDADE METODISTA DE SÃO PAULO - …tede.metodista.br/jspui/bitstream/tede/1585/2/Andre Rosa de... · Este es uno de los cambios producidos ... estructuras son indispensables

100

O tamanho e a complexidade das informações armazenadas, bem como as limitações de tempo ao catalogar, descrever e ordenar informações de entrada, fazem dos acervos digitais um corpus relativamente desorganizado e difícil de gerenciar. Nesse sentido, eles compartilham as

características e os problemas da Web, sendo que as soluções propostas para a Web Semântica são pertinentes aqui (CASTELLS et al., 2004, tradução nossa)95.

Pellegrini (2012), que identifica tanto a pluralidade de formatos quanto a

ausência de uma “cultura de metadados” como obstáculos, menciona Michael Porter,

professor de Harvard e referência no universo de economia e negócios, para adaptar o

conceito de “cadeia de valor” à produção de notícias e relacioná-lo ao conceito de

linked data – conceito associado à Web de Dados e que permite o intercâmbio de

informação nesse ambiente. Seguindo uma lógica de produção, cada etapa pode ser

reforçada por metadados. A Figura 3.2 ilustra as potenciais contribuições de valor

nessas etapas do processo de produção e distribuição de conteúdo.

Figura 3.2 – Cadeia de valor por meio de linked data

Fonte: PELLEGRINI, 2012, p. 127.

95

Versão original: “The size and complexity of the stored information, and the time limitations for

cataloguing, describing and ordering the incoming information, make newspaper archives a

relatively disorganised and difficult to manage corpus. In this sense, they share many of the

characteristics and problems of the WWW, and therefore the solutions proposed in the Semantic

Web vision are pertinent here”.

Page 101: UNIVERSIDADE METODISTA DE SÃO PAULO - …tede.metodista.br/jspui/bitstream/tede/1585/2/Andre Rosa de... · Este es uno de los cambios producidos ... estructuras son indispensables

101

O universo de dados estruturados disponíveis (como a DBPedia) representa

uma oportunidade para o processo de aquisição de conteúdos, no qual os profissionais

coletam, armazenam e relacionam os itens que se tornarão notícia. Mas é no processo

de edição de conteúdo, por meio de técnicas de anotação semântica, que a informação

pode ser enriquecida. Nessa etapa, a discussão dos processos editoriais se torna

imprescindível. A terceira etapa diz respeito à contextualização e à personalização de

conteúdos, o que inclui modelos de metadados relacionados ao comportamento do

usuário. Na etapa de distribuição, ocorre o diálogo com as máquinas, especialmente

por meio de APIs. Finalmente, no consumo de conteúdos, os usuários interagem da

forma mais agradável possível.

O aumento na disponibilidade de dados estruturados como parte da estratégia

de governos, organizações ou iniciativas colaborativas faz surgir uma questão: de que

forma a indústria da mídia pode se beneficiar com esse processo? Em 2010, o boletim

do IPTC (MIRROR, 2010, p. 3) repercutiu a seguinte questão entre seus leitores: a

mídia consegue utilizar linked data por um futuro mais forte? “Responder à pergunta

‘linked data pode funcionar’ é apenas o começo: ‘existe um business case para ele’ é

o complemento dessa questão”, observa o texto (tradução nossa)96

. Segundo

Pellegrini (2012), um olhar mais detalhado em redações revela um descompasso entre

os debates científicos e a utilização de metadados semânticos na indústria da mídia.

A experiência mostra que, devido a aversão ao risco, falta de recursos

financeiros e atores experientes, a indústria da mídia tende a se comportar com muita cautela quando se trata da adoção de novas tecnologias e metodologias de criação de conteúdo e reutilização, especialmente quando elas carregam um forte potencial disruptivo e afetam seu core business, a competência ou a cultura corporativa (PELLEGRINI, 2012, p. 125, tradução nossa) 97.

Está claro que “a Web e as bases de dados são consideradas plataformas

tecnológicas fundamentais para o desenvolvimento do jornalismo contemporâneo em

redes digitais” (LAMMEL; MIELNICZUK, 2012, p. 180). A notícia é revalorizada ao

96

Versão original: “Answering the question ‘Can Linked Data work?’ is just the beginning. ‘Is there a

business case for it?’ is the rest of the question.” 97

Versão original: “Experience shows that due to risk aversion, lack of financial resources and

expertise actors in the media industry tend to behave very cautiously when it comes to the adoption

of new technologies and methodologies of content creation and reuse, especially when they carry a

strong disruptive potential and affect their core business, competencies or corporate culture”.

Page 102: UNIVERSIDADE METODISTA DE SÃO PAULO - …tede.metodista.br/jspui/bitstream/tede/1585/2/Andre Rosa de... · Este es uno de los cambios producidos ... estructuras son indispensables

102

ser classificada e ter novas relações por meio de metadados, tornando-as mais bem

descritas e compreendidas por computadores. A utilização de padrões semânticos na

Web e a adoção dos princípios do linked data representam um trajeto árduo – mas

possível – para estimular as práticas interdisciplinares e buscar práticas inovadoras em

redações. Esse trajeto começa a partir da mudança de postura diante da publicação de

objetos informativos em rede, associando metadados estruturais, descritivos ou

administrativos, estabelecendo modelos e práticas adequadas. No Jornalismo, área na

qual esses termos são tidos como “existentes” e só, o impasse é ainda maior.

Implantar um sistema de informação, que precisa ser atualizado de acordo

com as exigências de seus usuários, ainda custa caro. E a informação, considerada um bem inatingível e de difícil mensuração, parece ser valorizada para a maioria dos meios apenas como um produto que pode ser vendido no dia, na semana e no mês seguinte. Não mais que isso (QUADROS, 2005, p. 415).

Nem sempre a prática jornalística, conduzida por questões de mercado, se

baseia em necessidades informativas. De toda forma, é possível identificar a

preocupação com a informação jornalística estruturada por metadados.

O próximo capítulo deste trabalho discute ferramentas metodológicas capazes

de gerar contribuições e reflexões sobre essas práticas.

Page 103: UNIVERSIDADE METODISTA DE SÃO PAULO - …tede.metodista.br/jspui/bitstream/tede/1585/2/Andre Rosa de... · Este es uno de los cambios producidos ... estructuras son indispensables

103

Capítulo IV – MÉTODO PARA ANÁLISE

As discussões apresentadas até aqui acerca da evolução das estruturas de

metadados e de inovações tecnológicas no Jornalismo procurou delinear suas

fronteiras interdisciplinares. Sobre as escolhas metodológicas que reforçam esse

debate, justificadas neste capítulo, recai um estigma fortalecido por práticas de

mercado: ao contratar uma agência ou um profissional de comunicação, as

organizações costumam mensurar sua competência anterior questionando-os a partir

da apresentação de algum “case de sucesso”.

Ainda que tal prática resulte em elementos que favoreçam uma tomada de

decisão, é como se o processo envolvendo o desenvolvimento de um trabalho só

fizesse sentido a partir de exemplos anteriores. Evidentemente, o grau de persuasão

do especialista não se relaciona, necessariamente, aos “resultados comprovados” na

visão de seu potencial cliente. De todo modo, como lidar com casos para estudo sem

se contaminar com a “busca pelos cases de sucesso”?

Em suas primeiras linhas, este capítulo apresenta preocupações metodológicas

para conciliar as forças e fraquezas da escolha dos procedimentos de pesquisa neste

trabalho e se afastar, na medida do possível, de afirmações inconsistentes ou

prescritas.

Page 104: UNIVERSIDADE METODISTA DE SÃO PAULO - …tede.metodista.br/jspui/bitstream/tede/1585/2/Andre Rosa de... · Este es uno de los cambios producidos ... estructuras son indispensables

104

4.1 Discussões preliminares sobre o uso de casos

Não é preciso levantar justificativas rigorosas para reconhecer as lacunas

diante de escolhas pautadas apenas por uma, digamos, “caseficação” de competências

e habilidades. De um lado, isolar variáveis e desprezar contextos diferentes na

tentativa de “replicar possibilidades” podem representar um erro grosseiro; de outro,

ignorar diferentes caminhos pouco explorados e seguir por “trilhas seguras” nos

afastam da serendipidade – um termo de origem inglesa frequentemente associado à

inovação e que, segundo Mario Bunge (2007, p. 192, tradução nossa), é um

“descobrimento acidental, boa sorte em termos cognitivos”, ainda que a importância

dada a esse tipo de acaso não deva “ser exagerada, pois provavelmente um

investigador que não está preparado não vai notar o excepcional”98

.

Pode parecer uma visão simplória e pouco relevante, mas o fato é que, se,

quando confrontada, a visão corporativa que valoriza exemplos chamativos carece de

argumentos, o que deve ser considerado em uma pesquisa baseada em casos, mesmo

sendo um instrumento construído e aprimorado a cada nova utilização? Especialmente

no contexto das apropriações tecnológicas no Jornalismo, onde o que se vê na Web

“não é exatamente o que se esperava” no final dos anos 1990: enquanto pesquisadores

apresentam novas questões, “os ativos das novas tecnologias são, em grande parte,

ignorados ou pelo menos implementados em um ritmo muito mais lento do que tinha

sido anteriormente sugerido em redações” (STEENSEN, 2009, p. 1, tradução nossa)99.

Uma das principais referências no método, o cientista social Robert K. Yin

(2009) acredita que essa visão pode estar na confusão entre “estudo de caso como

ensino e pesquisa”. Ao contrário da ação de um professor em sala de aula (ou em

prospectos de um profissional de comunicação), na qual os casos podem ser

deliberadamente alterados para demonstrarem um ponto particular, “todo pesquisador

que adota estudos de caso deve trabalhar duro para relatar todas as evidências

adequadamente” (YIN, 2009).

O trabalho pioneiro de Kathleen M. Eisenhardt (1989), em consonância com o

de Robert K. Yin, apresenta uma outra justificativa plausível para a elaboração de

98

Versão original: “Serendipia: descubrimiento accidental; buena suerte en temas cognitivos. Su

importancia no debe exagerarse, pues probablemente un investigador que no esté preparado no

advertirá lo excepcional”. 99

Versão original: “The assets of new technology are for a large part ignored or at least implemented at

a much slower rate than had been earlier suggested in online newsrooms”.

Page 105: UNIVERSIDADE METODISTA DE SÃO PAULO - …tede.metodista.br/jspui/bitstream/tede/1585/2/Andre Rosa de... · Este es uno de los cambios producidos ... estructuras son indispensables

105

inferências a partir de uma seleção consistente de ocorrências – ações em torno de

uma ideia que pode ser definida como “caso”:

Há momentos em que pouco se sabe sobre um fenômeno e nos quais as

perspectivas atuais parecem inadequadas, pois ou há pouca comprovação empírica, ou uma entra em conflito com a outra ou com o senso comum. Às vezes, serendipidades em um estudo teórico sugerem a necessidade de uma nova perspectiva. Nessas situações, a construção de teoria a partir de um estudo de caso é particularmente apropriada, pois ela não se baseia em literatura anterior ou em evidências empíricas anteriores (EISENHARDT, 1989, p. 548, tradução nossa)100.

A visão da autora se encaixa com a problemática envolvendo a indexação e a

recuperação de informação jornalística em bases de dados estruturadas por

metadados, o que bastaria para justificar essa escolha. Seu artigo, no entanto, faz

referência a pesquisas voltadas à compreensão de organizações. Até por conta disso,

dentro das Ciências Sociais Aplicadas, a área de Administração utiliza estudos de

caso para a elaboração e discussão de teorias. Também é nessa área que as críticas ao

método são mais frequentes.

Um estudo conduzido por pesquisadores europeus em bases de artigos

publicados em dez revistas influentes na área (GIBBERT; RUIGROK; WICKI, 2008)

revelou inquietação com o volume de estudos preocupado com a validação de seus

próprios conceitos e processos metodológicos, em detrimento a questões externas e

generalizações. Em uma abordagem parecida, pesquisadoras do Rio Grande do Sul

avaliaram especificamente trabalhos publicados nos anais do Encontro da Associação

Nacional de Pós-Graduação e Pesquisa em Administração (OLIVEIRA; MAÇADA;

GOLDONI, 2009). Elas evidenciaram a inexistência de elementos capazes de indicar

rigor na realização dos estudos, notadamente lacunas entre coleta e resultados, entre

outras lacunas que subentendem ausência de entendimento em relação aos conceitos

básicos do método. Tal preocupação é semelhante à de Martins (2008, p. 10), que

enumerou deficiências consideradas sérias em um grande número de pesquisas

orientadas por esse método: “análises intuitivas, primitivas e impressionistas, não

100

Versão original: “There are times when little is known about a phenomenon, current perspectives

seem inadequate because they have little empirical substantiation, or they conflict with each other

or common sense. Or, sometimes, serendipitous findings in a theory-testing study suggest the need

for a new perspective. In these situations, theory building from case study research is particularly

appropriate because theory building from case studies does not rely on previous literature or prior

empirical evidence”.

Page 106: UNIVERSIDADE METODISTA DE SÃO PAULO - …tede.metodista.br/jspui/bitstream/tede/1585/2/Andre Rosa de... · Este es uno de los cambios producidos ... estructuras son indispensables

106

conseguindo transcender a simples relatos históricos, obviamente muito afastados do

que se espera de um trabalho científico”.

Campomar (1991, p. 97) observava o aumento (e as fraquezas) de trabalhos

calcados com esse método na Administração – na mesma medida em que estimulava

sua utilização “sem se intimidar por possíveis preconceitos” –, bem como identificava

sua presença na área da Educação. Nesse contexto, a confusão entre o uso de casos

para ilustrar afirmações ou a coleta e validação de dados sem sistematizações claras

aumentam a quantidade de “não estudos de caso”. Não seria incorreto afirmar que as

razões de sua escolha possam ser fundamentadas por limitações de recursos,

dificuldade de acesso aos objetos de pesquisa, custos e tempo de duração da

investigação. Também podem ser influenciadas por uma falácia: a do “método ser

mais fácil, próprio para iniciantes”. Além de menosprezar o rigor que o método exige,

o descuido nesse processo representa um problema ainda mais grave para uma

proposta de pesquisa: o isolamento.

Ao não situar seu estudo na discussão acadêmica mais ampla, o

pesquisador reduz a questão estudada ao recorte de sua própria pesquisa, restringindo a possibilidade de aplicação de suas conclusões a outros contextos, pouco contribuindo para o avanço do conhecimento e a construção de teorias. Tal atitude frequentemente resulta em estudos que só têm interesse para os que dele participaram, ficando à margem do debate acadêmico (ALVES-MAZZOTTI, 2006, p. 639).

Na visão de Meyer (2001), tais críticas exigem que o pesquisador evidencie a

justificativa para a escolha do método, bem como seus processos de condução – ou

seja, que torne explícitas as balizas usadas para a coleta e análise de dados. Mesmo

distante dos problemas de pesquisa comuns à Administração, o mesmo cuidado se

aplica ao Jornalismo, ainda mais se lembrarmos da “universalidade do fenômeno, a

complexidade das teorias, a multiplicidade dos autores e a diversidade de

metodologias” (MACHADO, 2010, p. 22).

Page 107: UNIVERSIDADE METODISTA DE SÃO PAULO - …tede.metodista.br/jspui/bitstream/tede/1585/2/Andre Rosa de... · Este es uno de los cambios producidos ... estructuras son indispensables

107

4.2 Exemplos de casos em estudos de Jornalismo na Web

Não cabe aqui questionar se a quantidade de ferramentas metodológicas é

exagerada ou se isso representa alguma fragilidade aos estudos do Jornalismo. Ao

comparar publicações que se apresentam como guias ou manuais metodológicos

dedicados aos fenômenos jornalísticos, o pesquisador Elias Machado (2010, p. 22)

exemplifica a questão principal, tomando como base os conceitos de valor, notícia e

rotinas produtivas: “em vez de utilizar a realidade para colocar à prova os conceitos,

em geral o pesquisador ajustava a realidade aos limites destes conceitos, constituindo

um círculo vicioso em que, quanto mais se pesquisava, menos se sabia sobre o objeto

estudado”.

É possível interpretar a necessidade de “colocar a realidade à prova” a partir

das linhas de investigação conduzidas pelo pesquisador em conjunto com Marcos

Palacios por meio do Grupo de Pesquisa em Jornalismo On-Line (GJOL), do

Programa de Pós-Graduação em Comunicação da UFBA. Tal sistemática, interessada

em fenômenos contemporâneos envolvendo inovação e tecnologias nos produtos e

processos jornalísticos, é a que mais se aproxima dos elementos que compõem este

trabalho. Da mesma forma, como os próprios autores apontam, merece ainda uma

revisão crítica permanente.

Desenvolvida desde 1997, a estratégia de pesquisa se apoia em um método

híbrido, mas essencialmente calcado em uma densa revisão bibliográfica e na

delimitação de objetos de estudo considerados referenciais ou que tenham caráter

inovador ou experimental, somado a uma investigação de caráter exploratório baseada

em um protocolo de estudo de caso. A partir da experiência acumulada, isso permite a

possibilidade de apresentar uma ideia geral do objeto estudado por meio de situações

particulares, além de realizar estudos dessa natureza em períodos curtos e com

resultados passíveis de confirmação por outras investigações. Desta forma, é

elaborada a relação entre o referencial teórico e as características próprias do caso

(MACHADO; PALACIOS, 2007).

Além da validação dessa construção – feita pela combinação de revisão

bibliográfica e coleta de dados –, estudos dessa natureza exigem replicabilidade. Em

outras palavras: o estudo pode ser repetido pelo mesmo investigador, a partir das

mesmas fontes de análise, e chegar a resultados similares? Da mesma forma, ele pode

ser conduzido por outro pesquisador e chegar ao mesmo lugar (MEYER, 2001)? Por

Page 108: UNIVERSIDADE METODISTA DE SÃO PAULO - …tede.metodista.br/jspui/bitstream/tede/1585/2/Andre Rosa de... · Este es uno de los cambios producidos ... estructuras son indispensables

108

conta disso, o protocolo é indispensável, dado se tratar de um roteiro para que o

pesquisador tenha controle do seu objeto analisado, além de garantir mecanismos

suficientes para replicá-lo em situações semelhantes.

Em um dos desdobramentos desse posicionamento, universidades do Brasil e

da Espanha compararam e discutiram métodos de pesquisa específicos, propondo a

observação de práticas e a construção de instrumentos para a avaliação de produtos no

propósito de responder a uma questão complexa: o que é qualidade em Jornalismo

(SHAPIRO, 2010)? Em seu primeiro ano de vigência, 30 pesquisadores, de sete

universidades brasileiras e nove universidades espanholas, integraram o projeto. O

sumo desse trabalho está sintetizado em um toolkit para pesquisadores em Jornalismo

avaliarem parâmetros de qualidade em veículos de notícia a partir de uma lista de

parâmetros básicos para a análise das características de um site, que permitiria um

panorama comparativo (PALACIOS; DÍAZ NOCI, 2009).

Para fugir do “círculo vicioso”, porém, a proposta demanda uma vigília

permanente por conta de seu raciocínio essencialmente indutivo – isto é, que parte de

dados particulares para chegar a conceitos gerais por meio de observações singulares

e operações cognitivas (podemos tirar, se achar melhor). Assim, é fundamental

recuperar a visão do filósofo da ciência Karl Popper, cuja preocupação com o rigor

científico rebaixa saberes que se centram na confirmação indutiva.

Quero apenas que todo enunciado científico se mostre capaz de ser submetido a teste. Em outras palavras, recuso-me a aceitar a concepção de que, em ciência, existam enunciados que devamos resignadamente aceitar como verdadeiros, simplesmente pela circunstância de não parecer possível, devido a razões lógicas, submetê-los a teste (POPPER, 2008, p.

50).

Ao apresentar o toolkit (PALACIOS, 2011), o autor valoriza seu caráter útil ao

mesmo tempo em que reconhece, diante da própria metamorfose permanente que é o

meio digital, que sua “caixa de ferramentas” precisa ser “testada, aperfeiçoada ou

descartada”, se for o caso. Isso já acontece, por exemplo, ao serem verificados os

atributos de uma “ferramenta para análise de design” (p. 131). Mesmo distante do

escopo deste trabalho, é evidente notar que propriedades como as dimensões das

páginas e a organização em colunas, como proposto nesse instrumento para avaliação

de casos, estão datadas diante da multiplicidade de telas e grids responsivos. É um

Page 109: UNIVERSIDADE METODISTA DE SÃO PAULO - …tede.metodista.br/jspui/bitstream/tede/1585/2/Andre Rosa de... · Este es uno de los cambios producidos ... estructuras son indispensables

109

exemplo no qual o método baseado em casos corre o risco de apenas descrever uma

realidade, sem promover avanços.

No que toca este trabalho, o toolkit apresenta tanto uma ferramenta específica

para avaliação de bases de dados (PALACIOS, 2011, p. 167) quanto outra para

identificar a memória (PALACIOS, 2011, p. 183), que inclui o uso e a natureza dos

links – observação bem próxima a outro parâmetro indicado pelos autores, a

hipertextualidade, “um conceito escorregadio que é usado para descrever vários

processos relacionados à comunicação em geral e a práticas como o jornalismo digital

em particular” (STEENSEN, 2011, p. 315, tradução nossa)101

.

Entre as propriedades sugeridas como parâmetros de avaliação, observam-se

as quantidades de bases de dados de um veículo, a origem das plataformas de

gerenciamento (proprietária, produzida internamente ou de código aberto), a

integração de sistemas em grupos de mídia com múltiplas plataformas de distribuição

(mencionando RSS) e a distinção de templates (modelos prontos) de publicação.

A relação entre essas tecnologias e o uso de metadados para a estruturação de

conteúdos se restringe a uma pergunta: “os conteúdos inseridos na plataforma do

cibermeio seguem alguma norma para sua documentação? Se sim, a documentação

segue que tipo de protocolo?” (PALACIOS, 2011, p. 180). Questiona ainda se o

veículo observado “utiliza as bases de dados existentes para mineração de dados e

proposição de pautas” (PALACIOS, 2011, p. 177), isto é, se explora suas informações

e as suas relações para, a partir disso, gerar pautas. Por fim, se “usa bases de dados

inteligentes na recuperação da memória” (PALACIOS, 2011, p. 182), sem detalhar os

pormenores dessas duas perguntas.

Nesse contexto, o “convite ao diálogo e a uma colaboração mais ampla” já

acontece. Debruçados nas questões relacionadas à memória de periódicos disponíveis

na Web, pesquisadores da Universidade de Barcelona propuseram um método de

avaliação de atributos em hemerotecas digitais, baseado em parâmetros associados a

bases de dados na Web e a outros recursos. Como referência, trouxeram estudos em

Comunicação relacionados ao tema (incluindo o toolkit mencionado acima),

distinguindo-os entre os que declaravam uma intenção puramente descritiva dos que

apresentavam uma orientação avaliadora (GUALLAR; ABADAL; CODINA, 2013).

Em meio a aspectos gerais, disponibilização de conteúdos e funcionalidades para

101

Versão original: “a slippery concept that is used to describe numerous processes related to

communication in general and practices like online journalism in particular”.

Page 110: UNIVERSIDADE METODISTA DE SÃO PAULO - …tede.metodista.br/jspui/bitstream/tede/1585/2/Andre Rosa de... · Este es uno de los cambios producidos ... estructuras son indispensables

110

apresentação e compartilhamento de resultados, aparece a propriedade “utilização de

tesauros (sinônimos) e outros vocabulários controlados”, característica relacionada à

gestão de metadados. Mesmo associado a um embasamento considerado consistente,

há pouca relação entre os objetivos do Jornalismo e as contribuições possíveis a partir

de um pensamento computacional.

O sistema de análise descrito acima, bem como qualquer outro enraizado em

um procedimento baseado em casos particulares potencialmente replicáveis em outros

estudos, precisa ser questionado. Como vimos, com a apropriação de tecnologias

digitais pelo Jornalismo, há a necessidade de dominá-las com maior aprofundamento,

indo além de seu uso doméstico, subindo o patamar de utilização (LIMA JUNIOR,

2012).

Assim, não faz sentido avaliar um “mecanismo interno de busca e do tipo de

material que pode ser recuperado através dele a partir dos parâmetros oferecidos ao

usuário” (PALACIOS, 2011, p. 183), a “articulação com edições impressas e

existência de uma hemeroteca histórica, de acesso livre ou pago” (PALACIOS, 2011,

p. 189) ou a “presença de nuvem de tags associada ao seu uso em matérias”

(PALACIOS, 2011, p. 188) sem levar em consideração uma compreensão

significativa de suas possibilidades tecnológicas. Não se trata de acertar sempre, mas

sim de prever eventos e variáveis não esperadas em qualquer modelo estabelecido –

ainda mais num ambiente de evidente complexidade, que massacra qualquer ideia

envolvendo gerações e modelos.

Page 111: UNIVERSIDADE METODISTA DE SÃO PAULO - …tede.metodista.br/jspui/bitstream/tede/1585/2/Andre Rosa de... · Este es uno de los cambios producidos ... estructuras son indispensables

111

4.3 Elaboração de um instrumento de observação

Diante das considerações apresentadas até aqui, a utilização de casos para a

elaboração de um estudo – aos moldes da trilha oferecida pelo GJOL – é adequada em

situações nas quais se pretende compreender melhor a natureza de um objeto de

pesquisa. Para reforçar essa abordagem metodológica e levando em consideração os

objetivos deste trabalho, algumas questões precisam ser valorizadas, em especial no

que diz respeito aos processos de validação (interna e externa) e comparação com

outros estudos.

Quadro 4.1 – Etapas para a construção de um instrumento de observação

Etapa Ações

Planejar Estruturar fundamentação teórica consistente

Definir uma questão de pesquisa apropriada

Desenhar Selecionar casos para estudo

Categorizar elementos observados

Preparar Elaborar protocolo de pesquisa

Testar, reforçar ou descartar estudo

Fonte: Adaptado de YIN, 2009; EISENHARDT, 1989.

O planejamento de um estudo baseado em casos é uma etapa que não deve ser

desprezada (YIN, 2009). Ela deve começar por uma pergunta adequada de pesquisa

(que responda a um “como” ou a um “por que”), enraizada na revisão conceitual em

torno do objeto, que deverá conduzir a investigação. A partir do exposto na

fundamentação teórica, temos: num cenário de estímulo a práticas interdisciplinares e

inovadoras em redações, como estruturar o conteúdo jornalístico armazenado em

bases de dados por meio de metadados? Uma questão seguinte, que deriva dessa, é:

o que se entende por estruturação de informação jornalística por metadados?

Outro aspecto importante diz respeito às justificativas para a abordagem

metodológica. Por se tratar de um tema envolvendo bases de dados, seria possível

considerar um enfoque quantitativo. Inspirados em trabalhos da Ciência da

Computação – que utilizam softwares para reconhecer padrões de código, identificar e

caracterizar milhões de triplas RDF ou conjuntos de esquemas OWL, mapear a

extensão da Web de Dados e analisar esse conjunto por meio de indicadores

estatísticos (DING; FININ, 2006; WANG; PARSIA; HENDLER, 2006) –, já é

possível construir ferramentas sofisticadas para desfragmentar textos jornalísticos e

enriquecer tradicionais processos de análise de conteúdo (GUNTHER; QUANDT,

Page 112: UNIVERSIDADE METODISTA DE SÃO PAULO - …tede.metodista.br/jspui/bitstream/tede/1585/2/Andre Rosa de... · Este es uno de los cambios producidos ... estructuras son indispensables

112

2016), bem como algoritmos capazes de extrair metadados de artigos noticiosos, de

relacioná-los a ontologias e propor leituras relevantes a partir dessa relação

(KALLIPOLITIS; KARPIS; KARALI, 2012). A mesma lógica envolvendo

ferramentas computacionais pode dialogar com plataformas de dados e suas APIs,

como o já mencionado GDELT 102 ou o Media Cloud 103

, parceria entre as

universidades Harvard e MIT.

Tais escolhas se revelam apropriadas quando se pretende verificar a extensão

de um fenômeno. Pelo prisma da Comunicação, no entanto, a relação entre metadados

e bases jornalísticas está em estágio inicial de entendimento, o que demanda uma

articulação interdisciplinar consistente e um enfoque qualitativo. Nesse sentido, a

partir de um volume de observações e da relação entre semelhanças e diferenças entre

elas, infere-se algo possível de ser aplicado a um conjunto mais amplo de casos –

processo mental baseado em indução a partir de uma abordagem exploratória.

São investigações de pesquisa empírica cujo objetivo é a formulação de questões ou de um problema, com tripla finalidade: desenvolver hipóteses, aumentar a familiaridade do pesquisador com um ambiente, fato ou fenômeno, para a realização de uma pesquisa futura mais precisa ou modificar e clarificar conceitos. Empregam-se geralmente procedimentos

sistemáticos ou para a obtenção de observações empíricas ou para as análises de dados – ou ambas, simultaneamente (LAKATOS; MARCONI, 2003, p. 188).

Por fim, um ponto-chave do método de pesquisa baseado em estudo de casos

está na parametrização de seu protocolo de análise. É dessa forma que a pertinência

dos argumentos teóricos, bem como as hipóteses construídas a partir das inferências,

podem ser testadas, aprimoradas ou questionadas em outras investigações. A

validação desse esquema de observação é obtida por meio da triangulação dos dados a

partir da observação de uma ou mais fontes que corroboram um conjunto de fatos

bastante próximo. O que leva a outra decisão no planejamento de investigação:

selecionar um ou mais casos para observação.

A seleção de uma unidade de análise apropriada começa quando se especifica precisamente questões de pesquisa primárias. Se suas questões não conduzirem ao favorecimento de uma unidade de análise em relação a outra, suas questões provavelmente estão muito vagas ou numerosas

102

Disponível em: <http://gdeltproject.org>. Acesso em: 12 mar. 2015. 103

Disponível em: <http://mediacloud.org>. Acesso em: 12 mar. 2015.

Page 113: UNIVERSIDADE METODISTA DE SÃO PAULO - …tede.metodista.br/jspui/bitstream/tede/1585/2/Andre Rosa de... · Este es uno de los cambios producidos ... estructuras son indispensables

113

demais – e seu estudo de caso terá um problema (YIN, 2009, tradução nossa)104.

Há situações em que um único caso pode ser considerado para a elaboração

desse esquema. Como a investigação do fluxo de produção e armazenamento de

informação nos sistemas de indexação que compõem o serviço público de rádio e

televisão belga (VRT), incluindo o processo de produção de notícias e o modelo de

integração das informações por meio de metadados (DEBEVERE et al., 2010). Ou a

complexa gestão de metadados e a abertura de linked data pela Wolters Kluwer

Deutschland (WKD), agência especializada em informações de finanças e legislação

(DIRSCHL et al., 2014). E, finalmente, a investigação de Matt Carlson (2015), que

explorou como redações podem usar sistemas de narrativas automatizadas, além de

procurar entender de que forma as práticas e relações de trabalho são alteradas. Ele

elaborou num estudo de caso único, a empresa Narrative Science105, que desde 2010

cria processos para a produção de notícias por meio de algoritmos. Resumidamente,

seu trabalho reforça a necessidade de novos questionamentos críticos para pesquisas

futuras – algo que se pretende neste trabalho, inclusive.

A escolha de casos que dialoguem com as questões propostas e que sejam

representativos o suficiente para que se possa construir um instrumento de observação

sistemática de forma legítima tem impacto com a construção de uma amostra – e, na

internet, temos um “universo de investigação particularmente difícil de recortar, em

função de sua escala, heterogeneidade e dinamismo” (FRAGOSO; RECUERO;

AMARAL, 2011), que colocam em xeque qualquer estratégia de escolha.

Entre os critérios para seleção de amostra sugeridos pelas autoras, a escolha de

casos extremos dirigida a exemplos com “excesso de peculiaridades relevantes para o

problema de pesquisa” (FRAGOSO; RECUERO; AMARAL, 2011, p. 78) revela-se

indicada para esta proposta. Escolha semelhante fez Carolina Pietoso (2009), ao

relacionar o impacto de APIs abertas no Jornalismo a partir de uma investigação

exploratória baseada no The New York Times e no The Guardian. Aqui, além dessas

duas organizações, outras três foram escolhidas deliberadamente por conta da

frequência com que, durante a revisão bibliográfica, foram associadas ao pioneirismo

104

Versão original: “Selection of the appropriate unit of analysis will start to occur when you

accurately specify your primary research questions. If your questions do not lead to the favoring of

one unit of analysis over another, your questions are probably either too vague or too numerous –

and you may have trouble doing a case study”. 105

Disponível em: <http://www.narrativescience.com>. Acesso em: 20 abr. 2016.

Page 114: UNIVERSIDADE METODISTA DE SÃO PAULO - …tede.metodista.br/jspui/bitstream/tede/1585/2/Andre Rosa de... · Este es uno de los cambios producidos ... estructuras son indispensables

114

em ações consideradas inovadoras envolvendo Computação e Jornalismo. São elas:

Globo.com, The Washington Post e BBC.

Ressalta-se ainda que nessas organizações foram observadas propostas e

intenções compartilhadas por laboratórios de pesquisa e desenvolvimento internos.

Resumindo os critérios de seleção, trata-se de uma amostra intencional na qual se

considerou peculiaridades de usos de metadados em bases jornalísticas em projetos de

organizações de grande porte e reconhecida reputação no âmbito do jornalismo, além

da frequência de indicações em outros estudos detectada na pesquisa bibliográfica

feita para esta tese.

No caso do uso de metadados em bases jornalísticas como forma de aumentar

a competitividade, muitos desses sistemas estão sendo desenvolvidos e funcionando

internamente, não permitindo aos pesquisadores o acesso a seu funcionamento e

modelagem. Mesmo as configurações tecnológicas que permitem identificar as

consequências das relações entre datasets são imperceptíveis ao usuário por meio de

uma interface Web. Por conta disso, o limite desta investigação exploratória consiste

na coleta de dados a partir da combinação de observação transversal em iniciativas

publicadas com fontes de natureza bibliográfica: desde material divulgado pelos

canais das próprias organizações até artigos publicados em periódicos ou anais de

congressos, teses e dissertações – como na articulação entre metadados e ontologias

em Silva e Souza (2014).

O Quadro 4.2 apresenta demarcações previamente estabelecidas para uma

exploração aberta de aplicações e experimentações desenvolvidas pelos grupos de

mídia selecionados e sua relação com a classificação de tecnologias e padrões de

metadados possíveis: marcações, esquemas, ontologias e intercâmbio. Com a coleta

de dados, pretende-se reconhecer funcionalidades envolvendo a adoção de metadados

por veículos de referência, sendo esse o primeiro passo para gerar hipóteses e atribuir

maior objetividade às variáveis, sistematizando novas investigações.

Quadro 4.2 – Diretrizes iniciais para coleta de dados

Níveis Possíveis evidências

Marcações Associações entre informação jornalística e termos não controlados,

como rótulos elementares de identificação em páginas HTML,

categorização de notícias por meio de canais/editorias e nuvem de tags

(folksonomias).

Esquemas Associações entre informação jornalística e termos a partir de alguma

construção prévia, tais como escolha por vocabulários controlados

(taxonomia), adoção de metadados embutidos no código HTML

Page 115: UNIVERSIDADE METODISTA DE SÃO PAULO - …tede.metodista.br/jspui/bitstream/tede/1585/2/Andre Rosa de... · Este es uno de los cambios producidos ... estructuras son indispensables

115

utilizando sistemas como Dublin Core ou Schema.org, vinculação de

produções a tabelas com dados estruturados.

Ontologias Associações entre informação jornalística e termos que se relacionam a

partir de especificações formais dentro de um domínio específico,

utilizando triplas (como a notação RDF) ou mecanismos de anotação semântica.

Intercâmbio Refere-se a abertura de dados, metadados e suas relações que

possibilitem sua reutilização, desde a publicação de arquivos em formatos

estruturados para download até sua conexão com dados publicados em

outros datasets por meio de APIs ou padrões definidos pelo W3C.

Fonte: Produzida pelo autor.

Parte-se para essa observação a partir das expectativas e dos conhecimentos

estabelecidos previamente pelo respaldo teórico. Esse procedimento remete à teoria

fundamentada em dados, que tem em Barney Glaser e Anselm Strauss seus

precursores (FRAGOSO; RECUERO; AMARAL, 2011, p. 84). A premissa principal

está na valorização e na sistemática observação, comparação, classificação e

identificação de similaridades e contrastes entre ocorrências — quando, por que e em

quais condições elas aparecem.

Assim, um dos elementos mais importantes da coleta de dados é a organização

desses dados, que passa por um processo denominado “codificação”. Essa codificação

já é em si uma forma de análise, e consiste numa sistematização dos dados coletados,

de forma a reconhecer padrões e elementos relevantes para a análise e para o

problema (FRAGOSO; RECUERO; AMARAL, 2011, p. 92).

Em maior ou menor grau, a identificação desses procedimentos técnicos, que

permitem estruturar a informação jornalística na Web, contribuirá para uma análise

mais adequada de veículos que experimentam essas práticas, culminando com a

expectativa de uma produção de notícias orientada a software, encaminhando-a para o

patamar de sistema.

Procedimentos técnicos adotados por veículos de mídia funcionam como

variáveis que se relacionam com a estrutura do objeto analisado, delineando o

instrumento de observação. É o que Juan Samaja (2004) define como “matriz de

dados”, uma articulação fundamental em qualquer tipo de investigação científica. Na

visão do autor, um esquema exploratório tem como função identificar unidades e

variáveis em uma matriz capaz de ser adotada em fases posteriores de investigação,

relacionadas com a validação externa e a falseabilidade do estudo, resultando em

descrições, processamento analítico e interpretação dessas matrizes.

Page 116: UNIVERSIDADE METODISTA DE SÃO PAULO - …tede.metodista.br/jspui/bitstream/tede/1585/2/Andre Rosa de... · Este es uno de los cambios producidos ... estructuras son indispensables

116

O ciclo metodológico de um estudo de caso está representado na Figura 4.1.

As etapas de coleta e análise indicam o passo seguinte à elaboração de um

instrumento de pesquisa capaz de ser reproduzido e reutilizado, marcado pelas etapas

de planejamento, design (projeto) e preparação para aplicação (protocolo de

pesquisa). Este trabalho, portanto, preocupa-se com essa construção, seguindo as

etapas propostas no Quadro 4.1.

Figura 4.1 – Processo para condução de um estudo de caso

Fonte: Adaptado de YIN, 2009.

Da mesma forma, por estarmos diante de um fenômeno de natureza complexa,

toda inferência apontada por meio de observação e análise de casos representativos

precisa ser reproduzida e discutida em outras frentes, bem como ser apoiada por

outras abordagens de pesquisa aplicada. Por mais que se procure confirmar teorias – e

seja qual for o volume de informações coletadas para tal –, é diante de evidências que

“falsifiquem” teorias que o progresso científico é aprimorado. Consequentemente, a

Comunicação, na qual a pesquisa em Jornalismo se insere, também se fortalece como

ciência.

Page 117: UNIVERSIDADE METODISTA DE SÃO PAULO - …tede.metodista.br/jspui/bitstream/tede/1585/2/Andre Rosa de... · Este es uno de los cambios producidos ... estructuras son indispensables

117

Essas ressalvas estão longe de inviabilizar este ou outro trabalho, mas

reforçam o posicionamento (talvez evidente) de que esta é apenas parte de um

percurso – cujo detalhamento está nas páginas seguintes.

Page 118: UNIVERSIDADE METODISTA DE SÃO PAULO - …tede.metodista.br/jspui/bitstream/tede/1585/2/Andre Rosa de... · Este es uno de los cambios producidos ... estructuras son indispensables

118

Page 119: UNIVERSIDADE METODISTA DE SÃO PAULO - …tede.metodista.br/jspui/bitstream/tede/1585/2/Andre Rosa de... · Este es uno de los cambios producidos ... estructuras son indispensables

119

Capítulo V – OBSERVAÇÃO E DISCUSSÃO

Além dos conteúdos publicados originalmente na Web a partir dos anos 1990,

a digitalização de acervos jornalísticos também representa objetos de informação

indexáveis. Em 2002, o projeto ProQuest Historical Newspapers 106 anunciou a

digitalização completa do acervo de periódicos norte-americanos, incluindo o The

New York Times e outros títulos descontinuados, porém históricos. No Brasil, apesar

de grandes veículos contarem com acervo disponível para consultas, a transformação

do processo manual para o informatizado é lento. O exemplo mais eficiente é o do

Acervo Estadão107, que disponibiliza as edições impressas do periódico desde 1875,

incluindo períodos censurados durante a ditadura. A recuperação da informação, no

entanto, é limitada ao uso de palavras-chave simples.

Contudo, em contraste a iniciativas como essas – ou mesmo ao grande volume

de notícias publicado na Web por organizações dos mais variados portes –, não é

tarefa simples reconhecer veículos que avançaram na estruturação de objetos com

metadados e uso de ferramentas computacionais – o que inclui posicionamento ao

redor de padrões abertos (linked data) – e que demonstram preocupação com a

organização, com a recuperação e o reaproveitamento de suas informações. Nesta

etapa do trabalho, serão identificados atributos em veículos de mídia com essas

características, o que será útil em investigações futuras.

106

Disponível em: <http://www.proquest.com/en-US/catalogs/databases/detail/pq-hist-news.shtml>.

Acesso em: 25 mar. 2015. 107

Disponível em: <http://acervo.estadao.com.br>. Acesso em: 12 mar. 2015.

Page 120: UNIVERSIDADE METODISTA DE SÃO PAULO - …tede.metodista.br/jspui/bitstream/tede/1585/2/Andre Rosa de... · Este es uno de los cambios producidos ... estructuras son indispensables

120

5.1 Apresentação e observação de veículos jornalísticos

Antes de desembarcar no Brasil por meio de sua versão digital em

português108

em novembro de 2013, o diário espanhol El País já apresentava formatos

que procuravam aproveitar o ambiente Web, notadamente o uso de infográficos

animados (RAMOS, 2011). No contexto da gestão de conteúdos por meio de

metadados, chama atenção o sistema colabulário, aglutinação dos termos

“colaboração” e “vocabulário” (RUBIO LACOBA, 2012).

Trata-se do sistema de gestão da informação do periódico, lançado em 2012

como parte da reestruturação da redação promovida naquele ano109

. A autora Maria

Rubio Lacoba (2012), que em seu artigo valoriza o trabalho dos responsáveis pela

documentação, define o projeto como um protocolo de etiquetas que incorpora

palavras obtidas a partir de relatórios de acesso – basicamente, uma seleção de termos

pesquisados por usuários em mecanismos de busca – a vocabulários controlados. O

acesso à lista de termos é feito por meio do sistema de gerenciamentos: o redator

seleciona os termos mais adequados, tornando a rotina documental dos jornalistas

mais organizada, ágil e intuitiva.

Segundo Rubio Lacoba, em outubro de 2012, o vocabulário controlado do El

País contava com 74 mil termos, entre temas, personagens, organizações, lugares e

eventos. Pelo volume de termos empregados, a iniciativa se torna flexível, bem

próxima ao que se vê no uso de folksonomias, assimilando-se a um nível de marcação.

108

Disponível em: <http://brasil.espais.com>. Acesso em: 20 abr. 2016. 109

Alguns detalhes desse processo estão no texto “Bienvenido a la Revolución”, disponível em:

<http://blogs.elpais.com/el-cambio-por-dentro/2012/02/bienvenido-a-la-revolucion.html>. Acesso

em: 20 abr. 2016.

Page 121: UNIVERSIDADE METODISTA DE SÃO PAULO - …tede.metodista.br/jspui/bitstream/tede/1585/2/Andre Rosa de... · Este es uno de los cambios producidos ... estructuras son indispensables

121

Figura 5.1 – Código-fonte de uma notícia do site El País

Fonte: MENÁRGUEZ, 2015.

A Figura 5.1 reproduz algumas linhas de código HTML de uma notícia do

portal. Logo nas primeiras linhas é possível encontrar etiquetas <meta> com

informações de identificação. Em algumas delas, aparecem alguns atributos: “DC”

(da especificação Dublin Core) e “og” (referente ao padrão Open Graph, adotado pelo

Facebook). Nas linhas seguintes, links referentes a seções do portal e tags adotadas

para a matéria são acompanhados dos atributos “itemprop”, “itemtype” e

“itemscope”, indicativos do padrão de microdados Schema.org. A presença desses

metadados também pode ser identificada por meio da ferramenta de análise de dados

estruturados do Google110. Combinada com outras iniciativas comuns à maior parte

dos veículos jornalísticos na Web, temos o uso mais frequente de metadados em uma

estrutura informativa – até por conta disso, tais evidências não se repetirão nos

veículos jornalísticos digitais escolhidos como unidade de análise, visto que devem

apresentar níveis de utilização mais sofisticados.

110

Disponível em: <http://search.google.com/structured-data/testing-tool>. Acesso em: 20 abr. 2016.

Page 122: UNIVERSIDADE METODISTA DE SÃO PAULO - …tede.metodista.br/jspui/bitstream/tede/1585/2/Andre Rosa de... · Este es uno de los cambios producidos ... estructuras son indispensables

122

Quadro 5.1 – Metadados em bases de dados jornalísticas do El País

Nível Característica Evidência

Marcações Utilização de marcações HTML elementares na

área de identificação da página Web

("<head>"), normalmente etiquetadas por meio

do atributo <meta>

Identificação visual a partir do

código-fonte da página

Identificação visual de campos como título,

autor, data de publicação e/ou modificação e

corpo do texto

Identificação visual por meio

do navegador

Organização de conteúdos em nível primário por meio de editorias, categorias ou termo

similar

Identificação visual por meio do navegador

Utilização de tags ou palavras-chave para

relacionar conteúdos em nível primário

(folksonomias)

Projeto Colabulário

Esquemas Utilização de marcações HTML controladas na

página Web, como Dublin Core, microformatos,

microdados ou RDFa

Identificação visual a partir do

código-fonte da página

Fonte: Produzida pelo autor.

Globo.com (Brasil)

O maior conglomerado de mídia no Brasil realiza, eventualmente, um

hackaton111. Em essência, times formados por desenvolvedores, jornalistas, designers

e outros profissionais são “confinados” por um dia e meio na mesma casa-estúdio do

programa Big Brother Brasil. Os participantes dispõem de conexão à internet e acesso

a informações privilegiadas para desenvolver projetos inovadores ligados à produção

e distribuição de conteúdo. É uma iniciativa de inovação aberta rara em veículos de

mídia no Brasil. Ressalta-se, a partir de um dos tópicos do regulamento, que

“abertura” não significa “livre”.

A Globo, como uma empresa de grande porte e com grande viés na área de tecnologia, está sempre desenvolvendo projetos na área de Tecnologia de Produção, envolvendo os mais diversos temas, inclusive os temas que poderão ser desenvolvidos e apresentados no decorrer do Evento. Em

virtude disso, a Globo poderá implementar, por coincidência, a qualquer momento, eventuais projetos que possam conter ideias e conceitos idênticos ou semelhantes àqueles desenvolvidos na Hackathon, sem que isso signifique dizer que seja devido ao participante qualquer remuneração ou compensação neste sentido, salvo no caso de comprovação cabal e inequívoca de que se trata de projeto de sua autoria, o que somente deverá ocorrer através dos meios judiciais cabíveis112.

111

Informações sobre edições atualizadas podem ser obtidas em: <http://hackathonglobo.com>. Acesso

em: 20 abr. 2016. 112

Por ser uma camada oculta dentro da página de abertura, o acesso ao texto se dá por meio do link.

“regulamento” a partir de <http://hackathonglobo.com>. Acesso em: 20 abr. 2016.

Page 123: UNIVERSIDADE METODISTA DE SÃO PAULO - …tede.metodista.br/jspui/bitstream/tede/1585/2/Andre Rosa de... · Este es uno de los cambios producidos ... estructuras son indispensables

123

Apesar da postura de valorização estratégica de seus produtos, que preserva

suas funcionalidades e avanços ao público interno, a atuação de seus

programadores113

e pesquisadores114

não esconde a postura da organização: seu

conteúdo é entendido como software. Assim, times editoriais trabalham em conjunto

com equipes de desenvolvimento – tanto nos pilares da infraestrutura tecnológica

quanto na concepção de produtos diferenciados. Não é comum, por exemplo, uma

empresa de mídia no Brasil recrutar um cientista de dados capaz de usar

“conhecimentos de áreas como modelagem estatística, aprendizado de máquina,

processamento de linguagem natural e recuperação da informação” com objetivos,

entre outros, de “gerar recomendação de conteúdo relevante para o usuário de modo a

melhorar a sua experiência nos sites”115

.

Entre os profissionais que atuam próximos aos times editoriais, há o

responsável pela alimentação dos dados do SDE, Sistema de Dados Esportivos,

coração do site Globoesporte.com. Este editor mantém atualizado ao longo do tempo

um esquema de campeonatos e jogos, elencos dos clubes, resultados e estatísticas de

partidas, entre outras informações (PENA, 2012). A alimentação do SDE pode ser

feita manualmente ou por processos automatizados. Há ainda uma API, restrita aos

profissionais do site.

A Figura 5.1 sintetiza a importância desse esquema informativo: ao mesmo

tempo que repórteres, redatores e setoristas (profissionais responsáveis pela cobertura

intensiva de clubes de futebol) podem produzir conteúdo baseado nas informações do

SDE, a mesma base é útil em conteúdos alternativos, como o Futpedia116

, repositório

organizado de fichas de jogos, e o Cartola FC117

, fantasy game baseado no

desempenho individual de clubes, jogadores e técnicos do Campeonato Brasileiro da

Série A.

113

Ver o blog dos desenvolvedores da Globo.com, disponível em: <http://dev.globo.com>, bem como

seu repositório aberto de projetos, em: <http://opensource.globo.com>. Acesso em: 20 abr. 2016. 114

Ver: <http://research.globo.com>. Acesso em: 20 abr. 2016. 115

Atributos pinçados de anúncio disponível em: <https://br.linkedin.com/jobs/view/65685716>.

Acesso em: 20 abr. 2016. 116

Disponível em: <http://futpedia.globo.com>. Acesso em: 20 abr. 2016. 117

Disponível em: <http://cartolafc.globo.com>. Acesso em: 20 abr. 2016.

Page 124: UNIVERSIDADE METODISTA DE SÃO PAULO - …tede.metodista.br/jspui/bitstream/tede/1585/2/Andre Rosa de... · Este es uno de los cambios producidos ... estructuras son indispensables

124

Figura 5.2 – Esquema simplificado do Sistema de Dados Esportivos da Globo.com

Fonte: PENA, 2012, p. 39.

O trabalho de Rafael Pena (2012) sugere um modelo semântico

semiautomático para a produção de notícias de futebol, que faria, essencialmente,

uma conexão entre o SDE e duas bases semânticas, descritas por meio de uma

ontologia, capaz ainda de dialogar com bases externas a partir de padrões de linked

data. Trata-se de um protótipo apresentado em um trabalho acadêmico, mas que

reforça uma preocupação dos desenvolvedores da empresa manifestada em outras

situações118

.

Em 2011119

já se identificava a profusão de conteúdos capazes de gerar

potencial ruído nos resultados de uma busca. As três áreas que compõem o portal

(notícias, esportes e entretenimento) possuem, muitas vezes, assuntos semelhantes

com pontos de vista diferentes: Romário, por exemplo, pode ser entendido como ex-

jogador pelo Globoesporte.com, senador da República pelo G1 e celebridade pelo

Gshow. A saída, que motivou um projeto a partir de janeiro de 2009, baseia-se em

uma ferramenta de anotação semântica integrada ao sistema de publicação de

conteúdos, adaptada a ontologias projetadas e adequadas para cada domínio

informativo. Profissionais do time de desenvolvimento ainda perseguem esse

objetivo. Um novo protótipo, que leva em conta matérias que se relacionam entre si a

118

Alguns exemplos destas implementações podem ser encontradas no portfólio de Renan Oliveira:

<http://renanoliveira.net>. Acesso em: 12 mar. 2015. 119

Material disponível em: <http://www.inf.ufrgs.br/ontobras-most2011/>. Acesso em: 12 mar. 2015.

Page 125: UNIVERSIDADE METODISTA DE SÃO PAULO - …tede.metodista.br/jspui/bitstream/tede/1585/2/Andre Rosa de... · Este es uno de los cambios producidos ... estructuras son indispensables

125

partir do modelo de ontologia Storyline, da BBC120

, também foi construído e

experimentado a partir da base de dados do Globoesporte.com (DIAS, 2014).

Quadro 5.2 – Metadados em bases de dados jornalísticas da Globo.com

Nível Característica Evidência

Esquemas Incorporação de dados estruturados externos

para enriquecer suas próprias bases

Sistema de Dados Esportivos

Codificação manual de fragmentos de

informação, a partir do CMS, utilizando

anotações semânticas

Projetos e protótipos internos

Ontologias Relacionamento de conceitos (sujeitos, objetos

ou lugares) em ontologias por meio de triplas usando tecnologias como RDF

Projetos e protótipos internos

Intercâmbio Abertura de conteúdos por meio de API,

permitindo a criação e a interoperabilidade de

dados para múltiplos dispositivos e plataformas

API do Sistema de Dados

Esportivos (apenas para uso

interno ou autorizado)

Conexão de conceitos com dados externos

(datasets) por meio de tecnologias semânticas

padronizadas pelo W3C

Projetos e protótipos internos

Fonte: Produzida pelo autor.

The Washington Post (EUA)

Mesmo antes de ser comprado por Jeff Bezos, em 2013, o jornal norte-

americano era lembrado pela sua aproximação entre Jornalismo e Computação graças

a Adrian Holovaty. Anos após ter recebido US$ 1 milhão do Knight News Challenge

para lançar o EveryBlock.com, site pioneiro em informação hiperlocal, ele fez uma

provocação em seu blog: afinal, dados podem se tornar jornalismo? É jornalismo

disponibilizar um banco de dados na rede? “Aqui, enfim, minha resposta definitiva,

em duas partes: 1. Quem se importa? 2. Espero que meus concorrentes percam o

maior tempo possível discutindo isso” (HOLOVATY, 2009, tradução nossa)121

,

escreveu o ex-editor de inovação do The Washington Post que, em sua carreira,

enxergou a relação entre computação e jornalismo como uma oportunidade.

No mesmo ano da aquisição pelo fundador da Amazon, surge um protótipo

chamado Truth Teller – uma combinação de algoritmos para processamento de

linguagem natural e cruzamento de dados com o intuito de verificar, em tempo real,

120

Disponível em: <http://www.bbc.co.uk/ontologies/storyline>. Acesso em: 20 abr. 2016. 121

Versão original: “It’s a hot topic among journalists right now: Is data journalism? Is it journalism to

publish a raw database? Here, at last, is the definitive, two-part answer: 1. Who cares? 2. I hope my

competitors waste their time arguing about this as long as possible”.

Page 126: UNIVERSIDADE METODISTA DE SÃO PAULO - …tede.metodista.br/jspui/bitstream/tede/1585/2/Andre Rosa de... · Este es uno de los cambios producidos ... estructuras son indispensables

126

informações declaradas por políticos em vídeos122

. Não é possível saber seu grau de

sucesso, mas este “cativante, para não dizer excessivamente otimista exemplo de

Jornalismo Computacional, mostra que a comunidade do jornalismo tem problemas

que eles gostariam de resolver usando computadores” (STAVELIN, 2013, p. 42,

tradução nossa)123

.

O executivo impulsionou o direcionamento do jornal norte-americano como

uma “empresa de tecnologia”: o time de engenheiros triplicou entre 2014 e 2016,

espalhado em meio a equipes editoriais e comerciais. Entre os resultados da sinergia

entre esses profissionais está a base de dados sobre policiais mortos nos EUA – foram

990 em 2015. Os dados, transformados em reportagens e visualizações124

, renderam

ao The Washington Post o prêmio Pulitzer.

Construída em detalhes por Julie Tate, Jennifer Jenkins e Steven Rich, a

referida tabela reúne minuciosas informações de fontes oficiais e não oficiais

(inclusive por meio de vídeos enviados pelo público) – entre elas, o local do

incidente, gênero, idade e etnia da vítima, arma utilizada e as circunstâncias da

ocorrência. Essa base de dados foi disponibilizada para download no GitHub125, um

repositório para compartilhamento de informações normalmente usado para a

colaboração de desenvolvedores. Ou seja: qualquer usuário pode reutilizar os mesmos

dados em outros projetos.

Outro resultado da visão que estabelece o “jornal como software” é a

plataforma de gerenciamento de conteúdo Arc126, que flexibiliza a apresentação de

textos, além de favorecer a geração de relatórios com métricas e funcionalidades de

marketing. Além de incorporar novas funcionalidades de acordo com as demandas da

redação, o sistema também se tornou um produto.

Em 2015, uma nova funcionalidade do Arc foi testada: chamava-se Knowledge

Map. Um exemplo de sua utilização é o artigo (mencionado na introdução deste

122

O lançamento da iniciativa pode ser lido em “Announcing Truth Teller beta, a better way to watch

political speech”. Disponível em: <https://www.washingtonpost.com/news/ask-the-post/wp/2013/09/25/announcing-truth-teller-beta-a-better-way-to-watch-political-speech/>. Acesso

em: 20 abr. 2016. 123

Versão original: “A captivating, if not to say overly optimistic, example of computational

journalism [...]. How successful Truth Teller was is so far unanswered, but the idea shows that the

journalism community has problems they would like to solve using computers”. 124

Disponível em: <http://www.washingtonpost.com/graphics/national/police-shootings/>. Acesso em:

20 abr. 2016. 125

Disponível em: <http://github.com/washingtonpost/data-police-shootings>. Acesso em: 20 abr.

2016. 126

Mais em: <http://www.arcpublishing.com>. Acesso em: 20 abr. 2016.

Page 127: UNIVERSIDADE METODISTA DE SÃO PAULO - …tede.metodista.br/jspui/bitstream/tede/1585/2/Andre Rosa de... · Este es uno de los cambios producidos ... estructuras son indispensables

127

trabalho) Why the Islamic State leaves tech companies torn between free speech and

security127. O texto discute questões de privacidade e segurança a partir da utilização

de comunicadores on-line e de redes sociais pelo Estado Islâmico. Durante a leitura,

as expressões e questões são acompanhadas pelo sinal (+) e identificadas (ou

sublinhadas) por uma cor de destaque. Um clique nesses elementos revela uma janela

com informações adicionais de contexto. Diferentemente de um link para outra URL,

esse conteúdo relacionado é integrado à visualização.

Ao contrário do trabalho de coleta, filtragem e compartilhamento de dados

sobre policiais assassinados, a relação entre informações e metadados no exemplo do

Knowledge Map é inversa: as próprias reportagens, e não tabelas, produzem as

conexões que resultam em novas histórias. Na prática, a base de dados informativa

compõe um dataset, com termos associados a blocos de texto que se conectam em um

esquema controlado. Ao apresentar o conceito, o diretor de Engenharia para Data

Science, Sam Han, apresenta outras técnicas por trás dessa construção.

Esta interação dá margem para o uso de técnicas de mineração de dados

para identificar e apresentar conteúdo textual aos nossos leitores. Também estamos trabalhando em aplicações paralelas para impulsionar o engajamento com o nosso conteúdo de publicidade nativa. Nosso objetivo final é minerar grandes quantidades de dados e apresentar informações personalizadas e contextualizadas tanto para o jornalismo quanto anúncios. (THE WASHINGTON POST TESTS NEW KNOWLEDGE MAP FEATURE, 2015, tradução nossa)128.

Quadro 5.3 – Metadados em bases de dados jornalísticas do The Washington Post

Nível Característica Evidência

Esquemas Incorporação de dados estruturados externos

para enriquecer suas próprias bases

Dados sobre policiais mortos

nos EUA em 2015

Construção de conteúdos baseados em termos

controlados por meio de fragmentos de texto

reutilizáveis

Projeto Knowledge Map

Intercâmbio Abertura de conteúdos por meio de uma

plataforma de compartilhamento

Dados sobre policiais mortos

nos EUA em 2015

Desenvolvimento de agentes inteligentes,

capazes de reconhecer e aproveitar suas próprias

bases de dados

Projetos Knowledge Map e

Truth Teller

127

Disponível em: <http://www.washingtonpost.com/world/national-security/islamic-states-embrace-

of-social-media-puts-tech-companies-in-a-bind/2015/07/15/0e5624c4-169c-11e5-89f3-

61410da94eb1_story.html>. Acesso em: 6 nov. 2015. 128

Versão original: “This iteration sets us up to use data mining techniques to identify and surface

contextual content for our readers. We are also working on parallel applications to drive

engagement with our native advertising content. Our ultimate goal is to mine big data to surface

highly personalized and contextual data for both journalistic and native content”.

Page 128: UNIVERSIDADE METODISTA DE SÃO PAULO - …tede.metodista.br/jspui/bitstream/tede/1585/2/Andre Rosa de... · Este es uno de los cambios producidos ... estructuras son indispensables

128

Fonte: Produzida pelo autor.

The New York Times (EUA)

“Somos uma empresa de notícias, não uma empresa de jornal”. A frase,

pinçada de um memorando interno do jornal The New York Times enviado por Arthur

Sulzberger e Janet Robinson, é lembrada como exemplo de compromisso com a

informação, seja qual for a plataforma. Os projetos apresentados no seu portfólio de

inovação129

, bem como em seu Laboratório de Pesquisa e Desenvolvimento130

,

reforçam essa máxima.

Um artigo de Alexis Lloyd, diretora criativa do Research & Development

Group, revela que o Project Editor131, por exemplo, “analisa a forma como alguns

fragmentos de informação granulares podem ser criados por meio de sistemas

colaborativos que dependem fortemente de aprendizado de máquina, bem como

inputs editoriais”132

. Ainda que o processo de codificação de matérias seja valorizado,

de acordo com o projeto seria possível contextualizar e recombinar blocos de

conteúdo a partir da anotação desses componentes. Em suma, um processo traduzido

em dois desafios: um são os algoritmos capazes de processar essa base de dados e de

identificar entidades (pessoas, locais, organizações, eventos); o outro é o jornalista,

que deve ser preciso ao realizar anotações manuais.

De toda forma, ainda se trata de um protótipo: atualmente, as marcações são

aplicadas ao artigo completo – o que não significa ausência de iniciativas nesse

sentido. Em 2007, o então arquiteto de software do NYT, Jacob Harris, descrevia a

importância dos metadados para a desambiguação, síntese da notícia, consistência das

palavras-chave e categorização a partir de domínios específicos – segundo a

taxonomia do jornal, um mesmo artigo pode ser rotulado como “aquecimento global”

ou “poluição”133

. Desta forma, a primeira preocupação está na definição de termos

controlados. São 10 mil conceitos mapeados, entre pessoas, lugares, organizações e

outras descrições. Há uma versão beta desses termos disponibilizada como linked

129

Disponível em: <http://www.nytinnovation.com>. Acesso em: 20 abr. 2016. 130

Disponível em: <http://nytlabs.com>. Acesso em: 6 nov. 2015. 131

Mais informações em: <http://nytlabs.com/projects/editor.html>. Acesso em: 6 nov. 2015. 132

“The Future of News is not an Article”. Disponível em:

<http://nytlabs.com/blog/2015/10/20/particles/>. Acesso em: 6 nov. 2015. 133

“Messing Around With Metadata.” Disponível em:

<http://open.blogs.nytimes.com/2007/10/23/messing-around-with-metadata/>. Acesso em: 12 mar.

2015.

Page 129: UNIVERSIDADE METODISTA DE SÃO PAULO - …tede.metodista.br/jspui/bitstream/tede/1585/2/Andre Rosa de... · Este es uno de los cambios producidos ... estructuras son indispensables

129

open data para utilização em outras aplicações134

. A área de desenvolvedores do

jornal135

inclui ainda documentação para utilização de APIs específicas, nas quais é

possível obter informações relacionadas ao acervo do jornal: busca por artigos e seus

termos controlados, críticas de livros e filmes e informações geolocais.

Esse mapeamento se refere a um volume de informação centenário. O jornal é

pioneiro na digitalização e disponibilização de seu acervo desde sua primeira edição,

em 1851136

. Pesquisadores e interessados em relacionar computação e linguagem

podem obter, mediante pagamento, uma versão em XML contendo artigos publicados

entre 1987 e 2007137

. O experimento, batizado de “The New York Times Annotated

Corpus”, reúne 1.8 milhões de artigos, sendo que 1.5 milhão possuem algum tipo de

anotação estruturada. O fato de ele disponibilizar uma API ou um corpus para

pesquisa permite que outras pessoas, fora do âmbito da redação, desenvolvam

projetos e aplicações úteis. Exemplos de sistemas construídos a partir desse corpus

podem ser encontrados como resultado do HCIR Challenge 2010, um desafio

organizado durante a quarta edição do evento Human-Computer Interaction and

Information Retrieval138.

Em 2012, foi anunciada outra implementação envolvendo marcações

estruturais: a adoção do rNews, um padrão de metadados proposto pelo International

Press Telecommunications Council (IPTC) e absorvido pela iniciativa Schema.org,

que popularizou a adoção de microdados por outras organizações139

. Além de

melhorar a qualidade de buscas em motores como o Google, a adoção desse esquema,

nas palavras do diretor da área de Arquivamento e Semântica, Evan Sandhaus,

potencializa resultados de recomendação a partir de algoritmos.

Iniciativas nesse sentido não se restringem ao Laboratório de Pesquisa e

Desenvolvimento. Durante os Jogos Olímpicos de 2012, o hotsite do evento140

aproveitou dados oferecidos pelo Comitê Olímpico Internacional. Informações sobre

134

O anúncio foi feito em: <http://open.blogs.nytimes.com/2009/06/26/nyt-to-release-thesaurus-and-

enter-linked-data-cloud/>. Acesso em: 12 mar. 2015. 135

Disponível em: <http://developer.nytimes.com>. Acesso em: 12 mar. 2015. 136

Disponível em: <http://timesmachine.nytimes.com/>. Acesso em: 6 nov. 2015. 137

O anúncio foi feito em: <http://open.blogs.nytimes.com/2009/01/12/fatten-up-your-corpus/>.

Acesso em: 6 nov. 2015. 138

Site oficial: <http://research.microsoft.com/en-us/um/people/ryenw/hcir2010/challenge.html>. Já os

anais podem ser acessados em: <https://sites.google.com/site/hcirworkshop/hcir-2010/challenge>.

Acesso em: 6 nov. 2015. 139

“rNews is here. And this is what it means”. Disponível em:

<http://open.blogs.nytimes.com/2012/02/16/rnews-is-here-and-this-is-what-it-means>. Acesso em:

12 mar. 2015. 140

Disponível em: <http://london2012.nytimes.com/>. Acesso em: 12 mar. 2015.

Page 130: UNIVERSIDADE METODISTA DE SÃO PAULO - …tede.metodista.br/jspui/bitstream/tede/1585/2/Andre Rosa de... · Este es uno de los cambios producidos ... estructuras son indispensables

130

atletas e resultados de provas, codificadas em XML, eram relacionadas à cobertura

factual141

. Além disso, desde 2014, a seção The Upshot142 contextualiza informação

política e cotidiana por meio de dados estruturados e visualizações produzidas

colaborativamente por jornalistas e cientistas de dados.

Mesmo em áreas cujo valor-notícia não é, necessariamente, prioridade, esse

cuidado é visível. Relançado também em 2014, o site Cooking 143 ganhou

funcionalidades de um aplicativo móvel. Mais do que isso: ele teve sua base de dados

completamente reestruturada, com mais de 17 mil receitas com quantidades, medidas,

tipo de ingrediente, modo de preparo e outras palavras-chave articuladas. Um único

prato requer mais de 50 campos em uma tabela de dados. O script com instruções

para separar e codificar quantidades e ingredientes de uma receita estão no GitHub144

– onde outras informações úteis para desenvolvedores são compartilhadas, como as

especificações de sua API145

.

Entre as recomendações para enfrentar os desafios do Jornalismo por meio de

uma postura digital inovadora, corroborada por um relatório interno146

, inclui-se a

importância dos dados estruturados. Assim o The New York Times pode se comportar

como um informativo diário e uma biblioteca ao mesmo tempo. “Expandir as nossas

capacidades de dados estruturados nos obrigaria a abordar algumas questões de

tecnologia e de fluxo de trabalho. Notavelmente, iria colocar maiores exigências sobre

os nossos editores de texto, produtores Web e bibliotecários”147

.

Quadro 5.4 – Metadados em bases de dados jornalísticas do The New York Times

Nível Característica Evidência

Esquemas Utilização de marcações HTML controladas na

página Web, como Dublin Core, microformatos,

microdados ou RDFa

Adoção dos microformados

rNews

Incorporação de dados estruturados externos

para enriquecer suas próprias bases

The Upshot, hotsite dos Jogos

Olímpicos de 2012

141

Disponível em: <http://source.opennews.org/en-US/learning/london-calling-winning-data-

olympics/>. Acesso em: 12 mar. 2015. 142

Disponível em: <http://www.nytimes.com/upshot>. Acesso em: 6 nov. 2015. 143

Disponível em: <http://cooking.nytimes.com>. Acesso em: 6 nov. 2015. 144

Disponível em: <https://github.com/NYTimes/ingredient-phrase-tagger/>. Acesso em: 20 abr. 2016. 145

Disponível em: <https://github.com/nytimes/public_api_specs/>. Acesso em: 20 abr. 2016. 146

O relatório, restrito à circulação interna da redação, foi obtido e reproduzido, entre outras fontes, em

“The Full New York Times Innovation Report”. Disponível em:

<http://mashable.com/2014/05/16/full-new-york-times-innovation-report>. Acesso em: 12 mar.

2015. 147

Versão original: “Expanding our structured data capabilities would require us to address some

technology and workflow issues. Notably, it would put greater demands on our copy editors, web

producers and librarians”.

Page 131: UNIVERSIDADE METODISTA DE SÃO PAULO - …tede.metodista.br/jspui/bitstream/tede/1585/2/Andre Rosa de... · Este es uno de los cambios producidos ... estructuras son indispensables

131

Codificação manual de fragmentos de

informação, a partir do CMS, utilizando

anotações semânticas

Projeto Editor

Análise (parsing) e codificação de fragmentos

de informação (páginas, bases de dados) com metadados por meio de software (codificação

automática)

Scripts para análise (parsing)

de receitas, projeto Annotated Corpus

Construção de conteúdos baseados em termos

controlados por meio de fragmentos de texto

reutilizáveis

Projeto Editor

Intercâmbio Abertura de conteúdos por meio de uma

plataforma de compartilhamento

Projeto Annotated Corpus

Abertura de códigos para tratamento de dados

por meio de uma plataforma de

compartilhamento

Scripts para análise (parsing)

de receitas

Abertura de conteúdos por meio de API,

permitindo a criação e a interoperabilidade de

dados para múltiplos dispositivos e plataformas

APIs disponibilizadas em

developer.nytimes.com

Abertura de conteúdos por meio de tecnologias

semânticas padronizadas pelo W3C

Vocabulários controlados em

data.nytimes.com

Fonte: Produzida pelo autor.

The Guardian (Reino Unido)

“Você é bom com planilhas, não é?” Assim um repórter abordou o jornalista

Simon Rogers antes de começarem a destrinchar tabelas que resultariam em dados

estruturados e visualizações sobre ações do exército norte-americano no

Afeganistão148

(ROGERS, 2013). O “cara das planilhas” trabalhou no diário britânico

entre 1998 e 2013 e criou o Data Store149, contribuindo profundamente para a cultura

de dados e metadados do The Guardian e reforçando o lema cunhado por Charles

Prestwich Scott em 1921: “o comentário é livre, mas os fatos são sagrados”150

.

O objetivo do Data Store, blog que funciona como um repositório de dados

associados a reportagens publicadas, é torná-los acessíveis e fáceis de serem

trabalhados por jornalistas. Isso envolve horas extraindo informações de arquivos

PDF, formatando e padronizando nomes, lugares e outros eventos, mesclando

datasets e disponibilizando para download. Com esse cuidado, “é possível combinar

148

Disponível em: <http://www.theguardian.com/news/datablog+world/the-war-logs>. Acesso em: 10

abr. 2016. 149

Disponível em: <http://www.theguardian.com/data>. Acesso em: 10 abr. 2016. 150

Tradução de “Comment is free, but facts are sacred”, artigo disponível em:

<https://www.theguardian.com/commentisfree/2002/nov/29/1>. Acesso em: 10 abr. 2016.

A expressão “Facts are Sacred” também dá nome ao livro de Simon Rogers sobre práticas

jornalísticas do The Guardian envolvendo dados.

Page 132: UNIVERSIDADE METODISTA DE SÃO PAULO - …tede.metodista.br/jspui/bitstream/tede/1585/2/Andre Rosa de... · Este es uno de los cambios producidos ... estructuras son indispensables

132

dados de pobreza com emissão de carbono, ou criminalidade com crescimento

econômico” (ROGERS, 2013, tradução nossa)151

.

A primeira entre as iniciativas relacionadas a jornalismo, computação e dados

abertos foi o episódio envolvendo a análise de documentos ligados à despesa de

parlamentares britânicos, em 2008. Foram 458 mil documentos divulgados num

exercício de crowdsourcing: os leitores do jornal foram convidados a analisar as

despesas e a apontar potenciais irregularidades (DANIEL; FLEW, 2010).

Assim como o The New York Times, o The Guardian também produziu e

disponibilizou informações sobre atletas, medalhas, entre outras, envolvendo os Jogos

Olímpicos de Londres, em 2012. Enquanto os profissionais lamentavam o fato de não

existirem “dados abertos” (isto é, fáceis de serem reutilizados) disponibilizados por

fontes oficiais152

, o The Guardian concluiu sua cobertura oferecendo tabelas com

todos os medalhistas, recordes, lista de atletas, agenda e resultados153

. Seguindo a

premissa de “exibir e interrogar os dados como um jornalista e produzir resultados

sobre algo diferente” (ROGERS, 2013), foi possível elaborar um quadro de medalhas

alternativo154

, relacionando informações socioeconômicas ao desempenho dos atletas

nas Olimpíadas.

A estreia do The Guardian no jornalismo de dados, em 2008, coincidiu com a

abertura de um mecanismo que permite acesso a dados elaborados pelo The Guardian

por aplicações desenvolvidas externamente: é a Open Platform155. Em seu módulo

principal, a Content API, os artigos publicados no site desde 1999, bem como suas

tags, podem ser consultados156

. Em 2010, a equipe de desenvolvimento anunciou uma

funcionalidade baseada em linked data: a possibilidade de consultar a API usando o

ISBN de uma publicação ou o identificador de uma banda ou grupo musical do site

151

Versão original: “If a dataset is published as a spreadsheet it’s suddenly easier to use. If that data is

properly formatted, i.e. country names have codes on them so you can tell the difference between

‘Burma’ and ‘Myanmar’, or Congo and Congo, Dem Rep – well, suddenly you can start mashing

data together, combining poverty rates with carbon emissions or crime figures with economic

growth, for instance”. 152

“London 2012: is this the first open data Olympics?”. Disponível em: <http://www.theguardian.com/commentisfree/2012/aug/03/london-2012-olympics-open-data>.

Acesso em: 10 abr. 2016. 153

A cobertura dos Jogos Olímpicos de 2012 sob o ponto de vista do uso de dados está disponível em:

<http://www.theguardian.com/sport/series/london-2012-olympics-data>. Acesso em: 10 abr. 2016. 154

“The alternative Olympic medal table: the final winner? Russia”. Disponível em:

<http://www.theguardian.com/sport/datablog/2012/aug/13/alternative-olympic-medal-table-winner-

russia>. Acesso em: 10 abr. 2016. 155

Disponível em: <http://open-platform.theguardian.com/>. Acesso em: 10 abr. 2016. 156

Documentação disponível em: <http://open-platform.theguardian.com/documentation/>. Acesso em:

10 abr. 2016.

Page 133: UNIVERSIDADE METODISTA DE SÃO PAULO - …tede.metodista.br/jspui/bitstream/tede/1585/2/Andre Rosa de... · Este es uno de los cambios producidos ... estructuras son indispensables

133

MusicBrainz157

. Os resultados, associados a artistas ou livros, levam em conta os

dados desses datasets externos158

.

A plataforma aberta do The Guardian mantém ainda a Politics API159, com

dados relacionados a parlamentares, partidos políticos, eleições e candidatos, e o

modelo MicroApps, que possibilita a integração de conteúdos externos160

. Todas

permitem a reutilização dos conteúdos disponibilizados pelo veículo. Entre as

aplicações construídas por terceiros em função dessa iniciativa161

, destaque-se o MP

Data SPARQL Editor162, que retira informações dessas APIs e as converte em uma

base de dados em triplas RDF (PELLEGRINI, 2012).

A postura aberta do The Guardian não se limita ao editorial, mas se estende

também em relação ao desenvolvimento do site e de seus produtos163

. Muitos dos

projetos164

, inclusive o código-fonte do front-end do site (isto é, sua identificação

visual), bem como uma variedade de bibliotecas de código, estão disponíveis em seu

perfil no GitHub165. Peter Martin, responsável pelo gerenciamento das tags usadas nas

matérias, e Martin Belam, arquiteto de informação, ainda explicam detalhadamente166

,

com ajuda do time de desenvolvedores, a opção pela folksonomia ao categorizarem os

artigos publicados – o número de tags usadas chega a 50 mil.

157

Base de dados sobre músicos. Disponível em: <http://musicbrainz.org>. Acesso em: 10 abr. 2016. 158

Anúncio disponível em: <https://www.theguardian.com/help/insideguardian/2010/oct/18/linked-

data-guardian-open-platform/>. Acesso em: 10 abr. 2016. 159

Disponível em: <https://www.theguardian.com/open-platform/politics-api/getting-started>. Acesso

em: 10 abr. 2016. 160

Mais informações em: “What is the MicroApp framework?”, disponível em:

<https://www.theguardian.com/open-platform/what-is-the-microapp-framework>. Acesso em: 10 abr.

2016. 161

Uma lista de aplicações pode ser obtida em: <https://www.theguardian.com/open-platform/apps>.

Acesso em: 10 abr. 2016. 162

Mais informações em: <https://www.theguardian.com/open-platform/apps-mp-data-sparql-editor>. Acesso em: 10 abr. 2016.

163 Uma discussão sobre a postura aberta do The Guardian pode ser encontrada no artigo “Developing

in the open”, do desenvolvedor Robert Rees, disponível em:

<https://www.theguardian.com/info/developer-blog/2014/nov/28/developing-in-the-open>. Acesso

em: 10 abr. 2016. 164

Projetos ativos disponíveis em: <http://developers.theguardian.com/open-source.html>. Acesso em:

10 abr. 2016. 165

Disponível em: <https://github.com/guardian>. Acesso em: 10 abr. 2016. 166

Série de posts: “Tags are Magic”. Disponível em: <http://www.theguardian.com/info/series/tags-

are-magic>. Acesso em: 10 abr. 2016.

Page 134: UNIVERSIDADE METODISTA DE SÃO PAULO - …tede.metodista.br/jspui/bitstream/tede/1585/2/Andre Rosa de... · Este es uno de los cambios producidos ... estructuras son indispensables

134

Figura 5.3 – Arquitetura do sistema de gerenciamento de notícias do The Guardian

Fonte: WALL; SILVER, 2008.

Durante a elaboração do sistema, desenvolvedores, designers e redatores

decidiram: para responder às preocupações editoriais, as tags poderiam ser

relacionadas a séries (reportagens ou eventos específicos), tom (reviews, obituários,

cartas dos leitores), colaborador (autores convidados) e, finalmente, a outras palavras-

chave correspondentes ao artigo. Todas elas podem ser combinadas entre si, podendo

gerar uma página dinâmica à escolha do usuário – é possível, por exemplo, gerar uma

página dinâmica apresentando notícias que envolvam “tourada” e “vuvuzela”167

.

Quadro 5.5 – Metadados em bases de dados jornalísticas do The Guardian

Nível Característica Evidência

Marcação Utilização de tags ou palavras-chave para

relacionar conteúdos em nível primário

(folksonomias)

Política de uso de tags

Esquemas Incorporação de dados estruturados externos para enriquecer suas próprias bases

Data Store

Intercâmbio Abertura de conteúdos por meio de uma

plataforma de compartilhamento

Data Store

167

Parece um exemplo esdrúxulo, mas é exatamente no que Peter Martin e Martin Belam sugerem

clicar: <https://www.theguardian.com/world/bullfighting+football/vuvuzelas>. Acesso em: 10 abr.

2016.

Page 135: UNIVERSIDADE METODISTA DE SÃO PAULO - …tede.metodista.br/jspui/bitstream/tede/1585/2/Andre Rosa de... · Este es uno de los cambios producidos ... estructuras son indispensables

135

Abertura de dados brutos para análise e

marcação colaborativa (crowdsourcing)

Projeto MPs’ expenses

Abertura de conteúdos por meio de API,

permitindo a criação e a interoperabilidade de dados para múltiplos dispositivos e plataformas

Open Platform

Conexão de conceitos com dados externos

(datasets) por meio de tecnologias semânticas

padronizadas pelo W3C

Diálogo entre Open Platform

com ISBN e MusicBrainz

Fonte: Produzida pelo autor.

BBC (Reino Unido)

A BBC, British Broadcast Corporation, utiliza metadados associados a

ferramentas semânticas desde 2009, sendo o primeiro grupo de mídia a fazê-lo. Não

foi à toa: desde os anos 1920, a rede britânica mantém um departamento de pesquisa,

o BBC Research & Development168, que apoia o desenvolvimento de seus produtos

por meio de projetos inovadores. Já identificando uma grande quantidade de conteúdo

on-line (incluindo notícias e entretenimento), mas que não dialogava entre si, ela

iniciou projetos que, utilizando a DBPedia como vocabulário controlado,

relacionavam internamente programas e músicas (KOBILAROV et al., 2009).

No âmbito das notícias, a BBC também já enriquece informações utilizando

metadados por meio de um sistema de publicação e gerenciamento de conteúdos – a

começar com a organização do material relacionado à editoria “esporte” durante a

Copa de 2010169

. As 700 páginas agregadoras de entrada, incluindo informações sobre

grupos, seleções e jogadores, eram criadas a partir das informações codificadas

manualmente em cada notícia publicada no sistema, baseada em RDF e linked data. A

experiência resultou na continuidade do processo nas notícias sobre futebol do site

BBC Sports. Esforço ampliado durante os Jogos Olímpicos de 2012, em Londres170

:

um exemplo de como ontologias podem relacionar modalidades, atletas, data, local,

resultados e outros atributos pode ser visto na Figura 5.4.

168

Disponível em: <http://www.bbc.co.uk/rd/>. Acesso em: 20 abr. 2016. 169

Disponível em:

<http://www.bbc.co.uk/blogs/legacy/bbcinternet/2012/04/sports_dynamic_semantic.html>. Acesso

em: 16 jan. 2015. 170

Disponível em:

<http://www.bbc.co.uk/blogs/legacy/bbcinternet/2012/04/sports_dynamic_semantic.html>. Acesso

em: 16 jan. 2015.

Page 136: UNIVERSIDADE METODISTA DE SÃO PAULO - …tede.metodista.br/jspui/bitstream/tede/1585/2/Andre Rosa de... · Este es uno de los cambios producidos ... estructuras son indispensables

136

Figura 5.4 – Exemplo de ontologia da BBC para um evento dos Jogos Olímpicos de 2012

Fonte: BBC, [s. d.].

Outro exemplo pioneiro, o site BBC Wildlife 171 reúne informações sobre

animais selvagens, plantas, entre outros dados do mundo natural. Para cada espécie,

há uma página única, gerada dinamicamente, a partir de uma base de dados

estruturada – que permite ainda a sugestão de conteúdos relacionados. Por meio de

tecnologias semânticas, ele se tornou ainda um dos primeiros repositórios utilizados

como complemento a outros produtos jornalísticos da BBC – isto é, sistemas que

decidem como os conteúdos devem ser publicados a partir do processamento de

metadados, enriquecendo o produto final (LAMMEL; MIELNICZUK, 2012).

A cultura de metadados, adaptação e reutilização de conteúdos iniciada por

esses projetos, tendo como premissa a identificação de cada item de interesse da BBC

em uma URI específica, contribuiu para impulsionar a divisão BBC Future Media172,

guarda-chuva das inovações associadas aos serviços digitais, criada em 2011. Um ano

depois, em 2012, a divisão BBC Connected Studio lançou um projeto de inovação

visando a explorar oportunidades para seus produtos noticiosos a partir de tecnologias

171

Disponível em: <http://www.bbc.co.uk/nature/wildlife>. Acesso em: 16 jan. 2015. 172

Disponível em: <http://www.bbc.co.uk/guidelines/futuremedia/>. Acesso em: 23 fev. 2015.

Page 137: UNIVERSIDADE METODISTA DE SÃO PAULO - …tede.metodista.br/jspui/bitstream/tede/1585/2/Andre Rosa de... · Este es uno de los cambios producidos ... estructuras son indispensables

137

criativas: o BBC News Labs173

. Trata-se das áreas mais envolvidas em

desenvolvimento de aplicações que culminam com tecnologias de linked data. Um

dos projetos desenvolvidos pela equipe do Labs, batizado de “The News Juicer”174

,

consistiu em um protótipo para extração de conceitos, seu relacionamento com a

DBPedia e anotação automática nos arquivos da BBC.

Em abril de 2014, a BBC Future Media apresentou a nova versão de suas

ontologias175

, base para sua plataforma de linked data. O site procurou organizar de

maneira apropriada o resultado dos projetos e esquemas hospedados na organização

desde suas primeiras experiências. Desta forma, ela se mantém inserida no

ecossistema de Linked Open Data (LOD). Como resultado desse processo, o serviço

BBC Things 176, lançado em setembro de 2014, oferece acesso público a esses

conceitos, permitindo a criação de aplicações a partir de seus dados – na prática, o site

da BBC funciona como uma API.

A expertise em arquitetura de dados estimula o desenvolvimento de novas

ações, como a cobertura das eleições locais britânicas em maio de 2014177

. Para

viabilizar as anotações semânticas no conteúdo, foi desenvolvida uma ontologia

específica para a cobertura política: entre outras instâncias, candidatos e partidos

precisam ter sua própria URI de acordo com os padrões do W3C, bem como relações

estabelecidas entre objetos. Com essas amarrações e ferramentas, a equipe é capaz de

descobrir quantas vezes um determinado partido foi mencionado durante a cobertura

das eleições. Ou, ainda, quais expressões e personagens aparecem com mais

frequência ao lado de cada um deles178

.

Por meio do laboratório, equipes interdisciplinares descobrem novos conceitos

e tomam decisões a partir dos protótipos desenvolvidos, aprendendo sobre novas

tecnologias e construindo um legado de informações estruturadas em suas bases de

dados, o que inclui o desenvolvimento de algoritmos editoriais capazes de extrair e

173

Disponível em: <http://www.bbc.co.uk/blogs/internet/entries/63841314-c3c6-33d2-a7b8-

f58ca040a65b>. Acesso em: 23 fev. 2015. 174

Disponível em:

<http://www.bbc.co.uk/partnersandsuppliers/connectedstudio/newslabs/projects/juicer.html>.

Acesso em: 23 fev. 2015. 175

Disponível em: <http://www.bbc.co.uk/blogs/internet/entries/78d4a720-8796-30bd-830d-

648de6fc9508>. Acesso em: 23 fev. 2015. 176

Disponível em: <http://www.bbc.co.uk/things>. Acesso em: 23 fev. 2015. 177

Disponível em: <http://www.bbc.co.uk/blogs/internet/entries/d6d2e984-1acd-30dd-a75a-

afe9f12f5b46>. Acesso em: 23 fev. 2015. 178

Disponível em: <http://source.opennews.org/en-US/articles/covering-european-elections-linked-

data/>. Acesso em: 23 fev. 2015.

Page 138: UNIVERSIDADE METODISTA DE SÃO PAULO - …tede.metodista.br/jspui/bitstream/tede/1585/2/Andre Rosa de... · Este es uno de los cambios producidos ... estructuras son indispensables

138

reconhecer metadados de seu conteúdo179

. O Datastringer é um dos exemplos mais

recentes: é ele que permite ao jornalista monitorar com facilidade bases de dados

externas a partir de critérios definidos por uma pauta (SHEARER; SIMON; GEIGER,

2014). Além de esse histórico revelar a capacidade de inovação da BBC, um

manifesto ao jornalismo estruturado reforça a escolha desse veículo como referência

no campo:

Acreditamos que o jornalismo estruturado tornará a BBC News mais

inteligente, eficiente e envolvente. Acreditamos que o jornalismo estruturado permitirá nosso engajamento com o mundo em formas que reconhecem sua verdadeira complexidade. Finalmente, acreditamos que o jornalismo estruturado nos tornará melhores jornalistas – aqueles que têm o poder de mostrar seu trabalho, abrir seus dados, permitir que o público contribua significativamente e criar uma sociedade mais informada. (A MANIFESTO FOR STRUCTURED JOURNALISM, 2015, tradução

nossa)180.

Quadro 5.6 – Metadados em bases de dados jornalísticas da BBC

Nível Característica Evidência

Esquemas Adoção de padrões de relacionamento entre

artigos publicados por meio de vocabulários

controlados (taxonomias)

Projeto BBC Wildlife

Aproveitamento de dados externos com

informações sobre conceitos (sujeitos, objetos

ou lugares) para enriquecer suas próprias bases

Relação de músicas e

programas por meio da

DBPedia

Ontologias Codificação de fragmentos de informação

manualmente, a partir do CMS, utilizando

anotações semânticas

Anotações manuais do canal

BBC Sports na Copa de 2010 e

nos Jogos Olímpicos de 2012

Análise (parsing) e codificação de fragmentos

de informação (páginas, bases de dados) com

metadados por meio de software (codificação

automática)

Projeto The News Juicer do

BBC News Labs

Relacionamento de conceitos (sujeitos, objetos

ou lugares) por meio de triplas usando

tecnologias como RDF

Ontologia específica para

cobertura das Eleições 2014

Intercâmbio Abertura de conteúdos por meio de tecnologias

semânticas padronizadas pelo W3C

Projeto BBC Things

Desenvolvimento de agentes inteligentes

capazes de reconhecer e aproveitar suas próprias

bases de dados

Algoritmo Datastringer

Fonte: Produzida pelo autor.

179

Disponível em: <http://www.bbc.co.uk/rd/projects/editorial-algorithms>. Acesso em: 20 abr. 2016. 180

Versão original: “We believe that structured journalism will make BBC News smarter, more

efficient, and more engaging. We believe that structured journalism will allow us all to engage with

the world in ways that acknowledges its true complexity. And, finally, we believe structured

journalism will make better journalists – ones who are empowered to show their work, open their

data, allow the public to meaningfully contribute, and create a more informed society”.

Page 139: UNIVERSIDADE METODISTA DE SÃO PAULO - …tede.metodista.br/jspui/bitstream/tede/1585/2/Andre Rosa de... · Este es uno de los cambios producidos ... estructuras son indispensables

139

5.2 Apontamentos sobre o uso de metadados no Jornalismo

“Jornalismo é oposição. O resto é armazém de secos e molhados”. A frase,

atribuída a Millôr Fernandes181

, normalmente usada para debater o poder e a

influência da imprensa brasileira (para o bem ou para o mal), perde o sentido a partir

dos apontamentos deste trabalho: independentemente do sentido da narrativa

(oposição, situação ou a “mitológica” neutralidade), o Jornalismo – entendido como

produzido e armazenado em bases na Web que são estruturadas por metadados –

também pode ser comparado, no sentido negativo, a um armazém: arquivar páginas

estáticas ou bases de dados capazes de gerá-las dinamicamente e, ao mesmo tempo,

ignorar a combinação de conceitos relacionados aos metadados seria o equivalente ao

amontoar produtos em corredores estreitos e desorganizados. Em contrapartida, diante

das alternativas observadas nos grupos de mídia – e sintetizadas no Quadro 5.7 –, que

salientam uma visão segundo a qual a notícia é “orientada a software”, o Jornalismo

se aproxima das lojas de ferramentas, decoração e construção ao estilo “faça você

mesmo”, com materiais e instrumentos ao dispor de qualquer um que souber

aproveitá-los.

Em síntese, todos os veículos observados apresentam relações entre a notícia –

entendida como um objeto de informação estruturado por metadados – e o

desenvolvimento de sistemas que permitem sua formalização semântica, recuperação

e reutilização para aplicações variadas. Eles representam, acima de tudo, um ganho de

informação obtido a partir de um necessário esforço interdisciplinar, dentro e fora do

ambiente da organização – especialmente se dados e ferramentas se apresentam de

forma aberta.

Para Robert K. Yin (2009), além das questões que norteiam a pesquisa, um

protocolo para estudo de caso deve ter uma agenda com apontamentos específicos

para um investigador ter em mente durante a coleta de dados. Além de apontar para

novas oportunidades de elaboração jornalística, a síntese dos procedimentos técnicos

descritos, derivados de experimentações ou incrementos rotineiros e equalizados de

acordo com a classificação proposta em níveis (marcações, esquemas, ontologias e

intercâmbio), é baliza para abordagens específicas sobre investigações envolvendo

metadados e bases de dados na Web como apoio a essas possibilidades.

181

A frase era publicada na capa do semanário O Pasquim, em 1975.

Page 140: UNIVERSIDADE METODISTA DE SÃO PAULO - …tede.metodista.br/jspui/bitstream/tede/1585/2/Andre Rosa de... · Este es uno de los cambios producidos ... estructuras son indispensables

140

Quadro 5.7 – Adoção de metadados em bases de dados jornalísticas: proposta para análise Nível de uso Características a serem observadas Globo.com The New York

Times

The Washington

Post

The Guardian BBC

Marcações Utilização de marcações HTML elementares na área de identificação da

página Web ("<head>"), normalmente etiquetadas por meio do atributo

<meta>

Comum a todos os veículos Identificação visual de campos como título, autor, data de publicação e/ou

modificação e corpo do texto

Organização de conteúdos em nível primário por meio de editorias, categorias

ou termo similar

Utilização de tags ou palavras-chave para relacionar conteúdos em nível

primário (folksonomias) Política para uso de

tags

Esquemas Utilização de marcações HTML controladas na página Web, como Dublin

Core, microformatos, microdados ou RDFa

Adoção dos

microformatos

rNews

Adoção de padrões de relacionamento entre artigos publicados por meio de

vocabulários controlados (taxonomias)

Projeto BBC

Wildlife

Incorporação de dados externos estruturados para enriquecer suas próprias

bases

Sistema de Dados

Esportivos

The Upshot, hotsite dos Jogos de 2012

Policiais mortos nos

EUA em 2015

Data Store

Aproveitamento de dados externos com informações sobre conceitos (sujeitos,

objetos ou lugares) para enriquecer suas próprias bases

Relação entre

músicas com a

DBPedia

Análise (parsing) e codificação de fragmentos de informação (páginas, bases

de dados) com metadados por meio de software (codificação automática)

Parsing de receitas,

Annotated Corpus

The News Juicer

Construção de conteúdos baseados em termos controlados por meio de

fragmentos de texto reutilizáveis

Projeto Editor Knowledge Map

Ontologias Codificação de fragmentos de informação manualmente, a partir do CMS,

utilizando anotações semânticas

Projetos e protótipos

internos

Projeto Editor BBC Sports na Copa

de 2010 e nos Jogos

de 2012

Relacionamento de conceitos (sujeitos, objetos ou lugares) em ontologias por

meio de triplas usando tecnologias como RDF

Projetos e protótipos

internos

Ontologia para

Eleições 2014

Intercâmbio Abertura de dados brutos para análise e marcação colaborativa

(crowdsourcing)

Projeto MPs’

expenses

Abertura de conteúdos por meio de uma plataforma de compartilhamento Projeto Annotated

Corpus

Policiais mortos nos

EUA em 2015

Data Store

Abertura de ferramentas ou códigos para tratamento de dados por meio de

uma plataforma de compartilhamento

Scripts para parsing de receitas

Abertura de conteúdos por meio de API, permitindo a criação e a

interoperabilidade de dados para múltiplos dispositivos e plataformas

Sistema de Dados

Esportivos

developer .nytimes

.com

Open Platform

Abertura de conteúdos por meio de tecnologias semânticas padronizadas pelo

W3C

data.nytimes.com BBC Things

Conexão de conceitos com dados externos (datasets) por meio de tecnologias

semânticas padronizadas pelo W3C

Projetos e protótipos

internos

Open Platform e

MusicBrainz

Desenvolvimento de agentes inteligentes capazes de reconhecer e aproveitar

suas próprias bases de dados

Knowledge Map e

Truth Teller

Datastringer

Fonte: Produzida pelo autor.

Page 141: UNIVERSIDADE METODISTA DE SÃO PAULO - …tede.metodista.br/jspui/bitstream/tede/1585/2/Andre Rosa de... · Este es uno de los cambios producidos ... estructuras son indispensables

141

A visão pioneira de John V. Pavlik dispensa metáforas envolvendo armazéns

ou megalojas. Há mais de uma década, ele analisa a influência das novas tecnologias

no Jornalismo a partir de quatro esferas: a forma como os jornalistas produzem seu

trabalho, o conteúdo da informação jornalística, a estrutura de uma redação e a

relação entre organizações de mídia e seus interlocutores (PAVLIK, 2000). Em sua

participação no II Encontro Internacional de Tecnologia, Comunicação e Ciência

Cognitiva182

, o professor da Rutgers University atualizou seu modelo de observação,

considerando três tecnologias computacionais como forças contemporâneas capazes

de influenciar essas quatro áreas: algoritmos, big data e inteligência artificial – nas

três, os metadados são elementos basilares. É possível cruzar essas dimensões – que

se diluem na cadeia que envolve a produção e distribuição de conteúdos

(PELLEGRINI, 2012) – para propor algumas inferências.

A questão central deste trabalho gira em torno da estrutura do conteúdo

jornalístico, partindo da premissa de que essa informação pode ser entendida como

um sistema e, portanto, formalizada como códigos por trás de um software. Ao

mesmo tempo, os computadores se tornaram uma ferramenta indispensável para

apuração, produção e distribuição de notícias, conforme evidenciam os processos

técnicos listados. As escolhas para essa formalização indicam ainda uma amplitude de

processos possíveis: cada veículo que utiliza datasets externos para enriquecer suas

próprias bases e produzir conteúdo a partir deles, utiliza estratégias próprias de coleta,

filtragem e compartilhamento de dados e esquemas relacionados a eles.

O esforço acadêmico em estabelecer linhas de investigação a partir de

conceitos, entre outros, como “Jornalismo de Precisão” (sistematização seminal

envolvendo ferramentas das Ciências Sociais), “Jornalismo de Dados”

(potencialização dessas práticas por meio de bases computacionais) e “Jornalismo

Computacional” (centrado na resolução de problemas por meio de uma visão

sistêmica), revela intersecções entre esses caminhos. É nessa área comum que reside a

importância dos metadados, que representa a síntese do argumento principal desta

tese: qualquer abordagem envolvendo o uso de dados para a produção e distribuição

de conteúdos jornalísticos, incluindo suas formas de reaproveitamento especialmente

por meio de algoritmos, não pode ignorar os processos de estruturação, seja por meio

de marcações ou de esquemas mais complexos.

182

O II EITCCC foi realizado entre os dias 3 e 4 de dezembro de 2015 no campus Rudge Ramos da

Universidade Metodista de São Paulo (São Bernardo do Campo, SP).

Page 142: UNIVERSIDADE METODISTA DE SÃO PAULO - …tede.metodista.br/jspui/bitstream/tede/1585/2/Andre Rosa de... · Este es uno de los cambios producidos ... estructuras son indispensables

142

A multiplicidade de escolhas apresenta, num primeiro momento, níveis de

complexidade – desde marcações elementares em páginas HTML até modelagem e

relacionamento entre conceitos por meio de padrões semânticos. Entre esses dois

pontos estão o controle na quantidade de termos descritivos, a fragmentação de

células informativas, visualizações baseadas em dados armazenados em datasets

externos e a disponibilização de material bruto para novas apropriações. Constata-se

que, além do potencial de interoperabilidade das informações em ambiente digital, a

combinação de escolhas se baseia, essencialmente, em propósitos claros: afinal, o que

se quer com esses blocos de informação e as ferramentas para encaixá-los? De fato, a

sofisticação a partir de um relacionamento matemático entre blocos informativos,

baseados em ontologias, e a disponibilização dessa base de dados enriquecida para

compor uma nuvem trançada por algoritmos e outras bases na Web são algo

promissor. Mas há outros objetivos não menos nobres que também exigem estruturas

de metadados, como construir reportagens baseadas em datasets ou mesmo oferecer

suporte para a decisão do jornalista ao selecionar ou hierarquizar uma informação

(LIMA JUNIOR, 2009).

A definição de propósitos dialoga com os métodos de produção da informação

jornalística, bem como com o perfil profissional na redação. Nesse aspecto, há um

entendimento de que esse ambiente é menos hostil com quem se dispõe a entender

como as tecnologias funcionam. Cabe reconhecer ainda a interdisciplinaridade como

fator primordial, impulsionado pelo pensamento computacional. Não se trata de exigir

um viés tecnicista do redator que alimenta bases de dados, menos ainda de questionar

o responsável por soluções de engenharia por critérios de noticiabilidade. No entanto,

ao aproximá-los em equipes cujo objetivo é modelar um sistema capaz de solucionar

um problema (obviamente o mesmo para jornalistas e desenvolvedores), pode haver

um estímulo em cada uma das partes em explorar, contestar ideias e,

consequentemente, desenvolver novas habilidades.

Paralelamente, o quadro de possibilidades técnicas sugere que funcionalidades

mais sofisticadas são restritas a poucas iniciativas – no caso das organizações

observadas, a BBC demonstra familiaridade com a lógica e a cultura de tecnologias

semânticas abertas, enquanto outras estão sendo testadas. Essa percepção está em

consonância com o ponto de vista de Everett Rogers (apud POMERANTZ, 2015), de

que funcionalidades como ontologias, triplas e padrões de linked data serão adotadas

caso sejam percebidas como simples ou de utilidade evidente – algo que já acontece

Page 143: UNIVERSIDADE METODISTA DE SÃO PAULO - …tede.metodista.br/jspui/bitstream/tede/1585/2/Andre Rosa de... · Este es uno de los cambios producidos ... estructuras son indispensables

143

com folksonomias (MOHERDAUI, 2011) e esquemas de microdados (RONALLO,

2014).

Os propósitos podem estar relacionados a atividades estratégicas, como: a

análise de comportamento de usuários e a personalização de conteúdos por meio de

dados de navegação; a arquitetura e a organização dos conteúdos, determinando a

coerência dos termos e as relações ou a seleção de datasets externos confiáveis; a

distribuição de conteúdos em diversas plataformas digitais tendo como base um

mesmo sistema tecnológico; ou a trabalhos rotineiros de produção e edição cujos

métodos automáticos (ou semiautomáticos) consumiriam menos tempo ou recursos. A

relação entre os objetivos e sua complexidade tecnológica implica equipes formadas,

entre outros, por cientista de dados, editor de metadados ou especialista em taxonomia

e desenvolvedores Web familiarizados com linguagens de marcação como XML e

padrões do W3C como RDF – enfim, grupos capazes de delinear fluxos de trabalho e

identificar os obstáculos em toda a cadeia produtiva.

Trata-se, no entanto, de um cenário ideal – comparável à expectativa em torno

da popularização e adoção de padrões semânticos capazes de traçar a Web de Dados,

ideia que vem sendo gestada e executada desde 2001. Se, mesmo na Ciência da

Computação, as discussões sobre ferramentas estão longe de ser amadurecidas, no

Jornalismo a distância aumenta na medida em que profissionais identificam uma

erosão de seus valores diante das necessidades diárias de produzir (PHILLIPS et al.,

2009) ou procurar diferenciais em relação ao ecossistema informativo – o que

também acaba sendo entendido como “inovação” (WESTLUND; LEWIS, 2014).

Ainda sobre a postura das organizações de mídia, suas escolhas e

relacionamento com o público, os veículos observados neste trabalho historicamente

apresentam visão estratégica, lideram iniciativas envolvendo tecnologia (o que inclui

laboratórios de pesquisa e desenvolvimento) e constroem seus produtos,

demonstrando capacidade de influenciar outros grupos de mídia. Mas, se em uma

ponta reside uma expectativa por um ambiente onde a informação possa ser

reaproveitada de diversas formas, com veículos de mídia sendo considerados datasets,

em outra encontram-se estruturas tradicionais, cuja filosofia comercial reconhece

produtos valiosos tanto em seus conteúdos quanto na forma como eles são

estruturados. Desta forma, iniciativas desenvolvidas internamente, marcadas por

opacidade de processos, exclusividade de acesso e hierarquia, colidem com formatos

não proprietários, princípios de acessibilidade e colaboração por meio de conexões

Page 144: UNIVERSIDADE METODISTA DE SÃO PAULO - …tede.metodista.br/jspui/bitstream/tede/1585/2/Andre Rosa de... · Este es uno de los cambios producidos ... estructuras son indispensables

144

rizomáticas em rede. As duas vias se confundem em arranjos flexíveis como nos

princípios de inovação aberta (CHESBROUGH; VANHAVERBEKE; WEST, 2006)

e estão misturadas às propriedades que cercam esse conceito, tais como

experimentação, otimização de processos e competitividade.

Ainda que seja um ponto crucial, não cabe aqui um mergulho extenso em

questões ligadas à cultura organizacional, da qual proliferam discussões emaranhadas,

que vão da propriedade intelectual à obrigatoriedade do diploma para jornalistas. No

entanto, uma potencial variável – que pode regular quais conteúdos podem ser

compartilhados – está na prestação de contas, atributo intrínseco ao Jornalismo. Da

mesma forma que outras organizações que geram dados de relevância social, “abrir o

código” (como na disponibilização de planilhas ou APIs) amplifica não apenas a

reutilização dos dados em outras aplicações (como se espera com a Web de Dados),

mas também a checagem de informações. É a mesma razão, segundo Stavelin (2013),

que deve ser levada em conta quando se utilizam algoritmos para construir uma

reportagem: deve haver um equilíbrio entre a estratégia de negócios e a transparência

sobre a origem e o método de processamento.

Seja qual for a escala, a teoria e a prática do Jornalismo são capazes de se

fortalecer, caso a adoção de tecnologias associadas a esquemas de metadados que

favoreçam a interoperabilidade da informação não seja entendida como “inovação no

jornalismo”, mas sim como um “jornalismo inovador”. Em outras palavras, não

existiriam casos para um estudo se não houvesse uma visão segundo a qual as

conexões interdisciplinares entre as áreas do conhecimento comuns à Comunicação e

à Tecnologia são capazes de produzir inovação, e não apropriações que conduzem

produtos e processos aos becos sem saída das experimentações. Como essa e outras

conjecturas fogem das inferências possíveis a partir das observações apresentadas, o

trabalho abre caminho para sua parte final.

Page 145: UNIVERSIDADE METODISTA DE SÃO PAULO - …tede.metodista.br/jspui/bitstream/tede/1585/2/Andre Rosa de... · Este es uno de los cambios producidos ... estructuras son indispensables

145

CONCLUSÃO

Antes de reforçar a pertinência dos metadados na estruturação do Jornalismo

na Web e encaminhar inquietações para novas investigações, um adendo: apesar de

seguir uma sequência estabelecida no Manual de Normas Técnicas para apresentação

de teses elaborado pela instituição183

, o termo “introdução” poderia ser substituído por

“considerações de andamento”, pois as ideias reunidas ali já foram introduzidas, em

outro momento. Da mesma forma, soa pretensioso apresentar uma “conclusão” diante

de uma jornada incompleta, na qual ainda há muito a percorrer. Seria bem mais

adequado nominar este encerramento como “considerações de encaminhamento”184

.

Enfim, durante o processo de pesquisa e construção deste trabalho, as

primeiras iniciativas de transposição de conteúdos jornalísticos para a Web

completaram 20 anos. Neste espaço onde veículos que procuram aproveitar o máximo

de recursos coexistem com outros que, no jargão grosseiro dos desenvolvedores,

podem ser batizados de “shovelware” (conhecidos pelo seu exagero de

funcionalidades, e não pela utilidade deles), foram percebidas iniciativas tão

interessantes quanto o Structured Stories ou tão audaciosas quanto o GDELT (ambas

já mencionadas), que contemplam o escopo do jornalismo estruturado por metadados.

O WordLift185 se apresenta como um editor de anotações semânticas voltado

para usuários do popular sistema de gerenciamento WordPress, que combina as

informações publicadas com as ligações possíveis por meio de linked data.

Desenvolvedores de Sevilha, na Espanha, lançaram um sistema de gerenciamento de

conteúdos em código aberto voltado para tecnologias semânticas abertas: é a

183

Elaborado pela professora Cicilia Peruzzo, disponível em: <http://portal.metodista.br/poscom/area-

do-aluno/manual-normas-tec-poscom-2013.pdf>. Acesso em: 4 nov. 2014. 184

Adendo similar ao usado na dissertação de mestrado do autor. A sugestão foi emprestada de Clóvis

de Barros Filho e Arthur Meucci, que usaram palavras semelhantes no livro A vida que vale a

pena ser vivida (Petrópolis: Vozes, 2010). 185

Disponível em: <http://wordlift.io>. Acesso em: 25 maio 2016.

Page 146: UNIVERSIDADE METODISTA DE SÃO PAULO - …tede.metodista.br/jspui/bitstream/tede/1585/2/Andre Rosa de... · Este es uno de los cambios producidos ... estructuras son indispensables

146

plataforma Ximdex186

. Já os holandeses da Xillio187

conceberam um projeto

denominado Content ETL, sigla para “Extract, Transform, and Load”, que diz

respeito ao processo de unificar dados de diferentes repositórios – traduzindo, é um

sistema proprietário que auxilia na integração de datasets, eliminando silos

informativos.

No Brasil, o algoritmo WarRoom, desenvolvido pela Stilingue188, baseia-se em

processamento de linguagem natural, mineração de dados e outros algoritmos para

extrair relações de dados não estruturados, como sites, blogs, comentários em

portais... Milhares deles, em língua portuguesa e em tempo real. Criada por

profissionais da Ciência da Computação, a ferramenta é voltada para a inteligência de

mercado. Por fim, a búlgara Ontotext 189, que oferece serviços de pesquisa e

desenvolvimento em tecnologia semântica, desenvolveu um sistema chamado

“Semantic Publishing Platform”, que combina funcionalidades de anotações

semânticas e armazenamento de triplas. Uma demonstração do software pode ser vista

no protótipo Now Ontotext190, uma amostra de tecnologias semânticas guiada por

dados estruturados que conecta conceitos e gera uma publicação dinâmica. É possível

navegar tanto por assuntos (editorias) quanto por links automáticos, produzindo

experiências personalizadas e adaptadas ao usuário.

Provavelmente outras empresas, sejam de grande porte ou startups, estão

sendo criadas, enquanto outras interrompem atividades. Entre esses exemplos, apenas

o plugin voltado para blogueiros e jornalistas – além da suíte oferecida pela Ontotext

(também oferecida a bibliotecas, museus e ambientes virtuais de aprendizagem) –

descreve com clareza as organizações de mídia como público possível. Ainda assim,

tanto esse quanto os demais exemplos foram planejados e executados por

profissionais sem nenhuma relação com a área de Comunicação. Mesmo que as ideias

por trás de cada sistema possam se adaptar a qualquer tipo de conteúdo publicado na

Web, elas não foram designadas para o Jornalismo, reforçando o argumento de que as

inovações mais interessantes acontecem fora das organizações de mídia (GYNNILD,

2014). O Jornalismo vive momentos de incerteza, mas não dá para imaginar um

futuro sem diálogo com aplicações, linguagens, técnicas e plataformas. Até porque, se

186

Disponível em: <http://www.ximdex.com>. Acesso em: 25 maio 2016. 187

Disponível em: <http://www.xillio.com>. Acesso em: 10 jun. 2016. 188

Disponível em: <http://www.stilingue.com.br>. Acesso em: 25 maio 2016. 189

Disponível em: <http://www.ontotext.com>. Acesso em: 25 maio 2016. 190

Disponível em: <http://now.ontotext.com>. Acesso em: 25 maio 2016.

Page 147: UNIVERSIDADE METODISTA DE SÃO PAULO - …tede.metodista.br/jspui/bitstream/tede/1585/2/Andre Rosa de... · Este es uno de los cambios producidos ... estructuras son indispensables

147

recuperarmos a teoria crítica oriunda da Filosofia da Tecnologia, quem conduz o

processo de inovação não é quem o usa, mas sim quem o constrói.

Uma outra situação pode ser usada para reforçar a necessidade de o

Jornalismo construir suas próprias ferramentas. Considere um programa jornalístico

televisivo com boletins de trânsito. Para apoiar sua informação, o apresentador se

utiliza de uma visualização do Waze, sistema que faz o mapeamento e a localização

de ruas e avenidas em cidades com o intuito de indicar os melhores trajetos com base

em coleta de informações sobre tráfego191

. Ao final do boletim, o âncora faz um

convite ao telespectador: “as informações do Waze, você vê em detalhes no site de

nossa emissora”.

Independentemente da estranheza de chamar um software por meio de sua

página, posicionando-se como um intermediário (evidente que existem questões

comerciais que se sobrepõem aí), deve-se observar de que modo um sistema, apoiado

por aplicativos instalados em dispositivos móveis conectados à internet durante a

circulação de automóveis, faz com que boletins tradicionais, com repórteres em carros

ou helicópteros, pareçam anacrônicos, obsoletos. Com o cruzamento de datasets com

metadados que dialogam informações de trânsito a partir de máquinas, cada

dispositivo conectado recebe um produto único, personalizado, adaptado às

necessidades do usuário, apresentando qualidade informativa diferenciada. E onde

está o jornalista nesse momento?

Durante os anos 1990, redações buscavam adaptações com a introdução

maciça de computadores pessoais, compreendidos nesse princípio como um “tipo

avançado de máquina de escrever”. Da mesma forma que o potencial das máquinas

computacionais vem sendo reconhecido nas últimas duas décadas, é preciso dialogar

ainda mais com tecnologias digitais para extrair relevância de suas bases de dados. A

proximidade entre os sistemas e os processos de produção de notícia demonstra a

importância de ir além da pirâmide invertida: a informação jornalística deve ter

atributos que não apenas ressoem diante dos olhos de quem as vê, mas que também

facilitem ações como armazenamento, recuperação e seleção, bem como permitam

sua visualização em qualquer dispositivo.

A mesma ideia pode ser observada em outra perspectiva: não são as

ferramentas tecnológicas que devem nortear esse processo, mas sim as pessoas. Nesse

191

Disponível em: <http://www.waze.com>. Acesso em: 12 maio 2015.

Page 148: UNIVERSIDADE METODISTA DE SÃO PAULO - …tede.metodista.br/jspui/bitstream/tede/1585/2/Andre Rosa de... · Este es uno de los cambios producidos ... estructuras son indispensables

148

sentido, o trabalho conjunto entre jornalistas e desenvolvedores pode resultar na troca

de habilidades entre esses profissionais. Isoladamente, os profissionais de mídia terão

dificuldade em construir essas conexões. Mais do que isso: contribuições sistemáticas

por meio do pensamento computacional contribuirão para a adaptação do Jornalismo

diante de um cenário em constante mudança, no qual é impossível saber se as

configurações tecnológicas que exibem o resultado das relações entre datasets em

forma de notícia foram produzidas por um redator, um software ou ambos.

As mesmas benesses trazidas por sistemas de personalização e adaptação de

informação apontam para outro dilema relevante: a imprensa está habituada a associar

o termo “metadados” a relatos de vigilância ostensiva por agências de inteligência,

invasão e roubo de informações e outras violações de privacidade. Ainda que sistemas

possam ser construídos para auxiliar o jornalista a checar afirmações, construir textos

automatizados, desenrolar teias de relações e priorizar seu tempo, o fato de os dados

estarem disponíveis não significa que possam ser usados sem permissão, ignorando

práticas éticas (BOYD; CRAWFORD, 2012).

Isso corrobora a necessidade de uma prestação de contas permanente, algo que

nem toda organização de mídia está acostumada a fazer – especialmente quando

reconhece um potencial negócio por trás de suas práticas. No outro extremo desse

discurso reside a ética hacker – o acesso a computadores e a qualquer coisa que possa

lhe ensinar algo sobre como o mundo funciona deveria ser ilimitado (LEVY, 1994). A

ponte que liga a catedral com o bazar – ou seja, o equilíbrio entre visões estratégicas

abertas e privadas – possibilita que repórteres, cientistas sociais, estatísticos,

desenvolvedores ou usuários que participam de hackdays, cursos livres, fóruns e sites

especializados se apropriem de dados e plataformas, discutam os melhores

procedimentos e aplicações, apontem problemas ou obstáculos e ampliem a

possibilidade de aplicações e, por consequência, a relevância desse conteúdo.

Em síntese, esse cenário indica que o jornalista deve aprender a desenvolver

habilidades como pensar em problemas de forma abstrata, atuar colaborativamente

com times interdisciplinares, escolher (ou desenhar) os instrumentos adequados para

lidar com eles e, não menos importante, refletir sobre a tensão entre o homem, as

máquinas e seus valores, que reforça o binômio entre as humanidades e a tecnologia,

pautado por encantamento e conflito. Parece formidável, mas o que fazer com as

histórias contadas por diferentes organizações, pressionadas por novas demandas e

resultados? Nesse contexto, “talvez o pior erro nesse período tão turbulento seja

Page 149: UNIVERSIDADE METODISTA DE SÃO PAULO - …tede.metodista.br/jspui/bitstream/tede/1585/2/Andre Rosa de... · Este es uno de los cambios producidos ... estructuras son indispensables

149

assumir que qualquer organização de notícias tem encontrado um modelo

universalmente direito de tomar a frente [...] e aqueles com o maior interesse em

manter o status quo são os mais sensíveis” (PHILLIPS et al., 2009, p. 78, tradução

nossa)192

.

Não há perspectiva fácil, mas algo pode ser apreendido das organizações que,

em seu planejamento, priorizam investimento em laboratórios de pesquisa e

desenvolvimento. Na contramão, as alterações curriculares no curso de Jornalismo,

potencializadas pelas Novas Diretrizes Curriculares, ainda confundem a valorização

de novas habilidades com abordagens instrumentais, bem como espaços incipientes

para considerações sobre os impactos da evolução tecnológica (LIMA JUNIOR;

OLIVEIRA, 2015). Em nível acadêmico, ferramentas tradicionais de investigação

(como as utilizadas neste trabalho) são úteis para produzir registros exploratórios e

descritivos, mas não se deve esquecer que o conhecimento humano é, em sua maior

parte, hipotético (BUNGE, 2007, p. 96): seu rigor é mensurado a partir de sua

capacidade de analisar fenômenos contemporâneos em uma perspectiva mais ampla,

encadeando situações particulares de modo a construir teorias e conceitos

consistentes. Exige, portanto, um constante embate científico.

Sair do “anacronismo improcedente”, dar um “salto tecnológico e

metodológico” e deixar de empregar “esquemas antigos para dar conta de fenômenos

radicalmente novos” (SALAVERRÍA, 2015) implica replicar a lógica dos

laboratórios de mídia nas universidades, inclusive por meio de parcerias, produzindo

futuras investigações aplicadas, que conversem com as investigações teóricas e

empíricas, mais comuns à área de Comunicação.

Isso expandiria as fronteiras do Jornalismo, fortalecendo-as como ciência. Ou,

nas palavras do filósofo e engenheiro polonês Alfred Korzybski, conhecido por ter

desenvolvido a teoria da semântica geral, seria reconhecer que “um mapa não é o

território”.

192

Versão original: “Perhaps the worst mistake at this stage of such a turbulent period would be to

assume that any news organization has found a universally right model to take forward. [...] In any

period of change, those with the greatest vested interest in the status quo are likely to feel

unsettled”.

Page 150: UNIVERSIDADE METODISTA DE SÃO PAULO - …tede.metodista.br/jspui/bitstream/tede/1585/2/Andre Rosa de... · Este es uno de los cambios producidos ... estructuras son indispensables

150

Page 151: UNIVERSIDADE METODISTA DE SÃO PAULO - …tede.metodista.br/jspui/bitstream/tede/1585/2/Andre Rosa de... · Este es uno de los cambios producidos ... estructuras son indispensables

151

REFERÊNCIAS

A MANIFESTO FOR STRUCTURED JOURNALISM. BBC News Labs, Londres, 7

jul. 2015. Disponível em: <http://bbcnewslabs.co.uk/2015/07/07/a-manifesto-for-

structured-journalism/>. Acesso em: 6 nov. 2015.

ALLEN, R. B.; SCHALOW, J. Metadata and data structures for the historical

newspaper digital library. In: PROCEEDINGS ACM CONFERENCE ON

INFORMATION AND KNOWLEDGE MANAGEMENT, 8., 1999, Missouri.

Anais... Missouri: CKM Conference, 1999.

ALVES-MAZZOTTI, A. J. Usos e abusos dos estudos de caso. Cadernos de

Pesquisa, São Paulo, v. 36, n. 129, p. 637-651, set./dez. 2006.

ALVES, R. C. Jornalismo digital: Dez anos de web… e a revolução continua.

Comunicação & Sociedade, São Bernardo do Campo, v. 9-10, p. 93-102, 2006.

ANDERSON, C. W. Notes towards an analysis of computational journalism. HIIG

Discussion Paper Series, [s. l.], v. 1, p. 1-22, out. 2012.

ANDERSON, C. W.; BELL, E.; SHIRKY, C. Post-industrial journalism: adapting to

the present. Tow Center for Digital Journalism, New York, 3 dez. 2014. Disponível

em: <http://towcenter.org/research/post-industrial-journalism>. Acesso em: 3 mar.

2013.

ANDREW, L. P. The missing links: an archaeology of digital journalism. [S. l.] Yale

University, 2008.

BACA, M. Introduction to metadata. Los Angeles, CA: Getty Publications, 2008.

BARBOSA, S.; TORRES, V. O paradigma “jornalismo digital em base de dados”:

modos de narrar, formatos e visualização para conteúdos. Revista Galáxia, São

Paulo, n. 25, p. 152-164, jun. 2013.

BBC. Sport Ontology. Londres: BBC, [s. d.]. Disponível em:

<http://www.bbc.co.uk/ontologies/sport>. Acesso em: 23 fev. 2015.

BERNERS-LEE, T. Weaving the web. New York: HarperCollins, 2000.

BERNERS-LEE, T.; HENDLER, J.; LASSILA, O. The semantic web. Scientific

American, [s. l.], p. 34-43, maio 2001.

Page 152: UNIVERSIDADE METODISTA DE SÃO PAULO - …tede.metodista.br/jspui/bitstream/tede/1585/2/Andre Rosa de... · Este es uno de los cambios producidos ... estructuras son indispensables

152

BERRY, D. M. The computational turn: thinking about the digital humanities.

Culture Machine, Coventry, v. 12, p. 1-22, 2011.

BERTOCCHI, D. Dos dados aos formatos: o sistema narrativo no jornalismo digital.

In: ENCONTRO ANUAL DA COMPÓS, 23., 2014, Belém. Anais... Belém, PA:

Compós, 2014.

BIZER, C.; HEATH, T.; BERNERS-LEE, T. Linked data: the story so far.

International Journal on Semantic Web and Information Systems (IJSWIS),

Hershey, p. 205-227, 2009.

BOYD, D.; CRAWFORD, K. Critical questions for big data. Information,

Communication & Society, [s. l.], v. 15, n. 5, p. 662-679, 2012.

BRIN, S.; PAGE, L. Reprint of: The anatomy of a large-scale hypertextual web

search engine. Computer Networks, [s. l.], v. 56, n. 18, p. 3825-3833, 2012.

BUNGE, M. La ciencia: su método y su filosofía. Buenos Aires: Siglo Veinte, 1987.

______. Diccionario de Filosofía. Buenos Aires: Siglo Veintiuno, 2007.

CAMPOMAR, M. C. Do uso de “estudo de caso” em pesquisas para dissertações e

teses em administração. Revista de Administração, São Paulo, v. 26, n. 3, p. 95-97,

1991.

CAMPOS, M. L. D. A. Modelização de domínios de conhecimento: uma investigação

de princípios fundamentais. Ciência da Informação, Brasília, v. 33, n. 1, p. 22-32,

2004.

CAPLAN, P. Metadata fundamentals for all librarians. Chicago: American

Library Association, 2003.

CARLSON, M. The Robotic Reporter: automated journalism and the redefinition of

labor, compositional forms and journalistic authority. Digital Journalism, [s. l.], v. 3,

n. 3, p. 37-41, 2015.

CASTELLS, P. et al. Neptuno: semantic web technologies for a digital newspaper

archive. In: The Semantic Web: Research and Applications. Athens: Springer Berlin

Heidelberg, 2004. p. 445-458.

CASWELL, D. A. Structured narratives as a framework for journalism: a work in

progress. In: INTERNATIONAL WORKSHOP ON COMPUTATIONAL MODELS

OF NARRATIVE, 6., Atlanta, 2015. Anais... Atlanta, GA: [s. n.], 2015.

CASWELL, D. A.; RUSSELL, F.; ADAIR, B. Editorial aspects of reporting into

structured narratives. In: COMPUTATION+JOURNALISM SYMPOSIUM, 2015,

New York. Anais... New York: [s. n.], 2015.

CHESBROUGH, H.; VANHAVERBEKE, W.; WEST, J. Open innovation:

researching a new paradigm. New York: Oxford University Press, 2006.

Page 153: UNIVERSIDADE METODISTA DE SÃO PAULO - …tede.metodista.br/jspui/bitstream/tede/1585/2/Andre Rosa de... · Este es uno de los cambios producidos ... estructuras son indispensables

153

CHRISTENSEN, C. M. Disruptive Innovation. In: The Encyclopedia of Human-

Computer Interaction. 2. ed. Aarhus: Interaction Design Foundation, [s. d.].

Disponível em: <http://www.interaction-

design.org/encyclopedia/disruptive_innovation.html>. Acesso em: 28 ago. 2012.

CODDINGTON, M. Clarifying journalism’s quantitative turn. Digital Journalism,

[s. l.], v. 3, n. 3, p. 331-348, 2015.

COHEN, S.; HAMILTON, J. T.; TURNER, F. Computational journalism.

Communications of the Association for Computing Machinery, New York, v. 54,

n. 10, p. 66-71, 1 out. 2011.

CORRÊA, E. N. S.; BERTOCCHI, D. A cena cibercultural do jornalismo

contemporâneo: web semântica, algoritmos, aplicativos e curadoria. Matrizes, São

Paulo, v. 5, n. 2, p. 123-144, 2012a.

______. O algoritmo curador: o papel do comunicador num cenário de curadoria. In:

ENCONTRO ANUAL DA COMPÓS, 21., 2012, Juiz de Fora. Anais... Juiz de Fora:

Universidade Federal de Juiz de Fora, 2012b

CRAIG, R. T. Communication Theory as a Field. Communication Theory, v. 9, n. 2,

p. 119–161, 1999.

DAGIRAL, É.; PARASIE, S. Portrait du journaliste en programmeur: l’émergence

d’une figure du journaliste “hacker”. Les Cahiers du Journalisme, [s. l.], n. 22/23, p.

144-155, 2011.

DANIEL, A.; FLEW, T. The guardian reportage of the UK MP expenses scandal: a

case study of computational journalism. Communications Policy and Research

Forum, Sydney, v. 15-16, nov. 2010.

DEBEVERE, P. et al. Enabling Semantic Search in a News Production Environment.

In: INTERNATIONAL CONFERENCE ON SEMANTIC AND DIGITAL MEDIA

TECHNOLOGIES, 5., Berlim, 2010. Anais... Berlim: [s. n.], 2010

DIAKOPOULOS, N. Cultivating the landscape of innovation in computational

journalism. New York: Cuny Graduate School of Journalism, 2012.

DIAS, C. P. Um modelo para cobertura de notícias na Web. Rio de Janeiro: PUC-

Rio, 2014.

DING, L.; FININ, T. Characterizing the semantic web on the web. In:

INTERNATIONAL SEMANTIC WEB CONFERENCE, 5., 2006, Athens. Anais...

Athens: Springer Berlin Heidelberg, 2006. Disponível em:

<http://www.springerlink.com/index/4456127km642037t.pdf>. Acesso em: 10 jun.

2016.

DIRSCHL, C. et al. LOD2 for Media and Publishing. In: AUER, S.; BRYL, V.;

TRAMP, S. (Eds.). Linked open data: creating knowledge out of interlinked data.

Page 154: UNIVERSIDADE METODISTA DE SÃO PAULO - …tede.metodista.br/jspui/bitstream/tede/1585/2/Andre Rosa de... · Este es uno de los cambios producidos ... estructuras son indispensables

154

lecture notes in computer science. [S. l.] Springer International Publishing, 2014.

8661. p. 133-154.

DOCTOROW, C. Metacrap: putting the torch to seven straw-men of the meta-

utopia. California: Well, 2001. Disponível em:

<http://www.well.com/~doctorow/metacrap.htm>. Acesso em: 26 mai. 2016.

DODGSON, M.; GANN, D. Innovation: a very short introduction. New York:

Oxford University Press, 2010.

DOGRUEL, L. What is so special about media innovations? A characterization of the

field. The Journal of Media Innovations, Oslo, v. 1, n. 1, p. 52-69, 2014.

DUSEK, V. Philosophy of technology: an introduction. Malden, MA: Blackwell

Publishing, 2006.

EISENHARDT, K. M. Building theories from case study research. Academy of

Management Review, New York, v. 14, n. 4, p. 532-550, 1989.

FEENBERG, A. Looking backward, looking forward: reflections on the Twentieth

Century. Hitotsubashi Journal of Social Studies, Tóquio, v. 33, p. 135-142, 2001.

FLEW, T.; SPURGEON, C.; DANIEL, A. The promise of computational journalism.

In: MEDIA, DEMOCRACY AND CHANGE: REFEREED PROCEEDINGS OF

THE AUSTRALIAN AND NEW ZEALAND COMMUNICATIONS

ASSOCIATION ANNUAL CONFERENCE. Anais... Canberra: [s. n.], 2011.

Disponível em:

<http://www.tandfonline.com/doi/abs/10.1080/17512786.2011.616655>. Acesso em:

18 set. 2012.

FLORIDI, L. Information: a very short introduction. New York: Oxford University

Press, 2010.

FRAGOSO, S.; RECUERO, R.; AMARAL, A. Métodos de pesquisa para internet.

Porto Alegre: Sulina, 2011.

FRASINCAR, F.; BORSJE, J.; LEVERING, L. A semantic web-based approach for

building personalized news services. International Journal of E-Business, Hershey,

n. 2, 2009.

GALINDO ARRANZ, F. Propuesta de periodización histórica y evolución conceptual

del Periodismo de Precisión. Estudios sobre el Mensaje Periodístico, Madrid, n. 10,

p. 97-112, 2004.

GARCÍA AVILÉS, J. A.; CARVAJAL, M. Integrated and cross-media newsroom

convergence: two models of multimedia news production: the cases of novotécnica

and la verdad multimedia in Spain. Convergence: The International Journal of

Research into New Media Technologies, [s. l.], v. 14, n. 2, p. 221–239, 1 maio

2008.

Page 155: UNIVERSIDADE METODISTA DE SÃO PAULO - …tede.metodista.br/jspui/bitstream/tede/1585/2/Andre Rosa de... · Este es uno de los cambios producidos ... estructuras son indispensables

155

GENRO FILHO, A. O Segredo da Pirâmide: para uma teoria marxista do

jornalismo. Porto Alegre: Tchê!, 1987.

GIBBERT, M.; RUIGROK, W.; WICKI, B. What passes as a rigorous case study?

Strategic Management Journal, [s. l.], v. 29, p. 1465-1474, dez. 2008.

GITELMAN, L. “Raw Data” is an Oxymoron. Cambridge, MA: MIT Press, 2013.

GLEICK, J. The information: a history, a theory, a flood. New York: Pantheon

Books, 2011.

GOUVÊA, C.; LOH, S. Jornalismo semântico: uma visão em direção ao futuro do

jornalismo online. In: LONGHI, R.; D’ANDRÉA, C. (Eds.). Jornalismo

convergente: reflexões, apropriações, experiências. Florianópolis: Insular, 2012.

GRASSI, M. et al. Pundit: augmenting web contents with semantics. Literary and

Linguistic Computing, Oxford, v. 28, n. 4, p. 640-659, 18 set. 2013.

GRAY, J.; BOUNEGRU, L.; CHAMBERS, L. The data journalism handbook: how

journalists can use data to improve the news. [S. l.]: The Open Knowledge

Foundation, European Journalism Centre, 2012.

GREENBERG, J. Metadata and digital information. In: BATES, M. J.; MAACK, M.

N.; DRAKE, M. (Eds.). Encyclopedia of library and information science. New

York, NY: Marcel Dekker, 2009. p. 1-23.

GUALLAR, J.; ABADAL, E.; CODINA, L. Sistema de análisis de hemerotecas de

prensa digital. Trípodos, Barcelona, n. 31, p. 37–64, 2013.

GUNTHER, E.; QUANDT, T. Word counts and topic models: automated text

analysis methods for digital journalism research. Digital Journalism, [s. l.], v. 4, n. 1,

p. 75-88, 2016.

GYNNILD, A. Journalism innovation leads to innovation journalism: The impact of

computational exploration on changing mindsets. Journalism, v. 15, n. 6, p. 713-730,

2014.

HALFORD, S.; POPE, C.; CARR, L. A manifesto for Web Science. Journal

Webscience, Raleigh, p. 1-6, abr. 2010.

HALVORSON, K.; RACH, M. Content strategy for the web. 2. ed. Berkeley, CA:

New Riders, 2012.

HAN, M.-J. Metadata with levels of description: new challenges to catalogers and

metadata librarians. In: WORLD LIBRARY AND INFORMATION CONGRESS,

78., 2012, Finlândia. Anais... Haia: Ifla, 2012. Disponível em:

<http://conference.ifla.org/past-wlic/2012/80-han-en.pdf>. Acesso em: 4 set. 2014

Page 156: UNIVERSIDADE METODISTA DE SÃO PAULO - …tede.metodista.br/jspui/bitstream/tede/1585/2/Andre Rosa de... · Este es uno de los cambios producidos ... estructuras son indispensables

156

HEATH, T.; BIZER, C. Linked data: evolving the web into a global data space. [S.

l.: s.n.], 2011.

HEBELER, J. et al. Semantic web programming. Indianápolis, IN: Wiley

Publishing, Inc., 2009. v. 20

HERAVI, B. R.; BORAN, M.; BRESLIN, J. G. Towards social semantic

journalism. [S. l.: s.n.]: 2012.

HEY, T.; TANSLEY, S.; TOLLE, K. The fourth paradigm: data-intensive scientific

discovery. Redmond, WA: Microsoft Research, 2009.

HILTZ, S. R.; TUROFF, M. The network nation: human communication via

computer. Massachusetts: MIT Press, 1993.

HOLOVATY, A. The definitive, two-part answer to “is data journalism?”. Holovaty,

[s. l.], 21 maio 2009. Disponível em: < http://www.holovaty.com/writing/data-is-

journalism/>. Acesso em: 5 jun. 2013.

JENKINS, H. Cultura da convergência. São Paulo: Aleph, 2009.

KALLIPOLITIS, L.; KARPIS, V.; KARALI, I. Semantic search in the World News

domain using automatically extracted metadata files. Knowledge-Based Systems, [s.

l.], v. 27, p. 38-50, mar. 2012.

KASHYAP, V.; BUSSLER, C.; MORAN, M. The semantic web: semantics for data

and services on the web. Berlim: Springer-verlag Berlin Heidelberg, 2008.

KOBILAROV, G. et al. Media meets semantic web: how the BBC uses DBpedia and

Linked Data to make connections. ESWC 2009, [s. l.], p. 723-737, 2009.

KORZYBSKI, A. Science and sanity. An introduction to non-Aristotelian systems

and general semantics. Oxford, England: International Non-Aristotelian Library

Science and sanity, 1933.

KUNCZIK, M. Conceitos de jornalismo: Norte e Sul. São Paulo: Edusp, 1997.

LAKATOS, E. M.; MARCONI, M. A. Fundamentos de metodologia científica. 5.

ed. São Paulo: Atlas, 2003.

LAMMEL, I.; MIELNICZUK, L. Aplicação da Web Semântica no jornalismo.

Estudos em Jornalismo e Mídia, Florianópolis, v. 9, n. 1, p. 180-195, 5 jul. 2012.

LANE, K. What is an API. [S. l.]: 3Scale, 2013. Disponível em:

<https://s3.amazonaws.com/kinlane-productions/whitepapers/API+Evangelist+-

+API+101.pdf>. Acesso em: 30 set. 2015.

LAURENTIZ, S. Tags e metatags? De Ted Nelson a Tim Berners-Lee. Revista Porto

Arte, Porto Alegre, v. 17, n. 28, p. 17-33, 2010.

Page 157: UNIVERSIDADE METODISTA DE SÃO PAULO - …tede.metodista.br/jspui/bitstream/tede/1585/2/Andre Rosa de... · Este es uno de los cambios producidos ... estructuras son indispensables

157

LEETARU, K.; SCHRODT, P. A. GDELT: Global Data on Events, Location and

Tone, 1979-2012. Annual Meeting of the International Studies Association, San

Francisco, EUA, p. 1979-2012, abr. 2013.

LEMOS, C. Inovação na era do conhecimento. In: Informação e globalização na era

do conhecimento. [S. l.: s. n.], 1999. p. 122-144.

LEVY, S. Hackers: heroes of the computer revolution. [S. l. : s. n.], 1994.

LEWIS, S. C.; WESTLUND, O. Big Data and Journalism: epistemology, expertise,

economics, and ethics. Digital Journalism, [s. l.], v. 3, n. 3, p. 447-466, 2014.

LICKLIDER, J. C. R.; TAYLOR, R. W. The Computer as a Communication Device.

Science and Technology, [s. l.], 1968.

LIMA JUNIOR, W. T. Avanço qualitativo na pesquisa sobre tecnologias aplicadas ao

jornalismo. Revista Líbero, São Paulo v. 10, n. 20, p. 123-130, 2007.

______. Big Data, Jornalismo Computacional e Data Journalism: estrutura,

pensamento e prática profissional na Web de dados. Estudos em Comunicação, [s.

l.], n. 12, p. 207-222, 2012.

______. Classificação das bases conceituais para elaboração de sistema digital de

busca de fontes jornalísticas. Revista Galáxia, São Paulo, n. 12, p. 115-128, 2006a.

______. Considerações sobre interdisciplinariedade e o campo da Comunicação

Social. Brazilian Journal of Technology, Communication, and Cognitive Science,

[s. l.], v. 2, n. 1, 2014.

______. Intersecções possíveis: tecnologia, comunicação e ciência cognitiva.

Comunicação & Sociedade, São Bernardo do Campo, v. 34, n. 2, p. 93-119, 2013a.

______. Jornalismo computacional em função da “Era do Big Data”. Revista Líbero,

São Paulo, v. 14, n. 28, p. 45-52, 2011.

______. Jornalismo inteligente na era do data mining. Revista Líbero, São Paulo, n.

18, p. 119-126, 2006b.

______. O uso dos Sistemas de Suporte à Decisão (SSD) visando à melhora da

qualidade do conteúdo jornalístico. Revista Famecos, Porto Alegre, v. 38, p. 79-85,

2009.

______. O surgimento da nova camada complexa da Web e a apropriação doméstica

das tecnologias digitais conectadas. Comunicação & Inovação, São Caetano do Sul,

v. 14, n. 27, p. 10-18, 2013b.

LIMA JUNIOR, W. T.; OLIVEIRA, A. R. DE. Habilidades tecnológicas e ensino

superior em Jornalismo no Brasil: observação das exigências contemporâneas e seu

contraste com as grades curriculares. E-Compós, [s. l.], v. 18, n. 2, p. 1-22, 2015.

Page 158: UNIVERSIDADE METODISTA DE SÃO PAULO - …tede.metodista.br/jspui/bitstream/tede/1585/2/Andre Rosa de... · Este es uno de los cambios producidos ... estructuras son indispensables

158

LIU, J.; DOLAN, P.; PEDERSEN, E. R. Personalized news recommendation based

on click behavior. In: INTERNATIONAL CONFERENCE ON INTELLIGENT

USER INTERFACES, 15., New York, 2010. Anais... New York: ACM Press, 2010.

Disponível em: <http://dl.acm.org/citation.cfm?doid=1719970.1719976>. Acesso em:

LOPES, L. C. Artefatos de Memória e representações nas mídias. Ciberlegenda,

Niterói, n. 7, 2002.

LUCZAK-RÖSCH, M.; HEESE, R. Linked data authoring for non-experts. In:

WWW2009, 2009, Madrid. Anais... Madrid: [s. n.], 2009. Disponível em:

<http://ceur-ws.org/Vol-538/ldow2009_paper4.pdf>. Acesso em: 15 set. 2014

MACHADO, E. Metodologias de pesquisa em jornalismo: uma revisão histórica e

perspectivas para a produção de manuais de orientação. Brazilian Journalism

Research, Brasília, v. 6, n. 1, p. 10-28, 2010.

MACHADO, E.; PALACIOS, M. Um modelo híbrido de pesquisa: a metodologia

aplicada pelo GJOL. In: LAGO, C.; BENETTI, M. (Eds.). Metodologia de pesquisa

em jornalismo. Petrópolis: Vozes, 2007. p. 199-222.

MANCINI, P. Hackear el periodismo: manual de laboratorio. Buenos Aires: La

Crujía, 2011.

MANOVICH, L. Trending: the promises and the challenges of big social data. [S. l.:

s. n.], 2011.

MARCONDES, C. H. “Linked Data” – dados interligados – e interoperabilidade entre

arquivos, bibliotecas e museus na web. Encontros Bibli: Revista Eletrônica de

Biblioteconomia e Ciência da Informação, Florianópolis, v. 17, n. 34, p. 171-192,

2012.

MARTINO, L. C.; BOAVENTURA, K. T. O Mito da Interdisciplinaridade: história e

institucionalização de uma ideologia. Revista da Associação Nacional dos

Programas de Pós-Graduação em Comunicação – E-Compós, [s. l.], v. 16, n. 1, p.

16, 2013.

MARTINS, G. A. Estudo de caso: uma reflexão sobre a aplicabilidade em pesquisas

no Brasil. Revista de Contabilidade e Organizações, Ribeirão Preto, v. 2, p. 8-18,

2008.

MENÁRGUEZ, A. T. Não é preciso ser matemático para ser especialista em ‘big

data’. El País, Madri, 16 fev. 2015. Disponível em:

<http://brasil.elpais.com/brasil/2015/02/12/economia/1423740778_503816.html>. 20

abr. 2016.

MEYER, C. B. A case in case study methodology. Field Methods, Flórida, v. 13, n.

4, p. 329-352, 2001.

MIRROR, I. Can news media use linked data for a stronger future? IPTC, London, n.

1, p. 2-7, fev. 2010.

Page 159: UNIVERSIDADE METODISTA DE SÃO PAULO - …tede.metodista.br/jspui/bitstream/tede/1585/2/Andre Rosa de... · Este es uno de los cambios producidos ... estructuras son indispensables

159

MITCHELL, M. Complexity: a guided tour. New York: Oxford University Press,

2009.

MOHERDAUI, L. Jornalismo baseado em tags. Revista Nexi, São Paulo, p. 1-18,

2011.

MORETZSOHN, S. D. O “novo ritmo da redação” de O Globo: a prioridade ao

jornalismo digital e seus reflexos nas condições de trabalho e produção da notícia.

Revista Parágrafo, São Paulo, v. 2, n. 2, p. 59-79, 2014.

NEGROPONTE, N. A vida digital. Rio de Janeiro: Companhia das Letras, 1995.

OLIVEIRA, M.; MAÇADA, A. C. G.; GOLDONI, V. Forças e fraquezas na

aplicação do estudo de caso na área de sistemas de informação. R ista st o,

São Paulo, v. 16, n. 1, p. 33-49, 2009.

PALACIOS, M. A memória como critério de aferição de qualidade no

ciberjornalismo: alguns apontamentos. Revista Famecos, Porto Alegre, v. 37, 2008.

PALACIOS, M. Convergência e memória: jornalismo, contexto e história. Matrizes,

São Paulo, v. 4, n. 1, p. 37-50, 2010.

______. Ferramentas para análise de qualidade no ciberjornalismo. Covilhã,

Portugal: LabCom Books, 2011. (Volume 1: Modelos).

PALACIOS, M.; DÍAZ NOCI, J. Ciberperiodismo: métodos de investigación.

Bilbao: Servicio Editorial de la Universidad del País Vasco, 2009.

PAVLIK, J. V. The impact of technology on journalism. Journalism Studies, [s. l.],

v. 1, n. 2, p. 229-237, 2000.

PELLEGRINI, T. Semantic metadata in the news production process: achievements

and challenges. In: INTERNATIONAL ACADEMIC MINDTREK CONFERENCE,

12., 2012, Finlândia. Anais... Finlândia: Tampere, 2012

PENA, R. A. P. Suporte semântico à publicação de conteúdo jornalístico na Web.

Rio de Janeiro: Pontifícia Universidade Católica do Rio de Janeiro, 2012.

PEREIRA, A. L. S. Tecnologia como atributo do delineamento do domínio da

Comunicação Social. In: ENCONTRO INTERNACIONAL TECNOLOGIA,

COMUNICAÇÃO E CIÊNCIA COGNITIVA, 1., 2014, São Bernardo do Campo.

Anais... São Bernardo do Campo: Umesp, 2014.

PHILLIPS, A. et al. Implications of technological change for journalists tasks and

skills. Journal of Media Business Studies, [s. l.], v. 6, n. 1, p. 61-85, 2009.

PIETOSO, C. R. Newspapers as platforms: how open apis can impact journalism.

London, UKCity University, 2009.

Page 160: UNIVERSIDADE METODISTA DE SÃO PAULO - …tede.metodista.br/jspui/bitstream/tede/1585/2/Andre Rosa de... · Este es uno de los cambios producidos ... estructuras son indispensables

160

POLLERES, A. et al. Can we ever catch up with the Web? IOS Press, Amsterdã, p.

1-5, 2010.

POMERANTZ, J. Metadata. Cambridge, MA: The MIT Press, 2015.

POPPER, K. R. A lógica da pesquisa científica. 16. ed. São Paulo: Cultrix, 2008.

QUADROS, C. I. Base de dados: a memória extensiva do jornalismo. Em Questão,

Porto Alegre, v. 11, n. 2, p. 409-423, 2005.

QUESADA, M. Periodismo de investigación: una metodología para el periodismo

especializado. In: FERNANDEZ DEL MORAL, J. (Ed.). Periodismo especializado.

Barcelona: Ariel, 2004. p. 123-143.

QUINTANA, M. Poesia completa. Rio de Janeiro: Nova Aguilar, 2006.

RAMOS, D. O. Formato: condição para a escrita do jornalismo digital de base de

dados. São Paulo: Universidade de São Paulo, 2011.

REIG, R. Crisis del sistema, crisis del periodismo: contexto estructural y deseos de

cambio. Barcelona: Gedisa, 2015.

RIBAS, B. Web Semântica e produção de notícias: anotações para o estudo da

aplicação da tecnologia ao campo do Jornalismo. In: ENCONTRO NACIONAL DE

PESQUISADORES EM JORNALISMO, 5., 2007, Aracaju. Anais... Aracaju:

Associação Brasileira de Pesquisadores em Jornalismo, 2007.

ROCKLEY, A.; COOPER, C. Managing enterprise content: a unified content

strategy. Berkeley, CA: New Riders, 2012.

ROGERS, S. Facts are sacred. London: Guardian Books, 2013.

RONALLO, J. HTML5 Microdata and Schema.org. The Code4Lib Journal, [s. l.],

n. 16, p. 1-17, 2014.

ROYAL, C. The journalist as programmer: a case study of The New York Times

interactive news technology department. In: INTERNATIONAL SYMPOSIUM ON

ONLINE JOURNALISM, 2010, Austin. Anais... Austin, TX: The University of

Texas at Austin, 2010.

RUBIO LACOBA, M. Nuevas destrezas documentales para periodistas: el

vocabulario colaborativo del diario El País. Trípodos, Barcelona, n. 31, p. 65-78,

2012.

SALAHELDEEN, H. M.; NELSON, M. L. Losing my revolution: how many

resources shared on social media have been lost? In: Theory and Practice of Digital

Libraries. Athens: Springer Berlin Heidelberg, 2012. p. 125-137.

SALAVERRÍA, R. Ideas para renovar la investigación sobre medios digitales. El

Profesional de la Información, Barcelona, v. 24, n. 3, maio/jun. 2015.

Page 161: UNIVERSIDADE METODISTA DE SÃO PAULO - …tede.metodista.br/jspui/bitstream/tede/1585/2/Andre Rosa de... · Este es uno de los cambios producidos ... estructuras son indispensables

161

SALAVERRÍA, R.; GARCÍA AVILÉS, J. A. La convergencia tecnológica en los

medios de comunicación: retos para el periodismo. Trípodos, Barcelona, n. 23, 2008.

SAMAJA, J. A. Epistemología y metodología: elementos para una teoría de la

investigación científica. Buenos Aires: Editorial Universitaria de Buenos Aires

(Eudeba), 2004.

SARACEVIC, T. Ciência da informação: origem, evolução e relações. Perspectivas

em Ciência da Informação, Belo Horizonte, v. 1, n. 1, p. 41-62, 1996.

SCHREIBMAN, S.; SIEMENS, R.; UNSWORTH, J. A companion to Digital

Humanities. Malden, MA: Blackwell Publishing, 2004.

SCHWINGEL, C.; CORREA, B.-H. Dados, sistemas e circulação no ciberjornalismo:

análise do fluxo de produção do jornalismo em bases de dados com preceitos da

Teoria Sistêmica e Gestão da Informação. In: SIMPÓSIO NACIONAL DA

ASSOCIAÇÃO BRASILEIRA DE PESQUISADORES EM CIBERCULTURA, 7.,

2013, Curitiba. Anais... [S. l.]: Associação Brasileira de Pesquisadores em

Cibercultura, 2013.

SEELOS, C.; MAIR, J. Innovation is not the holy grail. Stanford Social Innovation

Review, Stanford, 2012. Disponível em:

<www.ssireview.org/articles/entry/innovation_is_not_the_holy_grail>. Acesso em: 3

set. 2012.

SHANNON, C. E. A mathematical theory of communication. The Bell System

Technical Journal, v. 27, p. 379–423, 1948.

SHAPIRO, I. Evaluating journalism. Journalism Practice, [s. l.], v. 4, n. 2, p. 143-

162, 2010.

SHEARER, M.; SIMON, B.; GEIGER, C. Datastringer: easy dataset monitoring for

journalists. In: COMPUTATION+JOURNALISM SYMPOSIUM, 2014, New York.

Anais... New York: Columbia Journalism Schools, 2014. Disponível em:

<http://compute-cuj.org/cj-2014/cj2014_session4_paper1.pdf>. Acesso em: 8 mar.

2015.

SICILIA, M.-A.; LYTRAS, M. Metadata and Semantics. New York: Springer

Science+Business Media, LLC, 2009.

SILVA, D. L.; SOUZA, R. R. Representação de documentos multimídia: dos

metadados às anotações semânticas. Tendências da Pesquisa Brasileira em Ciência

da Informação, Belo Horizonte, v. 7, n. 1, 2014.

SNOW, C. P. The two cultures and the scientific revolution. London: Cambridge

University Press, 1959.

Page 162: UNIVERSIDADE METODISTA DE SÃO PAULO - …tede.metodista.br/jspui/bitstream/tede/1585/2/Andre Rosa de... · Este es uno de los cambios producidos ... estructuras son indispensables

162

SOUZA, R. R.; ALVARENGA, L. A Web Semântica e suas contribuições para a

ciência da informação. Ciência da Informação, Brasília, v. 33, n. 1, p. 132-141,

2004.

STAVELIN, E. Computational journalism: when journalism meets programming.

Bergen: University of Bergen, 2013.

STEENSEN, S. Online journalism and the promises of new technology. Journalism

Studies, [s. l.], v. 12, n. 3, p. 311-327, 2011.

______. What’s stopping them? Towards a grounded theory of innovation in online

journalism. Journalism Studies, [s. l.], v. 10, n. 1, p. 821-836, 2009.

STEINER, C. Automate this: how algorithms came to rule the world. London:

Portfolio; Penguin, 2012.

THE WASHINGTON POST TESTS NEW KNOWLEDGE MAP FEATURE.

WashPost PR Blog, Washington (DC), 16 jul. 2015. Disponível em:

<http://www.washingtonpost.com/pr/wp/2015/07/16/the-washington-post-tests-new-

knowledge-map-feature/>. Acesso em: 6 nov. 2015.

TRÄSEL, M. Jornalismo guiado por dados: relações da cultura hacker com a cultura

jornalística. In: ENCONTRO ANUAL DA COMPÓS, 22., 2013, Salvador. Anais...

Salvador: Universidade Federal da Bahia, 2013.

TRONCY, R. Bringing the IPTC news architecture into the semantic web. In:

INTERNATIONAL SEMANTIC WEB CONFERENCE, 7., 2008, Karlsruhe.

Anais... ISWC: Karlsruhe, 2008.

TURKLE, S. Alone together. Philadelphia, PA: Basic Books, 2011.

TURNER, F.; HAMILTON, J. T. Accountability through algorithm: developing the

field of computational journalism. Disponível em:

<http://dewitt.sanford.duke.edu/wp-content/uploads/2011/12/About-3-Research-B-cj-

1-finalreport.pdf>. Acesso em: 18 set. 2012.

USHER, N.; LEWIS, S. C. Open source and journalism: toward new frameworks for

imagining news innovation. Media, Culture & Society, [s. l.], v. 35, n. 5, p. 602-619,

jul. 2013.

WACHTER-BOETTCHER, S. Content everywhere: strategy and structure for

future-ready content. New York, NY: Rosenfeld Media, 2012. v. 53

WALL, M.; SILVER, N. Domain-Driven Design in an Evolving Architecture. InfoQ,

[s. l.], 22 jul. 2008. Disponível em: < https://www.infoq.com/articles/ddd-evolving-

architecture>. Acesso em: 10 abr. 2016.

WANG, T. D.; PARSIA, B.; HENDLER, J. A survey of the web ontology landscape.

In: INTERNATIONAL SEMANTIC WEB CONFERENCE, 2006, Athens. Anais...

Athens: Springer Berlin Heidelberg, 2006.

Page 163: UNIVERSIDADE METODISTA DE SÃO PAULO - …tede.metodista.br/jspui/bitstream/tede/1585/2/Andre Rosa de... · Este es uno de los cambios producidos ... estructuras son indispensables

163

WATTS, D. Tudo é óbvio, desde que você saiba a resposta: como o senso comum

nos engana. São Paulo: Paz e Terra, 2011.

WEINBERGER, D. Small Pieces Loosely Joined. Cambridge, MA: Perseus Books,

2002.

WESTLUND, O.; LEWIS, S. C. Agents of media innovations: actors, actants and

audiences. The Journal of Media Innovations, Oslo, v. 1, n. 2, p. 10-35, 2014.

WILSON, R. A.; KEIL, F. C. The MIT Encyclopedia of the Cognitive Sciences

(MITECS). Boston: Massachusetts Institute of Technology, 1999.

WING, J. M. Computational thinking. Communications of the Association for

Computing Machinery, New York, v. 49, n. 3, p. 33-35, 1 mar. 2006.

XIE, Z. et al. Archiving the relaxed consistency web. In: ACM INTERNATIONAL

CONFERENCE ON INFORMATION AND KNOWLEDGE MANAGEMENT, 22.,

2013, São Francisco, EUA. Anais… São Francisco, EUA: ACM, 2013. p. 2119-2128.

YARASAVAGE, N.; BUTTERHOF, R.; EHRMAN, C. National Digital Newspaper

Program: A Case Study in Sharing, Linking, and Using Data. In: ACM/IEEE-CS joint

conference on Digital Libraries, 12., 2012, Washington, EUA. Anais... Washington,

EUA: ACM, 2012

YIN, R. K. Case study research: design and methods. Oaks, CA: Sage Publications,

2009.

YONAMINE, J. E. Predicting Future Levels of Violence in Afghanistan Districts. In:

ANNUAL MEETING OF THE EUROPEAN POLITICAL SCIENCE

ASSOCIATION, 3., 2013, Barcelona. Anais… [S. l.]: EPSA, 2013. p. 1-32.