WebSemantica

9
A Web Semântica Revisitada uma breve análise Curso: Gestão e Curadoria da Informação Cadeira: Curadoria da Informação – Aquisição e Organização Docentes: Alexandra Lourenço e Paulo Leitão Discente: Ricardo M. Geraldes – aluno nº 34420

description

A brief analysis of the semantic web

Transcript of WebSemantica

  • A Web Semntica Revisitada

    uma breve anlise

    Curso: Gesto e Curadoria da Informao Cadeira: Curadoria da Informao Aquisio e Organizao Docentes: Alexandra Loureno e Paulo Leito Discente: Ricardo M. Geraldes aluno n 34420

  • No mbito da unidade curricular Curadoria da Informao Aquisio e Organizao, iremos abordar o tema Web Semntica, tendo como base de comentrio o texto The Semantic Web Revisited [2006] desenvolvido por Nigel Shadbolt, Tim Berners-Lee e Wendy Hall.

    O texto, que nos serve como objecto de estudo, est separado por diversos

    captulos: From documents to data and information, que expe a evoluo da Web para a Web Semntica. A growing need for data integration, que demonstra como necessrio dar resposta integrao e articulao de diversos base de dados de diferentes comunidades cientficas. Passando por pargrafos mais tcnicos Universal Resource Identifiers (URI); RDF translation; Web Ontology Language (OWL); etc. que colocam em discurso as vrias ferramentas para a constituio da Web Semntica. Terminando com uma abordagem reflexiva sobre os desenvolvimentos, metodologias, desafios e tcnicas que ainda faltam para uma Web Science1.

    A Web Semntica mais que um sonho que se avizinha no horizonte da Era

    da Informao. acima de tudo a complexificao de um sistema que encontra as suas origens na Teoria Matemtica da Comunicao, formulado por Claude Shannon, ou na Ciberntica de Norbert Wiener. Quer a teoria da informao, quer a cincia do controlo da comunicao, tinham como propsito a preciso, a eficcia e o controlo do fluxo de informao. Conceitos que ainda hoje so encarados como cruciais para um excelente desempenho da Rede. Mas, para os nossos dias no basta a simples transmisso de dados.

    Web Semntica Uma breve anlise

    A passagem, tanto abstracta como concreta, na World Wide Web, de documentos para dados e informao, envolve a organizao de informao. Para tal, h implicao de estudos tericos e metodolgicos interdisciplinares que tornam possvel a elaborao de novas tecnologias e normas para o tratamento e organizao de informao no medium digital, com o desgnio de desenvolver instrumentos capazes de dar resposta, com um grau de preciso elevado, s buscas realizadas pelos utilizadores. Inserido neste contexto, a Web Semntica projecta-se como uma nova perspectiva no desenvolvimento de tecnologias que viabilizem o aumento da recuperao de informaes na Web, expondo modos que tornem praticvel a recuperao de informaes que se encontram de certo modo escondidas.

    1 Sendo a World Wide Web a maior construo de informao na histria da humanidade, h a emergncia de compreender a totalidade das suas implicaes na sociedade de forma a assegurar a sua prestao social, e para tal um novo campo interdisciplinar necessrio, a Cincia Web esse campo de reflexo. Consultado em: http://webscience.org/web-science/about-web-science/

  • O desafio colocado pela exacerbao informacional, face necessidade de uma personalizao contextual, na elaborao do conhecimento, circunscreve requisitos qualitativos e relevncia de informao. Para isso torna-se necessrio a criao de categorias que possibilitem organizar o fluxo de dados disponveis, permitindo o reconhecimento daquilo que realmente interessa ao utilizador. Na realidade, estas categorias existem, mas so apreendidas somente por seres humanos, e no reflexo desta relao, no so compreendidas, ou conferidas de sentido lgico para as mquinas computacionais. A Web Semntica o salto qualitativo para resolver este problema.

    explcito que o propsito da Web Semntica servir as pessoas e no os

    computadores, mas para que tal acontea necessrio elaborar camadas, em linguagens ou metalinguagens, que tenham sentido lgico para as mquinas. O texto que nos serve de ncora afirma: The Semantic Web is a Web of actionable information information derived from data through a semantic theory for interpreting the symbols. The semantic theory provides an account of meaning in which the logical connection of terms establishes interoperability between systems (Berners-Lee, Hall, Shadbolt 2006: 96). Ou seja, uma World Wide Web de dados e informao seria completamente diferente da World Wide Web que conhecemos e experienciamos nos nossos dias. Uma rede de dados e informao que nos iria permitir, de forma rotineira, agregar dados de uma configurao particular tendo em conta o seu contexto. Ou seja, uma questo de interoperabilidade.

    O artigo em causa apresenta vrios cenrios em como agentes inteligentes e

    bots2 resolvem tarefas. Mas o que apreendemos que estas tarefas so essencialmente tarefas especficas com pouca capacidade de interaco com os tipos de dados e informaes heterogneas.

    O aumento da produo de dados nas Cincias Naturais forou a integrao

    de diversos conjuntos de objectos de informao que deram origem a prticas comunicativas entre comunidades distintas de cientistas. Um exemplo disso so os Scientific Work Flows3, que de forma a integrar todos os componentes e resultados das investigaes, proporcionam, em grande parte, a adopo de conceitos comuns referidas como ontologias4.

    2 Bot, um diminutivo de robot, tambm conhecido como Web bot. O Bot um software de aplicao que corre tarefas automticas na Internet. Executa tarefas simples e repetitivas a uma velocidade superior que os humanos poderiam atingir. Consultado em: http://en.wikipedia.org/wiki/Internet_bot 3 Os Sistemas de Workflow Cientfico so plataformas computacionais, que tornaram possvel uma comunicao legvel entre cientistas. Fornecendo meios sistemticos e automatizados. Os Scientific Workflows, so ideais para a realizao de anlises em diversos data sets e aplicaes, permitindo que os resultados gerados, possam ser reproduzidos, e que os mtodos utilizados possam ser revistos, validados, repetidos e adoptados. 4 Segundo a World Wide Web Consortium (W3C), ontologias refere-se a conceitos e relaes que so usados para descrever e representar uma rea de estudo. O papel das ontologias na Web Semntica de ajudar a integrao de dados quando, por exemplo, existam

  • Outras cincias e reas tm vindo a adoptar as prticas de criao de

    vocabulrios transversais e interdisciplinares. Por exemplo, o texto de estudo menciona como as Cincias do Ambiente tm vindo a procurar integrar os dados de reas como a hidrografia, climatologia, ecologia e oceanografia. Ou seja, a necessidade de compreender e articular os sistemas atravs de indcios de escala e distribuio evidente na rea das cincias e apresenta o requisito premente para a assimilao de dados e informao (Berners-Lee, Hall, Shadbolt 2006: 96). Outro exemplo apontado so as iniciativas governamentais, atravs de prticas de e-governance, de forma a desenvolver um vocabulrio integrado no sector pblico (ver: www.esd.org.uk/standars/ipsv). Vrios pases da Unio Europeia esto tambm a trabalhar em conjunto desenhando programas similares com o propsito de implementar directivas europeias.

    Mas, referem os autores, que apesar do e-science, e outros sectores

    interessados na utilizao deste movimento colaborativo, a Web Semntica ainda no marcou concretamente a sua presena. Passemos ento para os progressos efectuados e para consideraes acerca dos impedimentos para a sua aplicao global.

    Progresso(s) e Ferramentas para a Construo da Web Semntica Com a necessidade para a criao de uma rede semntica, a comunidade de

    utilizadores, que inclui por exemplo, a World Wide Web Consortium5, tem dirigido esforos para especificar, desenvolver e estabelecer as fundaes para uma interoperabilidade semntica, atravs de linguagens de e para o conhecimento partilhado.

    No ano de 1997, a W3C definiu o primeiro modelo conceptual para

    representar informao na Internet. O Resource Description Framework (RDF) estrutura-se com uma semntica formal, utilizando um vocabulrio URI, que iremos abordar mais frente, e uma sintaxe baseada e sustentada em XML6. Os arquivos RDF tm trs componentes bsicos: Recurso; Propriedade; Indicao. Funcionando como uma linguagem de representao, tambm referenciada como triplo, o RDF permite que os dados estruturados e semi-estruturados possam ser misturados, expostos e partilhados atravs de diferentes aplicaes. Esta estrutura de ligaes gera

    ambiguidades no termos utilizados em diferentes data sets. Resumindo, ontologia a especificao de uma conceptualizao, que tanto descreve indivduos, classes, atributos e relacionamentos. Consultado em: http://www.w3.org/standards/semanticweb/ontology. 5 A W3C uma comunidade internacional no qual operam em conjunto vrias organizaes, um corpo de trabalho permanente, e a sociedade civil, cooperando para criar normas para a Rede. A sua misso levar a Web at ao seu potencial mximo. Consultado em: http://www.w3.org/Consortium/ 6 Extensible Markup Language (XML), um dos subtipos da SGML (Standard Generalized Markup Language) com a capacidade de descrever vrios tipos de dados, cujo a finalidade simplificar a utilizao da Internet

  • um grfico marcado, onde as arestas representam o nome da ligao entre dois recursos, representado por nodos.

    Figura 1. Grfico RDF

    De forma a melhorar as funcionalidades e interoperabilidades da Web, a

    W3C recomendou a utilizao do modelo de dados RDF em 1999. URIs, ou Universal Resource Identifiers, tal como o nome indica, identifica

    recursos. Usando uma conveno global de nomeaes, fornece a fundao para os objectos 7 e suas relaes, permitindo s mquinas o processamento directo de informao. Os URIs, que sustentam a Web Semntica, transferem a relevncia dos documentos para os dados de informao. O texto de anlise aponta como as linguagens evoluram de modo a oferecer muitas oportunidades para codificar significado que podem suportar integrao de informao e interoperabilidade. Dito de outro modo, associando os URIs com um recurso, significa que qualquer pessoa pode fazer ligaes, fazer referncias, ou retirar a representao do objecto em causa. O esquema RDF, tornou-se uma recomendao em Fevereiro de 2004. De mencionar, tambm, que os RDFS tomaram as especificaes bsicas do RDF e estenderam a forma de suportar a expresso de um vocabulrio estruturado.

    Com o crescente uso de RDF e RDFS, houve a necessidade de criar

    repositrios para os contedos. A Triple Stores, um banco de dados construdo propositadamente para o armazenamento e recuperao de triplos8, atravs de sondas semnticas. Este tipo de banco de dados varia na sua capacidade. Algum destes repositrios focalizam em prover uma espcie de dialctica com os triplos, enquanto outros Triple Stores, centram-se em armazenar grandes quantidades de dados. Alguns operam como plug-ins para browsers da Internet actual, outros como sistemas que podem operar como bancos de dados de terceiros.

    7 Considera-se por objectos, tudo o que seja o centro da pesquisa. Por exemplo, na figura 1., o objecto considerado o nome ou indivduo de Eric Miller. 8 Um triplo uma entidade de dados composta por sujeito-predicado-objecto.

  • Outro progresso apontado, para a Web Semntica, inclu a Gleaning Resource Descriptions from Dialectics of Languages (GRDDL), que aprovisiona meios para extrair RDF de documentos XML e XHTML, usando transformaes expressas em Extensible Stylesheet Language (XSLT) e associados com o contedo original. Este servio, de traduo de RDF, permite que as converses sejam disparadas quer por URIs ou pela entrada textual directa.

    Para uma exposio que requer mais expressividade, para os objectos e

    descries, a Web Ontology Language (OWL), serve para definir e instanciar9 ontologia na Web. A W3C recomenda trs verses OWL, dependendo do grau de expressividade pretendido. Ou seja, as ontologias podem ser distribudas, j que esta linguagem, a OWL, permite que ontologias se refiram a termos noutras ontologias. Poderamos dizer que a OWL uma espcie de mediador, ou entrepsito, entre ontologias. No entanto, serve-nos apontar que a Web Ontology Language ainda precisa de ferramentas e software para apoiar a sua produo e aplicao (Berners-Lee, Hall, Shadbolt 2006: 98). Por exemplo, modeladores podem querer descrever as qualidades de uma relao, para relacionar mais de dois indivduos ou para relacionar um indivduo a uma lista, mas ainda no possvel com a OWL. H necessidade de adoptar um padro que codifica o significado fora da semntica formal10. Que, segundo os autores, j esto a aparecer as ferramentas, mas ainda h poucos meios de rotina, de forma a gerar anotaes na rede semntica.

    Mas, tal como descrito no texto, as ontologias so apenas parte da

    problemtica da Web Semntica. Rules and inference also need support (Berners-Lee, Hall, Shadbolt 2006: 98). Porque difcil determinar um formalismo que consiga capturar todo o conhecimento dentro de um domnio particular, h outras abordagens para inferncias na Web. O Rule Interchange Format (www.w3.org/2005/rules), iniciou esse apoio. Uma tentativa de suportar e interagir por meio de uma variedade de formatos baseados em regras. O RIF aborda a profuso de formalismos baseados em regras, ou lgicas. Estas regras estabelecem o campo, onde quer computadores, quer pessoas, possam fazer inferncias a partir das relaes existentes entre as estruturas de dados, conseguindo inclusivamente deduzir novas informaes. No entanto para que exista este tipo de operabilidade, torna-se necessrio uma envolvncia adequada, onde os patamares anteriores estejam j formalmente definidos e implementados.

    A Web Semntica no pode existir sem que sejam desenvolvidas normas ede

    forma concertada. Mas as linguagens e normas de nada valem se no existir um aumento na quantidade de dados expostos em RDF. J mencionamos o uso por parte das Cincias Naturais de Scientific Workflows, e a navegao frequente dessas 9 Na Cincia da Computao, instanciar um termo usado em programao orientada a objectos. Ou seja, a Instncia a concretizao de uma classe, um objecto cujo o comportamento. Consultado em: http://pt.wikipedia.org/wiki/Inst%C3%A2ncia_%28classe%29 10 Consultado em:http://en.wikipedia.org/wiki/Web_Ontology_Language#Limitations

  • plataformas o que valida toda a interoperabilidade. Experience suggests that an incubator community with a pressing techonology need is an essential prerequisite for sucess. In the original Web, this community was high-energy physicists who needed to share large document sets (Berners-Lee, Hall, Shadbolt 2006: 99). Ou seja, quanto mais informao ou recursos foram colocados, filtrados, trabalhados e reutilizados, num dado sistema, mais fcil ser atingir o potencial mximo (da Rede).

    J vimos que a construo da Web Semntica passa pela elaborao de

    metalinguagens que fornea uma rede conceptual de interoperabilidade, ou seja, ontologias. E os desafios para o desenvolvimento e gesto das ontologias so reais. Assim afirmam os autores do texto. No pargrafo Ontology development and management, somos apresentados com mais uma poro de problemas para a estruturao e concretizao da Web Semntica. Um dos problemas apontados, a constante mutao de termos: Although some denotations are more persistente than others, we must recognize that they arent fixed over all time. Even terms used to classify medical diseases change as new procedures and understanding emerges (Berners-Lee, Hall, Shadbolt 2006: 99). Torna-se ento necessrio encarar as ontologias como estruturas vivas. Estruturas que se adaptem ao seu meio envolvente, dando respostas ajustadas e harmonizadas. Aceitao de constantes reformulaes, o que os autores sugerem.

    Outro problema, relativo ao desenvolvimento e gesto da ontologias, so os

    custos envolvidos. Tambm aqui os autores apresentam uma proposta bastante clara: In fact, given the Webs fractal nature, those costs might decrease as an ontologys user base increases (Berners-Lee, Hall, Shadbolt 2006: 99). Dito de outro modo, o crescimento na utilizao e elaborao de ontologias ir implicar um decrscimo nos custos. Algo referido neste pargrafo a classificao de ontologias: Ontologias Profundas e Ontologias Superficiais ou Rasas. As ontologias profundas so encontradas principalmente em cincias e engenharias. Onde existem esforos considerveis para a construo e desenvolvimentos de conceptualizaes. As ontologias superficiais so ontologias que recorrem a uma terminologia mais simples. Ou seja, os termos no esto to dependentes de mudanas conceptuais como na rea das cincias. Os autores exemplificam com termos utilizados em contextos financeiros ou comerciais como: cliente, ou nmero de conta, etc.. De notar que embora estas duas ontologias estejam separadas por termos aparentemente antagnicos, a complexidade no desenvolvimento e gesto da ontologia superficial, no menos complexo, apenas mais simples nas relaes e termos (Berners-Lee, Hall, Shadbolt 2006: 99).

    No entanto, tal como apontado, a complexidade das ontologias profundas

    tem levado a evitar o desenvolvimento de ontologias. A resposta, no to eficaz como vamos ver de seguida, tem sido as folksonomies.

    As folksonomies, ou indexao social, consiste e surge quando um largo

    nmero de pessoas est interessado num particular tpico, e desta forma, sentem-se

  • encorajados a descreve-la (Berners-Lee, Hall, Shadbolt 2006: 100). Este tipo de indexao social encontrado, por exemplo, no Flickr (https://www.flickr.com/), ou no del.icio.us (https://delicious.com/), mas como apontado, a classificao, ou tag, praticada nestas plataformas, tanto pode ser efectuado de forma egosta para organizar a recolha dos seus prprios contedos, ou pode ser classificada de forma altrusta (Berners-Lee, Hall, Shadbolt 2006: 100). E por esta perspectiva podemos ver que a indexao social pode servir propsitos diferentes daqueles pretendidos para as ontologias: Ontologies are attempts to more carrefully define parts of the data world and to allow mappings and interactions between data held in different formats. Ontologies refer by virtue of URIs; tag use words. Ontologies defined through a careful, explicit process that attempts to remove ambiguity. The definition of a tag is a loose am implicit process where ambiguity might well remain (Berners-Lee, Hall, Shadbolt 2006: 100).

    Concluses Em forma de concluso, apuramos que para uma slida construo da Web

    Semntica necessrio uma espcie de e-fisicalidade estrutura conceptual desta nova rede de contedos. Um espao com informao ubqua onde os dados so constantemente introduzidos e reforados. Permitindo aos utilizadores engajar numa espcie de serendipismo de maneira a reutilizar e descobrir informao relacionada. Os profissionais da informao, neste contexto, tm uma enorme responsabilidade ao divulgar este admirvel mundo novo, bem como fortes incumbncias e desafios, tornando evidente a necessidade de uma melhor familiarizao com novas tecnologias, de forma que estas sejam desenvolvidas a partir de princpios ticos e sociais, e no apenas por meio de procedimentos meramente tecnicistas.

    O desafio que colocado pelo constante fluxo informacional, face

    premncia de uma contextualizao dos objectos de informao desmaterializados, determina requisitos de qualidade e construo de conhecimento. Os autores mencionam que para tamanha tarefa h a urgncia de uma cincia colaborativa, atravs de incentivos comerciais, com requerimentos regulatrios11. Bem como a criao de sinergias que depende fundamentalmente em certas assunes gerais sobre comportamento social, concomitantemente com a observao das regras de direitos autorais.

    11 Inserimos aqui uma citao que refora esta ideia: A great deal of the sucess relates to what we might call the ladder of authority. This is a sequence of specifications (URI, HTTP, RDF, ontology, and so on) and registers (URI scheme, MIME Internet contente type, and so on), which provide a means for a construct such as an ontology to derive meaning from a URI. Another example is the construction of a standards body thats been able to promote, develop, and deploy open standards(Berners-Lee, Hall, Shadbolt 2006: 100).

  • Se o propsito deste texto foi principalmente a discusso de metodologias, desafios e tcnicas para a constituio da Web Semntica, algo que tambm proposto por Nigel Shadbolt, Wendy Hall e Tim Berners-Lee, considerado o pai da World Wide Web, e que extravasa a Rede, a constituio de uma nova Cincia: a Web Science ir procurar desenvolver, implantar e entender a distribuio dos sistemas de informao, sistemas de seres humanos e mquinas, operando escala global. Ou seja, a constituio de uma disciplina nova que ir abrir o caminho para levar a Web at ao seu potencial mximo. Referencias: The Semantic Web Revisited -

    http://eprints.soton.ac.uk/262614/1/Semantic_Web_Revisted.pdf RDF - http://pt.wikipedia.org/wiki/Resource_Description_Framework World Wide Web Consortium - http://www.w3.org/ Scientific Workflows - http://www.taverna.org.uk/introduction/why-use-

    workflows/