Apresentação sobre Linguística computacional e recuperação da informação no ENEBD 2014 -...
-
Upload
ngpti-ufg -
Category
Presentations & Public Speaking
-
view
135 -
download
0
description
Transcript of Apresentação sobre Linguística computacional e recuperação da informação no ENEBD 2014 -...
Linguística Computacional e Recuperação da Informação
Alexandre Ribeiro Afonso
Transferência de Conhecimento• A transferência de conhecimento entre
humanos ocorre de duas maneiras principais:– Diretamente• Pessoa a pessoa, por socialização (conversas não
registradas, emissão e percepção de mensagens corporais)
– Indiretamente• Por registros, que guardam um fato, uma ideia, um
evento (Imagens, Livros, Revistas, Áudio, Vídeo)
2
A Transferência do Conhecimento Ocorre por Meio da Linguagem
• Linguagem– Matemática– Programação de Computadores– Corporal– Cinematográfica– A Linguagem Natural (Língua)• Na transferência de conhecimento sem registro• Na transferência de conhecimento com registro
(documento)
3
A Informação Imagética Substitui a Linguística ?
“Se uma imagem vale mais do que mil palavras, então diga isto com uma imagem.”
Millôr Fernandes
• A língua está presente:• Nas páginas WEB, redes sociais, artigos• Vídeos• Imagens• Informação Multimodal
4
A Ciência Linguística
“Estudo científico da língua. Investigação por meio de observações controladas e verificáveis empiricamente e com referência a uma teoria
geral de sua estrutura.”Lyons (1979)
5
Níveis Linguísticos• Fonética e Fonologia– Descrição e uso dos sons das línguas
• Morfologia– Como as palavras se formam
• Lexicologia e Lexicografia – Estudo e construção de dicionários e vocabulários
• Sintaxe – Observação e descrição da gramática
• Semântica– Estudo do significado das sentenças
• Pragmática e Discurso– Estudo da língua em uso, o texto e o discurso
6
Linguística Computacional
Pode ser entendida como “a área de conhecimento que explora as relações entre linguística e informática, tornando possível a construção de sistemas com capacidade de reconhecer e produzir informação apresentada em linguagem natural.”
Vieira e Lima (2001)
7
Linguística Computacional para Organização e Recuperação da Inf.
• Sumarização Automática de Textos• Criação automática de resumos para textos on-line
• Indexação• Extração de termos-chave para representar um documento
• Mineração de Textos• Agrupamento e classificação de textos por tema
• Sugestão Automática de Conteúdos• Sugestão de documentos (vídeos, imagens, texto) de acordo com o
índice de outros elementos acessados pelo usuário• Interação Humano-Computador
• Interação por texto, fala, por imagem e textos• Mineração de opiniões em redes sociais
• Busca de opiniões em texto sobre um produto comercializado 8
Estudos em Linguística Computacional para o Português Brasileiro
• Peculiaridades Linguísticas– Nomes indígenas e de origem africana no
português do Brasil– As áreas técnicas e científicas possuem
terminologia própria– O português brasileiro é mais aberto a
estrangeirismos que o português europeu– A forma de escrita científica pode diferir, na forma
ou na retórica em cada país, para uma mesma área do conhecimento
9
NILC – Núcleo Interinstitucional de Linguística Computacional (1993)
10
http://www.nilc.icmc.usp.br
Português Brasileiro – NILC(Nível Morfológico)
11
os_ART cursos_N de_PREP preparação_N profissional_ADJ em_PREP educação_NFísica_ADJ
Etiquetagem
Radicalização
aluno, alunos, alunas alunbásico, basicamente basiccomprou, comprava compr
Os cursos de preparação profissional em Educação Física
Português Brasileiro – NILC(Nível Léxico)
12
Busca de padrões em textos, por autômatos finitos ou expressões regulares:
(S): Selecionar todos os substantivos(S|A): Selecionar todos os substantivos ou adjetivos(S prep S): Selecionar o padrão “substantivo seguido de uma preposição e um substantivo”(SA): Selecionar o padrão “substantivo seguido de adjetivo”
Português Brasileiro(Nível Sintático)
13
Português Brasileiro – NILC(Nível Semântico)
14
Relações semânticas em rede para Substantivos, Adjetivos, Verbos, Advérbios
Mercado de Trabalho• Arquiteto da Informação– Trabalha com texto, imagem e som nas interfaces
computacionais• Mineração de Textos– Utilizando softwares específicos extraem
conhecimento de grandes bases textuais• Indexador– Selecionar metadados e termos-chave para
representar documentos textuais, vídeos e imagens
15
Pesquisa Acadêmica• Desenvolvimento de software– Sistemas de reconhecimento da fala– Sistemas de recuperação da informação– Sistemas de sumarização automática– Sistemas para análise de redes sociais
• Estudo da linguagem e registro da informação– Características da comunicação científica brasileira
e terminologia nas áreas de conhecimento– Métodos de indexação de documentos jurídicos,
empresarias, científicos, jornalísticos, etc.16
Sistema B2
17
Bibliografia• LYONS, J. Introdução à lingüística teórica. São
Paulo: Nacional. 1979.• VIEIRA, Renata; LIMA, Vera LS. Lingüística
computacional: princípios e aplicações. In: Anais do XXI Congresso da SBC. I Jornada de Atualização em Inteligência Artificial. 2001. p. 47-86.
18