Apresentação sobre Linguística computacional e recuperação da informação no ENEBD 2014 -...

19
Linguística Computacional e Recuperação da Informação Alexandre Ribeiro Afonso

description

Palestra sobre Linguística computacional e recuperação da informação no ENEBD 2014 - Prof. Alexandre Ribeiro Afonso

Transcript of Apresentação sobre Linguística computacional e recuperação da informação no ENEBD 2014 -...

Page 1: Apresentação sobre Linguística computacional e recuperação da informação no ENEBD 2014 - Prof. Alexandre Ribeiro Afonso

Linguística Computacional e Recuperação da Informação

Alexandre Ribeiro Afonso

Page 2: Apresentação sobre Linguística computacional e recuperação da informação no ENEBD 2014 - Prof. Alexandre Ribeiro Afonso

Transferência de Conhecimento• A transferência de conhecimento entre

humanos ocorre de duas maneiras principais:– Diretamente• Pessoa a pessoa, por socialização (conversas não

registradas, emissão e percepção de mensagens corporais)

– Indiretamente• Por registros, que guardam um fato, uma ideia, um

evento (Imagens, Livros, Revistas, Áudio, Vídeo)

2

Page 3: Apresentação sobre Linguística computacional e recuperação da informação no ENEBD 2014 - Prof. Alexandre Ribeiro Afonso

A Transferência do Conhecimento Ocorre por Meio da Linguagem

• Linguagem– Matemática– Programação de Computadores– Corporal– Cinematográfica– A Linguagem Natural (Língua)• Na transferência de conhecimento sem registro• Na transferência de conhecimento com registro

(documento)

3

Page 4: Apresentação sobre Linguística computacional e recuperação da informação no ENEBD 2014 - Prof. Alexandre Ribeiro Afonso

A Informação Imagética Substitui a Linguística ?

“Se uma imagem vale mais do que mil palavras, então diga isto com uma imagem.”

Millôr Fernandes

• A língua está presente:• Nas páginas WEB, redes sociais, artigos• Vídeos• Imagens• Informação Multimodal

4

Page 5: Apresentação sobre Linguística computacional e recuperação da informação no ENEBD 2014 - Prof. Alexandre Ribeiro Afonso

A Ciência Linguística

“Estudo científico da língua. Investigação por meio de observações controladas e verificáveis empiricamente e com referência a uma teoria

geral de sua estrutura.”Lyons (1979)

5

Page 6: Apresentação sobre Linguística computacional e recuperação da informação no ENEBD 2014 - Prof. Alexandre Ribeiro Afonso

Níveis Linguísticos• Fonética e Fonologia– Descrição e uso dos sons das línguas

• Morfologia– Como as palavras se formam

• Lexicologia e Lexicografia – Estudo e construção de dicionários e vocabulários

• Sintaxe – Observação e descrição da gramática

• Semântica– Estudo do significado das sentenças

• Pragmática e Discurso– Estudo da língua em uso, o texto e o discurso

6

Page 7: Apresentação sobre Linguística computacional e recuperação da informação no ENEBD 2014 - Prof. Alexandre Ribeiro Afonso

Linguística Computacional

Pode ser entendida como “a área de conhecimento que explora as relações entre linguística e informática, tornando possível a construção de sistemas com capacidade de reconhecer e produzir informação apresentada em linguagem natural.”

Vieira e Lima (2001)

7

Page 8: Apresentação sobre Linguística computacional e recuperação da informação no ENEBD 2014 - Prof. Alexandre Ribeiro Afonso

Linguística Computacional para Organização e Recuperação da Inf.

• Sumarização Automática de Textos• Criação automática de resumos para textos on-line

• Indexação• Extração de termos-chave para representar um documento

• Mineração de Textos• Agrupamento e classificação de textos por tema

• Sugestão Automática de Conteúdos• Sugestão de documentos (vídeos, imagens, texto) de acordo com o

índice de outros elementos acessados pelo usuário• Interação Humano-Computador

• Interação por texto, fala, por imagem e textos• Mineração de opiniões em redes sociais

• Busca de opiniões em texto sobre um produto comercializado 8

Page 9: Apresentação sobre Linguística computacional e recuperação da informação no ENEBD 2014 - Prof. Alexandre Ribeiro Afonso

Estudos em Linguística Computacional para o Português Brasileiro

• Peculiaridades Linguísticas– Nomes indígenas e de origem africana no

português do Brasil– As áreas técnicas e científicas possuem

terminologia própria– O português brasileiro é mais aberto a

estrangeirismos que o português europeu– A forma de escrita científica pode diferir, na forma

ou na retórica em cada país, para uma mesma área do conhecimento

9

Page 10: Apresentação sobre Linguística computacional e recuperação da informação no ENEBD 2014 - Prof. Alexandre Ribeiro Afonso

NILC – Núcleo Interinstitucional de Linguística Computacional (1993)

10

http://www.nilc.icmc.usp.br

Page 11: Apresentação sobre Linguística computacional e recuperação da informação no ENEBD 2014 - Prof. Alexandre Ribeiro Afonso

Português Brasileiro – NILC(Nível Morfológico)

11

os_ART cursos_N de_PREP preparação_N profissional_ADJ em_PREP educação_NFísica_ADJ

Etiquetagem

Radicalização

aluno, alunos, alunas alunbásico, basicamente basiccomprou, comprava compr

Os cursos de preparação profissional em Educação Física

Page 12: Apresentação sobre Linguística computacional e recuperação da informação no ENEBD 2014 - Prof. Alexandre Ribeiro Afonso

Português Brasileiro – NILC(Nível Léxico)

12

Busca de padrões em textos, por autômatos finitos ou expressões regulares:

(S): Selecionar todos os substantivos(S|A): Selecionar todos os substantivos ou adjetivos(S prep S): Selecionar o padrão “substantivo seguido de uma preposição e um substantivo”(SA): Selecionar o padrão “substantivo seguido de adjetivo”

Page 13: Apresentação sobre Linguística computacional e recuperação da informação no ENEBD 2014 - Prof. Alexandre Ribeiro Afonso

Português Brasileiro(Nível Sintático)

13

Page 14: Apresentação sobre Linguística computacional e recuperação da informação no ENEBD 2014 - Prof. Alexandre Ribeiro Afonso

Português Brasileiro – NILC(Nível Semântico)

14

Relações semânticas em rede para Substantivos, Adjetivos, Verbos, Advérbios

Page 15: Apresentação sobre Linguística computacional e recuperação da informação no ENEBD 2014 - Prof. Alexandre Ribeiro Afonso

Mercado de Trabalho• Arquiteto da Informação– Trabalha com texto, imagem e som nas interfaces

computacionais• Mineração de Textos– Utilizando softwares específicos extraem

conhecimento de grandes bases textuais• Indexador– Selecionar metadados e termos-chave para

representar documentos textuais, vídeos e imagens

15

Page 16: Apresentação sobre Linguística computacional e recuperação da informação no ENEBD 2014 - Prof. Alexandre Ribeiro Afonso

Pesquisa Acadêmica• Desenvolvimento de software– Sistemas de reconhecimento da fala– Sistemas de recuperação da informação– Sistemas de sumarização automática– Sistemas para análise de redes sociais

• Estudo da linguagem e registro da informação– Características da comunicação científica brasileira

e terminologia nas áreas de conhecimento– Métodos de indexação de documentos jurídicos,

empresarias, científicos, jornalísticos, etc.16

Page 17: Apresentação sobre Linguística computacional e recuperação da informação no ENEBD 2014 - Prof. Alexandre Ribeiro Afonso

Sistema B2

17

Page 18: Apresentação sobre Linguística computacional e recuperação da informação no ENEBD 2014 - Prof. Alexandre Ribeiro Afonso

Bibliografia• LYONS, J. Introdução à lingüística teórica. São

Paulo: Nacional. 1979.• VIEIRA, Renata; LIMA, Vera LS. Lingüística

computacional: princípios e aplicações. In: Anais do XXI Congresso da SBC. I Jornada de Atualização em Inteligência Artificial. 2001. p. 47-86.

18

Page 19: Apresentação sobre Linguística computacional e recuperação da informação no ENEBD 2014 - Prof. Alexandre Ribeiro Afonso

Obrigado

[email protected]

19