e-dictor - uma ferramenta para as humanidades digitais
-
Upload
maria-clara-paixao-de-sousa -
Category
Presentations & Public Speaking
-
view
318 -
download
0
description
Transcript of e-dictor - uma ferramenta para as humanidades digitais
São Paulo, 24 de abril de 2014
Semana do Projeto LiboloCEA | Universidade de São Paulo
Semana do Projeto LiboloCentro de Estudos Africanos
Universidade de São Paulo
São Paulo, 24 de abril de 2014
Maria Clara Paixão de SousaGrupo de Pesquisas Humanidades Digitais
Departamento de Letras Clássicas e Vernáculas
Uma Ferramenta para as
Humanidades Digitaisdictore
dictore
Como se faz?
>
Para que serve?
O que me importa?
O que é?
dictore
Como funciona?>Para que serve?
O que me importa?
O que é?
dictore
Como funciona?
> Para que serve?
O que me importa?
O que é?
dictore
Como funciona?
>
Para que serve?
O que é?
dictore
> Uma ferramenta para
edição filológica eletrônica
e análise linguística
automática
dictore
> É um software livre,
atualmente com duas
versões:
dictore
> Versão 1.0 Beta 10
dictore
>Versão 1.0 Beta 10
dictoreVersão Web – em teste
> Versão 1.0 Beta 10
dictoreVersão Web – em teste
> Versão 1.0 Beta 10
dictoreDisponível para windows,
por download em
http://edictor.net
http://edictor.net
eDictor 1.0 Beta 10 – Módulo Transcrição
eDictor 1.0 Beta 10 – Módulo Transcrição
eDictor 1.0 Beta 10 – Módulo Edição
eDictor 1.0 Beta 10 – Módulo Etiquetação
> Versão 1.0 Beta 10
dictoreUsada atualmente por seis
grupos de pesquisa no
Brasil e em Portugal
> Versão 1.0 Beta 10
dictoreUsada atualmente por seis
grupos de pesquisa no
Brasil e em Portugal
Corpus Anotado do Português
Histórico Tycho Brahe,
(Universidade Estadual de Campinas)
Grupo de Pesquisas
Humanidades Digitais
(Universidade de São Paulo)
P.S. Arquivo Digital de Escrita Quotidiana em
Portugal e Espanha na Época Moderna
(Universidade de Lisboa)
Corpus Eletrônico de
Documentos Históricos do Sertão,
CEDOHS (Universidade Federal de Feira de Santana)
Laboratório de História do Português Brasileiro
(Universidade Federal do Rio de Janeiro)
Memória Conquistense
(Universidade Estadual do Sudoeste da Bahia)
> Versão 1.0 Beta 10
dictoreExemplo de aplicação: edição
de obras raras digitalizadas
- Projeto Edições Filológicas na
Brasiliana Digital, 2009-2013
Bibioteca Brasiliana Guita e José Mindlin,
doada à Universidade de São Paulo em 2006:
40.000 obras dos séculos XVI a XXI…
Oba!
Tudo
“digitalizado...”
“digitalizado...”
imagem
=
“digitalizado...”
RELAÇAÕPA ENTRJDJ QUE FEZO
EXCELI, ENTlSSIMO, E
REVERENDÍSSIMO SENHORD. F
RANTONIO DO DESTERRO
MALHEYROAiſpoào Rio de Janeiro, em
o primeiro dia defle prtzente Anno de
1747,havendo fidoſeis Annos Biſpo do B,
eyno de Angola, donde por no-miacaõ de
Sua Mageftade, e Bulla Pontificia, foy
promovidopara ella Diocefi.
COMPOSTA PELO DOUTORLÜIZ
ANTONIO ROSADODA CUNHA£
fm\ de Fora, e Provedor dos defuntos, e
au-Z$nte$ y Capella*, c ReJĩdos do Rio
de Janeiro. RIO DE JANEIRO tía
Segunda Officina de ANTONIO ISID.
ORO DAĩONCECA, Anno de M. CC.
XLVII. Com licenças do Senhor Bijfo,
OCR “Optical
Character
Recognition”
texto
imagem
RELAÇAÕPA ENTRJDJ QUE FEZO
EXCELI, ENTlSSIMO, E REVERENDÍSSIMO
SENHORD. F RANTONIO DO DESTERRO
MALHEYROAiſpoào Rio de Janeiro, em o
primeiro dia defle prtzente Anno de 1747,havendo
fidoſeis Annos Biſpo do B, eyno de Angola, donde
por no-miacaõ de Sua Mageftade, e Bulla Pontificia,
foy promovidopara ella Diocefi. COMPOSTA
PELO DOUTORLÜIZ ANTONIO ROSADODA
CUNHA£ fm\ de Fora, e Provedor dos defuntos, e
au-Z$nte$ y Capella*, c ReJĩdos do Rio de Janeiro.
RIO DE JANEIRO tía Segunda Officina de
ANTONIO ISID. ORO DAĩONCECA, Anno de
M. CC. XLVII. Com licenças do Senhor Bijfo,?
Relação da entrada que fez o excelentíssimo,
e reverendíssimo senhor Dom Frei Antonio
do Desterro Malheiro, Bispo do Rio de
Janeiro, em o primeiro dia deste presente
Ano de 1747 havendo sido seis Anos Bispo
do Reino de Angola, donde por nomeação de
Sua Majestade, e Bula Pontifícia, foi
promovido para esta Diocese. Composta pelo
doutor Luiz Antonio Rosado da Cunha Juiz
de Fora, e Provedor dos defuntos, e ausentes,
Capelas, e Residos do Rio de Janeiro. Rio de
Janeiro, Na Segunda Oficina de Antonio
Isidoro da Fonseca, Ano de MCCXLVII.
Com licenças do Senhor Bispo.
!
CUNHA, Luís Antonio Rosado
da. Relaçãoo da entrada que fez o
excellentissimo, e reverendissimo
senhor D. Fr. Antonio [...].Rio de
Janeiro : Na Segunda Oficina de
Antonio Isidoro da Fonseca,
1747.
CUNHA, Luís Antonio Rosado
da. Relaçãoo da entrada que fez o
excellentissimo, e reverendissimo
senhor D. Fr. Antonio [...].Rio de
Janeiro : Na Segunda Oficina de
Antonio Isidoro da Fonseca,
1747.
O primeiro
livro impresso
no Brasil !
>O Projeto Edições Filológicas na
Brasiliana Digital (2009-2013)
criou, com o eDictor, edições
corrigidas e modernizadas para
algumas obras do acervo, além de
um banco de dados de erros de
reconhecimento automático
(OCR).
eDictor 1.0 Beta 10 – Módulo Transcrição
eDictor 1.0 Beta 10 – Módulo Edição
eDictor 1.0 Beta 10 – Módulo Etiquetação
Apresentação Diplomática
texto imagem
Apresentação Modernizada
Apresentação Modernizada
RELAÇÃO/NPR DA/P+D-F ENTRADA/NPR QUE/WPRO FEZ/NPR O/D EXCELENTÍSSIMO/NPR ,/, E/CONJ REVERENDÍSSIMO/NPR SENHOR/NPR DOM/NPR FREI/NPR ANTONIO/NPR DO/P+D DESTERRO/NPR MALHEYRO/NPR Bispo/NPR do/P+D Rio/NPR de/P Janeiro/NPR ,/, em/P o/D primeiro/ADJ dia/N deste/P+D presente/ADJ-G Ano/NPR de/P 1747/NUM havendo/HV-G sido/SR-PP seis/NUM Anos/N-P Bispo/NPR do/P+D Reino/NPR de/P Angola/NPR ,/, donde/P+WADV por/P nomeação/N de/P Sua/PRO$-F Magestade/NPR ,/, e/CONJ Bula/NPR Pontifícia/N ,/, foi/SR-D promovido/VB-AN para/P esta/D-F Diocese/NPR ./. 06_Realacao,2.7/ID
COMPOSTA/NPR PELO/NPR DOUTOR/NPR LUIZ/NPR ANTONIO/NPR ROSADO/NPR DA/P+D-F CUNHA/NPR Juíz/NPR de/P Fora/NPR ,/, e/CONJ Provedor/NPR dos/P+D-P defuntos/ADJ-P ,/, e/CONJ ausentes/ADJ-G-P ,/, Capelas/NPR-P ,/, e/CONJ Residos/NPR-P do/P+D Rio/NPR de/P Janeiro/NPR ./. 06_Realacao,2.8/ID
RIO/NPR DE/P JANEIRO/ADJ 06_Realacao,2.9/ID
Na/P+D-F Segunda/ADJ-F Oficina/NPR de/P ANTONIO/NPR ISIDORO/NPR DA/P+D-F FONCECA/NPR ./. 06_Realacao,2.10/ID
Ano/NPR de/P M./NPR CC./. XLVII./. 06_Realacao,2.11/ID
Com/P licenças/N-P do/P+D Senhor/NPR Bispo/NPR ./. 06_Realacao,2.12/ID
Texto
anotado:
P.O.S.
Léxico das edições
> Versão 1.0 Beta 10
dictoreOutro exemplo de aplicação:
edição de manuscritos
(LaborHistórico e CEDOHS)
LaborHistorico
Laboratório de História do Português Brasileiro
Universidade Federal do Rio de Janeiro.
Coord. Célia Lopes
http://www.letras.ufrj.br/laborhistorico/
>
LaborHistorico
Corpus de cartas pessoais brasileiras – Acervo Cupertino do Amaral
http://www.letras.ufrj.br/laborhistorico/
LaborHistorico
Corpus de cartas pessoais brasileiras – Acervo Cupertino do Amaral
http://www.letras.ufrj.br/laborhistorico/
CEDOHS
Corpus Eletrônico de Documentos
Históricos do Sertão,
Coord. Zenaide Carneiro
http://www2.uefs.br/cedohs/
>
CEDOHS
Acervo - Cartas particulares do Recôncavo da Bahia (1818-1886))
http://www2.uefs.br/cedohs/
>Versão 1.0 Beta 10
dictoreVersão Web – em teste
http://www.tycho.iel.unicamp.br/workflow/index.action
<page data-uid="1">
RELAÇÃO DA ENTRADA QUE FEZ O
EXCELENTÍSSIMO, E REVERENDÍSSIMO SENHOR
DOM FREI ANTONIO DO DESTERRO MALHEYRO
Bispo do Rio de Janeiro, em o primeiro dia deste presente
Ano de 1747 havendo sido seis Anos Bispo do Reino de
Angola, donde por nomeação de Sua Magestade, e Bula
Pontifícia, foi promovido para esta Diocese. COMPOSTA
PELO DOUTOR LUIZ ANTONIO ROSADO DA
CUNHA Juiz de Fora, e Provedor dos defuntos, e ausentes,
Capelas, e Residos do Rio de Janeiro. RIO DE JANEIRO
Na Segunda Oficina de ANTONIO ISIDORO DA
FONCECA. Ano de M. CC. XLVII. Com licenças do
Senhor Bispo.
</page>
Como funciona?>Para que serve?
O que é?
dictore
A interface do eDictor simula um
editor de textos normal, mas a
ferramenta é em essência um
anotador linguístico, que aplica
uma linguagem de marcação
sobre os textos
>
dictore
A interface do eDictor simula um
editor de textos normal, mas a
ferramenta é em essência um
anotador linguístico, que aplica
uma linguagem de marcação
sobre os textos?
dictore
> XML
XML tended
arkup
anguage
e
>
XML tended
arkup
anguage
e
>
XML tended
arkup
anguage
e
>
XML tended
arkup
anguage
e
>
>
eDictor 1.0 Beta 10 – Módulo Edição
eDictor 1.0 Beta 10 – Módulo Edição
eDictor 1.0 Beta 10 – Módulo Edição
eDictor 1.0 Beta 10 – Configuração de preferências
eDictor 1.0 Beta 10 – Configuração de preferências
eDictor 1.0 Beta 10 – Configuração de preferências
eDictor 1.0 Beta 10 – Configuração de preferências
> XML Código-base do
eDictor 1.0 Beta 10
> XML Código-base do
eDictor Web
> XML Código-base do
eDictor Web
XML - Código-base do eDictor Web
XML - Código-base do eDictor Web
XML - Código-base do eDictor Web
A interface do eDictor simula um
editor de textos normal, mas a
ferramenta é em essência um
anotador linguístico, que aplica
uma linguagem de marcação
sobre os textos!
dictore
Como funciona?
> Para que serve?
O que me importa?
O que é?
dictore
> Para que serve?
O que me importa?
dictore
>
O que me importa?
dictoreA principal finalidade do eDictor
é oferecer uma interface amigável
aliada a um alto nível de controle
e flexibilidade na codificação de
textos eletrônicos com finalidade
de pesquisa linguística.
?
O que me importa?
dictoreA principal finalidade do eDictor
é oferecer uma interface amigável
aliada a um alto nível de controle
e flexibilidade na codificação de
textos eletrônicos com finalidade
de pesquisa linguística.
mas... pra que a gente
precisa de “controle”
e “flexibilidade” ?
1 É bom lembrar que
todo editor de textos é uma
ferramenta de anotação…
… a diferença é que nós não
temos nenhum controle sobre a
anotação dos editores comuns!
mas... pra que a gente
precisa de “controle”
e “flexibilidade” ?
1 É bom lembrar que
todo editor de textos é uma
ferramenta de anotação…
… a diferença é que nós não
temos nenhum controle sobre a
anotação dos editores comuns!
mas... pra que a gente
precisa de “controle”
e “flexibilidade” ?
É bom lembrar que
todo editor de textos é uma
ferramenta de anotação…
… a diferença é que nós não
temos nenhum controle sobre a
anotação dos editores comuns!
1
mas... pra que a gente
precisa de “controle”
e “flexibilidade” ?
mas... pra que a gente
precisa de “controle”
mas... pra que a gente
precisa de “controle”
Ou seja – o “texto digital”, i.e., o
arquivo eletrônico de texto, é
sempre um banco de dados, um
objeto lógico codificado por
alguma linguagem artificial.
1
mas... pra que a gente
precisa de “controle”
e “flexibilidade” ?
Ou seja – o “texto digital”, i.e., o
arquivo eletrônico de texto, é
sempre um banco de dados, um
objeto lógico codificado por
alguma linguagem artificial.
1
mas... pra que a gente
precisa de “controle”
e “flexibilidade” ?
Para algumas disciplinas, os
textos em sua materialidade são o
objeto de estudo; e nesses casos,
depender de codificações sobre
as qual não se tem controle pode
ser prejudicial à pesquisa.
1
mas... pra que a gente
precisa de “controle”
e “flexibilidade” ?
2
mas... pra que a gente
precisa de “controle”
e “flexibilidade” ?
Além disso, construir a própria
anotação abre um leque de
possibilidades impensáveis nos
processadores comuns.
2
mas... pra que a gente
precisa de “controle”
e “flexibilidade” ?
De fato, isso proporciona novas
abordagens sobre a língua e
sobre o texto
2
mas... pra que a gente
precisa de “controle”
e “flexibilidade” ?
De fato, isso proporciona novas
abordagens sobre a língua e
sobre o texto – ou seja,
abordagens que seriam
impossíveis fora do meio digital.
2
mas... pra que a gente
precisa de “controle”
e “flexibilidade” ?
Um exemplo de abordagem
exclusiva do meio digital é a
análise linguística automática,
objeto da Linguística
Computacional.
2
mas... pra que a gente
precisa de “controle”
e “flexibilidade” ?
Um exemplo de abordagem
exclusiva do meio digital é a
análise linguística automática,
objeto da Linguística
Computacional. A próxima
palestra falará sobre isso!
2
mas... pra que a gente
precisa de “controle”
e “flexibilidade” ?
2
Há vários outros exemplos de
abordagens próprias do meio digital,
e elas vem sendo exploradas em
corpora construídos desde a década
de 1970.
2
mas... pra que a gente
precisa de “controle”
e “flexibilidade” ?
Há vários outros exemplos de
abordagens próprias do meio digital,
e elas vem sendo exploradas em
corpora construídos desde a década
de 1970. Vamos ver alguns casos
interessantes.
2
mas... pra que a gente
precisa de “controle”
e “flexibilidade” ?
esse exemplo é para
animar filólogos ...( )
esse exemplo é para
animar latinistas ...( )
Corpus Thomisticum
http://www.corpusthomisticum.org/
Corpus Thomisticum
http://www.corpusthomisticum.org/
Corpus Thomisticum
http://www.corpusthomisticum.org/
esse exemplo é para
animar o pessoal de
linguística histórica( )
Anglo Saxon Cluster: Projeto Anglo Saxon Charters
http://www.aschart.kcl.ac.uk
Anglo Saxon Cluster: Projeto Anglo Saxon Charters
http://www.aschart.kcl.ac.uk
Anglo Saxon Cluster: Projeto Anglo Saxon Charters
http://www.aschart.kcl.ac.uk
Anglo Saxon Cluster: Projeto Anglo Saxon Charters
http://www.aschart.kcl.ac.uk
esse exemplo é para
animar o pessoal da
língua falada ! ( )
British National Corpus
http://www.natcorp.ox.ac.uk/XMLedition/
British National Corpus
http://www.natcorp.ox.ac.uk/XMLedition/
Um ponto em comum liga todos
os exemplos mostrados:>
Um ponto em comum liga todos
os exemplos mostrados:
todos tem por base uma
anotação XML, adaptada caso
a caso, segundo as diferentes
necessidades das pesquisas.
>
Era isso o que eu queria dizer sobre
“controle” e “flexibilidade”. >
Era isso o que eu queria dizer sobre
“controle” e “flexibilidade”. >
Ah, tá!
Ah, tá!
Mas... E as tais das
Humanidades Digitais?
Todos esses projetos que vimos são
característicos desse campo
difusamente conhecido como
“Humanidades Digitais”…
>
Há muitas definições para esse
termo, e muito debate sobre elas. >
Há muitas definições para esse
termo, e muito debate sobre elas.
(veja alguns exemplos emhttp://humanidadesdigitais.org/
sobre-as-humanidades-digitais )
>
Aqui, nos interessam dois pontos:
essa incursão das humanidades pelo
reino da técnica digital não refluirá
para as próprias humanidades?
>
Nunca é demais lembrar que as
Humanidades Digitais são uma
maneira de fazer Humanidades – ou
seja, não se trata de uma invasão
tecnógica nas ciências humanas,
mas sim de uma incursão das
ciências humanas pelo reino da
computação.
1
Os projetos em Humanidades
Digitais pretendem continuar
fazendo o que as humanidades
sempre fizeram, mas com novas
ferramentas.
1
Assim, a anotação digital cumpre, na
base, a mesma função da anotação
não-digital:
1
Assim, a anotação digital cumpre, na
base, a mesma função da anotação
não-digital: é a aplicação de uma
camada de representação sobre o
texto.
1
Assim, a anotação digital cumpre, na
base, a mesma função da anotação
não-digital: é a aplicação de uma
camada de representação sobre o
texto. Nesse sentido, a anotação é a
explicitação da interpretação de um
texto.
1
Assim, a anotação digital cumpre, na
base, a mesma função da anotação
não-digital: é a aplicação de uma
camada de representação sobre o
texto. Nesse sentido, a anotação é a
explicitação da interpretação de um
texto.
1
de uma
O texto anotado eletronicamente,
entretanto, abre a possibilidade de
inúmeras novas formas de
representação, como vimos.
1
O texto anotado eletronicamente,
entretanto, abre a possibilidade de
inúmeras novas formas de
representação, como vimos. De fato,
os elementos que anotamos se
transformam em dados, que podem
passar a fazer parte de bases de
dados abertas a diferentes cálculos e
visualizações.
1
Isso é muito poderoso…1
Isso é muito poderoso…
e nos leva a uma última observação,
em forma de pergunta:
1
A incursão das humanidades pelo
reino da técnica digital não acabará
refluindo para as próprias
humanidades?
2
Não poderá transformar,
lentamente, nossa abordagem do
texto, nos obrigando a tecer com
novos fios os tecidos das nossas
perguntas e interpretações?
2
E, se isso acontecer… 2
E, se isso acontecer…
– será bom ou ruim? 2
Era isso...
Era isso...Obrigada!
Era isso.Obrigada!
Universidade de São PauloMaria Clara Paixão de Sousa
humanidadesdigitais.org
PAIXÃO DE SOUSA, M. C. eDictor: a chronology. Apresentação na mesa redonda “eDictor: advances
and perspectives”. Workshop Construction and use
of large annotated corpora. Campinas, Unicamp, 09/09/2013. [Slides - Slideshare]
PAIXÃO DE SOUSA, M. C.; KEPLER, F. N.; FARIA, P. P. F. E-Dictor: Novas perspectivas na codificação
e edição de corpora de textos históricos. In: Tania Shepherd; Tony Berber Sardinha; Marcia Veirano Pinto.
(Org.). Caminhos da linguística de corpus. Campinas: Mercado de Letras, 2010. [PDF]
FARIA, P. P. F.; PAIXÃO DE SOUSA, M. C.; KEPLER, F. N. An Integrated Tool for Annotating
Historical Corpora. The Fourth Linguistic Annotation Workshop (LAW IV) at The 48th Annual
Meeting of the Association for Computational Linguistics (ALC 2010), Uppsala, 2010.
(Congresso). [PDF (poster)]
PAIXÃO DE SOUSA, M. C.; KEPLER, F. N.; FARIA, P. P. F. O Processamento automático de textos
antigos: Desafios e Experiências. Workshop de Linguística de Corpus do Projeto Para a História do
Português Brasileiro (PHPB), São Paulo, 2010. (Conferência). [PDF (slides)]
PAIXÃO DE SOUSA, M. C. Desafios do processamento de textos antigos: primeiros experimentos na Brasiliana
Digital. I Workshop de Linguística Computacional da USP, 2009. (Conferência). [PDF(slides)]
PAIXÃO DE SOUSA, M. C.; KEPLER, F. N.; FARIA, P. E-dictor: Novas perspectivas na codificação e
edição de corpora de textos históricos. VIII Encontro de Linguística de Corpus, Rio de Janeiro, 2009.
(Comunicação).
PAIXÃO DE SOUSA, M. C.; KEPLER, F. N.; FARIA, P. E-dictor: Novas perspectivas na codificação e
edição de corpora de textos históricos. In: VIII Encontro de Linguística de Corpus, 2009, Rio de Janeiro.
Resumos, 2009. [PDF (slides)]
PAIXÃO DE SOUSA, M. C.; KEPLER, F. N. E-Dictor: Uma ferramenta integrada para a anotação de
edição e classe de palavras. VI Encontro de Lingüística de Corpus, São Paulo, 2007. [abrir página]