Cogroo Google Oss Jam Sao Paulo V01
-
Upload
william-colen -
Category
Technology
-
view
1.183 -
download
3
Transcript of Cogroo Google Oss Jam Sao Paulo V01
William D. Colen M. Silva
Graduado Engenharia da Computao Poli USP 2006Mestrando Cincia da Computao IME USP 2009-?Desenvolvedor CoGrOO 2004-?
Apresentao do Corretor Gramatical CoGrOO
Open Source Jam So Paulo
1 de setembro de 2009
Boa tarde
Meu objetivo nessa palestra apresentar o corretor gramatical Cogroo, que hoje um projeto oficial do CCSL.
O que existe por trs do CoGrOO?
Texto livrePLN
O que Processamento de Linguagem Natural?
o que torna possvel -Tradutores automticos
Corretores ortogrficos e gramaticais
Buscadores (Web)
Ferramentas para Web Semntica
Indexadores para BI
Sugestes de compras
...
Breve motivao PLN
O Cogroo um aplicativo que usa
Processamento de Linguagens Naturais -
Mesmo sem saber usamos constantemente sistemas que aplicam a tcnica de PLN em vrios nveis
EXEMPLOQuando fazemos uma busca na Web e o sistema oferece sugestes alternativas para a busca
Boa parte do conhecimento humano est em documentos difceis de serem interpretados por computadores
Texto, E-mail, udio, VideoInformao:Alto valor
Mais atualizada
Mas..
Muito ruido
Semntica oculta
Busca ineficiente
A informao desestruturada tem um alto valor agregado, mas para as mquinas esta informao tem muito rudo, apresenta a semntica oculta e busca por dados contidos nesses documentos ineficiente.
Exemplo: busca na WEB
- Qual o significado de procrastinar?- Quando nasceu Napoleo?- Quantas toneladas de caf foram produzidas em 1901?- O que os cientistas pensam quanto a tica de experincias com clulas tronco?
Que tal no lugar de fazer busca na Web usando palavra-chave, fazer perguntas diretas e especficas sobre um tema?
InterpretaoMOTIVAO Killer Search Engine
Como interagimos com os buscadores? PALAVRAS CHAVE
Busca por termos, como consensuar, ou por fatos, datas e lugares, simples mesmo para os buscadores atuais.Responder questes mais sofisticadas requer que informaes sejam extradas de diversas fontes na Web, e at mesmo fazendo inferncias (tirar concluses sobre dados conhecidos).
PLN hoje est muito em alta com os buscadores atuais.
Apresentao do CoGrOO
Primeiro (e atualmente nico) corretor gramatical Livre para a lngua portuguesa
Primeiro lanamento abril/2006
Mais de 44 mil downloads diretos (contando apenas da verso 2.0 em diante)
Estimativa: >> 100 mil usurios
Usado por empresas estatais e privadas. Algumas empresas tem ele instalado em milhares de mquinas
Reconhecido como um importante esforo para o desenvolvimento do BrOffice.org
CoGrOO foi o primeiro, e ainda o nico, corretor gramatical de cdigo aberto para a lngua portuguesa.
Desde a verso 2.0/3.0 j teve mais de 35 mil downloads, mas esse nmero no diz muito, pois muitos dos usurios de OOo no Brasil so empresas, tanto pblicas quanto privadas.
Apresentao do CoGrOO
Foi o primeiro corretor gramatical integrado ao OOo do mundo.
Segundo mais utilizado (perde apenas para o Language Tool, que suporta ingls).
O projeto Golfio (Galego) foi criado a partir do CoGrOO.
Recebemos pedidos para criar verses do CoGrOO para outros idiomas, como portugus de Portugal e para o Espanhol.
Mdulos foram para outros trabalhos, como por exemplo um grupo de pesquisa sobre sade usou o CoGrOO na anlise de prescries medicas.
Quando comeamos em 2004 o processo de implementar uma exteno CG no OOo ainda era muito rudimentar. era dificlimo criar o corretor gramatical que rodasse sobre o sistema. A primeira verso da interface foi feita usando Basic. Em seguida, conhecendo melhor conseguimos implementar em Java usando UNO. Fomos pioneiros nessa integrao e outros corretores em desenvolvimento adotaram nossa implementao.
Ref InternacionalFato de muito orgulho para ns foi descobrir uma referencia para no nosso projeto no Linguateca e tambm saber que houveram derivaes do CoGrOO, como o projeto Golfio (Corretor Gramatical Galego)
Apresentao do CoGrOO
Hospedado pelo SourceForge
Desde 2009 um projeto oficial do CCSL
Licena LGPL
Fcil instalao e uso
Atualizaes frequentes
Apoio da comunidade
J foi integrado comOpenOffice.org (Bruno Sant'Anna Google SoC)
AbiWord (Gabriel Bakiewicz Google SoC)
WebSevices LangBot Apoema (Bruno Sant'Anna)Firefox Ubiquity e iGoogle Gadget
FATOS
Corretor ortogrfico
Usurio entra um texto
Verificador ortogrfico tenta encontrar a palavra digitada em seu banco de dados
Caso a palavra no seja encontrada ele usa algoritmos de similaridade para encontrar possveis correes
Demonstrar no Writer
Explicar como funciona um corretor ortogrfico. Explicar todos os desafios.
Mostrar um erro que no detectado e introduzir o cogroo
Corretor Gramatical
Usurio entra um texto
O verificador executa uma anlise gramatical e busca padres de erros na estrutura gerada
O verificador sugere correes para o texto.
Integrao BrOffice.org
Integrao BrOffice.org
Integrao BrOffice.org
Integrao Firefox Ubiquity: http://apoema.net/langbot/pt_BR/gc.lb
Ferramentas de desenvolvimento: teste de regras
Ferramentas de desenvolvimento: busca no dicionrio
Ferramentas de desenvolvimento: analisador de texto
Ferramentas de desenvolvimento: analisador de texto
Ferramentas de desenvolvimento: analisador de texto
Ferramentas de desenvolvimento: analisador de texto
Como voc pode colaborar?
(A) Melhorar a experincia do usurio detectar falhasFiltrar problemas reportados, fazer investigao inicial de erros
Conversar com usurios em fruns e gerenciar o Bug Track
Requisitos: expert em portugus, conhecer as capacidades e limitaes do CoGrOO
(B) Implementao e manuteno das regrasContato com (A) para implementar mudanas sugeridas pelos usurios
Requisitos: bom em portugus, raciocnio lgico e informtica
(C) Confeco e manuteno dos dicionrios lxicosContato com (A) para implementar mudanas sugeridas pelos usurios
Viabilizar unio do dicionrio ortogrfico com o gramatical
Requisitos: bom em portugus, bsico de programao
Como voc pode colaborar?
Programador de interface grficaDesenvolver aplicaes que auxiliariam o trabalho de A, B e C: editores de dicionrios, editores de regras etc
Requisitos: bsico em programao OO, Java e Eclipse Plug-in
Programador do motor de correoManuteno do cdigo, desenvolvimento de testes unitrios, melhorias nos algoritmos (tempo e uso de memria)
Requisitos: experincia em programao OO, Java multithread, Maven e Junit
Tecnologia e qualidadeAplicar integrao continua, builds dirios, criar e manter a pgina do projeto
Requisitos: qualidade de software
Como voc pode ajudar?
Pesquisadores (IC, Mestrado e Doutorado)Melhorar os diversos analisadores do CoGrOO
Doao de recursos financeiros
Oferecimento de bolsas de Iniciao Cientfica, Mestrado, Doutorado e ps-doutorado.
Recursos lingusticos Corpus, lxico
Nasceu em 2009
Instncia do Qualipso Competence Centre no Brasil - melhorar a confiabilidade e qualidade do FLOSS
reas de pesquisa: qualidade de cdigo-fonte; aspectos jurdicos (licenas); usabilidade; processo gil de desenvolvimento; testes automatizados; modelos de negcios para start-ups etc.
Objetivos:pesquisa cientfica e tecnolgica relacionada a Software Livre
Desenvolvimento de Software Livre inovador
Disseminao de conhecimento sobre Software Livre
http://ccsl.ime.usp.br
http://ccsl.ime.usp.br
Obrigado pela oportunidade e pela ateno!
[email protected]
http://cogroo.sourceforge.net