Revisor Gramatical

0
279

As ferramentas de pós-processamento de textos em língua portuguesa são recentes, ao contrário das ferramentas para o inglês, que são largamente utilizadas há bastante tempo (CorrectGrammar, Grammatik, e as embutidas em processadores de textos, como o MS Word). O revisor de textos aqui apresentado está entre as primeiras ferramentas de revisão gramatical do português brasileiro que surgiram no mercado nacional. Trata-se de um sistema que, embutido em um processador de textos no caso, o MS Word ou o Redator (Itautec), promove a revisão ortográfica e gramatical de qualquer texto escrito em português. Enquanto a revisão ortográfica objetiva detectar palavras faltantes do léxico em questão e sugerir alternativas válidas a ela, a revisão gramatical procura detectar desvios gramaticais cometidos pelo usuário, tais como de concordância nominal ou verbal, pontuação, regência nominal ou verbal, uso de pronomes, além de problemas mais simples, porém bastante frequentes.


A parceria com universidades e institutos de pesquisa também é utilizado como forma de terceirizar um trabalho quando ele não é o foco principal da empresa. É o caso da Itautec, conhecida empresa brasileira de computadores e software que tem no mercado corporativo (empresas) seu principal cliente, que necessitou desenvolver, em 1993, um revisor ortográfico para um processador de texto utilizado nos computadores fabricados por ela. “O primeiro passo foi identificar um centro de excelência”, conta Elizabeth Costa, gerente de Desenvolvimento de Aplicativos Comerciais da Itautec. A escolha recaiu no Núcleo Interinstitucional de Linguística Computacional (NILC), formado por pesquisadores dos Institutos de Ciências Matemáticas e de Computação e de Física da USP de São Carlos e da Faculdade de Letras da Universidade Estadual Paulista (Unesp), de Araraquara. “Fomos buscar o know-how onde ele se encontrava”, afirma Elizabeth.

Era um grupo de alunos e professores do Instituto de Ciências Matemáticas (ICM) da USP, em São Carlos, envolvendo linguistas e profissionais de computação, que pesquisava um software de processamento da língua portuguesa quando a Itautec lhe bateu à porta, em 1993. A empresa que possuía um revisor ortográfico de textos, estava interessada no projeto, pois queria aprimorá-lo incluindo um revisor gramatical, capaz de detectar e corrigir erros de concordância e de regência verbal e nominal entre outros. “Foi até um primeiro contato ingênuo da nossa parte”, diz Maria das Graças Volpe Nunes, a pesquisadora-responsável. “Não nos comprometemos, falamos que íamos ver.” Mas no ano seguinte o produto estava pronto: o Revisor Gramatical Automático para o Português. “É muito difícil manter um grupo destes”, diz Maria das Graças Volpe Nunes, a pesquisadora-responsável. “É um grupo interdisciplinar, que usa pessoas da área da informática e da linguística … Inúmeras teses e artigos saíram daqui, além do intercâmbio com outros países. Encontramos novos recursos computacionais. Estamos desenvolvendo aplicativos do revisor, como um sintetizador de fala. E assim vamos nos gabaritando para outros projetos no futuro.” O grupo está envolvido desde 1997 no grandioso Universal Network Language, projeto coordenado pela ONU de construção de um tradutor multilingual, ora em avanço.

“Sempre buscamos fazer um produto simples de usar e com recursos avançados de revisão de textos em português. O fato do Redator ter esse diferencial é que o permitiu sobreviver num mercado dominado por processadores mundialmente consagrados, particularmente o Microsoft Word”, diz Elizabeth Costa. Desde a sua concepção, o produto ganhou vulto. A princípio, o revisor deveria apenas se preocupar com os erros mais comuns das secretárias, devido ao perfil corporativo dos clientes Itautec-Philco, mas o produto acabou mais tarde incorporado ao Word da Microsoft.

O projeto foi aprovado no PITE, em 1996, e contou também com a colaboração dos professores Claudio Lucchesi, Tomas Kowaltowski e Jorge Stolfi, do Instituto de Computação da Unicamp. “Em São Carlos, sob a coordenação da professora Maria das Graças Volpe Nunes, foram desenhados os algoritmos e formado o banco de base de palavras e, em Campinas, desenvolveu-se a compactação do sistema e a diminuição do tempo de resposta do programa”, explica Elizabeth, ex-aluna dos professores da Unicamp. Em 1997, a empresa começou a vender, no varejo, a primeira versão do revisor gráfico e gramatical, em caixas próprias, como um produto de prateleira. No final desse mesmo ano, a grande surpresa, a Microsoft procurou a empresa para incorporar o revisor no programa Office, o mais vendido no Brasil e em todo o mundo. O antigo revisor criado em Portugal para a língua portuguesa comportava 200 mil palavras, o da Itautec já dispunha de 1,5 milhão de palavras. O revisor foi incorporado ao Office 2000. A empresa brasileira licenciou o produto por um período de três anos pelo valor de US$ 421 mil. Pelo trabalho, o prof. Lucchesi recebeu o prêmio Santista de Informática em 1999.

Com as funções de revisão licenciadas, o usuário de qualquer um dos aplicativos que compõem o Microsoft Office poderá ter seus erros gramaticais e ortográficos corrigidos automaticamente, desde erros de concordância verbal, uso de crase, regência, colocação pronominal até a grafia correta das palavras em português. Além de todos estes recursos, o Microsoft Office, contará também com um dicionário de sinônimos e antônimos (thesaurus), como recurso extra de consulta. As demais funções do Revisor Word não licenciadas pela Microsoft continuarão a ser comercializadas pela Itautec sob o nome de Revisor Plus. Constarão do Revisor Plus os recursos de conjugação de verbos, consulta à gramática da língua portuguesa, acentuação automática de documentos, consulta a verbetes semelhantes, dicas sobre erros mais frequentes, consulta a brocardos jurídicos e dicionários português/português, português/inglês e inglês/português. Também farão parte do produto dicionários temáticos nas áreas de Medicina, Direito, Administração e Informática. O Revisor Plus estará disponível para comercialização simultaneamente com o lançamento da próxima versão do Microsoft Office em português.

Apesar de as pesquisas em processamento de linguagem natural (PLN) de português terem se iniciado muito antes da década de 1990, praticamente nada havia sido feito que visasse à criação de uma ferramenta robusta e de uso genérico, que requer recursos linguísticos e computacionais de grande monta. As indefinições e incertezas características de uma inovação tecnológica, visando ao desenvolvimento de um sistema complexo como um revisor gramatical, fizeram com que os docentes da USP, então convidados para participar da parceria, assumissem o compromisso inicial apenas de um estudo exploratório, sem a responsabilidade de ter que gerar algo que obrigatoriamente levasse a um produto comercial. Desde o princípio os desafios eram enormes face a inexistência de aplicativos nessa linha. Em outras línguas como o inglês, não eram muitas as experiências bem-sucedidas em revisão gramatical “O processamento de linguagem natural ainda é coisa nova”, diz Maria das Graças Volpe Nunes, uma das coordenadoras do projeto. O outro coordenador é o professor Osvaldo Novais de Oliveira Júnior.

Por linguagem natural entende-se a linguagem utilizada pelos humanos, em oposição as linguagens computacionais, ditas artificiais. O PLN trata do processamento envolvendo análise, interpretação e produção de uma linguagem humana por uma máquina, sendo uma área da inteligência artificial voltada para os estudos e desenvolvimento de sistemas que permitam interpretar e gerar linguagem natural “Além das limitações do PLN, tínhamos o limite da falta de experiência em produção de produtos comerciais”. O projeto multidisciplinar exigiu a conciliação de profissionais com formações muito distintas, possuindo metodologias e vocabulários bastante diferentes entre si “Ainda temos alguma dificuldade em incluir esse tipo de trabalho em eventos científicos estritamente linguísticos”, diz Maria das Graças Nunes.

No projeto, a Itautec gastou R$ 78 mil, enquanto a FAPESP investiu R$ 17,9 mil e US$ 9,2 mil, utilizados na compra de máquinas e equipamentos para a USP. “Quando começamos esse trabalho não tínhamos ideia da dimensão que tomaria todo o projeto, principalmente com o contrato com a Microsoft”, lembra Elizabeth. Tanto dentro do Office como na prateleira, não coube qualquer valor para a USP, porque o contrato garante o direito de comercialização para a Itautec, ficando a universidade com o direito intelectual para uso em outros projetos que não impliquem produto semelhante. A parceria IPT e Itautec-Philco, gerou alguns produtos comercializados pela empresa. O mais conhecido é o Redator Windows, editor de textos instalado nos micros fabricados pela Itautec. A empresa continua vendendo seu produto individual, o Redator, com uma série de outros atrativos, como um módulo sobre literatura brasileira.

Chamamos de ReGra o sistema de correção gramatical, não incluindo as rotinas para detecção de erros ortográficos, embora a base lexical que suporta o corretor ortográfico tenha sido compilada para o projeto de correção gramatical. O ReGra é constituído por três módulos principais:I) o módulo estatístico, II) o mecânico e III) o módulo gramatical. As rotinas para compactação e acesso aos dados do léxico foram desenvolvidas pela equipe do Prof. Tomasz Kowaltowski, do Instituto de Informática da Unicamp.

O módulo de tratamento estatístico realiza uma série de cálculos, fornecendo parâmetros físicos de um texto sob análise, como o número total de parágrafos, sentenças, de palavras, de caracteres, etc. O componente mais importante desse módulo, entretanto, é o que fornece o “índice de legibilidade”, uma indicação do grau de dificuldade da leitura do texto. O conceito de índice de legibilidade surgiu a partir do trabalho de Flesch de 1948 para a língua inglesa e busca uma correlação entre tamanhos médios de palavras e sentenças e a facilidade de leitura. Não inclui aspectos de compreensão do texto, que requereriam tratamento de mecanismos complexos de natureza linguística, cognitiva e pragmática. O índice Flesch, assim como outros similares, tem sido empregado para uma grande variedade de línguas, mas o trabalho do NILC foi o primeiro para a língua portuguesa. Através de um estudo comparativo de textos originais em inglês, e traduzidos para o português, verificou-se que a equação que fornece o índice Flesch precisaria ter seus parâmetros adaptados para o português, pois as palavras desta língua são em média mais longas, em termos do número de sílabas, do que em inglês.

O segundo módulo do ReGra, o mecânico, detecta erros facilmente identificáveis que não são percebidos por um corretor ortográfico. Exemplos desse tipo de erro são: I) palavras e símbolos de pontuação repetidos; II) presença de símbolos de pontuação isolados; III) uso não balanceado de símbolos delimitadores, como parêntesis e aspas; IV) capitalização inadequada, como o início da sentença com letra minúscula; V) ausência de pontuação no final da sentença. O primeiro passo para a elaboração do módulo gramatical, foi o levantamento de erros (ou inadequações) mais comuns entre usuários de nível médio, como secretárias e profissionais de escritório em geral, e alunos cursando o ensino médio ou ingressando a universidade. O termo “erro”, aqui, refere-se ao que os gramáticos normativos consideram como forma desviante da norma culta.

Nas primeiras versões do ReGra, os erros eram detectados através de regras heurísticas implementadas na forma de redes de transição estendidas (augmented transition networks), numa abordagem que se poderia chamar de “error-driven”.As primeiras versões do ReGra apresentavam vários benefícios do ponto de vista da implementação computacional: agilidade, especificidade, rapidez, portabilidade, e disponibilidade de memória. Entretanto, seu escopo de atuação era muito limitado: problemas envolvendo itens lexicais não contíguos e estruturas recursivas não podem ser atingidos pelas estratégias heurísticas normalmente desenhadas por abordagens error-driven. Para prover a essas insuficiências, optou-se por analisar sintaticamente as sentenças do usuário, antes de operar a revisão propriamente dita. Isso permite aplicar regras que apontam desvios nas relações entre núcleos e adjuntos, entre núcleos e modificadores, entre regentes e regidos. A realização de análise sintática automática obviamente requer que todos os itens lexicais estejam categorizados apropriadamente. Para tanto, realizou-se em paralelo a construção do léxico, que envolveu a compilação exaustiva das palavras da língua portuguesa e a hierarquização das categorias dos itens lexicais morfologicamente ambíguos. Uma vez que alguns erros em contextos linguísticos específicos ocorrem independentemente de desvios sintáticos, na versão atual do ReGra convivem as duas abordagens mencionadas acima. Ou seja, além de realizar análise sintática automática, muitas das regras heurísticas da primeira versão foram mantidas, como as de correção de erros de crase.

O módulo de correção de erros gramaticais, contendo mais de dez mil regras de correção, realiza inclusive a análise sintática automática das sentenças. As regras foram testadas em textos reais não corrigidos, como cartas comerciais, redações de vestibulares e teses, e em textos editados, como os de livros e revistas. O banco de textos empregado nestes testes contém mais de 37 milhões de palavras. Para detectar os erros mais comuns de pessoas com escolaridade de segundo grau, a equipe utilizou todas as redações do vestibular da Fuvest. A última versão conta ainda com uma minigramática eletrônica, disponível ao usuário através de hipertexto, que explica as principais regras gramaticais da língua portuguesa. Possui também um dicionário de sinônimos e antônimos.

Além dos módulos, o Revisor conta também com um corretor ortográfico, parcialmente desenvolvido em outra universidade, no Instituto de Computação da Unicamp. O léxico, isto é, a base de palavras foi compilada pelo NILC e contém mais de 1,5 milhão de palavras, incluindo siglas e nomes próprios. Os testes do produto foram feitos por uma equipe da Universidade de Ribeirão Preto. Em seu estágio atual, o revisor está embutido em um produto chamado Redação da Língua Portuguesa (RLP) composto do Redator e do Revisor Word. Ele altera as funções de revisão já presentes no MS Word e dá a ele a capacidade de realizar não só a revisão ortográfica, mas também a gramatical e a mecânica.

As pesquisas dos professores da Unicamp, remontam a década de 80. O prof. Lucchesi comenta:  “Na segunda metade da década de 80, o Prof. Tomasz e eu fomos contactados por uma softwarehouse de São Paulo, a TTI Tecnologia, através de seus diretores, Nilo Sérgio Mismetti e Fernando Mismetti. Eles estavam desenvolvendo um formatador de texto em português e queriam um revisor ortográfico. Naqueles tempos, os PCs tinham 640KB de RAM, disquetes de 360KB, 640KB, nem lembro mais. Discos rígidos eram ridiculamente pequenos. Então o problema deles era fazer um verificador ortográfico que fosse bem compacto. Por isso, desenvolvemos, eu e o Prof. Tomasz, um protótipo para eles, em Pascal.

Esse protótipo consistia de duas partes: 1 – compactador do vocabulário (cerca de 200.000 palavras, incluindo flexões verbais, etc.), arquivo texto de mais de 1MB, ficava compactado em cerca de 100KB. 2 – navegador na estrutura compactada, extremamente eficiente, mesmo para a época. A navegação era feita na estrutura compactada, carregada em memória, sem descompactação. A TTI continuou a usar o compactador em Pascal, mas refez, em C, o navegador para a integração no aplicativo deles. O compactador era usado somente para a produção de um arquivo de cerca de 100K, que era então distribuído juntamente com o software da TTI e utilizado pelos aplicativos em C. Mais tarde, a Folha de São Paulo comprou uma variante dessa ferramenta e a incorporou no seu manual de redação, que era vendido nas bancas de jornais e livrarias.

No início dos anos 90, o Prof. Tomasz coordenou um projeto de pesquisa junto ao CNPq, para continuarmos pesquisa nesta área, entre outras. Por conta desta pesquisa, conseguimos atrair de volta ao Brasil um pesquisador brasileiro, Jorge Stolfi, que então trabalhava no laboratório da Digital em Palo Alto, na Califórnia. O Prof. Stolfi deu uma significativa contribuição ao projeto, refazendo o compactador em linguagem mais moderna, orientada a objetos. Além disso, o time, agora em três, desenvolveu vários outros resultados a técnicas afins. Um verificador ortográfico gratuito (cujo vocabulário era o original, cortesia da TTI) ficou então à disposição dos usuários, via e-mail, e até hoje está disponível. Além disso, existe até hoje uma interface WWW para verificação ortográfica: http://www.ic.unicamp.br/ortho/”

 

Fonte: Cronologia do Desenvolvimento Científico e Tecnológico Brasileiro, 1950-200, MDIC, Brasília, 2002, páginas 227

http://www.fapesp.br/tecnolog582.htm

http://www.santista.com.br/fundacao/venc/pagina.htm

acesso em março de 2002

http://www.unicamp.br/unicamp/unicamp_hoje/pautas/ju145-7.html

http://www.microsoft.com/brasil/pr/revisor.htm

http://www.cesar.org.br/analise/n_13/frameanalisen_13.html

http://www.technosoftware.com.br/hom-iex/h-redaca.htm

http://www.ic.unicamp.br/ic-album/santista-99-p.html

acesso em agosto de 2002

http://www.unb.br/acs/acsweb/clipping/sucesso.htm

acesso em março de 2003

Tecnologia & Inovação para a indústria, Sebrae, 1999, página 190

Agradeço a colaboração do prof. Claudio Leonardo Lucchesi (lucchesi arroba ic ponto unicamp ponto br) por fornecer informações em maio de 2004 para composição desta página

DEIXE SEU COMENTÁRIO