Reconhecimento de Voz

Os computadores agora também são capazes de reconhecer a voz do dono, bloqueando qualquer tentativa de pessoas estranhas de ter acesso aos seus arquivos ou, sequer, de poder fazer um texto no Word. A novidade é fruto da pesquisa do engenheiro elétrico Roberto Amilton Bernardes Sória, que deu origem à sua dissertação de mestrado na Escola Politécnica da Universidade de São Paulo, e intitulada “Reconhecimento automático do locutor usando pré-processamento em sons nasalizados com diversos classificadores neurais”. Orientado pelo professor Euvaldo Ferreira Cabral Jr., o estudo teve por objetivo desenvolver um novo sistema de segurança utilizando os sons nasais, que constituem, junto com os sons vocálicos, a voz humana. “Os parâmetros da voz utilizados no reconhecimento se mostraram bastante estáveis para sons nasalizados”, explica Sória. “Mesmo que você pegue uma gripe, ficando rouco, as altas frequências sofrem poucas variações, não interferindo no reconhecimento eletrônico da sua voz.” Para os computadores reconhecerem uma voz, o pesquisador utilizou uma rede neural binária chamada LearnMatrix, criada em 1958 e que estava praticamente esquecida pela maioria dos pesquisadores, substituída por outras, como a Multi Layer Perceptron (MLP).

“O uso da LearnMatrix foi muito bom, pois os processos se tornaram praticamente instantâneos, apresentando taxas de reconhecimento bem próximas ao do MLP”, diz Sória. “É uma rede binária puramente associativa. Portanto, a taxa de reconhecimento obtida com ela não é tão boa quanto com outras redes neurais mais complexas. No entanto, ela é extremamente rápida e descobrimos que é um recurso poderoso para ter uma avaliação prévia do reconhecimento do locutor”. Além da LearnMatrix, as redes MLP, Radial Basis Function e Self-Organizing Feature Finder também foram utilizadas. 

Ainda segundo Sória: “As redes neurais são softwares que permitem aos computadores aprenderem a reconhecer voz, sons, imagens e outros tipos de informação, relacionando-as com determinados tipos de uso”, completa. “Trata-se, na verdade, de um modelo matemático simplificado de como os bilhões de neurônios que constituem o cérebro humano funcionam.” A frase escolhida para ser gravada “amanhã ligo de novo”, foi extraída de um trabalho científico sobre fonética, feito no Rio de Janeiro. A gravação utilizou um microfone relativamente simples, que direciona a voz, e foi feita em uma sala isolada, com pouca interferência de ruídos externos. Para implementá-la, o pesquisador recorreu a logaritmos e à linguagem Java. “O treinamento para o computador conseguir identificar a voz se baseia na constante repetição da gravação e, posteriormente, na eliminação dos erros por meio da comparação”, afirma Sória. “O recurso fica pronto no momento em que o computador passa a identificar a voz gravada, relacionando-a com o seu dono.”

De acordo com Sória, que também trabalha na área de pesquisa e desenvolvimento de produtos da EverSystems, empresa da área de segurança para a Internet, quando a nova tecnologia estiver mais aprimorada, ela vai ter a vantagem de ser mais segura do que muitos dos sistemas de segurança atuais, pois, segundo ele, a voz humana é igual as nossas impressões digitais: não existem duas iguais. “Mesmo aqueles comediantes que imitam as pessoas não conseguem reproduzir todos os sons nas mesmas frequências da voz original”, lembra. “As possibilidades de utilização da tecnologia são múltiplas, como por exemplo, a localização de uma pessoa dentro de uma empresa por meio de um sistema de busca interligado a todos os computadores, o que permitiria o recebimento de uma ligação telefônica no ramal mais próximo de onde ela está no momento”. Além de continuar os estudos, a ideia do pesquisador é disponibilizar, em breve, a tecnologia em um site da Internet, o que possibilitará que todos tenham acesso à novidade. 

Embora tenha uma taxa de acerto no reconhecimento que vai de 90% a 95%, o sistema ainda não é robusto o suficiente para o mercado, diz seu criador. “Para aplicações comerciais, é preciso de taxas de acerto de 98%.” Além disso, ainda há como burlar o sistema, mesmo não sendo o Tom Cavalcante. “Uma gravação em CD, que possui todas as frequências da voz, seria capaz de enganar o computador.” Um meio de contornar o problema, segundo Sória, seria associar o reconhecimento do locutor ao do conteúdo da fala. Assim, o computador poderia pedir ao usuário que dissesse uma palavra específica, evitando que gravações enganassem o sistema. De acordo com Sória, o mesmo sistema de reconhecimento que ele usa para identificar o locutor poderia ser adaptado para reconhecer o conteúdo da fala, mas ele diz que o trabalho não está sendo conduzido nesse sentido. O objetivo é desenvolver parcerias, no âmbito de pesquisa, entre a USP e outras universidades, para aprimorar e tornar pública a tecnologia. “A ideia seria criar um pacote de ferramentas, com código aberto [sem restrições para que qualquer um modifique a programação”, para que a tecnologia fosse mais desenvolvida.” 

Fonte: 
http://www.portaldeensino.com.br/ciencias3.php 
http://www.rio.rj.gov.br/cgm/clipping/diario/agosto2001/d06/computador.htm
http://www.prometeu.com.br/noticia.asp?cod=125 
acesso em março de 2002
http://www.uol.com.br/cienciahoje/chdia/n420.htm 
acesso em dezembro de 2002

Posso ajudar?