Reuters
Reuters

Cuidado com o que você fala

Uma tecnologia de reconhecimento de voz melhor pode estar mais relacionada ao ato de ver do que ao de escutar

The Economist, O Estado de S. Paulo

23 de março de 2015 | 03h00

“Se ficar provado que ELE está defeituoso, eu não vejo como teríamos outra opção senão a desconexão.” No filme 2001: Uma Odisseia no Espaço, Frank Poole, um astronauta interpretado por Gary Lockwood, considera o que deveria ser feito com HAL, o computador homicida encarregado da nave. HAL descobre a intenção de seus mestres humanos de desligá-lo fazendo uma leitura labial de sua conversa através de uma janela - uma ideia que pesquisadores e empresas estão perto de realizar. Seu objetivo tem menos a ver com robôs comandantes de espaçonaves e mais com melhorar assistentes controlados por voz como o Siri da Apple e Cortana da Microsoft.

Por melhor que se torne o software de reconhecimento de voz, ele sempre ficará refém de seu ambiente sonoro. Peça para seu assistente digital digitar um número num escritório silencioso e ele poderá ouvir os números corretos. Tente novamente numa estrada movimentada ou numa festa barulhenta e provavelmente ficará desapontado. Se ao menos seu telefone pudesse ler seus lábios.

Ahmad Hassanat, um pesquisador em inteligência artificial na Universidade Mu’tah na Jordânia vem tentando ensinar um programa de computador a fazer precisamente isso. Tentativas anteriores de fazer computadores lerem lábios se concentraram, compreensivelmente, na forma e movimento dos lábios enquanto eles produzem fonemas (sons individuais como “b” ou “ng” ou “th”). Essas formas de sons são chamadas visemas. O problema é que há apenas uma dúzia de visemas para 40 a 50 fonemas em inglês: “pan” e “ban”, por exemplo, parecem extremamente semelhantes para um leitor labial. Isso dificulta muito reconstruir palavras só com visemas. Nos últimos anos, Hassanat vem tentando detectar a assinatura visual de palavras inteiras, usando a aparência da língua e dos dentes além dos lábios.

Veja também:

Como fazer backup de um país

Cercando as manchas de óleo

Redes de celular: faça você mesmo

Seu método tem obtido algum sucesso. Num trabalho publicado em fins do ano passado, Hassanat descreveu como havia treinado seu sistema filmando 10 mulheres e 16 homens de diferentes etnias enquanto eles liam passagens de texto. O computador primeiramente comparava essas gravações com um texto que ele conhecia, depois tentava imaginar o que eles estavam dizendo num segundo vídeo. Quando o computador era autorizado a usar a fala de treinamento da mesma pessoa, ele era bastante preciso - cerca de 75% das palavras faladas por todos os sujeitos e até 97% por um falante. Mas quando o vídeo de treinamento da própria pessoa era excluído da análise - como assistentes digitais não treinados -, a precisão do programa despencava para 33% em média, chegando a 15% em alguns casos (bigodes e barbas, ao que parece, confundem o sistema).

Outra ideia é não focar na boca. Em 2013, Yasuhiro Oikawa, um engenheiro da Universidade Waseda, no Japão, usou uma câmera de alta velocidade capaz de tirar 10 mil fotos por segundo da garganta de um falante. Isso mede as vibrações minúsculas e fugazes na pele causadas pelo ato de falar. As frequências presentes nas vibrações poderiam ser usadas, em princípio, para reconstruir a palavra que está sendo falada. Por enquanto, porém, a equipe de Oiakawa só conseguiu mapear as vibrações visuais de uma única palavra japonesa.

Os melhores resultados vêm quando um sistema faz mais do que observar passivamente. A VocalZoom é uma startup israelense cuja ideia é apontar um feixe de laser de baixa potência para a bochecha de um falante para medir vibrações e usá-las para inferir as frequências da fala. O sistema combina esses resultados com um áudio de fala comum num microfone, subtraindo ruídos ambientes indesejados ou outros falantes e deixando apenas as frequências da oscilação da bochecha.

Veja também:

O Vale do Silício tomou gosto por comida

A leveza do ser

Diagnóstico pelo smartphone

O papel limitado da tecnologia contra o Ebola

Em janeiro, a empresa levou essa tecnologia para a feira de tecnologia CES em Las Vegas, um ambiente notoriamente ensurdecedor, e impressionou a imprensa especializada. Mas o sistema ainda não está pronto para o mercado de massa. 

O protótipo ainda é maior do que os smartphones em que pretensamente seria embutido, e seduzir fabricantes para adicionar componentes a aparelhos cada vez mais finos não será tarefa fácil. A companhia pode ter melhor sorte levando sua tecnologia para carros, outro setor que está se apoiando cada vez mais em controles por voz; a VocalZoom diz que está mantendo conversas preliminares com uma grande montadora. Algum dia a empresa talvez consiga levar seu kit para veículos mais espaciais.

© 2015 THE ECONOMIST NEWSPAPER LIMITED. DIREITOS RESERVADOS. TRADUZIDO POR CELSO PACIORNIK, PUBLICADO SOB LICENÇA. O TEXTO ORIGINAL EM INGLÊS ESTÁ EM WWW.ECONOMIST.COM.

Tudo o que sabemos sobre:
theeconomisttecnologiainternet

Encontrou algum erro? Entre em contato

Comentários

Os comentários são exclusivos para assinantes do Estadão.

O Estadão deixou de dar suporte ao Internet Explorer 9 ou anterior. Clique aqui e saiba mais.