PUBLICIDADE

Publicidade

Você pergunta, o celular responde

Pesquisadores do Google criam software que reconhece voz humana

Por John Markoff
Atualização:

Progredindo no esforço - que já dura décadas - para conseguir que os computadores compreendam a fala humana, pesquisadores do Google acrescentaram uma sofisticada tecnologia de reconhecimento de voz ao software de pesquisa que a empresa desenvolveu para o iPhone, da Apple. Os usuários do aplicativo gratuito, que a Apple deve disponibilizar a partir de sexta-feira por meio da sua loja eletrônica iTunes Store, podem trazer o telefone ao ouvido e fazer virtualmente qualquer pergunta, como por exemplo "Onde fica o café Starbucks mais próximo?" ou "Qual é a altura do monte Everest?" O som é convertido num arquivo digital e enviado aos servidores do Google, que tentam determinar as palavras ditas e transmiti-las ao mecanismo de busca do Google. Os resultados da busca, que podem ser obtidos em questão de poucos segundos numa rede sem fios de alta velocidade, poderão ocasionalmente incluir informações locais, aproveitando-se de recursos do iPhone que permitem determinar a localização do usuário. INTERAÇÃO A capacidade de reconhecer praticamente qualquer frase dita por qualquer pessoa há muito é o objetivo supremo dos pesquisadores da inteligência artificial que procuram maneiras de tornar mais natural a interação entre homens e máquinas. Os sistemas capazes desse grau de reconhecimento começaram recentemente a chegar aos produtos comerciais. Tanto o Yahoo como a Microsoft já oferecem serviços de voz para celulares. O serviço Tellme da Microsoft é capaz de devolver informações em categorias específicas, como indicações de caminho, mapas e filmes. O serviço do Yahoo, oneSearch with Voice, é mais flexível, mas não apresenta a mesma precisão da ferramenta do Google. O sistema do Google está longe de ser perfeito, e pode responder com resultados aparentemente incompreensíveis. Os executivos do Google se recusaram a estimar a freqüência com a qual o sistema acerta, mas disseram acreditar que esta era suficiente para tornar a ferramenta útil às pessoas que desejam evitar a digitação das perguntas no teclado exibido pela tela do iPhone, sensível ao toque. O serviço pode ser usado para obter recomendações de restaurantes e indicações de trânsito, procurar contatos na agenda de endereços do iPhone ou simplesmente encerrar discussões de bar. A pergunta "Qual a melhor pizzaria na região de Noe Valley?" é respondida com uma lista de três restaurantes naquele bairro de San Francisco, cada um acompanhado de avaliações de usuários do Google e links para números de telefone para contato e instruções de como localizá-los. VANTAGEM Raj Reddy, pesquisador de inteligência artificial na Universidade Carnegie Mellon responsável por um trabalho pioneiro na área de reconhecimento vocal, disse que a vantagem do Google era a sua habilidade de armazenar e analisar imensas quantidades de dados. "Seja qual for a ferramenta que eles apresentem agora, ela se tornará cada vez mais precisa nos próximos três ou seis meses." "É importante compreender que a capacidade de reconhecimento das máquinas jamais atingirá a perfeição", acrescentou Reddy. "A pergunta é: até que ponto ela pode se aproximar da capacidade humana?" Para o Google, essa tecnologia é fundamental na sua próxima investida publicitária. Os executivos da empresa disseram que perguntas relacionadas à localização tornariam possível a cobrança de tarifas maiores sobre os anúncios publicados por estabelecimentos comerciais nas imediações, por exemplo. A venda desse tipo de espaço publicitário, porém, ainda não está disponível. Assim como no caso de outros produtos do Google, o serviço é disponibilizado aos consumidores de forma gratuita, e a empresa planeja posteriormente adaptar a ferramenta para funcionar em outros modelos de celular, além do iPhone. "Estamos promovendo, por meio da localização e da voz, um aumento dramático no valor ao anunciante", disse Vic Gundotra, ex-executivo da Microsoft e agora chefe da divisão de aplicativos para celular do Google. A empresa está longe de ser a única trabalhando em busca de capacidades mais avançadas de reconhecimento de fala. A chamada tecnologia de resposta à voz é atualmente empregada em larga escala nos sistemas telefônicos automatizados e em outros serviços e produtos oferecidos ao consumidor. Entretanto, esses sistemas freqüentemente enfrentam problemas diante das complexidades da linguagem livre, e em geral oferecem apenas uma gama limitada de respostas. TRANSCRIÇÕES Há muitas semanas, a Adobe acrescentou ao seu programa Creative Suite uma tecnologia de reconhecimento de fala desenvolvida pela britânica Autonomy. O recurso permite ao programa gerar, com alto grau de precisão, transcrições de gravações em áudio e vídeo. Gundotra disse que o Google esteve às voltas com os problemas gêmeos da inserção e da obtenção de informação a partir de dispositivos manuais sem fio."Nosso objetivo é resolver estes dois problemas com uma solução mundial", disse ele. Os pesquisadores do Google disseram que outra das suas vantagens em relação aos concorrentes era a quantidade de perguntas que os seus usuários teriam feito ao longo dos anos. "A quantidade de poder de processamento e a quantidade de dados foram coisas que mudaram durante esse tempo", disse Mike Cohen, um pesquisador da fala que, antes de vir ao Google, era co-fundador da Nuance Communications. As perguntas anteriores podem ser utilizadas na elaboração de um modelo estatístico capaz de representar a maneira mais freqüente com a qual as palavras são articuladas umas em relação às outras, disse Cohen. Esse é apenas um dos componentes do sistema de reconhecimento da fala, que também inclui um modelo de análise sonora e um mecanismo capaz de relacionar os componentes básicos da linguagem às palavras conhecidas.

Comentários

Os comentários são exclusivos para assinantes do Estadão.