Car-tech

Sistemas de reconhecimento de fala devem ficar mais inteligentes, diz Professor

COMO SER MAIS INTELIGENTE | Hábitos comprovados pela CIÊNCIA | Life Pins

COMO SER MAIS INTELIGENTE | Hábitos comprovados pela CIÊNCIA | Life Pins
Anonim

"Pela experiência do consumidor, as pessoas acham esses sistemas muito frustrantes", disse James. Allen, que é o presidente de ciência da computação na Universidade de Rochester, falou antes da conferência SpeechTEK 2010, realizada em Nova York nesta semana.

A maioria dos sistemas computadorizados de reconhecimento de fala pode entender o que um humano diz até 98% do tempo e ainda assim as pessoas ainda se irritam com o uso de sistemas automatizados de atendimento telefônico. A chave para tornar esses sistemas menos frustrantes de usar seria dar a eles uma compreensão mais profunda da linguagem e torná-los mais interativos, disse Allen.

[Mais leitura: Seu novo PC precisa desses 15 programas gratuitos e excelentes]

Atualmente, os departamentos de atendimento ao cliente da maioria das grandes organizações oferecem sistemas automatizados de ajuda baseados em telefone. Um usuário chama o número da ajuda e uma voz artificial faz uma série de perguntas ao chamador. A maioria desses sistemas é baseada em estruturas que são basicamente grandes árvores de decisão. Com esses sistemas, "você não descobre o que a pessoa quer, você está seguindo um roteiro", disse ele.

Os sistemas são na verdade um composto de várias tecnologias diferentes. Um é o reconhecimento de fala, ou a capacidade de um computador entender ou traduzir com sucesso em texto o que o locutor está dizendo.

A outra tecnologia, o processamento de linguagem natural (NLP), tenta converter a mensagem do locutor em um comando.

Grandes avanços foram feitos tanto no reconhecimento de voz quanto na PNL nas últimas décadas, mas eles aparentemente trouxeram a maior parte da frustração para seus usuários. "Eu só ligo para o banco quando tenho um problema e luto contra esses sistemas. [Eu pergunto] o que posso responder para chegar a uma pessoa o mais rápido possível", disse Allen.

O trabalho de pesquisa acadêmica de Allen foi em encontrar maneiras que "podemos conversar com uma máquina da mesma forma que podemos falar com uma pessoa", disse ele.

As conversas entre duas pessoas podem ser precisas de maneiras que os computadores têm dificuldade em igualar. Allen apontou para alguns trabalhos iniciais que ele fez como um estudante de pós-graduação, em que ele gravou conversas em um balcão de informações da estação de trem. Em uma interação, um passageiro vai até o estande e diz "8:50 para Windsor", e o atendente responde "Portão 10, 20 minutos atrasado". Enquanto o atendente sabia exatamente que informação o investigador queria, os sistemas computadorizados iriam achar confusa a primeira afirmação do passageiro

A maneira como Allen a vê, dois elementos estão faltando nos sistemas modernos: a capacidade de analisar o que o falante está dizendo e o capacidade de conversar com o palestrante para saber mais sobre o que o palestrante pretende dizer

"Muita PNL de prateleira tende a ser superficial. Não temos tecnologia que lhe dê um significado das frases" ele disse. Ferramentas de processamento estatístico e serviço de definição de palavras como o WordNet podem ajudar a definir uma palavra, mas também as relações de uma palavra, portanto um sistema saberá que, por exemplo, uma "subsidiária" é parte de uma "empresa".

Mais comunicações bidirecionais entre os usuários e os computadores também são necessárias. Ao falar sobre suas necessidades, as pessoas podem fornecer informações em nenhuma ordem específica. Deve caber ao computador juntar essas informações e não sobrecarregar o usuário com perguntas cujas respostas já foram fornecidas.

"Este é o futuro, é exatamente isso que você quer que os sistemas façam, e podemos construir um diálogo "Para ilustrar essa idéia, Allen e uma equipe de pesquisadores criaram um programa chamado Cardiac que poderia imitar as perguntas que uma enfermeira faria a um paciente com doença cardíaca", disse ele. O programa foi criado com financiamento dos Institutos Nacionais de Saúde dos EUA. Com este sistema, uma vez que um usuário fornece informações, o sistema não pedirá novamente, disse Allen. O sistema raciocinaria sobre qual material já havia sido fornecido e o que ainda era necessário.

Outro programa projetado por Allen e sua equipe, chamado Plough, pode aprender a executar tarefas comuns em um computador. "Este é um sistema que permite essencialmente usar o diálogo para treinar seu sistema como fazer as coisas para você", disse ele.

Como exemplo, Allen demonstrou o programa aprendendo como encontrar restaurantes próximos usando um navegador. O usuário abriria um navegador, navegaria até um site de localização de restaurantes, digitaria o tipo de restaurante procurado e a localização e depois recortaria e colaria os resultados em uma página em branco. O usuário descreveu cada passo à medida que era executado.

No processo, o Plough gravaria cada passo e responderia audivelmente quando a etapa fosse compreendida. Mais tarde, quando o usuário gostaria de procurar outro restaurante, o programa passaria pelos mesmos movimentos, produzindo outra lista de restaurantes automaticamente. A Agência de Projetos de Pesquisa Avançada de Defesa dos EUA financiou o desenvolvimento deste programa

Mais dados são a chave para sistemas de processamento de linguagem mais humanos, concordou o principal cientista da Microsoft para o discurso Larry Heck, em outra palestra na conferência. "Se você não tem os dados, não importa quão sofisticados sejam os seus algoritmos", disse ele.

Um lugar para encontrar mais dados seria nas buscas dos motores de busca, sugeriu. Os serviços do mecanismo de pesquisa recebem um grande número de consultas, todas vinculadas a respostas. "Eu vejo a pesquisa como uma prima próxima da tecnologia de processamento de linguagem", disse Heck.

Atualmente, as pessoas são treinadas para estruturar suas consultas como um conjunto de palavras-chave. Em vez disso, se os usuários digitarem frases completas descrevendo o que precisam, o conjunto de dados resultante poderá ajudar muito os sistemas a entender melhor o que as pessoas estão procurando.

Heck previu que mais pessoas usem serviços de pesquisa ativados por voz da Microsoft e do Google, eles se acostumarão mais a estruturar suas consultas como frases completas, que com o tempo poderiam ajudar os sistemas NLP a antecipar melhor as necessidades dos usuários.

Joab Jackson cobre software empresarial e tecnologia geral para as últimas notícias da

IDG News Serviço

. Siga Joab no Twitter em @Joab_Jackson. O endereço de e-mail de Joab é [email protected]