domingo, 3 de abril de 2011

Reconocimiento de voz. La asignatura pendiente

El reconocimiento de voz o reconocimiento del habla es una asignatura pendiente en el mundo de la tecnología. Décadas de investigación en el área nos han llevado a una situación en la que está presente en todos los dispositivos y nadie la usa.
vocalizar (RAE).
1. intr. Articular con la debida distinción las vocales, consonantes y sílabas de las palabras para hacer plenamente inteligible lo que se habla o se canta.

Conviví durante años con un vecino al que nunca entendía más allá del primer "hola". El barrio tenía una importante afluencia de turistas y en ocasiones me ponía en el lugar de un hipotético extranjero que tras años de estudio se enfrentara con el cerrado acento de mi vecino para concluir que había malgastado su tiempo: no entendía nada de castellano.
El reconocimiento de caras es una habilidad que compartimos con los monos desde hace más de 30 millones de años. Por contra, el reconocimiento de voz es una de las más tardías adquisiciones del ser humano. Está ligada al lenguaje y es inequívocamente humana. Y es también más complicada a juzgar por el fracaso de la tecnología en implementarla, al contrario que el reconocimiento facial.
Se trata de una habilidad con una gran variación individual. Del mismo modo que pocos entendían a mi vecino, hay personas maestras en hacerse entender. Por ejemplo las personas con responsabilidades públicas como locutores de radio o TV y la mayoría de los políticos. Es así mismo el caso de imitadores que pueden imitar otros acentos y voces. Tampoco el acento de depende del idioma: quien habla bien uno, tiene grandes posibilidades de hablar bien otros idiomas. Influye desde luego el ruido ambiente y el estado de ánimo del hablante: cambia el acento si está cansado o adormilado o excitado.
Algunas habilidades tienen ventanas de edad de adquisición. En el caso del acento, hasta los 7 años se aprende sin dificultad una segunda lengua. Es decir, un hablante nativo no reconocerá a otro que haya aprendido la lengua antes de los 7 años. Por el contrario, alguien que lleve toda la vida con nosotros y escriba a la perfección nuestro idioma pero no lo haya aprendido en los primeros años, será reconocido como extranjero a la primera frase. Pero el acento es mucho más que estilo o quedar bien. Aprender bien el acento significa que podemos entender bien a los hablantes de esa lengua. Otras parcelas de la lengua como el vocabulario no tienen tal ventana y pueden seguir mejorando durante años.
Todo lo cual ayuda a explicar por qué la tecnología fracasa en el reconocimiento del habla. Pero ¿es importante esta tecnología?
Desde luego. Nuestro medio natural de comunicación no es el teclado ni el ratón ni la pantalla por muy táctil que sea. Nos comunicamos naturalmente por el habla. Y recordemos que en el mundo hay millones de analfabetos, un gigantesco mercado potencial para las empresas. De modo que sería un gran avance que los dispositivos tecnológicos puedan reconocer la voz. Y lo intentan aunque con poco éxito. Windows XP con Office 2003 posee la tecnología. Durante el entrenamiento se pide al hablante recitar algunos textos:
Piense en las veces que ha oído un anuncio en un aeropuerto, estación de tren o estadio pero no ha sido capaz de comprender lo que decían. Ello es debido a varias razones: había mucho ruido, la persona no hablaba con cuidado o hablaba demasiado rápido, o el micrófono era de poca calidad o ajustado incorrectamente. Quizá dijeron algo inesperado.
El resultado no puede ser menos alentador. Quizá admitiríamos un porcentaje de aciertos del 95%. Desde luego el 80% no es válido ya que obliga a revisar todo el trabajo. ¡Pero es que el resultado, con la tecnología mencionada más arriba, no llegó al 10% de aciertos! (doy por supuesto que versiones más modernas mejoraran el resultado) Mi móvil lo hace mejor aunque es debido al hecho de que sólo tiene que reconocer entre menos de un centenar de nombres, no entre las más de 80.000 palabras del idioma español. Como curiosidad, la función contraria, leer un texto (text to speech con versiones gratuitas que se pueden descargar de la red) funciona muy bien y con muy pocos recursos computacionales desde hace años con la salvedad de que la voz sintetizada no suena natural (de nuevo porque lo complicado es la finura de la articulación del sonido). Quizá el ejemplo más significativo sea el de Watson, el ordenador de IBM más listo del mundo. Watson ha implementado unas habilidades lingüísticas sin par que le han permitido ganar en el quizshow americano Jeopardy  a los mejores concursantes de la historia del programa. Watson se expresa con una voz sintetizada, pero no implementa reconocimiento del habla, sino que debe recibir las preguntas como texto electrónico. IBM ya anunciado que cambiará esto para sacar partido comercial a Watson lo que si no sería un handicap.
Las aplicaciones más claras del reconocimiento de voz son el dictado y el control de comandos (dar órdenes verbales a las máquinas). Su utilidad está reforzada en el caso de analfabetos o discapacitados. En los últimos tiempos varias aplicaciones de teleasistencia funcionan sin requerir el entrenamiento, ya que "escuchan" a millones de hablantes, y reconocen comandos de voz : números del DNI, fecha de nacimiento y órdenes como "saldo" o "movimientos" aunque la más usada es la que ocurre si algo va mal: "operador/a".
No obstante, parece que las cosas están cambiando de la mano de los smartphones, los nuevos móviles. Android de Google, Windows Phone 7 de Microsoft y iPhone de Apple incorporan esta tecnología. Si bien Google no divulga cifras concretas, una de cada cuatro búsquedas en los dispositivos Android se hace ahora con la voz, y el volumen de búsquedas en los teléfonos Android subió un 50 por ciento en los primeros seis meses de 2010. Google espera que la mayoría de sus negocios de Internet sean a través de los teléfonos inteligentes en el futuro, así es que los servicios de voz de alta calidad son de importancia crítica. Para ello, Google usa no solo los mecanismos habituales de descifrado de voz sino el gigantesco potencial estadístico de los más de 230 mil millones de búsquedas y los millones de acentos de las personas que ya están usando búsquedas de voz, una estrategia estadística que ha sido empleada en su traductor Google Translator. Una aplicación de iPhone también permite el dictado. Pero como en el caso de Google, no es el teléfono el que reconoce la voz: el mensaje de voz es enviado a los servidores que realizan la tarea y devuelven un mensaje de texto. Se trata de nuevo de comparar con las voces de millones de usuarios y aprender de ellos.
De modo que quién sabe si en el futuro mi vecino irá equipado con un teléfono que haga más comprensible su acento.

4 comentarios:

  1. La principal dificultad para que las computadoras reconozcan la voz humana no tiene que ver con la voz en sí, ni el acento, sino con la incapacidad de predecir la frase más coherente en un determinado contexto dentro de un universo casi infinito de combinaciones homófonas. Nos pasa a los que tenemos una segunda lengua: nuestra capacidad de reconocer frases dichas en otra lengua choca con nuestro limitado vocabulario y dudamos hasta de lo que ya conocemos. A medida que sabemos todo lo que se puede y no se puede decir en una lengua, nuestro oído se vuelve más y más exacto.

    ResponderEliminar
  2. Hola Guille.
    Las combinaciones de sonidos que escuchamos en nuestra lengua y en lenguas aprendidas no son homófonas. Nos parecen homófonas, pero suenan distinto y, en efecto, un hablante experto las reconoce como distintas. Hay idiomas que son más sencillos. El inglés es más complicado e incorpora el concepto de homófono para dos palabras cuya pronunciación es casi igual. Por ejemplo to, two y too. Un clásico de homofonía es "La importancia de llamarse Ernesto" de Oscar Wilde, cuya dificultad empieza en el mismo título: "The Importance of Being Earnest" siendo Earnest homófona y cuya pronunciación significa tanto Ernesto como serio o formal.
    Respecto del hablante, basta con escuchar la político Manuel Fraga para darse cuenta de que hay pronunciaciones más fáciles de entender que otras, tanto para los humanos como para los ordenadores.
    Un saludo.

    ResponderEliminar
  3. ¿Hasta que punto es importante? Obviamente el reconocimiento de voz será un gran avance muy necesario, pero me parece que está un poco sobrevalorado.

    ¿De verdad queremos dictarle a nuestro móvil instrucciones un lugar público donde lo puede oir todo el mundo? ¿Queremos una oficina en la que todo el mundo esté hablandole al ordenador en vez de tecleando?

    ResponderEliminar
  4. Hola nunes.
    Quizá sea una obsesión mía. Desde luego la privacidad se ve disminuida. Y también es cierto que las molestias pueden ser mucho mayores.
    Pero sigo pensando que habrá ámbitos en que irrumpirá con fuerza.
    Los teclados de los móviles son muy desagradables. Los móviles hacen muchas cosas pero no puedes escribir nada serio con ellos.
    Y, una vez en manos de otros desarrolladores, surgirán otras aplicaciones que apenas imaginamos.
    Otro ejemplo son los servicios telefónicos.
    Sí, estoy un poco obsesionado, pero sigo creyendo que cuando explote la tecnología será un interfaz preferido.
    Saludos.

    ResponderEliminar