Un equipo de 20 investigadores de IBM lleva 3 años construyendo a Watson, el ordenador que se enfrenta con éxito a humanos en el juego de televisión Jeopardy. ¿Cómo funciona Watson?
Watson está compuesto por un centenar de algoritmos. No se espera que ninguno resuelva por sí solo el problema. La pregunta se analiza y se buscan múltiples respuestas candidatas que generan hipótesis. Estas hipótesis se confrontan con las evidencias disponibles y se les asigna una puntuación de confianza. Se establece una clasificación y la mejor situada es la respuesta elegida. Cada uno de los algoritmos merece una publicación separada.
Hace unos tres años, la división de investigación de IBM, IBM Research estaba buscando un desafío de investigación para competir con el interés científico y popular que supuso Deep Blue cuando hace 14 años derrotó al ajedrez al campeón mundial Gary Kasparov. Era una ocasión magnífica para celebrar el 100 aniversario con un logro de repercusión mundial. Una parte mayoritaria del conocimiento mundial ha sido digitalizado y se encuentra disponible en múltiple formatos: bases de datos, datos no estructurados, documentos de texto... ¿Es posible acceder a ellos mediante lenguaje natural? La respuesta de IBM ha sido la tecnología de pregunta-respuesta QA.
Los avances en la tecnología de pregunta-respuesta (QA) pueden servir de apoyo a los profesionales en la toma oportuna de decisiones críticas en áreas como la atención de la salud, la integridad de negocios, inteligencia de negocios, el descubrimiento del conocimiento, gestión del conocimiento empresarial, seguridad y atención al cliente.
Nuestros resultados sugieren que DeepQA es una arquitectura eficaz y extensible que se puede utilizar como base para la combinación, la implementación, evaluación y la promoción de una amplia gama de técnicas algorítmicas para avanzar rápidamente en el campo de preguntas y respuestas (QA).
El reto de Jeopardy
Jeopardy proporciona todos los elementos para este desafío.
Se trata de un dominio abierto en el que caben todo tipo de preguntas.
Es una síntesis de recuperación de información, procesamiento del lenguaje natural, la representación del conocimiento y el razonamiento, máquinas que aprenden, y las interfaces hombre-máquina.
Jeopardy requiere responder a preguntas en lenguaje natural rico en un dominio muy amplio de temas, con penalizaciones para las respuestas erróneas.
Los concursantes disponen de alrededor de 3 segundos para responder cada pregunta. Hay que responder a aproximadamente el 70 por ciento de las preguntas con una precisión superior al 80 por ciento en 3 segundos o menos.
Las categorías.
En Jeopardy, el nombre de la categoría puede proporcionar información que Watson debe evaluar. Aunque en ocasiones despista más que ayuda.
Las preguntas.
Hay muchas formas de categorizar la pregunta: Por tema, por la dificultad, por la construcción gramatical, según el tipo de respuesta, y así sucesivamente.
Una parte importante son las preguntas factoide: preguntas cuyas respuestas se basan en información objetiva acerca de una o varias entidades individuales contenidas en la pregunta.
Descomposición. Algunas pistas más complejas contienen múltiples hechos. No se espera encontrar las dos sub-pistas en una sola frase en las fuentes de información.
Rompecabezas. Aunque los rompecabezas constituyen sólo alrededor de 3 o 2 por ciento de todas las pistas no se puede ignorar.
Tipos de preguntas excluidas. Por acuerdo con los patrocinadores, las preguntas visuales y auditivas están excluidas. Ambos desafíos resultan muy interesantes desde el punto de vista de AI, pero se excluyeron del alcance de este concurso y la evaluación.
El dominio
Para analizar la amplitud del dominio Jeopardy Challenge se usan los tipos de respuesta léxica (LAT).
Se define una LAT como una palabra en la pista que indica el tipo de la respuesta, independientemente de la asignación de la semántica de esa palabra. Alrededor del 12 por ciento de las pistas no indican un tipo de respuesta explícita léxica, sino que se refieren a la respuesta con los pronombres como "él", "estos", o "esto". La distribución de LAT tiene una cola muy larga, como se muestra en la figura. Se han encontrado 2.500 LAT distintas y explícitas.
|
Frecuencia de las LAT |
La Métrica
Además de la precisión de preguntas y respuestas, la victoria dependerá de la velocidad, la estimación de la confianza, la selección de la pista, y la estrategia de apuestas.
El obejtivo es medir la exactitud, la confianza, y la velocidad. Para ello se usó la precisión y el tanto por ciento respondido. El umbral controla el equilibrio entre la precisión y el porcentaje de respuestas. La exactitud se refiere a la precisión si todas las preguntas son respondidas.
El desafío:
Rendimiento de los campeones humanos
|
Rendimiento en Jeopardy. Los puntos corresponden a humanos registrados en más de 2.000 juegos. Los puntos oscuros son el resultado de Ken Jennings, el mejor jugador de la historia. Las líneas indican el rendimiento de las distintas versiones de Watson |
Se basa en el análisis histórico de casi 2000 encuentros de Jeopardy.
El centro de la llamada "Nube de Ganadores" (el conjunto de puntos grises en la gráfica) revela que los campeones de Jeopardy son seguros y lo suficientemente rápidos para adquirir (apretar el pulsador buzz), en promedio entre el 40 y 50 por ciento de todas las preguntas a sus competidores y para tener una precisión de entre el 85 por ciento y 95. Los puntos más oscuros en la gráfica representan los juegos de Ken Jennings. Ken Jennings tuvo una racha ganadora sin igual en el año 2004, en los que ganó 74 partidas seguidas.
Línea de base de rendimiento
IBM usó como referencia antes de empezar con Watson dos programas llamados Practical Intelligent Question Answering Technology (PIQUANT) y OpenEphyra. Ambos obtenían buenas puntuaciones en entornos de manejo de textos Text Retrieval Conference (TREC).
Se tardararon unas 4 semanas en adaptarlos al entorno de Jeopardy. Resultó evidente que la precisión y la estimación de la confianza estaban muy por debajo de los requisitos del Desafío Jeopardy con apenas un 15% de exactitud. Lo que si demostraron es que varias técnicas eran posibles: análisis sintáctico profundo pero también búsquedas superficiales, bases de datos estructuradas y no estructuradas.
El enfoque DeepQA