Según un nuevo estudio preliminar de la Universidad de Edimburgo, algunos de los sistemas de inteligencia artificial más avanzados del mundo tienen dificultades con tareas básicas de cronometraje, como leer relojes analógicos e interpretar calendarios, lo que resalta brechas significativas en la funcionalidad cotidiana de la IA.
El estudio, dirigido por Rohit Saxena de la Escuela de Informática de Edimburgo, reveló que los modelos de lenguaje grande multimodales de última generación (MLLMs) tuvieron un desempeño deficiente en tareas básicas de medición del tiempo.
Los sistemas de IA interpretaron correctamente las posiciones de las manecillas del reloj menos del 25% de las veces, con un rendimiento peor en relojes con números romanos o manecillas estilizadas. Incluso al eliminar el segundero, los resultados no mejoraron, lo que sugiere problemas fundamentales con la detección de las manecillas y la interpretación de ángulos. Para preguntas basadas en calendarios, el modelo de IA con mejor desempeño aún cometió errores aproximadamente el 20% de las veces.
Estos hallazgos exponen una brecha significativa entre las capacidades de la IA en tareas de razonamiento complejo y habilidades básicas que la mayoría de los humanos aprenden a una edad temprana.
Conjuntos de datos ClockQA y CalendarQA
Para investigar las capacidades de cronometraje de la IA, los investigadores de la Universidad de Edimburgo desarrollaron dos conjuntos de datos especializados: ClockQA y CalendarQA. El conjunto de datos ClockQA incluye varios estilos de relojes, como estándar, esfera negra, sin segundero, números romanos y manecillas en forma de flecha, junto con preguntas relacionadas con el tiempo. CalendarQA consiste en imágenes de calendarios anuales con preguntas que van desde fechas comunes hasta otras derivadas computacionalmente, como identificar el día 100 o el 153 del año.
Estos conjuntos de datos fueron diseñados para evaluar modelos de lenguaje multimodal a gran escala (MLLMs) en habilidades de reconocimiento visual, razonamiento numérico e inferencia temporal. Al utilizar estos conjuntos de datos cuidadosamente elaborados, el estudio buscó proporcionar una evaluación integral de la capacidad de la IA para interpretar datos visuales relacionados con el tiempo, revelando desafíos significativos en esta habilidad cognitiva fundamental.
Implicaciones para aplicaciones sensibles al tiempo
Los hallazgos del estudio tienen implicaciones significativas para el desarrollo e implementación de la IA en aplicaciones sensibles al tiempo. Superar estas limitaciones podría permitir que los sistemas de IA impulsen asistentes de programación, robots autónomos y otras tecnologías que dependen de una interpretación precisa del tiempo. La investigación sirve como un llamado de atención para las aplicaciones de IA en el mundo real, destacando la necesidad de abordar habilidades cognitivas fundamentales junto con tareas de razonamiento más complejas.
Como señaló Aryo Gema, un investigador del equipo: "La investigación en IA hoy en día a menudo enfatiza las tareas de razonamiento complejo, pero, irónicamente, muchos sistemas aún tienen dificultades cuando se trata de tareas más simples y cotidianas". Esta brecha en las capacidades de la IA podría impactar diversos sectores, incluyendo:
- Automatización de hogares inteligentes
- Tecnologías asistivas para personas con discapacidades visuales
- Robótica industrial y manufactura
- Programación de transporte y logística
- Sistemas de citas en el sector sanitario
Los desafíos que enfrenta la IA para leer relojes analógicos
- Reconocimiento Visual: Uno de los principales desafíos es el reconocimiento visual de las manos del reloj y la identificación de los números o marcadores en el dial. La IA necesita poder identificar consistentemente las diferentes partes del reloj en distintos contextos visuales.
- Escala y Ángulo: Interpretar la posición exacta de las manos del reloj es crucial, ya que implica reconocer ángulos y proyecciones en un espacio circular. Las manos pueden estar muy juntas o separadas, lo que complica la precisión.
- Variedad en el Diseño: La IA debe enfrentar la variedad en los diseños de relojes, incluyendo relojes con números romanos, marcadores estilizados, colores diferentes, o incluso relojes sin la manecilla de segundos. Esto requiere una gran flexibilidad y capacidad para generalizar en el aprendizaje.
- Interpretación de Horarios: Más allá de la visualización, se necesitan habilidades numéricas para asociar las posiciones de las manos con el tiempo exacto. Esto implica entender los conceptos de 12 y 24 horas, AM/PM, etc.
- Entrenamiento y Datos: La IA requiere grandes conjuntos de datos etiquetados y una arquitectura de aprendizaje que permita una buena generalización para todos los tipos de relojes y situaciones. Esto incluye variaciones tanto en la presentación del reloj como en las condiciones de iluminación, fondos, etc.
- Razonamiento Temporal: Algunos estudios también muestran que la IA lucha con tareas que requieren razonamiento temporal, como comprender los intervalos de tiempo o hacer cálculos con fechas y horas, lo que es esencial para una integración exitosa con calendarios y otros sistemas basados en el tiempo.