En los últimos años, hemos presenciado avances asombrosos en los sistemas de inteligencia artificial (IA) cuando se trata de reconocer y analizar el contenido de imágenes complicadas. Sin embargo, un nuevo estudio resalta cómo muchos de los “Modelos de Aprendizaje Visual” (VLM, por sus siglas en inglés) de última generación a menudo fallan en tareas simples de análisis visual de bajo nivel, que son trivialmente fáciles para un humano.
En el provocador artículo preimpreso titulado “Los modelos de lenguaje visión están ciegos” (que incluye un emoji de gafas de sol oscuro en el título), investigadores de la Universidad de Auburn y la Universidad de Alberta diseñaron ocho pruebas simples de agudeza visual con respuestas objetivamente correctas. Estas pruebas van desde identificar cuántas veces se intersecan dos líneas de colores hasta identificar qué letra en una palabra larga ha sido circulada, o contar cuántas formas anidadas existen en una imagen (se pueden ver ejemplos representativos y resultados en la página web del equipo de investigación).
Estas pruebas revelan la falta de capacidad de los VLM, lo que nos lleva a cuestionar si podemos considerarlos verdaderos modelos de aprendizaje visual. Aunque estos modelos pueden desempeñarse admirablemente en tareas complejas, como reconocer objetos en imágenes complejas o interpretar escenas, parecen enfrentar dificultades en pruebas más básicas. Si puedes resolver este tipo de acertijos, es posible que tengas un razonamiento visual mejor que el de las IA de última generación.
Este estudio pone de manifiesto la importancia de seguir investigando y desarrollando modelos de aprendizaje visual más efectivos y completos. Aunque hemos avanzado mucho en el campo de la IA, aún queda trabajo por hacer para alcanzar el nivel de percepción visual humana. La intersección entre la IA y el procesamiento de imágenes sigue siendo un desafío fascinante y en evolución constante.
En los últimos años, los sistemas de inteligencia artificial (IA) han logrado avances asombrosos en el reconocimiento y análisis de contenido en imágenes complicadas. Sin embargo, un nuevo estudio resalta cómo muchos de los “Modelos de Aprendizaje Visual” (VLM) de última generación a menudo fallan en tareas simples de análisis visual de bajo nivel, que son fáciles para los humanos.
El artículo titulado “Los modelos de lenguaje visión están ciegos” destaca estas deficiencias. Los investigadores diseñaron ocho pruebas simples de agudeza visual con respuestas objetivamente correctas. Estas pruebas van desde identificar la cantidad de veces que se intersecan líneas de colores hasta encontrar una letra circulada en una palabra larga. También se incluye la tarea de contar formas anidadas en una imagen. Puedes ver ejemplos y resultados en la página web del equipo de investigación.
Estas pruebas revelan la falta de capacidad de los VLM y cuestionan si realmente podemos considerarlos modelos de aprendizaje visual. A pesar de su desempeño en tareas complejas como el reconocimiento de objetos o la interpretación de escenas, encuentran dificultades en pruebas más básicas. Si puedes resolver este tipo de desafíos visuales, es posible que tengas un mejor razonamiento visual que las IA de última generación.
Este estudio destaca la importancia de continuar investigando y desarrollando modelos de aprendizaje visual más efectivos y completos. Aunque hemos avanzado en el campo de la IA, todavía hay mucho trabajo por hacer para alcanzar el nivel de percepción visual humana. La intersección entre la IA y el procesamiento de imágenes sigue siendo un desafío fascinante y en constante evolución.
Palabras clave: IA, modelos de aprendizaje visual, agudeza visual, procesamiento de imágenes.
Enlaces relacionados:
Universidad de Auburn
Universidad de Alberta