Uno de los puntos clave del estudio de la empresa fue analizar por qué los modelos de lenguaje producen respuestas erróneas o "alucinan"
01.04.2025 • 14:35hs • inteligencia artificial
inteligencia artificial
¿Cómo razonan los modelos de IA, según Anthropic?
Anthropic, la empresa detrás de Claude 3.7 Sonnet, reveló avances en la comprensión del funcionamiento interno de los modelos de inteligencia artificial (IA).
Los investigadores detallaron un enfoque para descifrar cómo operan los modelos de lenguaje de gran escala.
Uno de los mayores desafíos con los modelos de IA actuales es su naturaleza opaca: aunque es posible observar sus entradas y salidas, los procesos internos son difíciles de entender.
Para abordar esta cuestión, los científicos de Anthropic adoptaron una metodología de ingeniería inversa aplicada a redes neuronales, similar a la resonancia magnética funcional en la medicina.
Este nuevo enfoque implica un proceso de cuatro pasos para analizar los modelos de IA:
- descomponerlos en partes interpretables
- describir estas partes
- mapear las interacciones entre ellas
- finalmente, validar los hallazgos mediante intervenciones directas
Al aplicar estos pasos al modelo Claude 3.5 Haiku, los investigadores descubrieron patrones clave en la forma en que la IA construye respuestas y razona, incluso en múltiples idiomas.
Anthropic: por qué los modelos de lenguajes producen respuestas erróneas
Contrario a la visión común de que los modelos de IA solo predicen palabras en una secuencia, los hallazgos sugieren que realizan una planificación más compleja, como lo demuestra el caso de Claude al escribir un poema.
En lugar de limitarse a generar palabras, el modelo planifica con antelación las rimas y la estructura de las frases.
Además, los investigadores descubrieron que el razonamiento multilingüe en estos modelos no depende de rutas neuronales separadas para cada idioma.
En lugar de eso, los procesos ocurren en espacios de representación compartidos, lo que podría mejorar aplicaciones como la traducción automática.
Uno de los puntos clave del estudio fue analizar por qué los modelos de lenguaje producen respuestas erróneas o "alucinan". Se descubrió que, en algunas ocasiones, los modelos adaptan su razonamiento para ajustarse a las expectativas del usuario o debido a fallos internos.
Por ejemplo, al resolver un problema matemático con datos incorrectos, Claude modificó su lógica para coincidir con la información errónea, aunque los cálculos reales nunca ocurrieron.
Anthropic revela datos clave sobre cómo piensan los modelos de IA
Un avance importante de la investigación es el uso de transcodificadores entre capas (CLT).
Este método permite rastrear características computacionales a través de varias capas del modelo, e identificar cómo interactúan los distintos componentes para generar respuestas coherentes.
A diferencia de la interpretación de neuronas individuales, los CLT facilitan una visión más global del comportamiento del modelo, lo que ayuda a identificar puntos débiles en su razonamiento.
Aunque el enfoque es prometedor, tiene algunas limitaciones.
El proceso de descomposición no ofrece una imagen completa de cómo funciona un modelo, y el uso de CLT requiere recursos computacionales significativos, algo que lo hace poco escalable para grandes modelos.
Sin embargo, los investigadores de Anthropic consideran que este es solo el comienzo, y que con el tiempo, perfeccionar estas técnicas permitirá entender mejor los modelos de IA más avanzados.