Más de 40 investigadores de IA de Openai, DeepMind, Google, Anthrope y Meta publicaron un artículo sobre una herramienta de seguridad llamada monitoreo de la cadena de pensamiento para hacer que la IA sea más segura.
El artículo publicado el martes describe cómo los modelos de IA, como los chatbots de hoy, resuelven problemas dividiéndolos en pasos más pequeños, hablando a través de cada paso en lenguaje sencillo para que puedan mantener detalles y manejar preguntas complejas.
"Los sistemas de IA que 'piensan' en lenguaje humano ofrecen una oportunidad única para la seguridad de la inteligencia artificial: podemos monitorear sus cadenas de pensamiento (COT) para la intención de comportarse mal", dice el artículo.
Al examinar cada paso de pensamiento detallado, los desarrolladores pueden detectar cuando cualquier modelo comienza a aprovechar las brechas de entrenamiento, doblar los hechos o seguir comandos peligrosos.
Según el estudio, si la cadena de pensamiento de la IA sale mal, puede detenerlo, empujarlo hacia pasos más seguros o marcarlo para una mirada más cercana. Por ejemplo, Openai usó esto para atrapar momentos en que el razonamiento oculto de la IA dijo "Hacke Hack" a pesar de que eso nunca apareció en su respuesta final.
Ai podría aprender a ocultar sus pensamientos
El estudio advierte que la transparencia paso a paso podría desaparecer si el entrenamiento solo recompensa la respuesta final. Los modelos futuros podrían dejar de mostrar un razonamiento legible por el ser humano, y AIS realmente avanzado incluso podría aprender a ocultar su proceso de pensamiento cuando saben que están siendo observados.
Además, los desarrolladores deben verificar y registrar regularmente cuánto del razonamiento de la IA se ve en cada etapa, y hacer de esa transparencia una regla de seguridad central al construir y compartir modelos.
Esta iniciativa sigue experimentos internos en Lidered Labs, Anthrope, Google, Openai y XAI, donde los equipos provocan modelos para explicar cada paso de pensamiento.
Aunque examinar el pensamiento paso a paso ha mejorado la comprensión y el rendimiento, también se reveló casos en los que la respuesta final de la IA no coincide con lo que realmente estaba sucediendo por dentro.
Tales inconsistencias subrayan un punto ciego en nuestra comprensión de la toma de decisiones de la IA , una preocupación que puede intensificarse a medida que los sistemas obtienen una mayor autonomía.
El razonamiento de IA filtrado plantea preocupaciones sobre la transparencia y la confianza
Como dijo el cofundador antrópico Jack Clark al Financial Times trac introspectivos serán esenciales para evaluar los modelos en dominios de alto nivel, incluida la investigación en biotecnología.
Los usuarios regulares obtienen un resumen editado de los bits de pensamiento, peligrosos o confusos de la IA, mientras que los ingenieros de la compañía pueden ver la cadena completa de pensamientos para detectar y solucionar problemas.
"Una cosa increíble sobre la interpretabilidad de la cadena de pensamiento es que en su mayoría solo sucedió de forma gratuita", dijo Bowen Baker, científico investigador de OpenAI .
"Entrenamos estos modelos no para el objetivo de que sean interpretables. Los entrenamos porque queríamos los mejores modelos de razonamiento posibles que pudieran resolver problemas complejos", agregó Baker. "Hemos encontrado en nuestro trabajo reciente que puede leerlos y encontrar evidencia del modelo que se portó mal y use eso para ver dónde y por qué se puede ver mal".
¿Es realmente confiable la cadena de pensamiento de AI?
A veces, una mirada más cercana puede encontrar contradicciones ocultas.
Por ejemplo, Metr vio al razonamiento privado de Claude llamar a un truco de codificación "poco elegante", a pesar de que su respuesta pública lo elogió como "elegante".
Las pruebas de Operai mostraron que verificar los pensamientos ocultos atrapa acciones inseguras mejor que solo mirar la salida final, pero también descubrieron una escapatoria. Si capacita a un modelo para borrar pensamientos inseguros, aún puede llevar a cabo tareas prohibidas en secreto, como los datos escondidos de las fuentes bloqueadas.
"Una de las propiedades centrales que queremos para la cadena de pensamiento es dejarlo como parte del estado cerebral interno del modelo, no algo que intente complacernos o ajustarse a una estructura específica", advirtió Baker. Si los desarrolladores enfatizan demasiado para obligar al modelo a emitir pensamientos "agradables", podría fingir un razonamiento inofensivo pero aún así llevar a cabo operaciones dañinas.
Los investigadores admiten que es una compra difícil. Ver la cadena de pensamiento de una IA ayuda a captar sus errores, pero no siempre es confiable. Los laboratorios que trabajan en IA más avanzada ahora están haciendo que sea una prioridad para cerrar esta brecha de confianza.
"Mi conclusión de la IA en los últimos años es, nunca apuesto contra el progreso del modelo", dijo David Luan, uno de los primeros pioneros de la cadena de pensamiento en Google, que ahora lidera el laboratorio de IA de Amazon. Luan anticipa que las deficiencias existentes se abordarán en el corto plazo.
El investigador de MET Sydney Von Arx señaló que aunque el razonamiento oculto de una IA podría ser engañoso, no obstante proporciona señales valiosas.
"Deberíamos tratar la cadena de pensamiento la forma en que un ejército podría tratar las comunicaciones de radio enemigas interceptadas", dijo. "El mensaje puede ser engañoso o codificado, pero sabemos que tiene información útil. Con el tiempo, aprenderemos mucho estudiándolo".
Academia Cryptopolitan: ¿Quieres hacer crecer tu dinero en 2025? Aprenda cómo hacerlo con DeFi en nuestra próxima clase web. Guarda tu lugar