Anthropic propone un marco común de jailbreak
Anthropic aprovechó el anuncio para pedir un marco que abarque toda la industria para evaluar los jailbreaks de IA, diciendo que los desarrolladores y los gobiernos actualmente carecen de un estándar común para evaluar las técnicas recién descubiertas.
«Actualmente no hay consenso en la industria de la IA sobre cómo describir, en términos objetivos, la gravedad de una fuga de IA», dijo la compañía. Anthropic dijo que está trabajando con Amazon, Microsoft, Google y otros socios del Proyecto Glasswing en un marco para evaluar las fugas, al mismo tiempo que amplía la colaboración con el gobierno de EE. UU. a través de pruebas previas al lanzamiento de futuros modelos fronterizos, intercambio de información e investigación conjunta de seguridad de IA.
«La participación del gobierno en los lanzamientos de IA requiere un proceso duradero y transparente que brinde a los defensores cibernéticos y a otros la certeza que necesitan sobre el acceso a modelos poderosos», dijo Anthropic. «Estas reglas deberían codificarse en una regulación estricta y aplicarse por igual en todos los desarrolladores de modelos fronterizos».


