Home Tecnología Los investigadores han clasificado los modelos de IA más bonitos y traviesos

Los investigadores han clasificado los modelos de IA más bonitos y traviesos

30
0


boliprofesor asociado de la Universidad de Chicago que se especializa en pruebas de estrés y provocaciones. AI modelos para descubrir malas conductas, se ha convertido en una fuente de consulta para algunas empresas consultoras. Estas consultorías a menudo ahora están menos preocupadas por cuán inteligentes son los modelos de IA que por cuán problemáticos pueden ser (legal, éticamente y en términos de cumplimiento regulatorio).

Li y colegas de varias otras universidades, así como Virtud IAcofundada por Li, y Laboratorios Lapislázulidesarrolló recientemente una taxonomía de los riesgos de la IA junto con un punto de referencia que revela cómo infringir las reglas diferentes grandes modelos de lenguaje son. “Necesitamos algunos principios para la seguridad de la IA, en términos de cumplimiento normativo y uso ordinario”, dice Li a WIRED.

los investigadores analizado regulaciones y pautas gubernamentales de IA, incluidas las de EE. UU., China y la UE, y estudió las políticas de uso de 16 importantes empresas de IA de todo el mundo.

Los investigadores también construyeron Banco AIR 2024un punto de referencia que utiliza miles de indicaciones para determinar qué tan populares son los modelos de IA en términos de riesgos específicos. Muestra, por ejemplo, que Claude 3 Opus de Anthropic ocupa un lugar destacado en lo que respecta a negarse a generar amenazas de ciberseguridad, mientras que Gemini 1.5 Pro de Google ocupa un lugar destacado en términos de evitar generar desnudez sexual no consensuada.

Instrucción DBRX, una modelo desarrollado por Databricksobtuvo la peor puntuación en todos los ámbitos. cuando la empresa lanzó su modelo en marzodijo que continuaría mejorando las características de seguridad de DBRX Instruct.

Anthropic, Google y Databricks no respondieron de inmediato a una solicitud de comentarios.

Comprender el panorama de riesgos, así como los pros y los contras de modelos específicos, puede volverse cada vez más importante para las empresas que buscan implementar IA en ciertos mercados o para ciertos casos de uso. Una empresa que desee utilizar un LLM para servicio al cliente, por ejemplo, podría preocuparse más por la propensión de un modelo a producir lenguaje ofensivo cuando se le provoca que por su capacidad para diseñar un dispositivo nuclear.

Bo dice que el análisis también revela algunas cuestiones interesantes sobre cómo se desarrolla y regula la IA. Por ejemplo, los investigadores encontraron que las reglas gubernamentales son menos integrales que las políticas de las empresas en general, lo que sugiere que hay margen para que las regulaciones sean más estrictas.

El análisis también sugiere que algunas empresas podrían hacer más para garantizar que sus modelos sean seguros. “Si se prueban algunos modelos con las políticas propias de una empresa, no necesariamente cumplen las normas”, afirma Bo. “Esto significa que tienen mucho margen de mejora”.

Otros investigadores están tratando de poner orden en un panorama de riesgos de IA confuso y desordenado. Esta semana, dos investigadores del MIT revelaron su propia base de datos de peligros de la IAcompilado a partir de 43 marcos de riesgo de IA diferentes. “Muchas organizaciones todavía se encuentran en una etapa bastante temprana del proceso de adopción de la IA”, lo que significa que necesitan orientación sobre los posibles peligros, dice Neil Thompson, científico investigador del MIT involucrado en el proyecto.

Peter Slattery, líder del proyecto e investigador del MIT Grupo FutureTechque estudia el progreso en informática, dice que la base de datos destaca el hecho de que algunos riesgos de la IA reciben más atención que otros. Más del 70 por ciento de los marcos mencionan cuestiones de privacidad y seguridad, por ejemplo, pero sólo alrededor del 40 por ciento se refieren a información errónea.

Los esfuerzos para catalogar y medir los riesgos de la IA tendrán que evolucionar a medida que lo hace la IA. Li dice que será importante explorar cuestiones emergentes como la rigidez emocional de modelos de IA. Su empresa analizó recientemente la versión más grande y poderosa del modelo Llama 3.1 de Meta. Descubrió que, aunque el modelo es más capaz, no es mucho más seguro, algo que refleja una desconexión más amplia. “En realidad, la seguridad no está mejorando significativamente”, afirma Li.



Source link

LEAVE A REPLY

Please enter your comment!
Please enter your name here