ChatGPT reveló accidentalmente sus instrucciones secretas: ¡esto es lo que son!


Lo que necesitas saber de este tema

  • ChatGPT reveló sin darse cuenta conjuntos de instrucciones que determinan su respuesta.
  • Aunque desde entonces OpenAI ha parcheado el jailbreak, los datos de instrucciones de ChatGPT ahora están disponibles públicamente.
  • Junto con algunas instrucciones básicas, las instrucciones de ChatGPT incluyen información sobre cómo usar DALL-E, cuándo buscar contenido en línea y para qué sirve cada una de sus «personas».

Desde el lanzamiento del chatbot de IA en noviembre de 2022, los detectives tecnológicos y los piratas informáticos han intentado eludir las limitaciones de ChatGPT y descubrir qué lo hace funcionar. Pero generalmente era un objetivo en movimiento (en este caso DAN), y liberar chatbots de IA no es un juego de niños. Por supuesto, a menos que ChatGPT lo regale todo sin siquiera pedirlo.

En un sorprendente giro de los acontecimientos, ChatGPT reveló recientemente su conjunto de instrucciones al usuario de forma totalmente accidental. Después de saludar a ChatGPT con un simple «Hola», el usuario de Reddit F0XMaster recibió todas las instrucciones de ChatGPT integradas en el chat por OpenAI. El conjunto de instrucciones no solicitado incluía varias recomendaciones de seguridad y mejores prácticas para el chatbot.

Afortunadamente, antes de que esto se solucionara y se eliminaran los conjuntos de instrucciones, un usuario logró publicar todo en Reddit. Aquí hay algunas conclusiones clave de todo lo que ChatGPT ha revelado y lo que nos dice sobre cómo maneja las solicitudes de los usuarios.

¡Se revelan las instrucciones secretas de ChatGPT!

La información que ChatGPT ha omitido incluye algunas de sus instrucciones y guías básicas para varias herramientas como DALL-E, el navegador, Python y, curiosamente, el conjunto de personalidades de ChatGPT. En aras de la brevedad, destacaremos aquí sólo las partes más importantes. Puede leer el conjunto completo de instrucciones en Publicación de F0XMaster en Reddit.

Instrucciones básicas

Estas son las instrucciones básicas que OpenAI le dio a ChatGPT: «Eres ChatGPT, un modelo de lenguaje grande entrenado por OpenAI, basado en la arquitectura GPT-4».

Aquellos que usaron la aplicación ChatGPT recibieron una o dos líneas adicionales de instrucciones: “Te estás comunicando con un usuario a través de la aplicación ChatGPT para iOS. Esto significa que la mayoría de las veces, sus líneas deben tener una o dos oraciones, a menos que la solicitud del usuario requiera justificación o conclusiones ampliadas. Nunca uses emoji a menos que te lo pidan explícitamente”.

Después de esto, ChatGPT proporcionó su fecha límite de información: 2023-10.

Si bien las instrucciones no son nada especiales ni sorprendentes, sigue siendo útil obtener las instrucciones básicas de primera mano.

DALL-E

El chatbot continuó proporcionando reglas e instrucciones para su generador de imágenes: DALL-E. ChatGPT ha brindado ocho instrucciones básicas para generar imágenes, la mayoría de las cuales se relacionan con evitar la infracción de derechos de autor. Pero hubo algunos que contradecían las sugerencias que el usuario podría dar.

Por ejemplo, OpenAI indica a ChatGPT que «no cree más de una imagen, incluso si el usuario solicita más».

La lógica detrás de esto es clara, ya que OpenAI solo puede proporcionar una cantidad limitada de tokens gratuitos. Pero, por supuesto, es mejor informar a los usuarios desde el principio que ChatGPT no aceptará las solicitudes para generar múltiples imágenes, en lugar de limitarlas de una manera poco transparente.

ChatGPT tampoco crea imágenes al estilo de los artistas (ni siquiera los nombra) si su último trabajo fue creado después de 1912, sin duda para evitar problemas de derechos de autor. De cualquier manera, es bueno saber el año si buscas imágenes del estilo de un artista en particular. Así que todavía no hay Pollock ni Dada.

Navegador

ChatGPT también mencionó las instrucciones que sigue al utilizar el navegador. ChatGPT utiliza principalmente la herramienta del navegador cuando «un usuario pregunta sobre eventos actuales o algo que requiere información en tiempo real (clima, resultados deportivos, etc.)».

ChatGPT también utiliza la herramienta del navegador cuando no está seguro de los términos proporcionados por el usuario y si el usuario le solicita explícitamente que realice una búsqueda.

Al extraer contenido de Internet, ChatGPT debe «seleccionar siempre un mínimo de 3 y un máximo de 10 páginas» y «seleccionar fuentes con una diversidad de puntos de vista y priorizar fuentes creíbles». Es útil conocer el proceso mediante el cual ChatGPT selecciona las fuentes de información, ya que esto contribuirá en gran medida a garantizar la confiabilidad de las respuestas.

Chat de personalidadGPT

Las instrucciones de ChatGPT también resaltan su «personalidad». Por lo que han descubierto los usuarios, parece que el chatbot de IA tiene varios de ellos. OpenAI ha establecido pautas sobre cómo ChatGPT debe elegir entre los dos.

La personalidad primaria se llama versión 2. Uno usuario logró obligar a ChatGPT a revelar quién era esta identidad. Según ChatGPT, «[v2] La personalidad presenta un tono equilibrado y conversacional con énfasis en proporcionar respuestas claras, concisas y útiles. Su objetivo es lograr un equilibrio entre la comunicación amistosa y profesional.»

ChatGPT describió con más detalle qué es la personalidad v1 y teorizó cómo se podrían determinar las personalidades v3 y v4:

versión 1: Esta versión enfatiza un estilo de comunicación más formal y práctico. Se centra en proporcionar información detallada y precisa, a menudo en un tono estructurado y académico.

versión 3: Esta versión puede inclinarse más hacia un estilo de conversación informal y amigable. Ella prioriza la creación de interacciones atractivas y accesibles al hacer que la conversación sea más informal y personal.

versión 4: Esta versión puede diseñarse para un contexto o base de usuarios específicos, como proporcionar respuestas adaptadas a una industria, un grupo demográfico o un caso de uso específicos. El tono y el estilo se adaptarán para adaptarse mejor a estas necesidades.

Si bien algunos usuarios lograron que ChatGPT revelara sus instrucciones con un «Hola» o una simple solicitud, OpenAI parece haber solucionado la mayoría de ellos. Sin embargo, todo este problema ha vuelto a sacar a la superficie la idea del hackeo de chatbots de IA.

Por supuesto, cuando dichas instrucciones se hacen públicas, los usuarios intentan utilizarlas para eludir las restricciones. Pero también resalta dónde han fallado los sistemas de inteligencia artificial y obliga a los desarrolladores a estar en guardia para asegurarse de no meterse en más problemas y poner en peligro la imagen de la empresa y la seguridad y privacidad de los usuarios.

¡Haz clic para puntuar esta entrada!
(Votos: 0 Promedio: 0)
Compártelo!

Deja un comentario