los libros que se han usado para entrenar a ChatGPT

Los cerebritos de la Universidad de California en Berkeley se han penetrado en las profundidades no reveladas de ChatGPT y el modelo de lenguaje GPT-4, y han descubierto que OpenAI se apoderó de su memoriacon libros protegidos por derechos de autor. Y parece que tiene una extraña afición por la fantasía adolescente, y por la ciencia ficción, por supuesto.

Los académicos Kent Chang, Mackenzie Cramer, Sandeep Soni y David Bamman describieron su trabajo en un artículo titulado “Habla, memoria: una arqueología de libros conocidos de ChatGPT/GPT-4”. “Descubrimos que los modelos de OpenAI han memorizado una amplia colección de materiales protegidos por derechos de autor, y que el grado de memorización está ligado a la frecuencia con la que aparecen pasajes de esos libros en la web”, explican los investigadores en su artículo .

Entre los títulos, hemos descubierto que ChatGPT tiene memorizados títulos como la saga de fantasía de Harry Potter, 1984 de Orwell, la trilogía de El Señor de los Anillos, los libros de Los Juegos del Hambre, Guía del Autoestopista Galáctico, Moby Dick, Frankenstein, Juego de Tronos y Dune, entre otros.

Los autores señalan que los libros de ciencia ficción y fantasía dominan la lista, lo que atribuyen a la popularidad de esos títulos en la red. Y señalan que memorizar títulos específicos tiene efectos derivados. Por ejemplo, estos modelos hacen predicciones más precisas en respuesta a preguntas como “¿En qué año se publicó este pasaje? » cuando han memorizado el libro.

Aunque la revelación planta inmediatamente preguntas de propiedad y protección de los derechos de autorLos principales intereses de los investigadores son la transparencia y la posibilidad de ocultar secretos cualquiera que sea su confianza en OpenAI sin saber qué fuentes se incluyen y cuáles se excluyen.

Lista de libros que ha usado ChatGPT para su base de datos

A B C

Otra consecuencia de la familiaridad del modelo con la ciencia ficción y la fantasía es que ChatGPT muestra un menor conocimiento de obras de otros géneros. Como observó el artículo, la herramienta sabe «poco sobre obras de habla inglesas de investigación, como el Black Book Interactive Project y ganadores de premios del Black Caucus American Library Association».

A través de Twitter, david bamanuno de los coautores y profesor asociado de la Facultad de Información de la Universidad de Berkeley, advirtió que “los modelos abiertos son buenos, pero es probable que los textos populares no sean buenos barómetros de rendimiento. Con el sesgo hacia la ciencia ficción y fantasía, deberíamos pensar de quién son las experiencias narrativas codificadas en estos modelos, y cómo eso influye en otros comportamientos“.

Comida para llevar: los modelos abiertos son buenos; los textos populares probablemente no sean buenos barómetros del desempeño del modelo; con el sesgo hacia la ciencia ficción/fantasía, deberíamos pensar en las experiencias narrativas que están codificadas en estos modelos y cómo esto influye en otros comportamientos. 5/6
—David Bamman (@dbamman) 2 de mayo de 2023

Saber que OpenIA ha usado ficción para alimentar su herramienta, además de la lucha con los derechos de autor, poni en dudasí quizás es demasiado pronto para el usuario ChatGPT de manera profesional y no por diversión. Casos de malos usos y fallos de la herramienta con éxito uno detrás de otro. Hace unos días, saltaron las alarmas porque un abogado usó ChatGPT para su uso laboral. El jurista presentó media docena de precedentes falsos generados por el sistema de inteligencia artificial para apoyarse en caso. La máquina parlante se los había inventado.

En abril, «El Correo de Washington» informó sobre un caso en el que un profesor reciente descubrió que el chat inteligente de OpenAI había generado información falsa, acusándolo incorrectamente de conducta sexual inapropiada.

los libros que se han usado para entrenar a ChatGPT

PorAndrés Rojas

Por Andrés Rojas

Entrada relacionada

Elon Musk cambia el logo de Twitter a X

Elon Musk anunció la próxima desaparición del mensaje azul de Twitter y lo reemplazó

¿Un misterio en la sala de emergencias? Pídale al Dr. Chatbot un diagnóstico.

Deja una respuesta Cancelar la respuesta

¿Cuándo vulve a jugar Lionel Messi?

últimas noticias sobre Mbappé altas, bajas y rumores de la liga española hoy

Polémica sobre un tatuaje ultraderechista de Özil

Ganador y resultados de Fernando Alonso y Carlos Sainz

Los 100 nominados al Golden Boy: Gavi es el favorito

You missed

As funciona Wegovy, el nuevo frmaco contra la obesidad que llega a Espaa en mayo

A Toulouse, la fondation Bemberg retrouve son lustre

El dardo envenenado de Anita Matamoros a su hermana Laura que pone en jaque su relación

In Ukraine, New American Technology Won the Day. Until It Was Overwhelmed.