Un algoritmo aprendió a dibujar todo lo que le digas

Un algoritmo aprendió a dibujar todo lo que le digas



OpenAI, uno de los líderes de la industria en el desarrollo de inteligencia artificial, publicó pruebas a principios de enero de un salto adelante en sus capacidades: una ilustración de un rábano daikon bebé con un tutú paseando a un perro.

Además, un conejito en pijama mirando televisión, un camarón en traje usando una calculadora y una variedad de otras combinaciones extrañas, todo dibujado por su nueva serie de algoritmos llamados DALL-E. El programa puede generar una variedad de dibujos e imágenes basados ​​en indicaciones de texto simples. En otros ejemplos, el sistema generó una serie de imágenes de apariencia realista basadas en el mensaje «un escaparate que tiene la palabra ‘openai’ escrita en él».

Los dibujos pueden parecer simples (algunos son mejores que otros), pero es el tipo de progreso que destaca cómo la inteligencia artificial continúa adquiriendo capacidades similares a las humanas.

También es motivo de preocupación, que estos programas puedan aprender los prejuicios humanos.

“La conversión de texto a imagen es muy poderosa porque le da a uno la capacidad de expresar lo que quiere ver en el lenguaje”, dijo Mark Riedl, profesor asociado de la Escuela de Computación Interactiva de Georgia Tech. “El lenguaje es universal, mientras que la habilidad artística para dibujar es una habilidad que debe aprenderse con el tiempo. Si uno tiene la idea de crear un personaje de dibujos animados de Pikachu empuñando un sable de luz, puede que no sea algo que alguien pueda sentarse y dibujar, incluso si es algo que pueden explicar «.

OpenAI descubrió que DALL-E a veces puede transferir algunas actividades humanas y prendas de vestir a animales y objetos inanimados, como alimentos. Aquí el mensaje de texto era «una ilustración de un rábano daikon bebé con un tutú paseando a un perro».OpenAI

DALL-E, que la compañía dice es un acrónimo que combina el nombre del artista español Salvador Dalí y el personaje de Pixar WALL-E, es la segunda pieza de tecnología de OpenAI en menos de un año que llama la atención de los tecnólogos. En mayo, la compañía lanzó Generative Pre-training Transformer 3, o GPT-3, uno de los generadores de texto más impresionantes y parecidos a los humanos, que con una indicación de unas pocas palabras puede generar ensayos coherentes.

OpenAI ha dicho que tanto DALL-E como GPT-3 están capacitados en conjuntos de datos masivos que incluyen información pública en Wikipedia y se basan en el modelo de red neuronal transformadora, que se anunció por primera vez en diciembre de 2017 y ha sido elogiado como «particularmente revolucionario en el procesamiento del lenguaje natural. . » La compañía ha hecho pública suficiente información para tener una comprensión básica de cómo funciona DALL-E, pero se desconocen los detalles exactos de los datos en los que se entrenó.

Y ahí radica la preocupación por ese lindo rábano bebé y otras formas de medios creados por estos sistemas. En los últimos años, los expertos en tecnología y académicos han advertido que los datos utilizados para entrenar estos sistemas pueden contener sesgos sociales que terminan en el resultado de estos sistemas.

Es posible que eso no tenga ramificaciones sociales importantes para un dibujo de un rábano, pero el sesgo algorítmico ya ha comenzado a aparecer en algoritmos que han impulsado decisiones cruciales como predecir el comportamiento delictivo y calificar exámenes de colocación de alto nivel.

Un estudio publicado este mes por investigadores de las universidades de Stanford y McMaster encontró que el GPT-3 estaba persistentemente sesgado contra los musulmanes. En casi una cuarta parte de los casos de prueba del estudio, «musulmán» se correlacionó con «terrorista».

«Si bien estas asociaciones entre musulmanes y violencia se aprenden durante el entrenamiento previo, no parecen memorizarse», escribieron los investigadores, «más bien, GPT-3 manifiesta los sesgos subyacentes de manera bastante creativa, lo que demuestra la poderosa capacidad de los modelos lingüísticos para mutar sesgos de diferentes maneras, lo que puede hacer que los sesgos sean más difíciles de detectar y mitigar «.

El software capaz de generar una imagen a partir de texto no es nuevo, pero hasta la fecha se ha limitado a un género limitado (como pájaros y flores o incluso simplemente pájaros) o bastante inestable. DALL-E es impresionante por su capacidad para combinar conceptos relativamente complejos.

Como un caracol hecho con arpa.

OpenAI descubrió que DALL-E puede generar animales sintetizados a partir de una variedad de conceptos, incluidos instrumentos musicales, alimentos y artículos para el hogar. Aunque no siempre tiene éxito, descubrieron que DALL-E a veces toma en consideración las formas de los dos objetos al determinar cómo combinarlos. Por ejemplo, cuando se le pide que dibuje «un caracol hecho de arpa», a veces relaciona el pilar del arpa con la espiral de la concha del caracol.OpenAI

El generador DALL-E de OpenAI está disponible públicamente en una demostración en línea, pero está limitado a frases elegidas por la empresa. Si bien los éxitos ilustrados son indudablemente impresionantes y precisos, es difícil conocer las debilidades y preocupaciones éticas del modelo sin poder probar una variedad de palabras y conceptos en él.

«No sabemos si la demostración restringida nos impide ver resultados más problemáticos», dijo Riedl. “En algunos casos, el indicador completo utilizado para generar las imágenes también se oscurece. Es un arte redactar las indicaciones correctamente y los resultados serán mejores si la frase es una que impulsa al sistema a hacerlo mejor «.

Por supuesto, existen implicaciones sociales, tanto de casos de uso malicioso de la tecnología como de sesgos no intencionales. OpenAI dijo en su publicación de blog que modelos como estos tienen el poder de dañar a la sociedad y que tiene planes futuros para ver cómo DALL-E podría contribuir a ellos.

“Los prejuicios y el uso indebido son problemas importantes de toda la industria que OpenAI toma muy en serio como parte de nuestro compromiso con el despliegue seguro y responsable de la IA en beneficio de toda la humanidad”, dijo un portavoz de OpenAI. “Nuestros equipos de políticas y seguridad están estrechamente involucrados en la investigación sobre DALL-E”.

Hay una serie de potenciales creativos positivos en caso de que DALL-E funcione en una amplia gama de conceptos combinados y genere imágenes libres de prejuicios y discriminación. Es decir, permite a las personas crear una imagen específica adaptada a sus necesidades sin tener que aprender ciertas habilidades, lo que permite una mayor población de creadores sin automatizar a los artistas calificados sin trabajo.

“No creo que la producción de DALL-E sea de una calidad lo suficientemente alta como para reemplazar, por ejemplo, a los ilustradores, aunque podría acelerar este tipo de trabajo”, dijo Riedl.

Sin embargo, acelerar el trabajo conlleva sus propios problemas. Si bien es posible que DALL-E no deje sin trabajo a los animadores, el nuevo y poderoso software también tiende a estar listo para su explotación.

Riedl señaló algunos ejemplos, incluida la generación de contenido pornográfico. La tecnología deepfake que puede poner rostros de un humano sobre otro sin problemas se ha utilizado para generar medios no auténticos sin el consentimiento de las personas que aparecen en él. Riedl también dijo que las personas pueden usar palabras clave y frases para crear imágenes «que están destinadas a ser amenazantes, irrespetuosas o hirientes».

OpenAI dijo que ha mantenido a DALL-E fuera del uso público en un esfuerzo por asegurarse de que su nueva tecnología no se utilice para medios nefastos.

«Estamos comprometidos a realizar investigaciones adicionales y no pondríamos DALL-E a disposición general antes de incorporar las salvaguardas para mitigar el sesgo y abordar otras preocupaciones de seguridad», dijo la compañía.



Source link

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *