Artwork

Contenido proporcionado por Tinku. Todo el contenido del podcast, incluidos episodios, gráficos y descripciones de podcast, lo carga y proporciona directamente Tinku o su socio de plataforma de podcast. Si cree que alguien está utilizando su trabajo protegido por derechos de autor sin su permiso, puede seguir el proceso descrito aquí https://es.player.fm/legal.
Player FM : aplicación de podcast
¡Desconecta con la aplicación Player FM !

Los investigadores advierten sobre un colapso del modelo a medida que la IA se entrena con el contenido de internet con Alejandro Guerrero

6:15
 
Compartir
 

Manage episode 366762352 series 3356152
Contenido proporcionado por Tinku. Todo el contenido del podcast, incluidos episodios, gráficos y descripciones de podcast, lo carga y proporciona directamente Tinku o su socio de plataforma de podcast. Si cree que alguien está utilizando su trabajo protegido por derechos de autor sin su permiso, puede seguir el proceso descrito aquí https://es.player.fm/legal.

La era de la IA generativa está aquí: solo seis meses después de que ChatGPT de OpenAI irrumpiera en escena, casi la mitad de los empleados de algunas de las principales empresas mundiales ya utilizan este tipo de tecnología en sus flujos de trabajo, y muchas otras empresas se apresuran a hacerlo.

Pero, como sabéis, los datos utilizados para entrenar los modelos de lenguaje extenso (LLM) y otros modelos transformadores que sustentan productos como ChatGPT, Stable Diffusion y Midjourney provienen inicialmente de fuentes humanas: libros, artículos, fotografías, etc., que se crearon sin la ayuda de la inteligencia artificial.

Ahora, a medida que más personas usan IA para producir y publicar contenido, surge una pregunta obvia: ¿Qué sucede cuando el contenido generado por IA prolifera en Internet y los modelos de IA comienzan a entrenarse en él, en lugar de en contenido generado principalmente por humanos?

[imagen Editorial 00 - Robot comiendo Robot.jpg]

Un grupo de investigadores del Reino Unido y Canadá ha analizado este mismo problema y recientemente publicó un artículo sobre su trabajo en la revista arXiv. Lo que encontraron es preocupante para la tecnología de IA generativa actual y su futuro: "Descubrimos que el uso de contenido generado por modelos en el entrenamiento causa defectos irreversibles en los modelos resultantes".

Los investigadores concluyeron que "aprender de los datos producidos por otros modelos provoca el colapso del modelo, un proceso degenerativo por el cual, con el tiempo, los modelos olvidan el verdadero subyacente"

Ilia Shumailov, en un correo electrónico a VentureBeat comentó: "Nos sorprendió observar lo rápido que ocurre el colapso del modelo: los modelos pueden olvidar rápidamente la mayoría de los datos originales de los que aprendieron inicialmente".

En otras palabras: A medida que un modelo de entrenamiento de IA está expuesto a más datos generados por IA, se desempeña peor con el tiempo, produce más errores en las respuestas y el contenido que genera, y produce mucha menos variedad no errónea en sus respuestas.

Como otro de los autores del artículo, Ross Anderson, profesor de ingeniería de seguridad en la Universidad de Cambridge y la Universidad de Edimburgo, escribió en una publicación de blog sobre el artículo: “Así como hemos esparcido los océanos con basura plástica y llenado la atmósfera con carbono dióxido, por lo que estamos a punto de llenar Internet con basura. Esto hará que sea más difícil entrenar modelos más nuevos scrapeando la web, dando una ventaja a las empresas que ya lo hicieron, o que controlan el acceso a las interfaces humanas a escala. De hecho, ya vemos empresas emergentes de IA que utilizan Internet Archive para obtener datos de capacitación”.

[imagen Editorial 01 - Internet Archive]

Ted Chiang, aclamado autor de ciencia ficción publicó recientemente un artículo en The New Yorker que postula que las copias de copias de IA darían como resultado una calidad degradante, comparando el problema con el aumento de artefactos visibles cuando uno copia una imagen JPEG repetidamente.

[imagen Editorial 02 - Película Multiplicity]

Otra forma de pensar en el problema es como la película de comedia de ciencia ficción de 1996 Multiplicity Mis dobles, mi mujer y yo, protagonizada por Michael Keaton, en la que un hombre humilde se clona a sí mismo y luego clona a los clones, cada uno de los cuales resulta en una disminución exponencial de los niveles de inteligencia y una creciente estupidez.

Cómo ocurre el 'colapso del modelo'

En esencia, el colapso del modelo ocurre cuando los datos que generan los modelos de IA terminan contaminando el conjunto de entrenamiento para los modelos posteriores.

“Los datos originales generados por humanos representan el mundo de manera más justa, es decir, también contienen datos improbables”, explicó Shumailov. “Los modelos generativos, por otro lado, tienden a sobreajustarse a los datos populares y, a menudo, malinterpretan o tergiversan los datos menos populares”.

Un ejemplo de degradación con 100

Shumailov ilustró este problema para VentureBeat con un escenario hipotético, en el que un modelo de aprendizaje automático se entrena en un conjunto de datos con imágenes de 100 gatos, 10 de ellos con pelaje azul y 90 con amarillo.

El modelo aprende que los gatos amarillos son más frecuentes, pero también representa a los gatos azules como más amarillentos de lo que realmente son, devolviendo algunos resultados de gatos verdes cuando se le pide que produzca nuevos datos.

Con el tiempo, el rasgo original del pelaje azul se erosiona a través de sucesivos ciclos de entrenamiento, cambiando de azul a verdoso y, finalmente, a amarillo. Esta distorsión progresiva y eventual pérdida de las características de los datos minoritarios es el colapso del modelo.

Para evitar esto, es importante garantizar una representación justa de los grupos minoritarios en los conjuntos de datos, tanto en términos de cantidad como de descripción precisa de las características distintivas. La tarea es desafiante debido a la dificultad de los modelos para aprender de eventos raros.

Esta "contaminación" con datos generados por IA da como resultado que los modelos adquieran una percepción distorsionada de la realidad. Incluso cuando los investigadores entrenaron a los modelos para que no produjeran demasiadas respuestas repetitivas, descubrieron que aún se producía un colapso del modelo, ya que los modelos comenzaban a inventar respuestas erróneas para evitar repetir los datos con demasiada frecuencia.

“Hay muchos otros aspectos que conducirán a implicaciones más serias, como la discriminación basada en género, etnia u otros atributos sensibles”, dijo Shumailov, especialmente si la IA generativa aprende con el tiempo a producir, digamos, una raza en sus respuestas, mientras que “olvidando” que los demás existen.

Es importante tener en cuenta que este fenómeno es distinto del "olvido catastrófico", donde los modelos pierden información previamente aprendida. Por el contrario, el colapso del modelo involucra modelos que malinterpretan la realidad en función de sus creencias reforzadas.

Los investigadores detrás de este artículo encontraron que incluso si el 10% de los datos originales creados por humanos se utilizan para entrenar el modelo en las generaciones posteriores, "el colapso del modelo aún ocurre, solo que no tan rápido", dijo Shumailov a VentureBeat.

Formas de evitar el "colapso del modelo"

Afortunadamente, existen formas de evitar el colapso del modelo, incluso con los transformadores y LLM existentes.

Los investigadores destacan dos formas específicas.

La primera es conservar una copia de prestigio del conjunto de datos original producido exclusiva o nominalmente por humanos, y evitar la contaminación con datos generados por IA. Luego, el modelo podría volver a entrenarse periódicamente con estos datos, o actualizarse completamente con ellos, comenzando desde cero.

La segunda forma de evitar la degradac...

  continue reading

128 episodios

Artwork
iconCompartir
 
Manage episode 366762352 series 3356152
Contenido proporcionado por Tinku. Todo el contenido del podcast, incluidos episodios, gráficos y descripciones de podcast, lo carga y proporciona directamente Tinku o su socio de plataforma de podcast. Si cree que alguien está utilizando su trabajo protegido por derechos de autor sin su permiso, puede seguir el proceso descrito aquí https://es.player.fm/legal.

La era de la IA generativa está aquí: solo seis meses después de que ChatGPT de OpenAI irrumpiera en escena, casi la mitad de los empleados de algunas de las principales empresas mundiales ya utilizan este tipo de tecnología en sus flujos de trabajo, y muchas otras empresas se apresuran a hacerlo.

Pero, como sabéis, los datos utilizados para entrenar los modelos de lenguaje extenso (LLM) y otros modelos transformadores que sustentan productos como ChatGPT, Stable Diffusion y Midjourney provienen inicialmente de fuentes humanas: libros, artículos, fotografías, etc., que se crearon sin la ayuda de la inteligencia artificial.

Ahora, a medida que más personas usan IA para producir y publicar contenido, surge una pregunta obvia: ¿Qué sucede cuando el contenido generado por IA prolifera en Internet y los modelos de IA comienzan a entrenarse en él, en lugar de en contenido generado principalmente por humanos?

[imagen Editorial 00 - Robot comiendo Robot.jpg]

Un grupo de investigadores del Reino Unido y Canadá ha analizado este mismo problema y recientemente publicó un artículo sobre su trabajo en la revista arXiv. Lo que encontraron es preocupante para la tecnología de IA generativa actual y su futuro: "Descubrimos que el uso de contenido generado por modelos en el entrenamiento causa defectos irreversibles en los modelos resultantes".

Los investigadores concluyeron que "aprender de los datos producidos por otros modelos provoca el colapso del modelo, un proceso degenerativo por el cual, con el tiempo, los modelos olvidan el verdadero subyacente"

Ilia Shumailov, en un correo electrónico a VentureBeat comentó: "Nos sorprendió observar lo rápido que ocurre el colapso del modelo: los modelos pueden olvidar rápidamente la mayoría de los datos originales de los que aprendieron inicialmente".

En otras palabras: A medida que un modelo de entrenamiento de IA está expuesto a más datos generados por IA, se desempeña peor con el tiempo, produce más errores en las respuestas y el contenido que genera, y produce mucha menos variedad no errónea en sus respuestas.

Como otro de los autores del artículo, Ross Anderson, profesor de ingeniería de seguridad en la Universidad de Cambridge y la Universidad de Edimburgo, escribió en una publicación de blog sobre el artículo: “Así como hemos esparcido los océanos con basura plástica y llenado la atmósfera con carbono dióxido, por lo que estamos a punto de llenar Internet con basura. Esto hará que sea más difícil entrenar modelos más nuevos scrapeando la web, dando una ventaja a las empresas que ya lo hicieron, o que controlan el acceso a las interfaces humanas a escala. De hecho, ya vemos empresas emergentes de IA que utilizan Internet Archive para obtener datos de capacitación”.

[imagen Editorial 01 - Internet Archive]

Ted Chiang, aclamado autor de ciencia ficción publicó recientemente un artículo en The New Yorker que postula que las copias de copias de IA darían como resultado una calidad degradante, comparando el problema con el aumento de artefactos visibles cuando uno copia una imagen JPEG repetidamente.

[imagen Editorial 02 - Película Multiplicity]

Otra forma de pensar en el problema es como la película de comedia de ciencia ficción de 1996 Multiplicity Mis dobles, mi mujer y yo, protagonizada por Michael Keaton, en la que un hombre humilde se clona a sí mismo y luego clona a los clones, cada uno de los cuales resulta en una disminución exponencial de los niveles de inteligencia y una creciente estupidez.

Cómo ocurre el 'colapso del modelo'

En esencia, el colapso del modelo ocurre cuando los datos que generan los modelos de IA terminan contaminando el conjunto de entrenamiento para los modelos posteriores.

“Los datos originales generados por humanos representan el mundo de manera más justa, es decir, también contienen datos improbables”, explicó Shumailov. “Los modelos generativos, por otro lado, tienden a sobreajustarse a los datos populares y, a menudo, malinterpretan o tergiversan los datos menos populares”.

Un ejemplo de degradación con 100

Shumailov ilustró este problema para VentureBeat con un escenario hipotético, en el que un modelo de aprendizaje automático se entrena en un conjunto de datos con imágenes de 100 gatos, 10 de ellos con pelaje azul y 90 con amarillo.

El modelo aprende que los gatos amarillos son más frecuentes, pero también representa a los gatos azules como más amarillentos de lo que realmente son, devolviendo algunos resultados de gatos verdes cuando se le pide que produzca nuevos datos.

Con el tiempo, el rasgo original del pelaje azul se erosiona a través de sucesivos ciclos de entrenamiento, cambiando de azul a verdoso y, finalmente, a amarillo. Esta distorsión progresiva y eventual pérdida de las características de los datos minoritarios es el colapso del modelo.

Para evitar esto, es importante garantizar una representación justa de los grupos minoritarios en los conjuntos de datos, tanto en términos de cantidad como de descripción precisa de las características distintivas. La tarea es desafiante debido a la dificultad de los modelos para aprender de eventos raros.

Esta "contaminación" con datos generados por IA da como resultado que los modelos adquieran una percepción distorsionada de la realidad. Incluso cuando los investigadores entrenaron a los modelos para que no produjeran demasiadas respuestas repetitivas, descubrieron que aún se producía un colapso del modelo, ya que los modelos comenzaban a inventar respuestas erróneas para evitar repetir los datos con demasiada frecuencia.

“Hay muchos otros aspectos que conducirán a implicaciones más serias, como la discriminación basada en género, etnia u otros atributos sensibles”, dijo Shumailov, especialmente si la IA generativa aprende con el tiempo a producir, digamos, una raza en sus respuestas, mientras que “olvidando” que los demás existen.

Es importante tener en cuenta que este fenómeno es distinto del "olvido catastrófico", donde los modelos pierden información previamente aprendida. Por el contrario, el colapso del modelo involucra modelos que malinterpretan la realidad en función de sus creencias reforzadas.

Los investigadores detrás de este artículo encontraron que incluso si el 10% de los datos originales creados por humanos se utilizan para entrenar el modelo en las generaciones posteriores, "el colapso del modelo aún ocurre, solo que no tan rápido", dijo Shumailov a VentureBeat.

Formas de evitar el "colapso del modelo"

Afortunadamente, existen formas de evitar el colapso del modelo, incluso con los transformadores y LLM existentes.

Los investigadores destacan dos formas específicas.

La primera es conservar una copia de prestigio del conjunto de datos original producido exclusiva o nominalmente por humanos, y evitar la contaminación con datos generados por IA. Luego, el modelo podría volver a entrenarse periódicamente con estos datos, o actualizarse completamente con ellos, comenzando desde cero.

La segunda forma de evitar la degradac...

  continue reading

128 episodios

Todos los episodios

×
 
Loading …

Bienvenido a Player FM!

Player FM está escaneando la web en busca de podcasts de alta calidad para que los disfrutes en este momento. Es la mejor aplicación de podcast y funciona en Android, iPhone y la web. Regístrate para sincronizar suscripciones a través de dispositivos.

 

Guia de referencia rapida