Un nuevo día, un nuevo debate en torno a la inteligencia artificial. Esta vez, Meta fue acusada de utilizar contenido pirateado de torrents para entrenar Llama, el modelo de lenguaje grande (LLM) que impulsa Meta AI. El caso fue una de las primeras demandas por derechos de autor presentadas contra una empresa de tecnología de formación de IA.
La documentación muestra que Meta AI fue entrenada con contenido pirateado.
Como se informó cableadoMeta fue demandada en 2023 por enseñar a Llama, el LLM de la empresa, con contenido pirateado. El caso pasó a conocerse como “Kadrey et al.” do. Meta Platforms” y fue presentada por los autores de la novela, Richard Kadrey y Christopher Golden, quienes afirmaron que Meta estaba usando contenido protegido por derechos de autor sin permiso.
Hasta entonces, Meta había presentado documentos con información censurada ante el tribunal, pero el juez de distrito estadounidense Vince Chhabria ordenó que los documentos originales se hicieran públicos, y así lo hicieron.
Los documentos muestran conversaciones del personal de Meta sobre Meta AI y Llama. En una de las conversaciones, el ingeniero dijo “de torrent a [Meta-owned] La computadora portátil corporativa no se siente bien”, lo que confirma que la empresa utilizó contenido pirateado para entrenar su IA. Otra conversación revela que “MZ” (Mark Zukeberg) ha autorizado el uso de material pirateado.
La evidencia sugiere que Meta utilizó el contenido de LibGen, una gran biblioteca de libros, revistas y artículos académicos pirateados. LibGen se creó en Rusia en 2008 y desde entonces ha sido objeto de numerosas demandas de derechos de autor, aunque nadie sabe quién dirige realmente el “centro de piratería”. Meta también ha utilizado contenido de otras “bibliotecas en la sombra” para entrenar la inteligencia artificial.
La compañía dijo que utilizó material público bajo la doctrina legal de “uso justo”, que permite el uso no autorizado de contenido protegido por derechos de autor en determinadas circunstancias que se analizan caso por caso. Meta también afirma que se trata simplemente de “usar texto para modelar estadísticamente el lenguaje y generar expresión original”.
¿Qué pasa con la inteligencia de Apple?
Esta no es la primera vez que se acusa a las grandes tecnológicas de entrenar modelos de inteligencia artificial con contenido protegido por derechos de autor. El año pasado, una investigación encontró que el modelo OpenELM de Apple contenía subtítulos para más de 170.000 vídeos de YouTube.
Si bien esto inicialmente llevó a la gente a creer que estaban usando contenido protegido por derechos de autor para entrenar Apple Intelligence, la compañía luego aclaró que OpenELM es un modelo de código abierto creado con fines de investigación y que su base de datos no se utiliza para impulsar Apple Intelligence.
Según Apple, sus funciones de inteligencia artificial disponibles en iOS y macOS “utilizan datos con licencia, incluida información seleccionada para mejorar ciertas funciones, así como datos disponibles públicamente recopilados por nuestro navegador web”.
Vale la pena señalar que muchas grandes editoriales Los New York Times y atlántico han optado por no compartir su contenido con Apple Intelligence Training.