Los correos de Meta revelan que descargó 81,7 TB de libros con copyright vía BitTorrent para entrenar sus modelos de IA

En el proceso legal Kadrey contra Meta se acusa a la empresa de Mark Zuckerberg de haber utilizado obras protegidas por los derechos de autor para entrenar sus modelos de inteligencia artificial. Hace unas semanas ya se desveló que Zuckerberg había dado el visto bueno para usar libros pirateados, pero ahora llegan nuevas y potentes evidencias de este saqueo. Correos desvelados. El "apéndice A" del caso incluye varios mensajes de correo electrónico de empleados de Meta en los que se revela que, en efecto, hubo descargas masivas de datos en forma de libros protegidos por derechos de autor. Una de las empleadas, Melanie Kambadur, mostraba su rechazo a hacer esa recolección de datos en octubre de 2022. En Xataka Google tiene claro cómo va a entrenar sus modelos de IA. Cogiendo todo lo que publiquemos en internet "Descargar con torrents desde un portátil de la empresa no parece buena idea". En abril de 2023 Nikolay Bashlykov, uno de los responsables de llevar a cabo esta recolección de datos, bromeaba incluyendo emojis e indicaba que la empresa tendría que tener cuidado con la IP desde la que descargaban los datos. Meta conocía los riesgos. En septiembre de ese año Bashlykov ya dejaba de usar emoticonos y avisaba de que usar torrentes implicaría actuar como "semillas" para que otros también los descargasen, y "eso podría no estar bien legalmente". Estos debates son una prueba de que Meta sabía que este tipo de actividad era ilegal, según los autores que han demandado a la compañía. Borrando las huellas. En un mensaje interno el investigador de Meta Frank Zhang indicó cómo la empresa evitó usar sus servidores al descargar este conjunto de datos para "evitar" "el riesgo de que cualquiera pueda trazar a la semilla" y a quien descargaba esos datos. 81,7 TB de datos. Como señalan en Ars Technica, las pruebas muestran que Meta descargó vía torrent al menos 81,7 terabytes de datos de diversas bibliotecas que ofrecen esos libros protegidos por derechos de autor. En un nuevo documento del proceso legal se indicaba que al menos 35,7 TB se habían descargado de sitios como Z-Library o LibGen (que acabó cerrándose el verano pasado). Meta quiere desestimar esos cargos. Meta ha presentado una moción para desestimar esas acusaciones indicando que no había evidencias de que ningún libro fuera descargado por empleados de Meta a través de Torrent o que fueron distribuidos luego por Meta. En Xataka nos hemos puesto en contacto con la compañía, y actualizaremos esta noticia si recibimos comentarios sobre el caso. Saqueo a fuego de internet. Estos datos vuelven a incidir en las discutibles prácticas que las empresas de IA están utilizando para entrenar sus modelos. Lo vimos con Google, y desde luego también con OpenAI, que usó millones de textos para entrenar a ChatGPT, y muchos de ellos tenían copyright. Perplexity estuvo en el punto de mira tras descubrirse que se saltaba a la torera las reglas de internet para evitar muros de pago y alimentar su modelo de IA. Se están normalizando los robos de internet. Lo asombroso de todo esto es que el hecho de que todas las empresas estén saltándose las normas y violando los derechos de autor parece estar normalizando el saqueo de internet. Casi no da tiempo a escandalizarse y lo damos casi ya como una política de hechos consumados para poder seguir a lo nuestro. ¿De verdad esto es un "uso justo"? Todas las empresas se escudan en el concepto del "uso justo" ("fair use"). Este concepto desarrollado en el derecho anglosajón permite  el uso limitado de material protegido sin que sea necesario pedir permiso por hacerlo. Las demandas por violaciones de copyright no han parado de llegar en el mundo de la IA generativa, pero parecen estar quedando en un segundo plano mientras estos gigantes prosperan. En Xataka | 5.000 "tokens" de mi blog están siendo usados para entrenar una IA. No he dado mi permiso - La noticia Los correos de Meta revelan que descargó 81,7 TB de libros con copyright vía BitTorrent para entrenar sus modelos de IA fue publicada originalmente en Xataka por Javier Pastor .

Feb 7, 2025 - 13:19
 0
Los correos de Meta revelan que descargó 81,7 TB de libros con copyright vía BitTorrent para entrenar sus modelos de IA

Los correos de Meta revelan que descargó 81,7 TB de libros con copyright vía BitTorrent para entrenar sus modelos de IA

En el proceso legal Kadrey contra Meta se acusa a la empresa de Mark Zuckerberg de haber utilizado obras protegidas por los derechos de autor para entrenar sus modelos de inteligencia artificial. Hace unas semanas ya se desveló que Zuckerberg había dado el visto bueno para usar libros pirateados, pero ahora llegan nuevas y potentes evidencias de este saqueo.

Correos desvelados. El "apéndice A" del caso incluye varios mensajes de correo electrónico de empleados de Meta en los que se revela que, en efecto, hubo descargas masivas de datos en forma de libros protegidos por derechos de autor. Una de las empleadas, Melanie Kambadur, mostraba su rechazo a hacer esa recolección de datos en octubre de 2022.

"Descargar con torrents desde un portátil de la empresa no parece buena idea". En abril de 2023 Nikolay Bashlykov, uno de los responsables de llevar a cabo esta recolección de datos, bromeaba incluyendo emojis e indicaba que la empresa tendría que tener cuidado con la IP desde la que descargaban los datos.

Meta conocía los riesgos. En septiembre de ese año Bashlykov ya dejaba de usar emoticonos y avisaba de que usar torrentes implicaría actuar como "semillas" para que otros también los descargasen, y "eso podría no estar bien legalmente". Estos debates son una prueba de que Meta sabía que este tipo de actividad era ilegal, según los autores que han demandado a la compañía.

Borrando las huellas. En un mensaje interno el investigador de Meta Frank Zhang indicó cómo la empresa evitó usar sus servidores al descargar este conjunto de datos para "evitar" "el riesgo de que cualquiera pueda trazar a la semilla" y a quien descargaba esos datos.

81,7 TB de datos. Como señalan en Ars Technica, las pruebas muestran que Meta descargó vía torrent al menos 81,7 terabytes de datos de diversas bibliotecas que ofrecen esos libros protegidos por derechos de autor. En un nuevo documento del proceso legal se indicaba que al menos 35,7 TB se habían descargado de sitios como Z-Library o LibGen (que acabó cerrándose el verano pasado).

Meta quiere desestimar esos cargos. Meta ha presentado una moción para desestimar esas acusaciones indicando que no había evidencias de que ningún libro fuera descargado por empleados de Meta a través de Torrent o que fueron distribuidos luego por Meta. En Xataka nos hemos puesto en contacto con la compañía, y actualizaremos esta noticia si recibimos comentarios sobre el caso.

Saqueo a fuego de internet. Estos datos vuelven a incidir en las discutibles prácticas que las empresas de IA están utilizando para entrenar sus modelos. Lo vimos con Google, y desde luego también con OpenAI, que usó millones de textos para entrenar a ChatGPT, y muchos de ellos tenían copyright. Perplexity estuvo en el punto de mira tras descubrirse que se saltaba a la torera las reglas de internet para evitar muros de pago y alimentar su modelo de IA.

Se están normalizando los robos de internet. Lo asombroso de todo esto es que el hecho de que todas las empresas estén saltándose las normas y violando los derechos de autor parece estar normalizando el saqueo de internet. Casi no da tiempo a escandalizarse y lo damos casi ya como una política de hechos consumados para poder seguir a lo nuestro.

¿De verdad esto es un "uso justo"? Todas las empresas se escudan en el concepto del "uso justo" ("fair use"). Este concepto desarrollado en el derecho anglosajón permite  el uso limitado de material protegido sin que sea necesario pedir permiso por hacerlo. Las demandas por violaciones de copyright no han parado de llegar en el mundo de la IA generativa, pero parecen estar quedando en un segundo plano mientras estos gigantes prosperan.

En Xataka | 5.000 "tokens" de mi blog están siendo usados para entrenar una IA. No he dado mi permiso

-
La noticia Los correos de Meta revelan que descargó 81,7 TB de libros con copyright vía BitTorrent para entrenar sus modelos de IA fue publicada originalmente en Xataka por Javier Pastor .