Apple utilizó datos de YouTube para entrenar su IA, según Proof News. Es un desafío para los términos del servicioJavier Marquez

16 de julio de 2024
Posted by

Aunque todavía tienen mucho que mejorar, los chatbots de inteligencia artificial (IA) no dejan de sorprendernos con su capacidad para mantener conversaciones fluidas, responder a preguntas, analizar datos, entre muchas otras tareas. Para que todo esto sea posible, no obstante, las compañías de IA necesitan entrenar a los modelos de lenguaje que impulsan sus aplicaciones con ingentes cantidades de datos.

En la actualidad este es un tema que levanta cierta controversia. Los gigantes tecnológicos que desarrollan algunas de las soluciones de IA más importantes del momento no son demasiado explicativos a la hora de informar de dónde provienen los datos de entrenamiento utilizados. Ahora, una investigación de Proof News señala que firmas como Apple, Anthropic, Nvidia y Salesforce utilizaron datos de YouTube.

Subtítulos de YouTube para entrenar modelos de IA

El informe dice que una organización sin ánimos de lucro denominada EleutherAI recopiló los subtítulos de 173.536 vídeos de YouTube, extraídos de más de 48.000 canales. Los datos recopilados, que no incluían imágenes de vídeo, sino texto sin formato de los vídeos, generalmente con traducciones a diferentes idiomas, fueron utilizados para crear un conjunto de datos titulado “YouTube Subtitles”.

YouTube Subtitles, explican, incluye material de creador de contenidos como MrBeast y Marques Brownlee. También hay datos de canales educativos como Khan Academy, MIT y Harvard. El conjunto de datos de los subtítulos de YouTube, a su vez, forma parte de “Pile”, un set de entrenamiento conformado por 22 conjuntos de datos que también incluye material del Parlamento Europeo, Wikipedia en inglés y más.

La investigación añade que Pile está abierto al público. Bajo esta premisa, una gran cantidad de académicos y compañías los han utilizado para sus trabajos relacionados a la IA. Entre ellos se encuentran las mencionadas tecnológicas estadounidenses, que no tomaron los datos directamente desde YouTube, sino que se sirvieron del trabajo realizado por EleutherAI para entrenar algunos de sus modelos de IA.

Los términos de servicio de YouTube

El presente escenario nos lleva a preguntarnos qué papel juegan los términos de servicio de YouTube. A comienzos del segundo trimestre del año, el CEO de YouTube, Neal Mohan, brindó una respuesta bastante interesante tras ser preguntado si creía que OpenAI estaba entrenando Sora con material de su plataforma de vídeos.

Mohan dijo que si bien cierto contenido de YouTube, como el título del vídeo, el nombre del canal o el nombre del creador están expuestos a la tarea web scraping (raspado web) para que pueda aparecer en los motores de búsqueda, las reglas actuales no permiten la descarga de los vídeos o sus transcripciones.

Las transcripciones son, en esencia, la materia prima de los subtítulos, porque contienen el texto de lo que se dice en el video. En este sentido, el ejecutivo no dudó en afirmar en abril de este año que la descarga de transcripciones o fragmentos de vídeos es una “clara infracción” de los términos de servicio de la plataforma.

En Xataka

Hacer este anuncio habría demandado mucho tiempo y dinero. Alguien lo hizo en menos de 24 horas con la IA de Runway

Aquí, precisamente, entra en escena una segunda cuestión. Si bien el informe asegura que Apple, Anthropic, Nvidia y Salesforce utilizaron subtítulos de YouTube para entrenar algunos de sus modelos, no fueron estas compañías las que rasparon la plataforma para obtener estos datos. De esta tarea se encargó EleutherAI. Entonces, la gran pregunta es: si hay una infracción, ¿de quién es la responsabilidad?

Imágenes | Freepik |

En Xataka | 5.000 «tokens» de mi blog están siendo usados para entrenar una IA. No he dado mi permiso

En Xataka | OpenAI tiene un nuevo proyecto secreto, según Reuters: ‘Strawberry’ podrá razonar y hacer tareas complejas

–
La noticia

Apple utilizó datos de YouTube para entrenar su IA, según Proof News. Es un desafío para los términos del servicio

fue publicada originalmente en

Xataka

por
Javier Marquez

.

Apple utilizó datos de YouTube para entrenar su IA, según Proof News. Es un desafío para los términos del servicioJavier Marquez

Subtítulos de YouTube para entrenar modelos de IA

Los términos de servicio de YouTube

La nave europea Juice está a punto de realizar una maniobra que nadie había intentado: «El más mínimo error sería el fin»Matías S. Zavia

Argentina va a lanzar la licencia de conducir «vitalicia». Cómo funciona el sistema que elimina los pagos por renovarMiguel Jorge

China demostró una precisión asombrosa al rastrear un asteroide con sus satélites. Tanto que asustó a Estados UnidosMatías S. Zavia

El nuevo Gemini demuestra una ambición de Google: que hablemos sin parar con nuestro móvilJavier Marquez

Google Pixel 9 Pro Fold: el plegable crece en pantalla y fortalece sus cámarasJavier Pastor

Explicando el cacao de la nueva señal de velocidad verde: qué es y, sobre todo, qué no esJose García

Google Pixel Buds Pro 2: el chip Tensor A1 llega a los primeros auriculares diseñados para Google GeminiJuan Carlos López

Google Pixel 9 Pro y Pixel 9 Pro XL: dos tamaños y el nuevo Tensor G4 para luchar por ser el mejor Android del añoEnrique Pérez

Google Pixel 9: no tiene el apellido Pro, pero volverá a ser una de las compras más inteligentesEnrique Pérez

Google Pixel Watch 3: el nuevo smartwatch de Google llega en dos tamaños y le teme menos al solJose García

Un tsunami arrasó Sevilla hace 1.800 años. Es la prueba de que ni siquiera Andalucía está libre de maremotosAlbert Sanchis

Aún estamos a tiempo de ver las Perseidas, la lluvia de estrellas más importante del añoPablo Martínez-Juarez

Deja una respuesta Cancelar la respuesta

Encuentra cualquier producto y compara el mejor precio

Todas las ofertas en un solo portal: Offeralia

Productos de las tiendas online más importantes

Pago 100% seguro en los productos propios

Sobre Offeralia

¡Únete!

¡Únete!

Síguenos

Únete a Offeralia y
consigue tú descuento

Apple utilizó datos de YouTube para entrenar su IA, según Proof News. Es un desafío para los términos del servicioJavier Marquez​

Subtítulos de YouTube para entrenar modelos de IA

Los términos de servicio de YouTube

Related Posts

Deja una respuesta Cancelar la respuesta

Encuentra cualquier producto y compara el mejor precio

Todas las ofertas en un solo portal: Offeralia

Productos de las tiendas online más importantes

Pago 100% seguro en los productos propios

Sobre Offeralia

¡Únete!

¡Únete!

Síguenos

Únete a Offeralia y consigue tú descuento

Apple utilizó datos de YouTube para entrenar su IA, según Proof News. Es un desafío para los términos del servicioJavier Marquez

Únete a Offeralia y
consigue tú descuento