YouTube cambió una sola métrica en 2012. Esa semana, miles de canales dejaron de existir.

En 2016, tres ingenieros del equipo de Google Brain —Paul Covington, Jay Adams y Emre Sargin— publicaron un paper académico titulado "Deep Neural Networks for YouTube Recommendations". Es el único documento técnico oficial donde YouTube explica, con detalle real, cómo funciona su sistema de recomendación.

El paper no era marketing. Estaba dirigido a investigadores de aprendizaje automático y describía la arquitectura del sistema, los problemas que encontraron y las soluciones que adoptaron. Es la fuente más confiable disponible sobre cómo el algoritmo decide qué mostrar a quién.

Lo que sigue está basado principalmente en ese documento, con actualizaciones de lo que YouTube ha comunicado públicamente desde entonces.

El cambio que lo transformó todo: de vistas a Watch Time

El algoritmo actual de YouTube no existía antes de 2012. Hasta ese año, el sistema priorizaba vistas: cuántas veces había sido clickeado un video. El problema era previsible: los creadores aprendieron a optimizar los títulos y las miniaturas para conseguir clicks, y la calidad del contenido que seguía al click se volvió secundaria.

En 2012, YouTube anunció un cambio de métrica central: de vistas a watch time (tiempo de visualización). El razonamiento era simple: un video con 100.000 vistas de 10 segundos cada una representa mucho menos valor para el usuario que un video con 10.000 vistas completas de 10 minutos.

El efecto fue inmediato y masivo. Canales que dependían de thumbnails sensacionalistas perdieron alcance. Canales de contenido largo y retenido lo ganaron. Fue el primer ajuste mayor del algoritmo en la historia de la plataforma.

El sistema de dos etapas

El paper de 2016 describe una arquitectura en dos etapas. Entender esta estructura es esencial para entender por qué el algoritmo recomienda lo que recomienda.

Primera etapa: generación de candidatos. El sistema parte del historial de actividad del usuario —videos vistos, búsquedas realizadas, datos demográficos, hora del día, dispositivo— y lo usa para filtrar, de los cientos de millones de videos disponibles, unos cientos de candidatos potencialmente relevantes para ese usuario en ese momento. Esta etapa prioriza el recall (encontrar videos buenos) sobre la precisión (que todos los encontrados sean buenos). Es un filtro amplio.

Segunda etapa: ranking. Con esos cientos de candidatos, un segundo modelo más complejo calcula un puntaje para cada uno usando una cantidad mayor de señales. El objetivo ya no es solo relevancia sino una estimación de cuánto "disfrutará" el usuario ese video en particular. Los mejores rankeados son los que llegan a la pantalla del usuario.

La separación en dos etapas no es caprichosa: aplicar el modelo complejo de ranking a todos los videos del catálogo sería computacionalmente imposible. La primera etapa hace la tarea fácil de reducir el espacio de búsqueda; la segunda hace la tarea difícil de ordenarlo.

Las señales que el algoritmo usa

YouTube ha confirmado públicamente algunas de las señales que el sistema considera. El paper de 2016 describe otras. Combinadas:

Click-through rate (CTR): qué porcentaje de personas que ven la miniatura hace click. Una miniatura que genera clicks es señal de relevancia, pero no de satisfacción.

Watch time y retention: cuánto del video se ve en promedio. Un video de 20 minutos con 85% de retención recibe mucho mejor puntaje que uno de 3 minutos visto completamente.

Likes, dislikes y shares: señales de satisfacción post-visualización. YouTube confirmó que el ratio de likes/dislikes importa, aunque no revela su peso relativo.

Encuestas de satisfacción: desde 2018, YouTube aplica encuestas emergentes después de ciertos videos preguntando si el usuario disfrutó el contenido. Estas respuestas se usan para calibrar el modelo cuando las señales implícitas (ver el video) podrían no reflejar satisfacción real.

Frescura del contenido: el paper menciona explícitamente que los videos más nuevos reciben un impulso en las recomendaciones, independientemente de su calidad.

Historial del usuario con el canal: si un usuario ha visto muchos videos de un canal y los ha completado, el algoritmo asume que le interesa ese creador y prioriza su contenido nuevo.

Lo que el paper revela sobre los problemas del sistema

Los ingenieros de Google no presentaron su sistema como perfecto. El paper describe varios problemas que encontraron y que determinaron decisiones de diseño.

El problema del sesgo de exposición: si el algoritmo solo recomienda videos que el usuario ya vio o que son similares a lo que ya vio, los modelos aprenden a recomendar contenido muy parecido al pasado, reduciendo la diversidad. La solución fue incluir señales de "sorpresa" calculadas para ampliar el rango de candidatos.

El problema de los "clics inocentes": un usuario puede hacer click en un video por curiosidad y no disfrutarlo. Si el algoritmo solo aprende de clicks, aprende a producir curiosidad, no satisfacción. Por eso el watch time y las encuestas son más valiosos como señales que el CTR solo.

Lo que YouTube no dice

El paper de 2016 es la última descripción técnica detallada que el equipo publicó. Desde entonces, el sistema ha cambiado significativamente —YouTube lo admite— pero los detalles de esos cambios no son públicos.

Lo que sí se sabe por declaraciones públicas y experimentos externos: el sistema cambió entre 2019 y 2021 para reducir el alcance de contenido que, sin violar las reglas de la plataforma, era considerado "borderline" (desinformación limítrofe, contenido de choque, teorías conspirativas suaves). El efecto fue documentado por investigadores del NYU Stern Center for Business and Human Rights y por el proyecto Rabbithole del New York Times.

El algoritmo de 2026 no es el del paper de 2016. Pero la arquitectura de dos etapas y la centralidad del watch time siguen siendo las fundaciones sobre las que se construyó lo que vino después.

Fuente original: Deep Neural Networks for YouTube Recommendations — Google Research (2016)

El cambio que lo transformó todo: de vistas a Watch Time

El sistema de dos etapas

Las señales que el algoritmo usa

Lo que el paper revela sobre los problemas del sistema

Lo que YouTube no dice

Noticias relacionadas

268.000 fichas, 1.300 entrevistas y un Pong original: así abrió su archivo el museo de la computación

La primera página de YouTube ya está en un museo, y hubo que revivirla con Flash emulado

Arcstone: la misión que usa luz de Luna para corregir los satélites que miran la Tierra