Netflix experimenta contigo: el secreto del A/B testing

 

Una de las herramientas más necesarias, a la par que poco utilizadas,  en el mundo del Marketing Digital es el A/B Testing. Los experimentos con distintas versiones de una misma web o producto impactando sobre usuarios aleatorios tienen por objetivo determinar cuál de ellas es más efectiva y esta técnica nunca ha sido tan fácil gracias a la llegada de Internet. Gracias a él, a los marketeros se nos ha permitido reaccionar en directo ante el comportamiento de los usuarios, lanzando, modificando o implementando las conclusiones resultantes de estos tests.

El A/B testing siempre se compone de varias opciones, siendo una de ellas la de referencia, denominada habitualmente de “control”, y las restantes denominadas “variantes”. ¿Cuál es su objetivo? Mejorar los ratios de: click, visualización, descarga, compra… en definitiva, de conversión.

Y, en este sentido, Netflix se lleva la medalla de oro. A través de su blog, no han dudado en transmitir al mundo la forma en la que les utilizan para experimentar y conseguir con ello aumentar las visualizaciones de su contenido multimedia más de un 30%. Nosotros lo agradecemos enormemente, porque así contamos con un ejemplo más evidente y sonado para convencernos tanto a nosotros mismos como a vosotros de que el A/B testing es una de las mejores opciones para las webs o blogs (en un futuro os hablaremos de las herramientas más adecuadas para que lo llevéis a cabo).

Experimentando con imágenes: ejemplo de éxito

Los experimentos de Netflix abarcan numerosas áreas dentro de su plataforma;

  • En el proceso de promoción de una serie previo a su lanzamiento: trailers, recomendaciones, avances.
  • Cuando la serie está realmente lanzada, con pruebas en el algoritmo de recomendación a los usuarios o en las imágenes que se muestran en la pantalla de inicio, entre otras.
  • También realizan A/B testings con respecto a la plataforma a nivel global: diseño, nuevas funcionalidades.

Sus objetivos principales son mejorar la usabilidad, el engagement y las horas de reproducción globales en streaming de los usuarios. ¿Por qué? Para que el usuario siga inscrito en la plataforma e incluso dé un paso más allá recomendándola a amigos y familiares.

Como una imagen vale más que mil palabras, vamos a ver más al detalle las características de una de sus pruebas más importantes: la relativa a las creatividades que representan a una serie. Son las que se muestran en la pantalla de inicio de sus usuarios, bien como fondo o bien como vista en miniatura:

netflixab-9.png
Fuente: invisionapp

Netlix ha comprobado que, cuando un usuario vé un contenido audiovisual (serie, película, documental) en la pantalla de inicio de su App, pese a que esta esté compuesta de imagen, descripción, puntuación o título, lo que realmente hace es mirar primero la creatividad y después decidir si observa o no la información adicional. Sabiendo esto, se preguntaron cómo mejorar el ratio de clics para ese primer vistazo, concluyendo en la preocupación por conseguir una imagen que trasmitiese el espíritu del producto y que inicitase a que el usuario empezara la reproducción. Fue entonces cuando, desde Netflix, crearon diferentes portadas para cada producto, una gran novedad al estar acostumbrados a aprovechar las imágenes de promoción ya generadas (para carteles, DVDs y demás productos) dando por hecho que serían las que mejor funcionarían.

A partir de aquí, decidieron empezar los experimentos de A/B testing para encontrar la mejor creatividad para cada producto, optimizando la experiencia del usuario y su engagement, siendo asimismo importante que la persona no dejara de ver un producto para empezar otro nuevo, sino que el total de reproducciones por parte del usuario aumentara de forma signficante.

Para hacer estos experimentos, probaron tres técnicas:

  • Técnica 1: Un único test con múltiples grupos de usuarios. Así, probaron con la película “The Short Game” a ofrecer a la Célula de Control la misma carátula que al resto de usuarios de Netflix, a la Célula 2 una variación de la misma y a la Célula 3 otra opción diferente. Su objetivo era expandir el target de la película, ya que la carátula por defecto daba a entender que era una película para niños, mientras que las nuevas pruebas sugerían que a los adultos también les podía interesar. Consiguieron entonces unas mejoras del 6% (Célula 3) y del 14% (Célula 4). Con estos resultados, decidieron probar con más títulos para ver si se repetía el éxito.
netflix_AB_tecnica1.png
Fuente: Blog de Netflix
  • Técnica 2: crearon cuatro Células para el experimento. A la primera de ellas, le mostraron todas las creatividades por defecto, mientras que en el resto introdujeron las nuevas carátulas de todos los títulos (variación 1 para la Célula 2, variación 2 para la Célula 3 y variación 3 para la Célula 4). Con los resultados obtenidos, crearon un nuevo test mostrando a la primera de ellas las creatividades por defecto y, al resto, las carátulas ganadoras en cada una de las métricas que habían medido: variaciones ganadoras de métrica 1 para la Célula 2, variaciones ganadoras de métrica 2 para la Célula 3, variaciones ganadoras de métrica 3 para la Célula 4. Gracias a estos experimentos, consiguieron mejorar los visionados de los títulos y el total de horas reproducidas y no afectaron a otras métricas como las reproducciones de corta duración o el porcentaje de contenido visualizado.

Dentro de esta técnica, se enfrentaron a diferentes problemas y decisiones, como que la mayor parte de las acciones a medir se trataban de microeventos (un usuario se queda mirando más de X segundos una carátula y toma una decisión) o la creación de indentificadores (ID) comunes para los experimentos de todos los países (pese a que contuvieran idiomas distintos) con el objetivo de tener más datos para sacar conclusiones.

  • Técnica 3: fueron capaces de crear experimentos en paralelo para cada uno de los títulos. ¿Por qué se trataba de la mejor de las técnicas? Porque así no tenían en circulación carátulas con pésimos ratios de click, sobre todo cuando se trataba de sus títulos estrella, y podían tomar mejores decisiones desagregadas. Además, de esta tercera manera, podían decidir probar solo 2 variaciones en un título y 10 variaciones en otro. Así, todos los miembros de Netflix son considerados una única Célula, decidiendo de fórma dinámica qué creatividad se les muestra justo antes de que aparezca en sus pantallas. Obtuvieron resultados mucho mejores y más rápidos que en el experimento 2 y siguen trabajando en esta línea.

Aquí un par de ejemplos de las carátulas que mejor funcionaron a raiz de estos experimentos (marcadas con flecha verde):

hab_dragons_rtte
Experimento de carátulas para la película “Dragons”
hab_uks_1_arrow
Experimento de carátulas para “Unbreakable Kimmy Schmidt”

Como conclusiones globales, las carátulas que mejoraron más los ratios de reproducción y de engagement fueron las que contenían expresiones faciales afines al tono del contenido en cuestión, así como aquellas en las que se podía ver a los personajes más reconocibles o polémicos.

La maquinaria de Netflix para experimentar

Pero detrás de estos experimentos hay mucho más trabajo. La compañía de multimedia en streaming, nos ha facilitado también las claves sobre el conjunto de herramientas que forman su complejo sistema de tests A/B.

En primer lugar, podemos hablar de la selección de usuarios para este tipo de tests. En este sentido, existen dos formas de construir grupos de usuarios: Asignaciones en bloque y Asignaciones en directo. La primera de ellas, consiste en obtener los usuarios de lotes previamente guardados. El principal problema de esta opción es la imposibilidad de localizar a usuarios recientes, así como la incapacidad de garantizar que estos usuarios experimentarán el test, ya que nadie nos puede asegurar que cada miembro asignado se conectará y usará nuestra plataforma durante el periodo determinado.

Precisamente ante este último problema, Netflix se puso las pilas con las Asignaciones en directo, en las que el sistema comprueba en tiempo real, dado un usuario accediendo desde un país a través de una plataforma concreta, si este coincide con los criterios para efectuar alguno de los tests que están produciéndose en el momento. Como resultado, nos aseguramos de que todos los usuarios del estudio están usando la plataforma.

Pero esta opción también tiene otros problemas, principalmente las posibles latencias o retardos en la entrega de la información al usuario. Este dato es más significante en dispositivos móviles donde, debido al ancho de banda limitado, Netflix ha decidido limitar este tipo de tests. Como solución parcial, la plataforma permite ya analizar al usuario y asignarle un test mientras la aplicación realiza otros procesos de forma paralela, reduciendo los tiempos de carga.

En segundo lugar, analizaremos el proceso con el que Netflix muestra a los usuarios este tipo de tests:

  • El proceso general implica una App, por ejemplo la de la PS4 (PlayStation) como punto de partida. Desde esta App, se capturan y se transmiten a un cliente A/B los datos del usuario, tales como plataforma, país, conexión, etc.
  • Entonces, el cliente A/B hace una llamada al servidor A/B trasmitiéndole toda esta información y comprobando así si hay algún test asignado a dicho usuario o bien cumple los criterios para ser asignado en directo a algún test que utilice esta forma de asignación.
  • Por último, la PS4 sabrá entonces qué versión de la plataforma debe mostrar al usuario (por ejemplo, una variante de la imagen de promoción de una serie frente a la genérica, que es la que verá el usuario común).

Proceso_AB_Netflix.png

Y, finalmente, haremos un repaso por las principales herramientas de la plataforma de experimentación propiamente dicha, que son aquellas que se encuentran dentro de lo que hemos llamado servidor A/B:

  • Cassandra y EVCache: son las herramientas que ayudan a identificar si un usuario está dentro de alguno de los grupos de Asignación de los experimentos.
  • Hadoop, Kafka, Ignite, Spark y ABlaze: Son herramientas de almacenamiento, análisis y visualización de datos que utiliza Netflix. Gracias a Kafka y Hadoop, los ingenieros que están detrás de los tests son capaces de analizar las métricas que les interesan y evaluar los resultados de sus pruebas. Por otro lado, gracias a Spark y a Ignite, Netflix ha implementado la visualización de resultados en streaming, ya que Spark es un framework que facilita la transmisión de información básica prácticamente en tiempo real hacia ABlaze. Su objetivo es que cada vez haya más datos que puedan verse en directo, en lugar de tener que esperar a que sean procesados.

herramientas_AB_Netflix

Aquí podéis ver una captura de ABlaze, que viene a ser la última herramienta del proceso de A/B testing de Netflix:

ABLAZE_Netflix

Esperamos que os haya gustado este post-análisis y damos las gracias a invisionapp y a Netflix por los datos proporcionados. Si os interesan nuestras noticias, ya sabéis que podéis suscribiros a la Newsletter para recibir emails periódicos con las últimas noticias y recursos digitales: Suscríbete a nuestro Blog de Marketing Digital.

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *