Big Data y el fenómeno Netflix/House of Cards

Hace algunos día leí un artículo publicado en la edición digital de Publimetro titulado “10 razones por las que no queremos ver televisión colombiana”. Entre otras cosas, el artículo comenta que las producciones Colombianas no volvieron a marcar los ratings de hace algunos años y expone algunas de las razones por la cuales la autora considera que se está presentando este fenómeno.

Independiente de la calidad literaria (e incluso sintáctica) del artículo, plantea una pregunta muy interesante. Que es lo que realmente queremos ver los Colombianos?

En el negocio de la televisión, no existe tal cosa como un éxito seguro. Se puede tener un director de primera, un(a) protagonista popular y un concepto innovador y sin embargo sigue siendo una verdadera ruleta.

O por lo menos ha sido así hasta ahora…

En cualquier negocio, la habilidad de ver el futuro es el santo grial, y Netflix puede estar cerca con “House of Cards”. La serie, dirigida por David Fincher (La Red Social), protagonizada por Kevin Spacey (Belleza Americana, Quiero Matar a Mi Jefe) y basada en una popular serie Británica, es hoy en día la pieza de contenido más descargada de Estados Unidos y 40 otros países, de acuerdo con Netflix. Lo que es asombroso es que las ejecutivos de la compañía sabían que iba a ser un éxito antes de que nadie pudiera gritar “acción”.

Vale la pena resaltar que House of Cards cuenta con una serie de elementos que nunca antes se habían visto. Es la primera gran serie de televisión en “saltarse” completamente el ecosistema usual de cadenas y operadores de cable. Es también la primera vez que una serie lanza una temporada completa (13 episodios) al mismo tiempo, de modo que la audiencia los pueda ver a su propio ritmo. Finalmente, es la primera vez que la programación ha sido desarrollada con la ayuda de algoritmos de Big Data.

Y esto fue precisamente lo que hizo Netflix. La empresa, que cuenta con 27 millones de suscriptores en EE.UU. y 33 millones mundialmente, procesó los datos y observó los números. Desde antes sabía que una buena cantidad de suscriptores habían descargado la obra de David Fincher, director de la Red Social, de principio a fin. Sabía también que las películas con Kevin Spacey tenían éxito, así como la versión británica de “House of Cards”. Con estos tres círculos de interés, Netflix fue capaz de definir una intersección del diagrama de Venn que sugería que comprar la seria podía ser una muy buena apuesta en su estrategia de contenido original.

Jonathan Friedland, director de comunicaciones de Netflix, lo expresó de esta manera: “Dado que tenemos una relación directa con nuestros clientes, sabemos lo que a la gente le gusta mirar y esto nos ayuda a entender que tan grande será el interés por un programa particular. Esto nos dio cierta confianza de que podíamos encontrar una audiencia para una serie como House of Cards”. 

Y esto se logra con datos, muchos, muchos datos. Cuantos datos exactamente? De acuerdo con GigaOm, Netflix observa cerca de 30 millones de “plays” por día, incluyendo cuando se pausa, rebobina y adelanta, cuatro millones de puntuaciones de sus suscriptores, tres millones de búsquedas así como la hora del día a la que el contenido esta siendo consumido y en que dispositivos.

Netflix puede nos saber exactamente por que las personas pausan un programa, pero si suficientes personas pausan, rebobinan o adelantas al mismo tiempo durante el mismo programa, los analistas de datos pueden comenzar a hacer algunas inferencias. Quizá el nivel de acción se redujo demasiado y la audiencia perdió interés. Quizá esa escena de sexo fue tan cautivante que debía ser vista nuevamente. Si suficientes personas nunca reinician el programa después de una pausa, la inferencia podría ser aun más poderosa: el programa apesta!

Basado en esta información, Neflix compró House of Cards. Adicionalmente está produciendo nuevos episodios de “Arrested Development”, y en Abril, comenzará a emitir capítulos de “Hemlock Grove”, un thriller de horror basado en la novela del mismo nombre.

Otro elemento que llamó la atención fue el número de trailers. House of Cards no tuvo uno solo, tuvo muchos y variados. Los fanáticos de Kevin Spacey vieron trailers donde el era el protagonista, mujeres que veían “Thelma and Louise” vieron trailers que presentaban a los personajes femeninos y cinéfilos conocedores vieron trailers que reflejaban el toque de David Fincher.

La pregunta intersante y posiblemente inquietante es si la dependencia en Big Data podría comenzar a sesgar la creación de contenido hacia direcciones particulares. Que pasará cuando los directores entren a las salas de edición armados con el conocimiento de que cierto subgrupo de suscriptores se opone a un tipo específico de contenido, o disfruta de grotescas escenas de tortura o solo quiere ver escenas de sexo. Es esto lo que nos va a ofrecer? Ya hemos visto lo que sucede cuando publicaciones noticiosas se especializan solo en entregar contenido en línea para maximizar el número de visitas. No siempre es el mejor espectáculo. Realmente queremos que las decisiones creativas acerca de como debe ser un programa estén definidas por un algoritmo que cuenta la cantidad de veces que pausamos y no reiniciamos?

El debate está abierto…

Una cosa si es cierta. La cantidad de datos puros disponibles hoy es fenomenal y está creciendo a tases impresionantes. Las organizaciones que encuentren la forma de generar información, conocimiento y sabiduría a partir de estos datos sabrán más de nosotros que nosotros mismos, y tendrán la capacidad de diseñar estrategias y mecanismos para llevarnos en la dirección que deseen.

Tagged with: , , ,
Publicado en Uncategorized

Más Alla Del BI: Casos de Uso de Big Data Analytics

En este artículo, quiero discutir los tipos y características de casos de usos de soluciones analíticas de Big Data, como se diferencian de los casos de uso tradicionales de Inteligencia de Negocios y los beneficios de negocio y retornos de inversión que los usuarios pueden esperar de soluciones analíticas de Big Data.

Características de las soluciones analíticas de Big Data

Las soluciones analíticas de Big Data están revolucionando la forma en que los individuos, negocios, y gobiernos recolectan, almacenan y analizan los datos. Motivados por la explosión en el volumen, variedad y velocidad de los datos disponibles, las soluciones analíticas de Big Data están respondiendo a nuevas preguntas así como ofreciendo respuestas más completas y precisas a preguntas que existían hace décadas.

El mundo ha evolucionado de una sociedad basada en as transacciones, a una sociedad basada en las interacciones a medida que todos nosotros interactuamos mucha más a través de correos electrónicos, SMS, redes sociales y la Web. Esto ha creado una explosión de datos en volumen y tipo que no hubiéramos podido imaginar hace algunos años.

El mercado a respondido a “big data” con nuevas tecnologías que almacenan y analizan cualquier volumen y tipo de datos. La tecnología líder es Hadoop, una plataforma de almacenamiento y computación libre que aprovecha hardware de bajo costo y puede ser escalada a miles de servidores. Hadoop y las soluciones analíticas de Big Data que corren nativamente sobre Hadoop ofrecen reducciones dramáticas de costo a las organizaciones. Estas aplicaciones analíticas de Big Data son claves para los usuarios finales debido a que Hadoop por si solo no tiene una interfaz de usuario y requiere de codificación para poder desempeñar cualquier integración u operación analítica.

Diferencias entre casos de uso de BI y Big Data

Business Intelligence

Business Intelligence es una tecnología comprobada que recolecta transacciones y datos relacionados de bases de datos relevantes (requiere de una solución de ETL cuando los datos son almacenados en más de una base de datos) y luego genera reportes y tableros de control a partir de estos datos. Estos datos son generalmente organizados en un modelo de datos que ayuda a prevenir limitaciones de hardware tradicionales al limitar el número de queries a un número de preguntas conocidas. Las soluciones de BI son muy buenas para generar reportes a partir de volúmenes moderados de data estructurada.

Big Data

La ventaja de la soluciones analíticas de Big Data están centradas en los beneficios de los usuarios para integrar, analizar y visualizar cualquier tipo de datos para encontrar información relevante. Impulsado por la escalabilidad lineal de Hadoop, la habilidad de almacenar y analizar cualquier tipo de volumen o tipo de dato significa que los usuarios consiguen más información a lo largo de todos los datos disponibles lo que resulta en una mayor precisión, predice mejor el comportamiento y hace recomendaciones más precisas de futuros comportamientos. La escalabilidad costo-efectiva de Hadoop también permite “esquema sobre lectura” lo cual libera a los usuarios de tener que pre-modelar los datos con lo que no se limita el tipo de preguntas que se pueden hacer sobre los datos.

Casos de Uso de Big Data

Los casos de uso de Big Data incluyen casos de uso existentes que son mejorados y ampliados a través de la inclusión de “big data” así como nuevos casos hechos posibles a través del uso de nuevos tipos y volúmenes de datos. Los cases de uso pueden ser agrupados en cuatro categorías generales, cada uno con un número de casos de uso individuales:

  • CRM/Ventas/Vista 360 del cliente
  • Seguridad, fraude y regulación
  • Analíticos operativos

CRM/Ventas/Vista 360 del cliente

CRM/Ventas/Vista 360 del cliente mejorados extienden y mejoran los CRM tradicionales al incorporar y analizar fuentes de datos adicionales. Esto permite un entendimiento más preciso y profundo de los clientes y prospectos al correlacionar comportamiento, sentimiento social, historia de compras, la forma en que compran y lo que recomendarían o compraría en el futuro.

Los casos de uso incluyen:

  • Optimización de embudo (funnel)
  • Análisis de comportamiento
  • Análisis de cohorte de productos
  • Optimización de precios
  • Optimización de publicidad y mercadeo
  • Recomendaciones de productos/servicios

Seguridad/fraude/cumplimiento

Seguridad, fraude y cumplimiento regulatorio y otros casos de uso relacionados son extendidos y mejorados por las soluciones de analíticas de Big Data gracias a su habilidad de analizar todos los datos relevantes. Analizar grupos de datos muy grandes de transacciones de tarjetas de crédito correlacionados con códigos de autorización sobre periodos de muchos años revela patrones de datos más precisos de lo que es visible si solo se analizan algunos meses. Correlacionar bases de datos de activos con logs de sistemas de trading hace que sea más difícil para los corredores “rebeldes” esconder activos cuestionables. Finalmente, integrar rápidamente un número de fuentes de datos y métricas financieras entre bases de datos hace más fácil para los gerentes de cumplimiento cumplir con los requerimientos de precisión en reportes financieros en mercados financieros regulados.

Casos de uso incluyen:

  • Patrones de fraude en tarjetas de crédito
  • Actividad de trading “rebelde” (rouge)
  • Cumplimiento de Basel III y SOX (EE.UU)
  • Cumplimiento de circulares de Superindentencia Financiera (Colombia)
  • Gestión del Riesgo
  • Métricas de precisión de datos
  • Análisis de portafolio

Analíticos Operativos

Información detallada y precisa a lo largo de las operaciones organizacionales es clave para la excelencia operacional. Los analíticos operacionales correlaciona datos tales como transacciones o información de la cadena de producción con logs de máquinas, datos de sensores o otras fuentes de datos para resaltar problemas de eficiencia, experiencia de clientes y usuarios, niveles de servicio y la salud de la infraestructura de TI.

Casos de uso incluyen:

  • Análisis de infraestructura de TI
  • Análisis de dispositivos
  • Análisis de ANS
  • Análisis de centros de datos
  • Gestión de cadena de abastecimiento
  • Análisis de la fuerza laboral
  • SCADA
  • Análisis de medidores inteligentes
  • Análisis de redes de servicios públicos

Los casos de uso operaciones pueden integrar logs de centros de datos con datos de sensores para gestionar mejora la utilización y reducir costos eléctricos. Fabricantes de tecnología pueden integrar datos de utilización con logs de máquinas para monitorear pro-activamente niveles de servicio y recomendar mantenimiento en sus dispositivos de hardware. En la industria de la energía eléctrica, la integración de medidores inteligentes, datos de redes eléctricas y datos de SCADA significa que los administradores tienen ahora una vista completa de las operaciones desde la generación al uso.

Conclusiones

Las soluciones analíticas de Big Data están transformando la forma en que las organizaciones y los individuos obtienen información a partir de los datos. Esta información está generando mayores ingresos, menores costos, detección de fraudes y ofreciendo una visión más completa del comportamiento de clientes y prospectos. Estas soluciones no son, en general, un reemplazo para BI tradicional. Para los casos de uso de BI que requieren analizar cantidades moderadas de data estructurada, las tecnologías de BI son maduras, probadas y apropiadas. Sin embargo, para casos de uso que involucran en análisis de grandes cantidades de datos, y contienen datos no estructurados, las soluciones analíticas de Big Datas son la clara opción.

Publicado en Uncategorized

Google y el virus H1N1

Cuentan Viktor Mayer-Schonberger y Kenneth Cukier en su libro “Big Data – A revolution that will transform how we live, work and think”, que en 2009 un nuevo virus de gripa fue descubierto. Combinando elementos de virus que causan gripa aviar y gripa porcina, esta nueva cepa, denominada H1N1, se esparció rápidamente. En cuestión de semanas, las agencias de salud pública alrededor del mundo temieron que una terrible pandemia estaba en camino. Algunos comentaristas advirtieron de un fenómeno de la escala de la gripa española de 1918 que había afecta a 500 millones de personas y matado a decenas de miles. Peor aun, no existía una vacuna disponible contra este nuevo virus. La única esperanza que la agencias de salud pública tenían era demorar la diseminación. Pero para lograr esto, tenían que saber en donde ya se encontraba.

El los Estado Unidos, el Centrol para Control de Enfermedades (CDC por sus siglas en inglés) solicitó que los médicos le informaran de nuevos casos. Si embargo, el escenario de la pandemia que emergía estaba siempre desactualizada por una o dos semanas. Las personas podían estar enferma durante días, pero esperar antes de ir a donde un médico. Enviar la información a las organizaciones centrales tomaba tiempo, y el CDC únicamente tabulaba los números cada semana. Cuando se trata de una enfermedad que se esparce rápidamente, una diferencia de dos semanas es una eternidad. Esta demora dejaba a las agencias de salud pública ciegas en los momentos más críticos.

Algunas semanas antes de que el virus H1N1 llegara a los titulares, ingenieros en el gigante de Internet Google publicaron un artículo sorprendente en la revista científica Nature. Tuvo un gran impacto entre entre oficiales de salud y profesionales de la tecnología pero no trascendió más allá. Los autores explicaron como Google podía “predecir” la diseminación de la gripa de invierno en Estado Unidos, no solo a nivel nacional, sino en regiones e incluso estados específicos. La compañía podía lograr esto observado lo que las personas estaban buscando en Internet. Dado que Google recibe más de 3000 millones de búsquedas al días y las guarda todas, tenía suficiente información con que trabajar.

Google tomó las 50 millones de búsquedas más comunes que los estadounidenses escribían y las comparó con una lista de datos del CDC acerca de la diseminación de gripa estacional entre 2003 y 2008. La idea era identificar áreas infectadas por la gripa según las búsquedas de las personas en Internet. Otros habían intentado lograr esto con búsquedas en Internet pero nadie tenía tantos datos, poder de procesamiento y conocimiento de estadística como Google.

Mientras que los ingenieros de Google supusieron que las búsquedas podía estar orientadas a encontrar información acerca de la gripa – escribir frases como “medicina para la tos y la fiebre” – ese no era el punto; ellos no lo sabían, y diseñaron un sistema al cual no le importaba. Todo lo que su sistema hacía era buscar correlaciones entre la frecuencia de algunas búsquedas y la diseminación de la gripa en el tiempo y el espacio. En total, procesaron la increíble cantidad de 450 millones de modelos matemáticos para probar los términos de búsqueda, comparando sus predicciones contra casos reales de gripa del CDC en 2007 y 2008. Y encontraron oro: el software diseñado encontró una combinación de 45 términos de búsqueda que, cuando eran usados juntos en un modelo matemático, tenía una fuerte correlación entre las predicciones y las cifras oficiales a nivel nacional. Tal como el CDC, podían saber a donde se había esparcido la gripa, pero a diferencia del CDC, podían saber en casi tiempo real, no una o dos semanas después.

Por lo tanto, cuando explotó la crisis del virus N1H1 en 2009, el sistema de Google probó ser un indicador más útil y oportuno que las estadísticas del gobierno con sus retrasos naturales. Los oficiales de salud pública estaban armados con información valiosa.

Sorprendentemente, el método de Google no involucra distribuir isopos bucales o contactar las oficinas de los médicos. Por el contrario, está construido sobre Big Data – la habilidad de la sociedad de aprovechar la información en formas novedosas para producir conocimiento útil o bienes y servicios de valor significativo. Con ello, la próxima ves que ocurra una nueva pandemia, el mundo tendrá una mejor herramienta a su disposición para predecir y por lo tanto prevenir su diseminación.

Tagged with: ,
Publicado en Artículo

Introducción

Que color de pintura tiene mayor posibilidad de decirnos que un carro usado está en buen estado? Como pueden los organismos de seguridad identificar las zonas mas peligrosas de la ciudad y prevenir el crimen? Y como fue posible que las búsquedas de Google predijeran la propagación del virus H1N1?

La clave para responder a estas preguntas, y muchas más, es Big Data. Big Data hace referencia a nuestra nueva habilidad de procesar vastas cantidades de información, analizarla instantáneamente, y sacar conclusiones asombrosas. Este nuevo enfoque puede traducir una miríada de fenómenos – desde el precio de un pasaje de avión hasta el texto de millones de libros – a formas “buscables” y utiliza nuestro floreciente poder de cómputo para descubrir epifanias que nunca antes hubiéramos podido ver. Una revolución a la par con el Internet o quizá la imprenta, Big Data cambiará la forma en que concebimos los negocios, la salud, la política, la educación, y la innovación en los años venideros.

Big Data trae consigo amenazas frescas, desde el fin de la privacidad tal y como la conocemos hasta el prospecto de ser penalizados por cosas que ni siquiera hemos hecho, basados en la capacidad de Big Data de predecir nuestro comportamiento futuro.

Publicado en Opinión