Archivo de la etiqueta: análisis

El caso de los Big Data (1)

Un concepto que está muy de moda es el de BigData. ¿Hay que unirse a la moda, facilitarla, combatirla (en lo que se pueda, que será poco)? Dejamos quí unas notas para ayudar a tener una perspectiva, con enlaces para profundizar un poco.

¿Qué es Big Data?

7979558647_e413ea9b86_bComo casi todo el mundo sabe, Big Data se refiere al análisis de datos en cantidades gigantescas, para obtener resultados relevantes. Dado que se llevan décadas recogiendo datos de internautas, y que cada vez más aplicaciones y programas (que nosotors hemos colocado en nuestros dispositivos, en su mayoría voluntariamente) toman datos de nuestro comportamiento, nuestras preferencias y nuestras decisiones, se suelen emplear datos ya recogidos.

Para SAS, una organización relevante en este campo, existen cinco variables que deben emplearse para caracterizar un conjunto de datos para ser usado como Big Data (artículo completo aquí, lo que sigue es una traducción libre de lo que dice SAS):

Las primeras tres se conocen como la triple V, y están en la figura anterior. Las dos siguientes son también muy importantes, y las señala SAS:

  1. Volumen o cantidad de datos: Importa además la variedad de fuentes y la relevancia estadística de los datos
  2. Velocidad: os datos deben ser tratados a cvelocidades simplares o superiores a la que llegan. Es preciso tratar una gran cantdad de datos en tiempo real (o tiempo presente, como dice siempre mi buen amigo Enrique Belda; todo el tiempo es real, el presente y el pasado)Data streams in at an unprecedented speed and must be dealt with in a timely manner. RFID tags, sensors and smart metering are driving the need to deal with torrents of data in near-real time.
  3. Variedad: Los datos vienen en una gran variedad de formatos, de manera que hay que estar preparados para “leer” y extractar bases de datos, documentos, hojas de cálculo, correos electrónicos, video, audio, …
  4. Variabilidad: Los datos llegan muy deprisa, pero no a la misma velocidad en todos los momentos In addition to the increasing velocities and varieties of data, data flows can be highly inconsistent with periodic peaks. Is something trending in social media? Daily, seasonal and event-triggered peak data loads can be challenging to manage. Even more so with unstructured data.

Variability. In addition to the increasing velocities and varieties of data, data flows can be highly inconsistent with periodic peaks. Is something trending in social media? Daily, seasonal and event-triggered peak data loads can be challenging to manage. Even more so with unstructured data.

Complexity. Today’s data comes from multiple sources, which makes it difficult to link, match, cleanse and transform data across systems. However, it’s necessary to connect and correlate relationships, hierarchies and multiple data linkages or your data can quickly spiral out of control.

Un ejemplo: Netflix y House of Cards

Como dice aquí El Confidencial, Netflix toma datos de sus usuarios, y con eso decide qué series apoyar. House of Cards fue un caso. Netflix ofreció los 13 episodios a la vez, en vez de hacer un piloto, que es la regla para las demás cadenas en EE.UU. ¿Por qué? Porque Netflix contrata estudios de Big Data con sus propios datos. ¿Qué recogen?

14273555356_d21b27f0b3_k

El Capitolio, por Andrés Nieto Porras (en Flickr)

  • valoraciones de los usuarios,
  • búsquedas que hacen en la plataforma,
  • qué dispositivos utilizan,
  • cuánto tiempo invierten diariamente en la web y en cada vídeo,
  • qué día de la semana prefieren,
  • si ven los capítulos enteros o parcialmente,
  • las preferencias que tienen en común con sus amigos o la audiencia de su misma región geográfica
  • actores y actrices principales de cada producción
  • director de cada producción
  • género de cada producción

Claro, los algoritmos no son todo.: “el ‘big data’ no lo es todo: “Siempre tiene que haber un equilibrio entre los números y la creatividad, que es la que define un buen resultado”, indica Lynn”.

¿Son importantes la tendencia y el sector?

Sí, indudablemente. El mercado de Big Data alcanzó los USD 18.600 millones en 2013, en una tendencia al alza que parece lejos de deternerse. Aquí (Mercado de Big Data. Estimación para 2017, Jeff Kelly) puede verse la evolución prevista del mercado (abajo se incluyen dos gráficas de esta fuente). Ojo, porqe el mercado incluye tanto ordenadores y máuinas (hardware), como programas (software) y servicios. Dado que en 2014 todavía no se había alcanzado una primera curva apra a forma de S tipica de mercados, parece demasiado adivinar estimar la curva de menor crecimiento para 2016 (no he encontrado datos fiables posteriores, sorry)

500px-BigDataMarketForecast2013

Mercado de Big Data y evolución. Fuente: Jeff Kelly

500px-BigDataRevenueByType2013

Descomposición del mercado Big Data en ordenadores, programas y servicios. Fuente: Jeff Kelly

¿Por qué son importantes los Big Data?

Los estudios serán muy importantes, porque nunca hasta ahora en la hstoriahabían coincidido:

  1. la cantidad de datos recogidos
  2. la capacidad de almacenamiento
  3. la posibilidad de comprar o alquilar bases de datos
  4. las posibilidades de tratamiento en tiempos razonables (alquilando, a su vez, tiempo de servidores)

Lo relevante no será qué datos has usado, sino cómo: en un océano de datos, buscar lo relevante es fundamental. Por tanto, lo relevanteses combinar Big Data con Big Analytics. Así se puede conseguir:

  • identificar datos coincidentes, para identificar mejores oportunidades, aunque no fueran causas
  • determinar las causas de fenómenos complekjos
  • determinar los componentes principales de unas decisiones
  • detectar los factores principales de moimientos de opinión o población
  • estimar de manera más prcisa el riesgo en que se incurre (y las oportunidades que genera) una decisión
  • y, por supuesto, orientar las acciones comerciales (pero eso, aquí, es quizá lo que moenos nos interesa).

 

Seguiremos con:

¿Por qué fallan los proyectos de Big Data?

Se suele estimar que alrededor de 2/3 de los estudios fallan ¿Por qué)

¿Qué puede hacer Big Data en carreteras y transportes?

¿Qué se puede hacer en nuestro sector?

 

 

Anuncios

1 comentario

Archivado bajo actividades, educación, ingeniería, pensamientos y frases

TETs y TEAs

Un hallazgo: en un libro sobre otra cosa he encontrado la cita de los ABD (All But Dissertation), referida a los doctorandos que hacen cualquier cosa menos su tesis, que sería importante para poder continuar con su vida cuando ellos quisieran. Me he reído,  claro, como todos los que hemos hecho la tesis.

La traducción de ABD sería TET: Todo Excepto (la) Tesis. He pensado en otros, pero rápidamente he pensado en mi. La tesis no, claro (¡menos mal!), pero ahora soy una TEA (Todo Excepto Artículos), y mira que me da rabia. Durante meses he sido TEE (Todo Excepto Ejercicio).

¿Y tú? Si tienes suerte no eres así. Para la mayoría:

Rellena el subrayado         TE__

Repite ese nombre cinco veces, igual te animas a cambiar algo.

Deja un comentario

Archivado bajo educación, ingeniería