Datificación y cronología del Big Data

Datificación & Big Data

Fuente: Openclipart

El término “datificación” puede definirse como la capacidad de producir datos que puedan ser leídos por un ordenador. Por ejemplo, si hacemos una transacción con una tarjeta de crédito se generan datos relacionados con cuánto dinero nos gastamos, en qué y dónde, o si usamos redes sociales entonces generamos datos acerca de qué nos interesa, con quién hablamos, nuestros gustos y preferencias. Incluso si practicamos deporte generamos gran cantidad de datos a través de diferentes tipos de “wearables” (es decir, ropa y complementos “inteligentes” que disponen de sensores para interactuar con cada persona) como pulseras que determinan la frecuencia cardíaca y la calidad del sueño.

Wearables

Fuente: Informe de la Sociedad de la Información en España de 2013 publicado por la Fundación Telefónica

Toda esta gran cantidad de datos que se genera diariamente se ha denominado “big data”. Este término se empleó por primera vez en un artículo de los investigadores de la NASA Michael Cox y David Ellsworth, donde ambos afirmaron que el ritmo de crecimiento de los datos empezaba a ser un problema para los sistemas informáticos actuales. Esto se denominó el “problema del Big Data

Sin embargo, al contrario de lo que puede parecer, el concepto “big data” va más allá de la cantidad de datos, ya que existen otras características relevantes (según, P. Russom en Big data analytics TDWI Best Practices Report, 2011). Concretamente, se puede hablar de manera general de “big data” cuando un conjunto de datos limita el buen funcionamiento de los recursos disponibles para los procesos de almacenamiento, recuperación, procesamiento y análisis de datos. Por eso, las características que determinan el concepto de “big data” son volumen, variedad y velocidad:

 

  1. Volumen: esta característica está relacionada con la posibilidad de tener grandes colecciones de datos. Por ejemplo, estamos hablando de un gran volumen de datos si pensamos en los millones de tweets que se generan en un día. Se necesitan técnicas para poder manejar toda esta cantidad de datos de manera escalable.
  2. Variedad: esta característica hace referencia a las diferentes estructuras (o ausencia de estructura) que pueden tener los datos. Un ejemplo de variedad son las diversas redes sociales existentes, ya que cada una permite compartir ciertos datos (texto en Facebook, imágenes en Instagram o vídeos en Youtube). Se necesitan técnicas para integrar todos estos datos independientemente de su estructura con el fin de que puedan ser usados de manera conjunta.
  3. Velocidad: esta característica está relacionada con la rapidez de la generación, acceso y análisis de los datos para poder ser explotados. Por ejemplo, datos provenientes de estaciones meteorológicas o del estado del tráfico. Se necesitan técnicas para poder gestionar estos datos en tiempo real.

 

Llegados a este punto resulta fundamental clarificar varios conceptos relacionados entre sí y que muchas veces se usan como sinónimos: dato, información y conocimiento. Se usará para ello un ejemplo concreto: pensemos en una tarjeta de fidelización con la que un supermercado ofrece descuentos a sus clientes (a cambio de datos). En este caso, un dato (un valor discreto) podría ser 18/09/1983; mientras que la información (dato con un significado concreto) correspondería a “fecha de nacimiento de un cliente”. Resulta fundamental destacar que para que un dato se convierta en información, se debe contextualizar mediante un significado concreto. Este contexto es lo que se denomina “metadato”, es decir datos acerca de los datos, y cuyo valor es fundamental para, finalmente, poder extraer conocimiento de los datos (conjunto de información con una utilidad concreta). En concreto se puede determinar que dato + metadato =información. Cuantos más metadatos sepamos del dato más información tendremos y por tanto más conocimiento se puede obtener. Los metadatos pues resultan fundamentales (tanto o más que los propios datos). Finalmente, un ejemplo de conocimiento relacionado podría ser que “los clientes nacidos entre 1975 y 1985 tienden a realizar sus compras los fines de semana”.

 

Teniendo en cuenta esto, debemos hablar de una cuarta V del “big data”: se debe poder obtener Valor del “big data”. Este valor dependerá de quien sea el usuario implicado en el análisis del “big data”. La definición clásica de “big data” (las tres Vs que comentábamos anteriormente) se centra exclusivamente en el procesamiento de datos para su almacenamiento y su preparación para ser analizados. Sin embargo, no se aporta información acerca de cómo se debe realizar el análisis de datos. Existen muchas maneras de analizar los datos. Volviendo al ejemplo del supermercado, podríamos tener un cuadro de mandos donde se visualicen los indicadores más relevantes que permitan conocer por ejemplo, la media de gasto de cada cliente según el día de la semana etc. Por otro lado, existen técnicas de análisis de datos más avanzados, por ejemplo la minería de datos, con la cual se podrían detectar patrones de comportamiento del cliente.

 

El análisis de estas grandes cantidades de datos complejos no puede realizarse con las técnicas informáticas utilizadas hasta el momento ya que estas simplemente no son capaces de escalar con el rendimiento apropiado (metafóricamente hablando la situación sería similar a la de una persona intentando beber agua directamente de una catarata). Este hecho conlleva la aparición de nuevas oportunidades, herramientas, ideas y puestos de trabajo (como los “data scientists”, especialistas a caballo entre el campo de la estadística y la ingeniería del software).

 

Una tendencia en alza relacionada con “big data” es la de datos abiertos, (“open data”), es decir aquellos datos que no sólo son accesibles sino que tienen un formato y disponen de una licencia que los hace fácilmente reutilizables. Esto genera una oportunidad de innovación ya que permite fomentar modelos de negocio innovadores basados en la generación de productos y servicios que agreguen valor y hagan más útiles y accesibles esos datos abiertos. Somos cada vez más conscientes de la utilidad de disponer de datos y poder gestionar y extraer valor de estos datos hará que cambie el mundo que nos rodea. Citando a Rick Smolan autor de The Human Face of Big Data, “big data” puede definirse como un cambio radical en la manera de ver el mundo, un cambio de perspectiva: “imagina que la humanidad hubiera estado usando un solo ojo durante toda su existencia y que, de repente, se hubiera dado cuenta de que podemos abrir el otro ojo. Entonces no sólo obtienes más información del mundo que te rodea sino que obtienes toda una nueva dimensión: profundidad y perspectiva. De la misma manera, con el “big data” no tenemos más datos sino una nueva manera de obtener significado de estos datos”.

 

En la siguiente línea del tiempo interactiva, elaborada por Winshuttle, se puede observar la evolución cronológica del Big Data.

 

cronologia-Big-Data

 

Si te ha gustado el artículo, compártelo!

No hay comentarios aún... ¡Se el primero en dejar una respuesta!

Dejar un Comentario