Debido al gran avance que existe día a día en las tecnologías de información, las organizaciones se han tenido que enfrentar a nuevos desafíos que les permitan analizar, descubrir y entender más allá de lo que sus herramientas tradicionales reportan sobre su información, al mismo tiempo que durante los últimos años el gran crecimiento de las aplicaciones disponibles en internet (geo-referenciamiento, redes sociales, IoT, etc) han sido parte importante en las decisiones de negocio de las empresas.
Big data, macrodatos, datos masivos o datos a gran escala es un concepto que hace referencia a conjuntos de datos tan grandes que aplicaciones informática tradicionales del procesamiento de datos no son suficientes para tratar con ellos y a los procedimientos usados para encontrar patrones repetitivos dentro de esos datos.
Muchas organizaciones se enfrentan a la pregunta sobre ¿qué información es la que se debe analizar?, sin embargo, la pregunta debería estar enfocada hacia ¿qué problema es el que se está tratando de resolver?. Si bien sabemos que existe una amplia variedad de tipos de datos a analizar, una buena clasificación nos ayudaría a entender mejor su representación:
Datos estructurados
Datos que tienen bien definidos su longitud y su formato, como las fechas, los números o las cadenas de caracteres.
Datos no estructurados
Datos en el formato tal y como fueron recolectados, carecen de un formato específico. No se pueden almacenar dentro de una tabla ya que no se puede desgranar su información a tipos básicos de datos.
Datos semi-estructurados
Datos que no se limitan a campos determinados, pero que contiene marcadores para separar los diferentes elementos. Es una información poco regular como para ser gestionada de una forma estándar.