Hace
referencia a conjuntos de datos tan grandes que aplicaciones informática
tradicionales del procesamiento de datos no son suficientes para tratar con
ellos y a los procedimientos usados para encontrar patrones repetitivos dentro
de esos datos.
Además
del gran volumen de información, esta existe en una gran variedad de datos que
pueden ser representados de diversas maneras en todo el mundo, por ejemplo de
dispositivos móviles, audio, video, sistemas GPS, incontables sensores
digitales en equipos industriales, automóviles, medidores eléctricos, veletas,
anemómetros, etc., los cuales pueden medir y comunicar el posicionamiento,
movimiento, vibración, temperatura, humedad y hasta los cambios químicos que
sufre el aire, de tal forma que las aplicaciones que analizan estos datos
requieren que la velocidad de respuesta sea lo demasiado rápida para lograr
obtener la información correcta en el momento preciso. Estas son las
características principales de una oportunidad para Big Data.
Tipos
de datos de Big Data
1.-
Web and Social Media: Incluye contenido web e información que es obtenida de
las redes sociales como Facebook, Twitter, LinkedIn, etc, blogs.
2.-
Machine-to-Machine (M2M): M2M se refiere a las tecnologías que permiten
conectarse a otros dispositivos. M2M utiliza dispositivos como sensores o
medidores que capturan algún evento en particular (velocidad, temperatura,
presión, variables meteorológicas, variables químicas como la salinidad, etc.)
los cuales transmiten a través de redes alámbricas, inalámbricas o híbridas a
otras aplicaciones que traducen estos eventos en información significativa.
3.-
Big Transaction Data: Incluye registros de facturación, en telecomunicaciones
registros detallados de las llamadas (CDR), etc. Estos datos transaccionales
están disponibles en formatos tanto semiestructurados como no estructurados.
4.-
Biometrics: Información biométrica en la que se incluye huellas digitales,
escaneo de la retina, reconocimiento facial, genética, etc. En el área de
seguridad e inteligencia, los datos biométricos han sido información importante
para las agencias de investigación.
5.-
Human Generated: Las personas generamos diversas cantidades de datos como la
información que guarda un call center al establecer una llamada telefónica,
notas de voz, correos electrónicos, documentos electrónicos, estudios médicos,
etc.
Componentes
de una plataforma Big Data
Hadoop
está inspirado en el proyecto de Google File System(GFS) y en el paradigma de
programación MapReduce, el cual consiste en dividir en dos tareas (mapper –
reducer) para manipular los datos distribuidos a nodos de un clúster logrando
un alto paralelismo en el procesamiento.[5] Hadoop está compuesto de tres
piezas: Hadoop Distributed File System (HDFS), Hadoop MapReduce y Hadoop
Common.
Hadoop
Distributed File System(HDFS)
Los
datos en el clúster de Hadoop son divididos en pequeñas piezas llamadas bloques
y distribuidas a través del clúster; de esta manera, las funciones map y reduce
pueden ser ejecutadas en pequeños subconjuntos y esto provee de la
escalabilidad necesaria para el procesamiento de grandes volúmenes.
Hadoop
MapReduce
MapReduce
es el núcleo de Hadoop. El término MapReduce en realidad se refiere a dos
procesos separados que Hadoop ejecuta. El primer proceso map, el cual toma un
conjunto de datos y lo convierte en otro conjunto, donde los elementos
individuales son separados en tuplas (pares de llave/valor). El proceso reduce
obtiene la salida de map como datos de entrada y combina las tuplas en un
conjunto más pequeño de las mismas. Una fase intermedia es la denominada
Shuffle la cual obtiene las tuplas del proceso map y determina que nodo
procesará estos datos dirigiendo la salida a una tarea reduce en específico.
Hadoop
Common
Hadoop
Common Components son un conjunto de librerías que soportan varios subproyectos
de Hadoop.
Además
de estos tres componentes principales de Hadoop, existen otros proyectos
relacionados los cuales son definidos a continuación:
Avro
Es un
proyecto de Apache que provee servicios de serialización. Cuando se guardan
datos en un archivo, el esquema que define ese archivo es guardado dentro del
mismo; de este modo es más sencillo para cualquier aplicación leerlo
posteriormente puesto que el esquema esta definido dentro del archivo.
Cassandra
Cassandra
es una base de datos no relacional distribuida y basada en un modelo de
almacenamiento de <clave-valor>, desarrollada en Java. Permite grandes
volúmenes de datos en forma distribuida. Twitter es una de las empresas que
utiliza Cassandra dentro de su plataforma.
Chukwa
Diseñado
para la colección y análisis a gran escala de "logs". Incluye un
toolkit para desplegar los resultados del análisis y monitoreo.
Flume
Tal
como su nombre lo indica, su tarea principal es dirigir los datos de una fuente
hacia alguna otra localidad, en este caso hacia el ambiente de Hadoop. Existen
tres entidades principales: sources, decorators y sinks. Un source es
básicamente cualquier fuente de datos, sink es el destino de una operación en
específico y un decorator es una operación dentro del flujo de datos que
transforma esa información de alguna manera, como por ejemplo comprimir o
descomprimir los datos o alguna otra operación en particular sobre los mismos.
HBase
Es una
base de datos columnar (column-oriented database) que se ejecuta en HDFS. HBase
no soporta SQL, de hecho, HBase no es una base de datos relacional. Cada tabla
contiene filas y columnas como una base de datos relacional. HBase permite que
muchos atributos sean agrupados llamándolos familias de columnas, de tal manera
que los elementos de una familia de columnas son almacenados en un solo
conjunto. Eso es distinto a las bases de datos relacionales orientadas a filas,
donde todas las columnas de una fila dada son almacenadas en conjunto. Facebook
utiliza HBase en su plataforma desde Noviembre del 2010.
Hive
Es una
infraestructura de data warehouse que facilita administrar grandes conjuntos de
datos que se encuentran almacenados en un ambiente distribuido. Hive tiene
definido un lenguaje similar a SQL llamado Hive Query Language(HQL), estas
sentencias HQL son separadas por un servicio de Hive y son enviadas a procesos
MapReduce ejecutados en el cluster de Hadoop.
Conclusiones
La
naturaleza de la información hoy es diferente a la información en el pasado.
Debido a la abundacia de sensores, micrófonos, cámaras, escáneres médicos,
imágenes, etc. en nuestras vidas, los datos generados a partir de estos
elementos serán dentro de poco el segmento más grande de toda la información
disponible.
El uso
de Big Data ha ayudado a los investigadores a descubrir cosas que les podrían
haber tomado años en descubrir por si mismos sin el uso de estas herramientas,
debido a la velocidad del análisis, es posible que el analista de datos pueda
cambiar sus ideas basándose en el resultado obtenido y re trabajar el
procedimiento una y otra vez hasta encontrar el verdadero valor al que se está
tratando de llegar.
Comentarios
Publicar un comentario