Que es una big data :
El término "big data" se refiere a los datos que son tan grandes, rápidos o complejos que es difícil o imposible procesarlos con los métodos tradicionales. El acto de acceder y almacenar grandes cantidades de información para la analítica ha existido desde hace mucho tiempo. Pero el concepto de big data cobró impulso a principios de la década de 2000 cuando el analista de la industria, Doug Laney, articuló la definición actual de grandes datos como las tres V:
Volumen: Las organizaciones recopilan datos de diversas fuentes, como transacciones comerciales, dispositivos inteligentes (IO), equipo industrial, vídeos, medios sociales y más. En el pasado, su almacenamiento habría sido un problema - pero el almacenamiento más barato en plataformas como los data lakes y el Hadoop han aliviado la carga.
Velocidad: Con el crecimiento del Internet de las Cosas, los datos llegan a las empresas a una velocidad sin precedentes y deben ser manejados de manera oportuna. Las etiquetas RFID, los sensores y los medidores inteligentes están impulsando la necesidad de manejar estos torrentes de datos en tiempo casi real.
Variedad : Los datos se presentan en todo tipo de formatos: desde datos numéricos estructurados en bases de datos tradicionales hasta documentos de texto no estructurados, correos electrónicos, vídeos, audios, datos de teletipo y transacciones financieras.
Herramientas para el manejo de una big data :
PYTHON:
Es uno de los lenguajes avanzados de programación más conocidos y utilizados en la actualidad. Esto se debe a que su usabilidad es bastante sencilla con respecto a otros lenguajes de programación. De hecho se trata de un software muy utilizado en el Big Data dada su gran facilildad para trabajar en el análisis de datos.
HADOOP
de las herramientas Big Data más importantes es Hadoop. Esta herramienta, también con licencia de código abierto (open-source), es considerada como el framework estándar para el almacenamiento de grandes volúmenes de datos. Además, esta herramienta se utiliza para analizar y procesar datos. Su importancia en el sector del Big Data es tal que empresas como Facebook o Yahoo hacen uso de ella.
APACHE CASSANDRA
Apache Cassandra es uno de los softwares Big Data más utilizados. Se trata de una base de datos distribuida con la que se puede obtener un alto rendimiento en la entrada y salida de datos. Su usabilidad es bastante sencilla y además es fácil de escalar. Tolera fallos, a pesar de que se trata de una base de datos de alto rendimiento.
De este modo, Apache Cassandra es una solución brillante para muchos proyectos Big Data. Sin embargo, no es una herramienta adecuada para alojar un data warehouse convencional, es decir, Cassandra no es la mejor opción para el almacenaje de datos empresariales.
Write a comment ...