Tiempo estimado de lectura: 2 minutos.
La etiqueta «Big Data» se le da a un proyecto cuando cumple estos tres criterios: volumen, variedad y/o velocidad.
Criterios para definir Big Data
- Volumen: Es la asociación más directa que se tiene de Big Data, ya que involucra sistemas de información bien sea con cantidades masivas de información almacenada, desde Terabytes (TB) a Petabytes (PB), o tasas altas de ingesta de información en períodos cortos, e.g. plataforma de registro de peticiones, quejas y reclamos de operadores.
- Variedad: La diversidad de fuentes, formatos y tipos de información trasladan un proyecto de datos a un dominio que excede las capacidades de soluciones convencionales de inteligencia o analytics de negocios.
La unificación de fuentes, soporte de múltiples formatos y tratamiento de diferentes tipos de información sobre una misma plataforma es la promesa de valor de Big Data.
- Velocidad: Los grandes volúmenes y variedades de información requieren arquitecturas de procesamiento más veloces con la promesa de no sólo encontrar valor de negocio en los datos, sino también hacerlo más rápido.
Los reportes de soluciones tradicionales de inteligencia de negocios requieren tiempos de consolidación de semanas a meses dependiendo de la dimensión de las bases de datos y composición de las consultas. Con Big Data es posible alcanzar tiempos de generación en minutos u horas.
Apache Hadoop como estándar para soluciones Big Data
En la práctica el ecosistema Apache Hadoop se ha convertido en el estándar de la industria para la implementación de soluciones basadas en Big Data, tomando provecho de todas las ventajas de un proyecto de software libre.
Los entusiastas de Big Data explotan la robustez, la madurez, la comunidad colaborativa y la disrupción de la computación en la nube para la integración, manipulación y despliegue de modelos sobre la abundante y diversa información del cliente.
Las más recientes soluciones de Big Data soportan el crecimiento de recursos bajo demanda gracias a su operación en la nube. El despliegue de la infraestructura se hace en función de la complejidad y los tiempos de respuesta requeridos por las preguntas de negocio, sin caer en la sub o sobreutilización de recursos, propias de las infraestructuras on-premise.
Además, libera al cliente de los gastos e inconvenientes de la adquisición, instalación y soporte de una infraestructura propia, concentrando la atención en el verdadero valor de negocio: la información.