De la pizarra a la base de datos –> Neo4j

He de confesar que quizá no sea muy objetivo a la hora de comparar una base de datos orientada a grafos con otras NoSQL. Para aprender algo nuevo suelo visualizar relaciones, y en general tiendo a fijarme menos en los detalles y mas en que papel cumplen unas cosas respecto a otras.

un grafo

Y resulta que estos almacenes de datos me dan lo que me gusta, su foco está puesto en las relaciones, y de forma muy sencilla puedo convertir el dibujito de cajitas y flechas que tengo en la cabeza en una base de datos real. Apenas hay un salto o traducción.

Continúa leyendo De la pizarra a la base de datos –> Neo4j

Humongous Mongo

Parece ser que el nombre de Mongo DB se deriva del término humongous que viene a significar algo así como “enorme” o “monstruoso”, quizá por su habilidad para tratar grandes cantidades de datos y peticiones. Yo, la primera vez que oí este nombre pensé en el planeta Mongo de los comics de Flash Gordon :-P Ejemplos de lugares donde se usa Mongo son Foursquare, Bitly o el CERN para almacenar los datos del LHC.

flash-gordon-mapa-mongo

Esta BD open source NoSQL, es de las llamadas “documentales”. En una base de datos relacional cada cliente en una tabla de clientes, tiene siempre los mismos campos, nombre, apellidos, dni… en una BD documental, hoy un cliente de la colección clientes tiene quizá 10 campos, si el mes que viene nos damos cuenta de que los nuevos clientes necesitan 12, no hay problema, simplemente insertamos los nuevos con 12 campos. Es una BD sin un esquema que restrinja (o garantice) una estructura. Más libertad para el usuario, pero también más responsabilidad.

Continúa leyendo Humongous Mongo

¿Por qué el disco que tienes en tu casa no vale para Big Data?

Después de todo, pongamos, 100 millones de registros pueden ser unos 100 GB y caber perfectamente en cualquier disco duro externo. Si, el pequeño que enganchas a tu portátil por USB.

La información que guarda Google de sus usuarios para algunas de sus aplicaciones es del orden de terabytes, pero vamos, eso cabe en la palma de tu mano hoy en día.

Continúa leyendo ¿Por qué el disco que tienes en tu casa no vale para Big Data?

Big Data y HBase

Big Data va de complejidad en los datos con los que trabajamos, de los que queremos extraer valor. No tiene que ver tanto con cantidad como con el número de datos diferentes, con el número de relaciones diferentes… Si tengo un disco de 100GB repleto con 100 películas, pero lo que me preocupa es conocer los títulos o los actores no estoy trabajando con Big Data, por mucho que una película ocupe una barbaridad, solo tengo 100 casos. Otra cosa sería si el disco lo tuviera lleno de 100 millones de registros que tenemos que poder consultar individualmente. A ese tipo de complejidad me refiero.

HBase es un ejemplo de base de datos NoSQL open source pensada para Big Data. Continúa leyendo Big Data y HBase

Bases de datos NoSQL

Cuando uno piensa en un programa que necesita almacenar datos piensa en una base de datos, y además, casi seguro, en una relacional. Ya sea Postgres, MySQL, Oracle, DB2… las bases de datos relacionales son fiables y robustas tras mas de 40 años de investigación y de uso en producción. Los problemas a los que se enfrentaban en 1975 tienen poco que ver con los de hoy en día, pero estos almacenes de datos siguen teniendo su hueco en lugares tan extraños para ellos como los servicios cloud de Twitter.

Continúa leyendo Bases de datos NoSQL