Humongous Mongo

Parece ser que el nombre de Mongo DB se deriva del término humongous que viene a significar algo así como “enorme” o “monstruoso”, quizá por su habilidad para tratar grandes cantidades de datos y peticiones. Yo, la primera vez que oí este nombre pensé en el planeta Mongo de los comics de Flash Gordon :-P Ejemplos de lugares donde se usa Mongo son Foursquare, Bitly o el CERN para almacenar los datos del LHC.

flash-gordon-mapa-mongo

Esta BD open source NoSQL, es de las llamadas “documentales”. En una base de datos relacional cada cliente en una tabla de clientes, tiene siempre los mismos campos, nombre, apellidos, dni… en una BD documental, hoy un cliente de la colección clientes tiene quizá 10 campos, si el mes que viene nos damos cuenta de que los nuevos clientes necesitan 12, no hay problema, simplemente insertamos los nuevos con 12 campos. Es una BD sin un esquema que restrinja (o garantice) una estructura. Más libertad para el usuario, pero también más responsabilidad.

Continúa leyendo Humongous Mongo

¿Por qué el disco que tienes en tu casa no vale para Big Data?

Después de todo, pongamos, 100 millones de registros pueden ser unos 100 GB y caber perfectamente en cualquier disco duro externo. Si, el pequeño que enganchas a tu portátil por USB.

La información que guarda Google de sus usuarios para algunas de sus aplicaciones es del orden de terabytes, pero vamos, eso cabe en la palma de tu mano hoy en día.

Continúa leyendo ¿Por qué el disco que tienes en tu casa no vale para Big Data?

Big Data y HBase

Big Data va de complejidad en los datos con los que trabajamos, de los que queremos extraer valor. No tiene que ver tanto con cantidad como con el número de datos diferentes, con el número de relaciones diferentes… Si tengo un disco de 100GB repleto con 100 películas, pero lo que me preocupa es conocer los títulos o los actores no estoy trabajando con Big Data, por mucho que una película ocupe una barbaridad, solo tengo 100 casos. Otra cosa sería si el disco lo tuviera lleno de 100 millones de registros que tenemos que poder consultar individualmente. A ese tipo de complejidad me refiero.

HBase es un ejemplo de base de datos NoSQL open source pensada para Big Data. Continúa leyendo Big Data y HBase

Trabajo en red

En los proyectos Open Source es completamente natural el desarrollo distribuido, los voluntarios trabajan de forma independiente sin compartir oficina, desde distintas ciudades o distintos países. Son organizaciones planas, la estructura es mínima,  y uno de sus ingredientes clave es el trabajo remoto.

Continúa leyendo Trabajo en red

Mis datos en las nubes

A veces me sorprendo de hasta que punto nos hemos habituado a ceder nuestra información a otros incluso cuando no es necesario.

La razón por la que empecé a usar servicios como Google Reader o el panel de iGoogle era la misma por la que leía el correo electrónico por la web: poder acceder a esta info desde cualquier lado. Mi portátil no era precisamente móvil y con estos servicios, que todavía no sabían que estaban en un lugar llamado nube, podía trabajar de la misma manera desde cualquier sitio, usando un sencillo navegador y sin tener que instalar nada.

Hoy en día usamos todo tipo de servicios sin preguntarnos porqué tenemos que estar dando gratuitamente los datos acerca de nuestro trabajo, nuestros gustos, y nuestra actividad a empresas que en ocasiones solo piensan en explotarlos sin escrúpulos.

Seguro que no es el caso de esta empresa, pero da lo mismo: hace un par de semanas estaba pensando en cambiar mi aplicación de gestión de tareas en mi móvil, Gtasks, por Wunderlist (hay mucho bla, bla, bla sobre ella y quería probarla)… que rápido pasa uno de un servicio a otro… pero ¡vaya! ¿porqué lo hago si ahora las tareas ya viajan conmigo a todas partes en mi móvil? Para acceder a mi lista de tareas no necesito ningún servicio, la lista va conmigo a todas partes, ahora mi móvil es un portátil…

Pero no, hacemos uso del servicio, hacemos de beta-tester de la aplicación y nos tragamos todos los fallos de sincronización que sean necesarios :-). Hay servicios, como las redes sociales, para los que necesitamos de nube centralizada, pero es que ya no nos planteamos otra opción ni siquiera cuando existe.

Creo que la privacidad sigue siendo tan importante como siempre. Ser transparente y abierto no significa tener que perderla. Quizá deberíamos pensar donde nos estamos metiendo sobre todo cuando saltan noticias en plan Big Brother como en el caso de las revelaciones del señor Edward Snowden.