Conviértete en todo un experto de VMware con nuestro taller de virtualización VMware vSphere
Big Data en vSphere Reviewed by Momizat on . Hola amigos, soy Florián Murillo y aquí estoy, como cada viernes. ¿Qué es Big Data? Es el tratamiento de petabytes de información. No es un tema baladí y menos Hola amigos, soy Florián Murillo y aquí estoy, como cada viernes. ¿Qué es Big Data? Es el tratamiento de petabytes de información. No es un tema baladí y menos Rating:
You Are Here: Home » Manual » cloud computing » Big Data en vSphere

Big Data en vSphere

Big Data en vSphere

Hola amigos, soy Florián Murillo y aquí estoy, como cada viernes.

¿Qué es Big Data? Es el tratamiento de petabytes de información. No es un tema baladí y menos si son datos no estructurados. Estoy pensando en el modelos estadísticos de redes sociales, subasta en tiempo real de espacios publicitarios, Business Intelligence en tiempo real, el registro de llamadas telefónicas o el procesamiento de logs de un proveedor de servicios cloud.

Parece que todo el mundo está de acuerdo en que la palabra clave en Big Data es Hadoop. Hadoop es una plataforma diseñada para resolver consultas rápidamente sobre petabytes de datos que no se ajustan bien a una estructura de tablas.

El concepto es simple, un cluster Hadoop está compuesto por múltiples nodos (por ejemplo 10000 nodos) llamados datanodes que almacenan información en sus discos locales y un nodo maestro llamado namenode. Los datos se guardan en bloques de 64MB por defecto y se replican en tres nodos (también por defecto), por tanto la caída de un nodo no afecta a la perdida de datos.

Imaginemos una consulta, se “trocea” y se envía a los nodos para que la procesen con sus datos locales, devolviendo una respuesta construida en base a las respuestas individuales.

No pretendo explicar a fondo el funcionamiento de Hadoop, mi objetivo es hablar del proyecto Serengeti. Un proyecto Open Source de VMware para permitir un rápido despliegue de un cluster Hadoop de tantos nodos como necesitemos.

Para ello, necesitamos un virtual appliance que podemos descargar de la web del proyecto: http://serengeti.cloudfoundry.com/. Desde el CLI de esta VM crearemos con simples comandos un cluster Hadoop formado por tantos nodos (máquinas virtuales) como deseemos.

¿Qué aporta VMware a Hadoop?

VMware está colaborando con la comunidad Hadoop para proporcionar alta disponibilidad y tolerancia de fallos a los nodos del cluster Hadoop. Es especialmente importante en el caso del namenode, un elemento clave, en Hadoop 1.0 no está contemplada la alta disponibilidad del namenode, con vSphere HA y vSphere FT esto queda resuelto, no solo para el namenode, también para los datanodes.

¿Crees que este artículo puede interesar a alguien a quien conoces? Compártelo clicando los botones de Twitter y Facebook de abajo o arriba. Gracias.

¿Quieres aprender VMware?
Cursos Oficiales de VMware para la certificación oficial VMware vSphere. Suscríbete y recibe un 15% de descuento!
We hate spam just as much as you

About The Author

Florián Murillo es CTO y socio fundador de Cloud Consulting, consultora especializada en cloud computing y DataCenter, con mas de 25 años asesorando empresas de todos los tamaños y con amplia experiencia en Seguridad, Virtualización VMware (VCP5 y VCI5) y Networking de Cisco (CCNP, CCDP y CCSP). Actualmente se dedica a ayudar a desarrollar negocios y proyectos en la nube a integradores, consultoras y proveedores de servicio.

Number of Entries : 152

Leave a Comment

Nuestros Servicios de Virtualización y Cloud Computing a un precio increíble:

Una Web de JmgVirtualConsulting empresa especializada en formación Oficial VMware y servicios de Virtualización | Copyrights © 2014