Flume vs Scribe ?

He leído este post sobre   Cloudera con mucho interés. 

Hemos visto que nuestros clientes tienen un gran éxito utilizando Hadoop para el procesamiento de sus datos, pero la cuestión de cómo obtener los datos que procesar en el primer lugar fue a menudo mucho más difícil.
 En caso de que no tienen el tiempo para leer acerca de FLUME, sin embargo, he aquí una breve descripción de la página del proyecto GitHub:

Flume es un servicio distribuido, confiable y eficiente para la recogida, agregación y mover grandes cantidades de datos de registro. Cuenta con una arquitectura simple y flexible basado en los flujos de datos de streaming. Es robusto y tolerante a fallos con los mecanismos de confiabilidad sintonizables y conmutación por error a muchos y los mecanismos de recuperación. El sistema es administrado centralmente y permite la gestión dinámica inteligente. Se utiliza un modelo de datos extensible sencilla que permite en línea las aplicaciones analíticas.
En cierto modo esto suena un poco familiar. Pensé que había visto algo un poco similar antes: Scribe:

Scribe es un servidor de streaming para la agregación de los datos de registro. Está diseñado para escalar a un número muy grande de nodos y resistir a fallos en la red y el nodo. Hay un servidor escriba en ejecución en cada nodo en el sistema, configurado para mensajes de conjunto y los envían a un servidor central, escriba (o servidores) en grupos más grandes. Si el servidor central de escribano no está disponible en el servidor local, escriba escribe los mensajes en un archivo en el disco local y los envía cuando el servidor central se recupere. El servidor central de escribano (s) se puede escribir los mensajes a los archivos que están a su destino final, por lo general en un servidor de archivos NFS o un sistema de ficheros distribuido, o enviarlos a otra capa de servidores escriba. 

Así que mi pregunta es: ¿cómo comparar Flume y Scribe ? ¿Cuáles son las principales diferencias y lo que los escenarios son buenos para uno u otro?

1. Flume le permite configurar su instalación Flume desde un punto central, sin tener que ssh en cada máquina, actualizar una variable de configuración y reiniciar un demonio o dos. Puede iniciar, detener, crear, borrar y volver a configurar los nodos lógicos en cualquier máquina que tenga Flume de cualquier línea de comandos en la red con el frasco Flume disponible.

2. Flume también tiene control centralizado de vida de la conexión. Hemos escuchado un par de historias de los procesos de Escribano en silencio en su defecto, pero mentir sin descubrir durante días hasta que el resto de la instalación Scribe empieza cediendo a la mayor carga. Flume le permite ver la salud de todos sus nodos lógicos en un solo lugar (tenga en cuenta que esto es diferente de vida de la conexión de monitoreo de máquinas, a menudo el equipo se mantendrá mientras el proceso puede fallar).

3. Flume es compatible con tres tipos distintos de garantías de confiabilidad, lo que le permite hacer concesiones entre el uso de los recursos y la fiabilidad. En particular, Flume apoya plenamente la confiabilidad ACK, con la garantía de que todos los eventos con el tiempo hará su camino a través del flujo del evento.

4. Flume también es muy extensible - es muy fácil de escribir su propia fuente o sumidero e integrar la mayoría de cualquier sistema con Flume. Si su propio móvil es poco práctico, a menudo es muy sencillo para que sus eventos de salida de las aplicaciones en un formato que pueda entender Flume (Flume puede ejecutar procesos de Unix, por ejemplo, así que si puedes utilizar el script de shell para llegar a sus datos, usted es de oro).




 Ademas existo otro mas de apache:
Chukwa es un subproyecto de Hadoop dedicado a la recopilación de registros a gran escala y el análisis. Chukwa se construye en la parte superior del sistema de archivos distribuidos Hadoop (HDFS) y el marco de MapReduce y Hadoop hereda la escalabilidad y robustez. Chukwa también incluye un conjunto de herramientas flexible y potente para la visualización de seguimiento y análisis de los resultados, con el fin de hacer el mejor uso de estos datos recogidos.
 

0 pensamientos:

Post a Comment

feedback!