Cel: +52 (55) 3040-5403 Correo: mariana.velazquez@recluit.com
post-tittle

¿Qué es Hadoop?

Por: Reclu IT

13 de diciembre de 2018

Debido a la relevancia que gana Big Data para las organizaciones, ciertos conocimientos y habilidades se vuelven imprescindibles para alcanzar el éxito en estos nuevos entornos, uno de las más destacadas es Hadoop, ya que es una tecnología de código abierto, que ofrece grandes ventajas para dar sentido a la gran cantidad de datos que se generan en la actualidad.

A Hadoop es común encontrarlo en los perfiles relacionados al manejo de datos, uno de los puestos más destacados que requiere de esta habilidad es el Data Scientist. Este creciente interés representa una oportunidad para profundizar en esta tecnología, desde su historia y evolución, hasta conocer la razón que la vuelven tan relevante para las organizaciones.

Los inicios de Hadoop se remontan al proyecto llamado Nutch, un robot y motor de búsqueda basado en Lucene, que creado por Doug Cutting y Mike Cafarella, y que está gestionado por Apache. Lo que buscaban Cutting y Cafarella era que existiera una mejor distribución de datos y cálculos en diferentes computadoras para que se pudieran realizar múltiples tareas de manera simultánea, todo esto con la finalidad de devolver los resultados de las búsquedas web mas rápido.

La historia sigue en 2006, de la mano de Cutting cuando se unió a Yahoo! y llevó consigo el proyecto Nutch. El proyecto Nutch se dividió: la parte del rastreador web, que se mantuvo como Nutch; y la parte distribuida de procesamiento y procesamiento, que  se convirtió en Hadoop (llamada así por el juguete del elefante del hijo de Cutting).

Dos años después, en 2008 Yahoo! lanzó Hadoop como un proyecto de código abierto. En la actualidad, el marco y el ecosistema de tecnologías Hadoop son administrados y mantenidos por Apache Software Foundation (ASF), una comunidad global de desarrolladores.

Si bien, Hadoop es una tecnología muy joven causa un gran interés entre los profesionales TI, debido a su impacto para el Big Data. A continuación mostramos algunos de los puntos que lo hacen tan llamativo para los entornos del manejo de datos:

  • Capacidad para almacenar y procesar grandes cantidades de cualquier tipo de datos. Una de las consideraciones clave es que los volúmenes y las variedades de datos aumentan constantemente, especialmente con las redes sociales y el Internet de las Cosas (IoT, por sus siglas en inglés).
  • Poder computacional. El modelo de computación distribuida de Hadoop procesa grandes datos rápidamente. Cuantos más nodos de computación use, más poder de procesamiento tendrá.
  • Tolerancia a fallos. El procesamiento de datos y aplicaciones está protegido contra fallos de hardware. Si un nodo se cae, los procesos se redirigen automáticamente a otros nodos para asegurarse de que la computación distribuida no falle. Múltiples copias de todos los datos se almacenan automáticamente.
  • Flexibilidad. A diferencia de las bases de datos relacionales tradicionales, no tiene que pre-procesar los datos antes de almacenarlos. Puede almacenar tantos datos como se desee y decidir cómo usarlos más adelante. Eso incluye datos no estructurados como texto, imágenes y videos.
  • Bajo costo. El marco de código abierto es gratuito y utiliza hardware básico para almacenar grandes cantidades de datos.
  • Escalabilidad. Puede hacer que el sistema crezca fácilmente para manejar más datos simplemente agregando nodos. Se requiere poca administración.

No hay duda, que Hadoop es el centro de un creciente ecosistema de tecnologías de Big Data que se utilizan principalmente para respaldar las iniciativas de análisis avanzado, que incluyen el análisis predictivo, la minería de datos y las aplicaciones de aprendizaje automático.

Deja tu comentario

Tu dirección de correo electrónico no será publicada.

Campos obligatorios(*)
post-tittle

¿Qué es Hadoop?

Por: Reclu IT

13 de diciembre de 2018

Debido a la relevancia que gana Big Data para las organizaciones, ciertos conocimientos y habilidades se vuelven imprescindibles para alcanzar el éxito en estos nuevos entornos, uno de las más destacadas es Hadoop, ya que es una tecnología de código abierto, que ofrece grandes ventajas para dar sentido a la gran cantidad de datos que se generan en la actualidad.

A Hadoop es común encontrarlo en los perfiles relacionados al manejo de datos, uno de los puestos más destacados que requiere de esta habilidad es el Data Scientist. Este creciente interés representa una oportunidad para profundizar en esta tecnología, desde su historia y evolución, hasta conocer la razón que la vuelven tan relevante para las organizaciones.

Los inicios de Hadoop se remontan al proyecto llamado Nutch, un robot y motor de búsqueda basado en Lucene, que creado por Doug Cutting y Mike Cafarella, y que está gestionado por Apache. Lo que buscaban Cutting y Cafarella era que existiera una mejor distribución de datos y cálculos en diferentes computadoras para que se pudieran realizar múltiples tareas de manera simultánea, todo esto con la finalidad de devolver los resultados de las búsquedas web mas rápido.

La historia sigue en 2006, de la mano de Cutting cuando se unió a Yahoo! y llevó consigo el proyecto Nutch. El proyecto Nutch se dividió: la parte del rastreador web, que se mantuvo como Nutch; y la parte distribuida de procesamiento y procesamiento, que  se convirtió en Hadoop (llamada así por el juguete del elefante del hijo de Cutting).

Dos años después, en 2008 Yahoo! lanzó Hadoop como un proyecto de código abierto. En la actualidad, el marco y el ecosistema de tecnologías Hadoop son administrados y mantenidos por Apache Software Foundation (ASF), una comunidad global de desarrolladores.

Si bien, Hadoop es una tecnología muy joven causa un gran interés entre los profesionales TI, debido a su impacto para el Big Data. A continuación mostramos algunos de los puntos que lo hacen tan llamativo para los entornos del manejo de datos:

  • Capacidad para almacenar y procesar grandes cantidades de cualquier tipo de datos. Una de las consideraciones clave es que los volúmenes y las variedades de datos aumentan constantemente, especialmente con las redes sociales y el Internet de las Cosas (IoT, por sus siglas en inglés).
  • Poder computacional. El modelo de computación distribuida de Hadoop procesa grandes datos rápidamente. Cuantos más nodos de computación use, más poder de procesamiento tendrá.
  • Tolerancia a fallos. El procesamiento de datos y aplicaciones está protegido contra fallos de hardware. Si un nodo se cae, los procesos se redirigen automáticamente a otros nodos para asegurarse de que la computación distribuida no falle. Múltiples copias de todos los datos se almacenan automáticamente.
  • Flexibilidad. A diferencia de las bases de datos relacionales tradicionales, no tiene que pre-procesar los datos antes de almacenarlos. Puede almacenar tantos datos como se desee y decidir cómo usarlos más adelante. Eso incluye datos no estructurados como texto, imágenes y videos.
  • Bajo costo. El marco de código abierto es gratuito y utiliza hardware básico para almacenar grandes cantidades de datos.
  • Escalabilidad. Puede hacer que el sistema crezca fácilmente para manejar más datos simplemente agregando nodos. Se requiere poca administración.

No hay duda, que Hadoop es el centro de un creciente ecosistema de tecnologías de Big Data que se utilizan principalmente para respaldar las iniciativas de análisis avanzado, que incluyen el análisis predictivo, la minería de datos y las aplicaciones de aprendizaje automático.

Deja tu comentario

Tu dirección de correo electrónico no será publicada.

Campos obligatorios(*)

Política de privacidad de www.recluit.mx

Para recibir la información sobre sus Datos Personales, la finalidad y las partes con las que se comparte,
contacten con el Propietario.