Reclu IT

Debido a la relevancia que gana Big Data para las organizaciones, ciertos conocimientos y habilidades se vuelven imprescindibles para alcanzar el éxito en estos nuevos entornos, uno de las más destacadas es Hadoop, ya que es una tecnología de código abierto, que ofrece grandes ventajas para dar sentido a la gran cantidad de datos que se generan en la actualidad.

A Hadoop es común encontrarlo en los perfiles relacionados al manejo de datos, uno de los puestos más destacados que requiere de esta habilidad es el Data Scientist. Este creciente interés representa una oportunidad para profundizar en esta tecnología, desde su historia y evolución, hasta conocer la razón que la vuelven tan relevante para las organizaciones.

Los inicios de Hadoop se remontan al proyecto llamado Nutch, un robot y motor de búsqueda basado en Lucene, que creado por Doug Cutting y Mike Cafarella, y que está gestionado por Apache. Lo que buscaban Cutting y Cafarella era que existiera una mejor distribución de datos y cálculos en diferentes computadoras para que se pudieran realizar múltiples tareas de manera simultánea, todo esto con la finalidad de devolver los resultados de las búsquedas web mas rápido.

La historia sigue en 2006, de la mano de Cutting cuando se unió a Yahoo! y llevó consigo el proyecto Nutch. El proyecto Nutch se dividió: la parte del rastreador web, que se mantuvo como Nutch; y la parte distribuida de procesamiento y procesamiento, que se convirtió en Hadoop (llamada así por el juguete del elefante del hijo de Cutting).

Dos años después, en 2008 Yahoo! lanzó Hadoop como un proyecto de código abierto. En la actualidad, el marco y el ecosistema de tecnologías Hadoop son administrados y mantenidos por Apache Software Foundation (ASF), una comunidad global de desarrolladores.

Si bien, Hadoop es una tecnología muy joven causa un gran interés entre los profesionales TI, debido a su impacto para el Big Data. A continuación mostramos algunos de los puntos que lo hacen tan llamativo para los entornos del manejo de datos:

Capacidad para almacenar y procesar grandes cantidades de cualquier tipo de datos. Una de las consideraciones clave es que los volúmenes y las variedades de datos aumentan constantemente, especialmente con las redes sociales y el Internet de las Cosas (IoT, por sus siglas en inglés).
Poder computacional. El modelo de computación distribuida de Hadoop procesa grandes datos rápidamente. Cuantos más nodos de computación use, más poder de procesamiento tendrá.
Tolerancia a fallos. El procesamiento de datos y aplicaciones está protegido contra fallos de hardware. Si un nodo se cae, los procesos se redirigen automáticamente a otros nodos para asegurarse de que la computación distribuida no falle. Múltiples copias de todos los datos se almacenan automáticamente.
Flexibilidad. A diferencia de las bases de datos relacionales tradicionales, no tiene que pre-procesar los datos antes de almacenarlos. Puede almacenar tantos datos como se desee y decidir cómo usarlos más adelante. Eso incluye datos no estructurados como texto, imágenes y videos.
Bajo costo. El marco de código abierto es gratuito y utiliza hardware básico para almacenar grandes cantidades de datos.
Escalabilidad. Puede hacer que el sistema crezca fácilmente para manejar más datos simplemente agregando nodos. Se requiere poca administración.

No hay duda, que Hadoop es el centro de un creciente ecosistema de tecnologías de Big Data que se utilizan principalmente para respaldar las iniciativas de análisis avanzado, que incluyen el análisis predictivo, la minería de datos y las aplicaciones de aprendizaje automático.

Campos obligatorios(*)

¿Qué es Hadoop?

Por: Reclu IT

13 de diciembre de 2018

De reclutador en TI a consultor en perfiles IT

Empresas deben capacitar área TI para innovar

¿Cómo se transformará el área médica por la tecnología?

Habilidades más buscadas en un Data Analyst

¿Qué es el Business Intelligence?

Situación de sueldos para desarrolladores .NET junior

El éxito es móvil

¿Qué es Hadoop?

Deja tu comentario

¿Qué es Hadoop?

Notas relacionadas

¿Qué es el Industrial Internet of Things?

¿Cuál es la diferencia SQL, MySQL y NoSQL?

¿Qué es Jenkins?

¿Qué es el Internet of Behaviors (IoB)?

¿Qué es Flask?

Deja tu comentario

Newsletter

Encuentra artículos

Secciones

Consultoría

Academia

Colaterales

Tendencias

Crononauta

Quiénes Somos

Política de privacidad de www.recluit.mx