post-tittle

Diferencias entre el ingeniero de datos y el científico de datos

Por: Reclu IT

21 de septiembre de 2017

No se pueden negar las oportunidades laborales que se están creando en torno al Big Data, sin embargo, este mundo se mueve tan deprisa que, en un plazo tan corto, no solo se desarrollan nuevas tecnologías, con sus respectivos ecosistemas, sino que se alcanza un grado de especialización tal como para establecer ciertas diferencias en cada perfil que se ha creado.

El ingeniero de datos es un profesional dedicado principalmente a aportar orden en el ese caos absoluto que son los datos no estructurados. Así pues, podemos decir que desarrolla, construye, prueba y mantiene arquitecturas de almacenamiento y gestión de los mismos, como bases de datos y sistemas de procesamiento a gran escala. Así pues, el ingeniero se enfrenta a múltiples problemas, como la ya mencionada falta de estructura (algo sencillamente impensable hace no tantos años), errores en dicha información (desde fallos ortográficos en Twitter hasta errores en la transcripción o el volcado de datos). El ingeniero debe ser conocedor de todos los problemas que pueden arrastrar los datos, y debe ser capaz de detectarlos en todos los casos, de corregirlos cuando sea posible, y de descartarlos si no queda otra alternativa.

Así pues, todo lo relacionado con los sistemas de adquisición, gestión, proceso y administración de datos debe pasar, de manera ineludible, por el ingeniero de datos, pues de su trabajo depende de manera crítica la arquitectura y, por lo tanto, el modo en el que se podrá trabajar posteriormente con dicha información. Los ingenieros de datos tendrán que recomendar, y en muchas ocasiones directamente implementar sistemas para mejorar la confiabilidad, eficiencia y calidad de los datos. Para ello, tendrán que emplear una variedad de lenguajes y herramientas para lograr la integración de diversos sistemas, fuentes de datos, etcétera. Además, también deberá permanecer siempre a la búsqueda de nuevas fuentes de información que puedan ser añadidas a las estructuras que maneja.

Si revisamos la documentación de Cognitive Class, estos son los skills y las herramientas con los que trabaja habitualmente un ingeniero de datos como Hadoop, MapReduce, Hive, Pig, Data streaming, NoSQL, SQL y programación. Y usará herramientas como DashDB, MySQL, MongoDB y Cassandra

Por lo dicho anteriormente, seguramente ya habrás llegado a la conclusión de que el científico de datos, a diferencia del ingeniero, no participa activamente en el proceso de adquisición y administración de los datos. Podemos decir que, cuando llegan a sus manos, ya han pasado por un proceso de “limpieza”, que garantiza su validez (se han eliminado, por ejemplo, los fallos que mencionábamos anteriormente, y que han sido detectados por el ingeniero) y, por lo tanto, el científico se dedicará a desarrollar sofisticados programas analíticos y sistemas de aprendizaje automático (Machine Learning y Deep Learning), así como métodos estadísticos para preparar datos para su uso en modelos predictivos y prescriptivos.

En esta fase es fundamental, claro está, que el científico de datos mantenga una comunicación muy, muy fluida con los responsables de negocio de las compañías en las que trabajan. En primer lugar, para que el científico conozca con el mayor nivel de detalla posible, la operativa y los modelos de negocio de la empresa, para ser capaz de detectar posibilidades relacionadas con los mismos y los datos con los que está trabajando. Y, por su parte, dichos responsables también deben implicarse en estos procesos, procurando entender las bases de su funcionamiento y, a partir de ahí, proponiendo objetivos que se puedan obtener a partir de dichos datos.

En base a los datos de Cognitive Class, estos son los skills y las herramientas más comunes en el día a día de un científico de datos deberá contar con conocimientos en Python, R, Scala, Apache Spark, Hadoop, machine learning, deep learning y estadística. Tendrá amplio conocimiento con herramientas como Data Science Experience, Jupyter y RStudio.

Ambos profesionales no solo comparten materia prima (los datos, claro) sino también parte de los lenguajes y herramientas (C#JavaHadoopScalaSparkStorm, etcétera). Además, es imprescindible que ambas partes trabajen juntas para discutir múltiples aspectos relacionados con los datos y, además, compartir información sobre los procesos de negocio de la empresa. Dicho de otra manera, las funciones de ingeniero y científico están bastante definidas, pero al mismo tiempo es imprescindible que ambos formen un equipo muy bien cohesionado y con un canal de comunicación bidireccional abierto de manera constante.

  • Ricardo dice:

    Muy buen artículo publicado, actualmente estoy estudiando un diplomado en Business Intelligence.

  • Ricardo dice:

    Muy buen artículo publicado, actualmente estoy estudiando un diplomado en Business Intelligence. Gracias

  • Deja tu comentario

    Tu dirección de correo electrónico no será publicada.

    Campos obligatorios(*)
    post-tittle

    Diferencias entre el ingeniero de datos y el científico de datos

    Por: Reclu IT

    21 de septiembre de 2017

    No se pueden negar las oportunidades laborales que se están creando en torno al Big Data, sin embargo, este mundo se mueve tan deprisa que, en un plazo tan corto, no solo se desarrollan nuevas tecnologías, con sus respectivos ecosistemas, sino que se alcanza un grado de especialización tal como para establecer ciertas diferencias en cada perfil que se ha creado.

    El ingeniero de datos es un profesional dedicado principalmente a aportar orden en el ese caos absoluto que son los datos no estructurados. Así pues, podemos decir que desarrolla, construye, prueba y mantiene arquitecturas de almacenamiento y gestión de los mismos, como bases de datos y sistemas de procesamiento a gran escala. Así pues, el ingeniero se enfrenta a múltiples problemas, como la ya mencionada falta de estructura (algo sencillamente impensable hace no tantos años), errores en dicha información (desde fallos ortográficos en Twitter hasta errores en la transcripción o el volcado de datos). El ingeniero debe ser conocedor de todos los problemas que pueden arrastrar los datos, y debe ser capaz de detectarlos en todos los casos, de corregirlos cuando sea posible, y de descartarlos si no queda otra alternativa.

    Así pues, todo lo relacionado con los sistemas de adquisición, gestión, proceso y administración de datos debe pasar, de manera ineludible, por el ingeniero de datos, pues de su trabajo depende de manera crítica la arquitectura y, por lo tanto, el modo en el que se podrá trabajar posteriormente con dicha información. Los ingenieros de datos tendrán que recomendar, y en muchas ocasiones directamente implementar sistemas para mejorar la confiabilidad, eficiencia y calidad de los datos. Para ello, tendrán que emplear una variedad de lenguajes y herramientas para lograr la integración de diversos sistemas, fuentes de datos, etcétera. Además, también deberá permanecer siempre a la búsqueda de nuevas fuentes de información que puedan ser añadidas a las estructuras que maneja.

    Si revisamos la documentación de Cognitive Class, estos son los skills y las herramientas con los que trabaja habitualmente un ingeniero de datos como Hadoop, MapReduce, Hive, Pig, Data streaming, NoSQL, SQL y programación. Y usará herramientas como DashDB, MySQL, MongoDB y Cassandra

    Por lo dicho anteriormente, seguramente ya habrás llegado a la conclusión de que el científico de datos, a diferencia del ingeniero, no participa activamente en el proceso de adquisición y administración de los datos. Podemos decir que, cuando llegan a sus manos, ya han pasado por un proceso de “limpieza”, que garantiza su validez (se han eliminado, por ejemplo, los fallos que mencionábamos anteriormente, y que han sido detectados por el ingeniero) y, por lo tanto, el científico se dedicará a desarrollar sofisticados programas analíticos y sistemas de aprendizaje automático (Machine Learning y Deep Learning), así como métodos estadísticos para preparar datos para su uso en modelos predictivos y prescriptivos.

    En esta fase es fundamental, claro está, que el científico de datos mantenga una comunicación muy, muy fluida con los responsables de negocio de las compañías en las que trabajan. En primer lugar, para que el científico conozca con el mayor nivel de detalla posible, la operativa y los modelos de negocio de la empresa, para ser capaz de detectar posibilidades relacionadas con los mismos y los datos con los que está trabajando. Y, por su parte, dichos responsables también deben implicarse en estos procesos, procurando entender las bases de su funcionamiento y, a partir de ahí, proponiendo objetivos que se puedan obtener a partir de dichos datos.

    En base a los datos de Cognitive Class, estos son los skills y las herramientas más comunes en el día a día de un científico de datos deberá contar con conocimientos en Python, R, Scala, Apache Spark, Hadoop, machine learning, deep learning y estadística. Tendrá amplio conocimiento con herramientas como Data Science Experience, Jupyter y RStudio.

    Ambos profesionales no solo comparten materia prima (los datos, claro) sino también parte de los lenguajes y herramientas (C#JavaHadoopScalaSparkStorm, etcétera). Además, es imprescindible que ambas partes trabajen juntas para discutir múltiples aspectos relacionados con los datos y, además, compartir información sobre los procesos de negocio de la empresa. Dicho de otra manera, las funciones de ingeniero y científico están bastante definidas, pero al mismo tiempo es imprescindible que ambos formen un equipo muy bien cohesionado y con un canal de comunicación bidireccional abierto de manera constante.

  • Ricardo dice:

    Muy buen artículo publicado, actualmente estoy estudiando un diplomado en Business Intelligence.

  • Ricardo dice:

    Muy buen artículo publicado, actualmente estoy estudiando un diplomado en Business Intelligence. Gracias

  • Deja tu comentario

    Tu dirección de correo electrónico no será publicada.

    Campos obligatorios(*)

    Política de privacidad de www.recluit.mx

    Para recibir la información sobre sus Datos Personales, la finalidad y las partes con las que se comparte,
    contacten con el Propietario.