Spark, Hadoop y Hive

En el vídeo anterior te has encontrado con bastantes proyectos de código abierto. Están Hadoop, Hive y PySpark. Es fácil confundirse entre estos proyectos.

Tienen algunas cosas en común: todos ellos son mantenidos actualmente por la Apache Software Foundation, y todos han sido utilizados para el procesamiento paralelo masivo. ¿Puedes detectar las diferencias?

Este ejercicio forma parte del curso

Introducción a la ingeniería de datos

Ejercicio interactivo práctico

Pon en práctica la teoría con uno de nuestros ejercicios interactivos

Empezar ejercicio

Este ejercicio forma parte del curso

Introducción a la ingeniería de datos

IntermedioNivel de habilidad

4.8+

Comienza el curso gratis

En este primer capítulo, te adentrarás en el mundo de la ingeniería de datos. Explora las diferencias entre un ingeniero de datos y un científico de datos, obtén una visión general de las diversas herramientas que utilizan los ingenieros de datos y amplía tu comprensión de cómo la tecnología de la nube desempeña un papel en la ingeniería de datos.

Exercise 1: ¿Qué es la ingeniería de datos?Exercise 2: Tareas de un ingeniero de datos Exercise 3: ¿Ingeniero de datos o científico de datos?Exercise 4: Problemas de la ingeniería de datos Exercise 5: Herramientas del ingeniero de datos Exercise 6: Tipos de bases de datos Exercise 7: Tareas de procesamiento Exercise 8: Herramientas de programación Exercise 9: Proveedores de nube Exercise 10: ¿Por qué la computación en la nube?Exercise 11: Grandes nombres de la computación en nube Exercise 12: Servicios en la nube

Ahora que ya conoces las principales diferencias entre un ingeniero de datos y un científico de datos, ¡prepárate para descubrir la caja de herramientas que usa un ingeniero de datos! Conoce en detalle los distintos tipos de bases de datos que utilizan los ingenieros de datos, descubre cómo la computación paralela es una piedra angular del conjunto de herramientas del ingeniero de datos y aprende a programar trabajos de procesamiento de datos utilizando marcos de programación.

Exercise 1: Bases de datos Exercise 2: SQL vs NoSQL Exercise 3: El esquema de la base de datos Exercise 4: Uniones en relaciones Exercise 5: Diagrama de esquema en estrella Exercise 6: Qué es la computación paralela Exercise 7: ¿Por qué la computación paralela?Exercise 8: De la tarea a las subtareas Exercise 9: Uso de un DataFrame Exercise 10: Frameworks de computación paralela Exercise 11: Spark, Hadoop y Hive

Ejercicio actual

Exercise 12: Groupby de PySpark Exercise 13: Ejecución de archivos PySpark Exercise 14: Frameworks de programación de flujos de trabajo Exercise 15: Airflow, Luigi y cron Exercise 16: DAGs de Airflow

Después de explorar la caja de herramientas que usan los ingenieros de datos, ha llegado el momento de pasar al pan de cada día del flujo de trabajo de un ingeniero de datos. Con ETL, aprenderás a extraer datos brutos de diversas fuentes, a transformar estos datos brutos en información procesable y a cargarla en bases de datos relevantes, listas para ser usadas.

Exercise 1: Extraer Exercise 2: Fuentes de datos Exercise 3: Obtener desde una API Exercise 4: Leer de una base de datos Exercise 5: Transformar Exercise 6: División del alquiler Exercise 7: Preparación para transformaciones Exercise 8: Uniones con valoraciones Exercise 9: Carga Exercise 10: OLAP o OLTP Exercise 11: Escritura en un archivo Exercise 12: Cargar en Postgres Exercise 13: Unirlo todo Exercise 14: Definición de un DAG Exercise 15: Configuración de Airflow Exercise 16: Interpretación del DAG

Culmina todo lo que has aprendido en los tres capítulos anteriores completando un caso de uso de ingeniería de datos del mundo real de DataCamp. Realizarás y programarás un proceso ETL que transforme los datos brutos de calificación de los cursos en recomendaciones de cursos procesables para los estudiantes de DataCamp.

Exercise 1: Valoraciones de cursos Exercise 2: Exploración del esquema Exercise 3: Consulta de la tabla Exercise 4: Valoración media por curso Exercise 5: De las valoraciones a las recomendaciones Exercise 6: Filtrar los datos corruptos Exercise 7: Uso de la transformación de recomendación Exercise 8: Programación de trabajos diarios Exercise 9: La tabla de destino Exercise 10: Definición del DAG Exercise 11: Activación del DAG Exercise 12: Consulta de las recomendaciones Exercise 13: ¡Enhorabuena!