Un repaso a los fundamentos del DataFrame y a la importancia de la limpieza de datos.

Introducción a la limpieza de datos con Apache Spark

Revisión de la limpieza de datos

Definir un esquema

Inmutabilidad y procesamiento perezoso

Revisión de la inmutabilidad

Utilizar el procesamiento perezoso

Entender el parquet

Guardar un DataFrame en formato Parquet

SQL y Parquet

Detalles del marco de datos

Un vistazo a varias técnicas para modificar el contenido de los DataFrames en Spark.

Operaciones con columnas de DataFrame

Filtrar el contenido de las columnas con Python

Filtrado Pregunta nº 1

Filtrado Pregunta nº 2

Modificar columnas del Marco de datos

Operaciones condicionales con columnas de DataFrame

ejemplo de when()

Cuándo / Si no

Funciones definidas por el usuario

Comprender las funciones definidas por el usuario

Uso de funciones definidas por el usuario en Spark

Particionamiento y procesamiento perezoso

Añadir un campo ID

IDs con diferentes particiones

Más trucos de ID

Manipular DataFrames en el mundo real

Mejora las tareas de limpieza de datos aumentando el rendimiento o reduciendo los recursos necesarios.

Almacenamiento en caché

Guardar en caché un DataFrame

Eliminar un DataFrame de la caché

Mejorar el rendimiento de la importación

Optimización del tamaño de los archivos

Rendimiento de la importación de archivos

Configuraciones de clúster

Lectura de las configuraciones de Spark

Escribir configuraciones Spark

Mejoras de rendimiento

Uniones normales

Utilizar la difusión en las uniones Spark

Comparar las uniones de difusión con las normales

Mejorar el rendimiento

Aprende a procesar datos complejos del mundo real utilizando Spark y los fundamentos de las canalizaciones.

Introducción a las canalizaciones de datos

Tubería rápida

Problema con los datos de la tubería

Técnicas de tratamiento de datos

Eliminar líneas comentadas

Eliminar filas no válidas

Dividir en columnas

Análisis posterior

Validación de datos

Validar filas mediante join

Examinar filas no válidas

Análisis final y entrega

Análisis de perros

Por número de imágenes

Porcentaje de píxeles de perro

Enhorabuena y próximos pasos

Procesamiento complejo y canalización de datos

Dallas Council Votes

Dallas Council Voters

Flights - 2014

Flights - 2015

Flights - 2016

Flights - 2017

Trabajar con datos es complicado; trabajar con millones o incluso miles de millones de filas es peor.
¿Recibiste algún código de procesamiento de datos escrito en un ordenador portátil con datos bastante prístinos?
Es probable que te hayan encargado pasar un proceso de datos básico del prototipo a la producción.
Puede que hayas trabajado con conjuntos de datos del mundo real, con campos que faltan, formatos extraños y órdenes de magnitud de más datos. Aunque todo esto sea nuevo para ti, este curso te ayuda a aprender lo necesario para preparar procesos de datos utilizando Python con Apache Spark.
Aprenderás terminología, métodos y algunas buenas prácticas para crear una plataforma de procesamiento de datos eficaz, mantenible y comprensible.

Intermediate Python

Introduction to PySpark

Aprende a usar PySpark para limpiar datos en Python con DataFrames y pipelines. La limpieza es crucial.

Limpiar datos con PySpark

Aprende a limpiar datos con Apache Spark en Python.

Big Data con PySpark

Optimización del tamaño de los archivos

Limpiar datos con PySpark

ejercicio interactivo práctico