Una introducción general a PySpark y a la computación distribuida. Esta sección presenta PySpark, los DataFrames de PySpark y los RDDs.

Introducción a PySpark

Crear un SparkSession

Cargando datos del censo

Introducción a los DataFrames de PySpark

Escalabilidad y rendimiento

Lectura de un CSV y realización de agregaciones

Filtrar por empresa

Más sobre los DataFrames de Spark

Inferir y filtrar

Escritura del esquema

Introducción a Apache Spark y PySpark

Continuación sobre DataFrames y tipos de datos complejos. Esta sección amplía lo que ofrecen los DataFrames en PySpark e introduce algunos conceptos de Spark SQL.

Manipulación de datos con DataFrames

Cómo tratar datos faltantes con fill y drop

Operaciones con columnas: crear y renombrar columnas

Operaciones avanzadas con DataFrames

Combinaciones de DataFrames

Unir vuelos con sus aeropuertos de destino

¿Lo defines? ¡Úsalo!

UDF definida

Enteros en UDFs de PySpark

Pandas UDFs

PySpark en Python

Profundiza en cómo aprovechar Spark SQL y PySpark para un procesamiento de datos escalable, combinando la sencillez de SQL con la potencia de computación distribuida de PySpark para manejar grandes conjuntos de datos de forma eficiente.

Conjuntos de datos distribuidos resilientes en PySpark

Creación de RDDs

Recopilar RDDs

Introducción a Spark SQL

Consultar sobre una vista temporal

Ejecutar SQL sobre DataFrames

Análisis con SQL sobre DataFrames

Agregaciones en PySpark

Agregaciones en RDDs

Agregaciones complejas

PySpark a escala

Broadcasting

Integrándolo todo I

Juntándolo todo II

¿Qué hemos aprendido?

Introducción a PySpark SQL

Transportation

Salaries

Adults

Course Glossary

Este curso está pensado para data engineers, data scientists y profesionales de Machine Learning que quieran trabajar con grandes conjuntos de datos usando PySpark. Explorarás la velocidad y escalabilidad de Apache Spark, aprenderás a crear sesiones de Spark, trabajar con RDDs y manipular DataFrames mediante ejercicios prácticos. El curso también cubre PySpark SQL, enseñándote a consultar datos con SQL, gestionar esquemas y tipos de datos complejos, y optimizar el rendimiento en entornos distribuidos. Al final, tendrás las bases para procesar y analizar big data, preparando el terreno para aplicaciones avanzadas como Machine Learning y analítica de big data.

Los vídeos incluyen transcripciones en directo que puedes mostrar haciendo clic en "Show transcript" en la parte inferior izquierda de los vídeos.
El glosario del curso está disponible a la derecha, en la sección de recursos.
Para obtener créditos CPE debes completar el curso y alcanzar una puntuación del 70% en la evaluación cualificada. Puedes ir a la evaluación haciendo clic en el aviso de créditos CPE a la derecha.

Este curso es perfecto para ingenieros de datos, científicos de datos y profesionales del machine learning que desean trabajar con grandes conjuntos de datos de manera eficiente. Tanto si estás pasando de herramientas como Pandas como si te estás iniciando en las tecnologías de big data por primera vez, este curso ofrece una sólida introducción a PySpark y al procesamiento distribuido de datos.<br><br>
<h2>¿Por qué Spark? ¿Por qué ahora?</h2>
Descubre la velocidad y la escalabilidad de Apache Spark, el potente marco diseñado para gestionar grandes volúmenes de datos. A través de lecciones interactivas y ejercicios prácticos, verás cómo el procesamiento en memoria de Spark le da una ventaja sobre los marcos tradicionales como Hadoop. Comenzarás configurando sesiones de Spark y profundizarás en componentes básicos como los conjuntos de datos distribuidos resilientes (RDD) y los DataFrame. Aprende a filtrar, agrupar y unir conjuntos de datos con facilidad mientras trabajas con ejemplos del mundo real.<br><br>
<h2>Mejora tus habilidades en Python y SQL para el big data</h2>
Aprende a utilizar PySpark SQL para consultar y gestionar datos utilizando la sintaxis SQL habitual. Aborda esquemas, tipos de datos complejos y funciones definidas por el usuario (UDF), al tiempo que desarrollas habilidades en el almacenamiento en caché y la optimización del rendimiento para sistemas distribuidos.<br><br>
<h2>Construye tus bases de big data</h2>
Al finalizar este curso, tendrás la confianza necesaria para manejar, consultar y procesar grandes volúmenes de datos utilizando PySpark. Con estas habilidades básicas, estarás listo para explorar temas avanzados como machine learning y el análisis de big data.

Introduction to SQL

Data Manipulation with pandas

Domina PySpark para manejar big data fácilmente: procesa, consulta y optimiza grandes conjuntos de datos.

Domina PySpark para manejar big data con facilidad: ¡aprende a procesar, consultar y optimizar conjuntos de datos masivos para realizar potentes análisis!

Big Data con PySpark

Científico especializado en machine learning en Python

Ingeniero de Datos Profesional en Python

Variable	Descripción
age	Edad de la persona
education_num	Nivel educativo (por título)
marital_status	Estado civil
occupation	Ocupación
income	Ingresos (categórico)

Cargando datos del censo

Introducción a PySpark

Instrucciones del ejercicio

Ejercicio interactivo práctico