En este capítulo, aprenderás cómo gestiona Spark los datos y cómo leer y escribir tablas desde Python.

¿Pero qué es Spark?

Uso de Spark en Python

Examen de SparkContext

Uso de DataFrames

Creación de SparkSession

Visualización de tablas

¿Algo que consultar?

Pandafy en Spark DataFrame

Pon algo de Spark en tus datos

Abandono del intermediario

Conocer PySpark

En este capítulo, aprenderás sobre el módulo pyspark.sql, que proporciona consultas de datos optimizadas a tu sesión Spark.

Creación de columnas

SQL en pocas palabras

SQL en pocas palabras (2)

Filtrado de datos

Selección

Selección II

Agregación

Agregación II

Agrupación y agregación I

Agrupación y agregación II

Unión

Unión II

Manipulación de datos

PySpark tiene rutinas de machine learning de última generación integradas, junto con utilidades para crear canalizaciones completas de machine learning. Aprenderás todo esto en este capítulo.

Canalizaciones de machine learning

Unir los DataFrames

Tipos de datos

De cadena a entero

Crear una nueva columna

Creación de un valor booleano

Cadenas y factores

Operador

Destino

Ensamblar un vector

Crear la canalización

Probar frente a Tren

Transformar los datos

Dividir los datos

Introducción a las canalizaciones de machine learning

En este último capítulo, aplicarás lo que has aprendido para crear un modelo que prevea qué vuelos sufrirán retrasos.

¿Qué es la regresión logística?

Crear el modelador

Validación cruzada

Crear el evaluador

Crear una cuadrícula

Crear el validador

Ajustar los modelos

Evaluación de clasificadores binarios

Evaluar el modelo

Ajuste y selección de modelos

Airports

Flights

Planes

En este curso, aprenderás a utilizar Spark desde Python. Spark es una herramienta para realizar computación paralela con grandes conjuntos de datos y se integra bien con Python. PySpark es el paquete de Python que hace que se produzca la magia. Utilizarás este paquete para trabajar con datos sobre vuelos que viajan desde Portland y Seattle. Aprenderás a organizar estos datos y a construir todo un pipeline de machine learning para prever si dichos vuelos van a retrasarse o no. Prepárate para poner un poco de Spark en tu código Python y sumergirte en el mundo del machine learning de alto rendimiento.

Introduction to Python

Aprende a manejar datos y crear un pipeline de aprendizaje automático con PySpark. Practica con datos reales.

Fundamentos de PySpark

Aprende a implementar la gestión de datos distribuidos y el machine learning en Spark utilizando el paquete PySpark.

Pandafy en Spark DataFrame

Fundamentos de PySpark

Instrucciones del ejercicio

ejercicio interactivo práctico