ComenzarEmpieza gratis

Recopilar RDDs

En este ejercicio vas a trabajar con RDDs y DataFrames en PySpark. El objetivo es agrupar datos y realizar agregaciones usando tanto operaciones de RDD como métodos de DataFrame.

Cargarás un archivo CSV con datos de salarios de empleados en PySpark como un RDD. Después agruparás por el nivel de experiencia y calcularás el salario máximo para cada nivel de experiencia a partir de un DataFrame. Así verás las fortalezas relativas de ambos formatos de datos.

El conjunto de datos que usarás está relacionado con Data Scientist Salaries, así que encontrar tendencias del mercado te interesa. ¡Ya hemos cargado y normalizado los datos por ti! Recuerda que ya existe una SparkSession llamada spark en tu espacio de trabajo.

Este ejercicio forma parte del curso

Introducción a PySpark

Ver curso

Instrucciones del ejercicio

  • Crea un RDD a partir de un DataFrame.
  • Recupera y muestra los resultados del RDD y del DataFrame.
  • Agrupa por "experience_level" y calcula el salario máximo para cada uno.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Create an RDD from the df_salaries
rdd_salaries = df_salaries.____

# Collect and print the results
print(rdd_salaries.____)

# Group by the experience level and calculate the maximum salary
dataframe_results = df_salaries.____("experience_level").____({"salary_in_usd": 'max'})

# Show the results
dataframe_results.____
Editar y ejecutar código