ComenzarEmpieza gratis

Lectura de un CSV y realización de agregaciones

Tienes una hoja de cálculo con salarios de Data Scientist de empresas cuyo tamaño va de pequeño a grande. Quieres comprobar si hay una diferencia importante entre los salarios medios agrupados por tamaño de empresa.

Recuerda que ya tienes una SparkSession llamada spark en tu espacio de trabajo.

Este ejercicio forma parte del curso

Introducción a PySpark

Ver curso

Instrucciones del ejercicio

  • Carga un archivo CSV como DataFrame e infiere el esquema.
  • Devuelve el recuento del número de filas.
  • Agrupa por la columna company_size y calcula el salario medio con salary_in_usd.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Load the CSV file into a DataFrame
salaries_df = ____("salaries.csv", header=True, inferSchema=____)

# Count the total number of rows
row_count = salaries_df.____
print(f"Total rows: {row_count}")

# Group by company size and calculate the average of salaries
salaries_df.____("company_size").____({"salary_in_usd": "avg"}).show()
salaries_df.show()
Editar y ejecutar código