Lectura de un CSV y realización de agregaciones
Tienes una hoja de cálculo con salarios de Data Scientist de empresas cuyo tamaño va de pequeño a grande. Quieres comprobar si hay una diferencia importante entre los salarios medios agrupados por tamaño de empresa.
Recuerda que ya tienes una SparkSession llamada spark en tu espacio de trabajo.
Este ejercicio forma parte del curso
Introducción a PySpark
Instrucciones del ejercicio
- Carga un archivo CSV como DataFrame e infiere el esquema.
- Devuelve el recuento del número de filas.
- Agrupa por la columna
company_sizey calcula el salario medio consalary_in_usd.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Load the CSV file into a DataFrame
salaries_df = ____("salaries.csv", header=True, inferSchema=____)
# Count the total number of rows
row_count = salaries_df.____
print(f"Total rows: {row_count}")
# Group by company size and calculate the average of salaries
salaries_df.____("company_size").____({"salary_in_usd": "avg"}).show()
salaries_df.show()