Comece agoraComece grátis

Lendo um CSV e fazendo agregações

Você tem uma planilha com salários de Data Scientists em empresas que variam de pequeno a grande porte. Você quer verificar se existe uma diferença significativa entre os salários médios agrupados por tamanho da empresa.

Lembre-se: já existe uma SparkSession chamada spark no seu workspace!

Este exercicio faz parte do curso

Introdução ao PySpark

Ver curso

Instruções do exercicio

  • Carregue um arquivo CSV como um DataFrame e infira o schema.
  • Retorne a contagem do número de linhas.
  • Faça o agrupamento pela coluna company_size e calcule o salário médio com salary_in_usd.

exercicio interativo prático

Tente este exercicio completando este código de exemplo.

# Load the CSV file into a DataFrame
salaries_df = ____("salaries.csv", header=True, inferSchema=____)

# Count the total number of rows
row_count = salaries_df.____
print(f"Total rows: {row_count}")

# Group by company size and calculate the average of salaries
salaries_df.____("company_size").____({"salary_in_usd": "avg"}).show()
salaries_df.show()
Editar e Executar Código