Coletando RDDs
Neste exercício, você vai trabalhar com RDDs e DataFrames no PySpark. O objetivo é agrupar dados e realizar agregações usando tanto operações de RDD quanto métodos de DataFrame.
Você vai carregar um arquivo CSV com dados de salário de funcionários no PySpark como um RDD. Em seguida, vai agrupar pelos dados de nível de experiência e calcular o salário máximo para cada nível de experiência a partir de um DataFrame. Ao fazer isso, você verá os pontos fortes relativos de cada formato de dados.
O conjunto de dados está relacionado a salários de Data Scientists, então encontrar tendências de mercado é do seu interesse! Nós já carregamos e normalizamos os dados para você! Lembre-se: já existe uma SparkSession chamada spark no seu ambiente de trabalho!
Este exercício faz parte do curso
Introdução ao PySpark
Instruções do exercício
- Crie um RDD a partir de um DataFrame.
- Colete e exiba os resultados do RDD e do DataFrame.
- Agrupe por
"experience_level"e calcule o salário máximo para cada nível.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Create an RDD from the df_salaries
rdd_salaries = df_salaries.____
# Collect and print the results
print(rdd_salaries.____)
# Group by the experience level and calculate the maximum salary
dataframe_results = df_salaries.____("experience_level").____({"salary_in_usd": 'max'})
# Show the results
dataframe_results.____