De RDD para DataFrame
Semelhante aos RDDs, os DataFrames são estruturas de dados imutáveis e distribuídas no Spark. Embora os RDDs sejam uma estrutura de dados fundamental no Spark, trabalhar com dados em DataFrames é mais fácil do que em RDDs. Portanto, é necessário que você saiba como converter um RDD em um DataFrame.
Neste exercício, você primeiro criará um RDD usando a sample_list
já fornecida a você. Este RDD contém uma lista de tuplas ('Mona',20), ('Jennifer',34),('John',20), ('Jim',26)
, com cada tupla contendo o nome da pessoa e sua idade. Em seguida, você criará um DataFrame usando o RDD e o esquema (que é a lista de "Name" e "Age") e, por fim, confirmará que a saída é um PySpark DataFrame.
Lembre-se de que você já tem um SparkContext sc
e uma SparkSession spark
disponíveis em seu espaço de trabalho.
Este exercício faz parte do curso
Fundamentos de Big Data com PySpark
Instruções de exercício
- Crie um RDD a partir da
sample_list
. - Crie um PySpark DataFrame usando o RDD e o esquema acima.
- Confirme a saída como PySpark DataFrame.
Exercício interativo prático
Experimente este exercício preenchendo este código de exemplo.
# Create an RDD from the list
rdd = sc.____(sample_list)
# Create a PySpark DataFrame
names_df = spark.createDataFrame(____, ____=['Name', 'Age'])
# Check the type of names_df
print("The type of names_df is", ____(names_df))