ComeçarComece gratuitamente

De RDD para DataFrame

Semelhante aos RDDs, os DataFrames são estruturas de dados imutáveis e distribuídas no Spark. Embora os RDDs sejam uma estrutura de dados fundamental no Spark, trabalhar com dados em DataFrames é mais fácil do que em RDDs. Portanto, é necessário que você saiba como converter um RDD em um DataFrame.

Neste exercício, você primeiro criará um RDD usando a sample_list já fornecida a você. Este RDD contém uma lista de tuplas ('Mona',20), ('Jennifer',34),('John',20), ('Jim',26), com cada tupla contendo o nome da pessoa e sua idade. Em seguida, você criará um DataFrame usando o RDD e o esquema (que é a lista de "Name" e "Age") e, por fim, confirmará que a saída é um PySpark DataFrame.

Lembre-se de que você já tem um SparkContext sc e uma SparkSession spark disponíveis em seu espaço de trabalho.

Este exercício faz parte do curso

Fundamentos de Big Data com PySpark

Ver Curso

Instruções de exercício

  • Crie um RDD a partir da sample_list.
  • Crie um PySpark DataFrame usando o RDD e o esquema acima.
  • Confirme a saída como PySpark DataFrame.

Exercício interativo prático

Experimente este exercício preenchendo este código de exemplo.

# Create an RDD from the list
rdd = sc.____(sample_list)

# Create a PySpark DataFrame
names_df = spark.createDataFrame(____, ____=['Name', 'Age'])

# Check the type of names_df
print("The type of names_df is", ____(names_df))
Editar e executar código