1. Learn
  2. /
  3. Cursuri
  4. /
  5. Fundamentele Big Data cu PySpark

Connected

exercițiu

De la RDD la DataFrame

La fel ca RDD-urile, DataFrame-urile sunt structuri de date imuabile și distribuite în Spark. Deși RDD-urile reprezintă o structură fundamentală în Spark, lucrul cu datele în DataFrame-uri este mai simplu decât în RDD-uri. Prin urmare, este important să știi cum să convertești un RDD într-un DataFrame.

În acest exercițiu, vei crea mai întâi un RDD pe baza listei sample_list, care îți este deja pusă la dispoziție. Acest RDD conține o listă de tupluri ('Mona',20), ('Jennifer',34),('John',20), ('Jim',26), fiecare tuplur conținând numele persoanei și vârsta acesteia. Apoi, vei crea un DataFrame folosind RDD-ul și schema (lista cu 'Name' și 'Age') și, în final, vei confirma că rezultatul este un DataFrame PySpark.

Reține că ai deja un SparkContext sc și o SparkSession spark disponibile în spațiul tău de lucru.

Instrucțiuni

100 XP
  • Creează un RDD din sample_list.
  • Creează un DataFrame PySpark folosind RDD-ul și schema de mai sus.
  • Confirmă că rezultatul este un DataFrame PySpark.