1. Nauka
  2. /
  3. Kursy
  4. /
  5. Podstawy Big Data z PySpark

Connected

ćwiczenie

RDD do DataFrame

Podobnie jak RDD, DataFrame-y są niezmiennymi i rozproszonymi strukturami danych w Sparku. Choć RDD to podstawowa struktura danych w Sparku, praca z danymi w DataFrame-ach jest wygodniejsza. Warto więc wiedzieć, jak przekształcić RDD w DataFrame.

W tym ćwiczeniu najpierw utworzysz RDD z gotowej listy sample_list. To RDD zawiera listę krotek ('Mona',20), ('Jennifer',34),('John',20), ('Jim',26) – każda krotka przechowuje imię osoby i jej wiek. Następnie na podstawie tego RDD i schematu (listy kolumn 'Name' i 'Age') utworzysz DataFrame, a na koniec potwierdzisz, że wynik jest rzeczywiście obiektem PySpark DataFrame.

Pamiętaj – w swoim środowisku masz już dostępne SparkContext sc oraz SparkSession spark.

Instrukcje

100 XP
  • Utwórz RDD z listy sample_list.
  • Utwórz PySpark DataFrame na podstawie powyższego RDD i schematu.
  • Potwierdź, że wynik jest obiektem PySpark DataFrame.