1. Nauka
  2. /
  3. Kursy
  4. /
  5. Podstawy Big Data z PySpark

Connected

ćwiczenie

Wizualizacja danych w PySpark DataFrame

Graficzne przedstawianie danych – czyli ich wizualizacja – jest niezbędne zarówno do zrozumienia, jak i interpretacji danych. W tym ćwiczeniu najpierw wyświetlisz nazwy kolumn DataFrame'a names_df, który już wcześniej utworzyłeś, a następnie przekonwertujesz names_df na DataFrame Pandas i na koniec wyrenderujesz dane jako poziomy wykres słupkowy – z imionami osób na osi x i ich wiekiem na osi y.

Pamiętaj, że w środowisku pracy masz już dostępne: SparkSession spark oraz DataFrame names_df.

Instrukcje

100 XP
  • Wyświetl nazwy kolumn DataFrame'a names_df.
  • Przekonwertuj DataFrame names_df na DataFrame Pandas o nazwie df_pandas.
  • Użyj metody plot() z biblioteki matplotlib, aby utworzyć poziomy wykres słupkowy z kolumną 'Name' na osi x i kolumną 'Age' na osi y.