1. Nauka
  2. /
  3. Kursy
  4. /
  5. Podstawy Big Data z PySpark

Connected

ćwiczenie

Część 3: Wizualizacja danych

Wizualizacja danych odgrywa kluczową rolę w eksploracyjnej analizie danych (EDA). Ramki danych PySpark są doskonałym punktem wyjścia do wizualizacji – dzięki wbudowanej strukturze i schematowi sprawdzają się w tym zadaniu znacznie lepiej niż RDD.

W tej trzeciej części stworzysz histogram wieku wszystkich piłkarzy z Niemiec, korzystając z ramki danych utworzonej w poprzednim ćwiczeniu. W tym celu najpierw przekonwertujesz ramkę danych PySpark na ramkę danych Pandas, a następnie użyjesz funkcji plot() z biblioteki matplotlib, aby wygenerować wykres gęstości wieku wszystkich graczy z Niemiec.

Pamiętaj, że w przestrzeni roboczej masz już dostępne: sesję SparkSession spark, tabelę tymczasową fifa_df_table oraz ramkę danych fifa_df_germany_age.

Instrukcje

100 XP
  • Przekonwertuj fifa_df_germany_age na ramkę danych Pandas o nazwie fifa_df_germany_age_pandas.
  • Wygeneruj wykres gęstości kolumny 'Age' z ramki danych Pandas fifa_df_germany_age_pandas.