1. Nauka
  2. /
  3. Kursy
  4. /
  5. Czyszczenie danych w PySpark

Connected

ćwiczenie

Identyfikatory a różne partycje

Właśnie skończyłeś dodawać pole ID do obiektu DataFrame. Teraz sprawdź, co się dzieje, gdy zrobisz to samo na obiektach DataFrame zawierających różną liczbę partycji.

Aby sprawdzić liczbę partycji, użyj metody .rdd.getNumPartitions() na obiekcie DataFrame.

W twoim środowisku dostępna jest sesja spark oraz dwa obiekty DataFrame: voter_df i voter_df_single. Instrukcje pomogą ci odkryć różnicę między nimi. Biblioteka pyspark.sql.functions jest dostępna pod aliasem F.

Instrukcje

100 XP
  • Wyświetl liczbę partycji każdego obiektu DataFrame.
  • Dodaj pole ROW_ID do każdego obiektu DataFrame.
  • Pokaż 10 pierwszych identyfikatorów z każdego obiektu DataFrame.