1. Nauka
  2. /
  3. Kursy
  4. /
  5. Czyszczenie danych w PySpark

Connected

ćwiczenie

Dodawanie pola ID

Podczas pracy z danymi często potrzebujesz dostępu tylko do wybranych pól i wykonywania różnych operacji. W tym ćwiczeniu znajdź wszystkie unikalne nazwy wyborców w DataFrame i przypisz każdej z nich unikalny numer ID. Pamiętaj, że identyfikatory w Sparku są przydzielane na podstawie partycji DataFrame – dlatego wartości ID mogą być znacznie większe niż rzeczywista liczba wierszy.

Ze względu na leniwe przetwarzanie w Sparku, identyfikatory nie są faktycznie generowane aż do momentu wykonania akcji – ich wartości mogą być częściowo losowe, zależnie od rozmiaru zbioru danych.

W środowisku pracy dostępne są: sesja spark oraz DataFrame df zawierający plik DallasCouncilVotes.csv.gz. Biblioteka pyspark.sql.functions jest dostępna pod aliasem F.

Instrukcje

100 XP
  • Wybierz unikalne wpisy z kolumny VOTER NAME i utwórz nowy DataFrame o nazwie voter_df.
  • Zlicz wiersze w DataFrame voter_df.
  • Dodaj kolumnę ROW_ID, korzystając z odpowiedniej funkcji Sparka.
  • Wyświetl 10 wierszy z najwyższymi wartościami ROW_ID.