Dodawanie pola ID

Podczas pracy z danymi często potrzebujesz dostępu tylko do wybranych pól i wykonywania różnych operacji. W tym ćwiczeniu znajdź wszystkie unikalne nazwy wyborców w DataFrame i przypisz każdej z nich unikalny numer ID. Pamiętaj, że identyfikatory w Sparku są przydzielane na podstawie partycji DataFrame – dlatego wartości ID mogą być znacznie większe niż rzeczywista liczba wierszy.

Ze względu na leniwe przetwarzanie w Sparku, identyfikatory nie są faktycznie generowane aż do momentu wykonania akcji – ich wartości mogą być częściowo losowe, zależnie od rozmiaru zbioru danych.

W środowisku pracy dostępne są: sesja spark oraz DataFrame df zawierający plik DallasCouncilVotes.csv.gz. Biblioteka pyspark.sql.functions jest dostępna pod aliasem F.

Wybierz unikalne wpisy z kolumny VOTER NAME i utwórz nowy DataFrame o nazwie voter_df.
Zlicz wiersze w DataFrame voter_df.
Dodaj kolumnę ROW_ID, korzystając z odpowiedniej funkcji Sparka.
Wyświetl 10 wierszy z najwyższymi wartościami ROW_ID.

ćwiczenie

Dodawanie pola ID

Instrukcje

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}ćwiczenie

Instrukcje

ćwiczenie