Filtrowanie zawartości kolumn w Pythonie

Wiesz już, jak wykonywać różne operacje na kolumnach DataFrame – czas zastosować tę wiedzę na prawdziwym zbiorze danych. DataFrame voter_df zawiera informacje o radnych miejskich Dallas z ostatnich kilku lat. Ten skrócony DataFrame przechowuje datę głosowania oraz imię, nazwisko i stanowisko radnego. Twój menedżer poprosił cię o oczyszczenie tych danych, aby można je było później wykorzystać w raportach. Głównym zadaniem jest usunięcie pustych wpisów oraz nieprawidłowych znaków, a następnie wyodrębnienie konkretnych radnych, których dane można zweryfikować.

To jeden z pierwszych kroków w czyszczeniu danych – usunięcie wszystkiego, co wyraźnie odbiega od oczekiwanego formatu. Przyjrzyj się oryginalnym danym i zwróć uwagę, co wygląda podejrzanie w kolumnie VOTER_NAME.

Biblioteka pyspark.sql.functions jest już zaimportowana pod aliasem F.

Wyświetl unikalne wartości w kolumnie VOTER_NAME.
Przefiltruj voter_df tak, aby VOTER_NAME miał od 1 do 20 znaków.
Usuń z voter_df wiersze, w których VOTER_NAME zawiera znak _.
Wyświetl ponownie unikalne wartości w kolumnie VOTER_NAME.

ćwiczenie

Filtrowanie zawartości kolumn w Pythonie

Instrukcje

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}ćwiczenie

Instrukcje

ćwiczenie