1. Nauka
  2. /
  3. Kursy
  4. /
  5. Czyszczenie danych w PySpark

Connected

ćwiczenie

When / Otherwise

To zadanie jest podobne do poprzedniego, ale tym razem chcesz dodać różne wartości w zależności od stanowiska głosującego. Zmodyfikuj DataFrame voter_df, aby dodać losową liczbę dla każdego członka głosującego z tytułem Councilmember. Użyj wartości 2 dla Mayor i 0 dla wszystkich pozostałych stanowisk.

DataFrame voter_df jest już zdefiniowany i dostępny. Biblioteka pyspark.sql.functions jest dostępna jako F.. Możesz użyć F.rand(), aby wygenerować losową wartość.

Instrukcje

100 XP
  • Dodaj do voter_df kolumnę random_val z wynikami metody F.rand() dla każdego głosującego z tytułem Councilmember. Ustaw random_val na 2 dla Mayor. Dla wszystkich pozostałych tytułów ustaw wartość 0.
  • Wyświetl kilka wierszy DataFrame i sprawdź, czy klauzule działają poprawnie.
  • Użyj klauzuli .filter, aby znaleźć wiersze z wartością 0 w kolumnie random_val.