1. 학습
  2. /
  3. 강의
  4. /
  5. Czyszczenie danych w PySpark

Connected

연습 문제

Usuwanie nieprawidłowych wierszy

Po pomyślnym usunięciu wierszy z komentarzami otrzymujesz informacje o ogólnym formacie danych. DataFrame powinien zawierać co najmniej 5 kolumn rozdzielonych tabulatorami. Pamiętaj, że pierwotny DataFrame ma tylko jedną kolumnę – trzeba więc podzielić dane według znaku tabulacji (\t).

DataFrame annotations_df jest już dostępny z usuniętymi wierszami komentarzy. Biblioteka spark.sql.functions jest dostępna pod aliasem F. Początkowa liczba wierszy w DataFrame jest zapisana w zmiennej initial_count.

지침

100 XP
  • Utwórz nową zmienną tmp_fields, dzieląc kolumnę '_c0' z DataFrame annotations_df według znaku tabulacji.
  • Dodaj do annotations_df nową kolumnę o nazwie 'colcount', która reprezentuje liczbę pól zdefiniowanych w poprzednim kroku.
  • Odfiltruj z annotations_df wszystkie wiersze zawierające mniej niż 5 pól.
  • Policz wiersze w DataFrame i porównaj wynik z wartością initial_count.