Usuwanie nieprawidłowych wierszy

Po pomyślnym usunięciu wierszy z komentarzami otrzymujesz informacje o ogólnym formacie danych. DataFrame powinien zawierać co najmniej 5 kolumn rozdzielonych tabulatorami. Pamiętaj, że pierwotny DataFrame ma tylko jedną kolumnę – trzeba więc podzielić dane według znaku tabulacji (\t).

DataFrame annotations_df jest już dostępny z usuniętymi wierszami komentarzy. Biblioteka spark.sql.functions jest dostępna pod aliasem F. Początkowa liczba wierszy w DataFrame jest zapisana w zmiennej initial_count.

Utwórz nową zmienną tmp_fields, dzieląc kolumnę '_c0' z DataFrame annotations_df według znaku tabulacji.
Dodaj do annotations_df nową kolumnę o nazwie 'colcount', która reprezentuje liczbę pól zdefiniowanych w poprzednim kroku.
Odfiltruj z annotations_df wszystkie wiersze zawierające mniej niż 5 pól.
Policz wiersze w DataFrame i porównaj wynik z wartością initial_count.

연습 문제

Usuwanie nieprawidłowych wierszy

지침

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}연습 문제

지침

연습 문제