1. Nauka
  2. /
  3. Kursy
  4. /
  5. Czyszczenie danych w PySpark

Connected

ćwiczenie

Usuwanie wierszy z komentarzami

Twój przełożony chce, abyś przeprowadził(a) złożone parsowanie nowego zbioru danych. Dane przedstawiają adnotacje do zbioru ImageNet, skupiając się konkretnie na rasach psów i ich rozpoznawaniu na zdjęciach. Zanim przejdziesz do właściwej analizy, musisz oczyścić dane z kilku typów nieprawidłowych lub błędnych wpisów. Ogólny schemat dokumentu nie jest znany, dlatego chcesz zaimportować wiersze do pojedynczej kolumny, co umożliwi szybką analizę.

Na początek usuń wszystkie wiersze z komentarzami ze zbioru danych.

Do dyspozycji masz kontekst spark oraz bazowy plik CSV (annotations.csv.gz). Dostępna jest również funkcja col.

Instrukcje

100 XP
  • Zaimportuj plik annotations.csv.gz do DataFrame i wykonaj zliczenie wierszy. Jako separator użyj znaku |.
  • Sprawdź w danych, ile wierszy zaczyna się od znaku #.
  • Zaimportuj plik ponownie do nowego DataFrame, tym razem podając w opcjach znak komentarza, aby usunąć wszystkie wiersze z komentarzami.
  • Zlicz wiersze w nowym DataFrame i sprawdź, czy różnica jest zgodna z oczekiwaniami.