Usuwanie wierszy z komentarzami

Twój przełożony chce, abyś przeprowadził(a) złożone parsowanie nowego zbioru danych. Dane przedstawiają adnotacje do zbioru ImageNet, skupiając się konkretnie na rasach psów i ich rozpoznawaniu na zdjęciach. Zanim przejdziesz do właściwej analizy, musisz oczyścić dane z kilku typów nieprawidłowych lub błędnych wpisów. Ogólny schemat dokumentu nie jest znany, dlatego chcesz zaimportować wiersze do pojedynczej kolumny, co umożliwi szybką analizę.

Na początek usuń wszystkie wiersze z komentarzami ze zbioru danych.

Do dyspozycji masz kontekst spark oraz bazowy plik CSV (annotations.csv.gz). Dostępna jest również funkcja col.

Zaimportuj plik annotations.csv.gz do DataFrame i wykonaj zliczenie wierszy. Jako separator użyj znaku |.
Sprawdź w danych, ile wierszy zaczyna się od znaku #.
Zaimportuj plik ponownie do nowego DataFrame, tym razem podając w opcjach znak komentarza, aby usunąć wszystkie wiersze z komentarzami.
Zlicz wiersze w nowym DataFrame i sprawdź, czy różnica jest zgodna z oczekiwaniami.

ćwiczenie

Usuwanie wierszy z komentarzami

Instrukcje

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}ćwiczenie

Instrukcje

ćwiczenie