1. Nauka
  2. /
  3. Kursy
  4. /
  5. Sprawne importowanie danych z pandas

Connected

ćwiczenie

Pomijanie błędnych danych

W tym ćwiczeniu użyjesz parametrów read_csv() do obsługi plików zawierających błędne dane, np. rekordy z większą liczbą wartości niż kolumn. Domyślnie próba zaimportowania takich plików wywołuje konkretny błąd: pandas.errors.ParserError.

Niektóre wiersze w danych podatkowych stanu Vermont są uszkodzone. Aby wczytać poprawne wiersze, trzeba wskazać bibliotece pandas, żeby pomijała błędy. Chcemy też, żeby pandas ostrzegało nas za każdym razem, gdy pominie wiersz – dzięki temu będziemy wiedzieć, jak duży jest problem z danymi.

Biblioteka pandas została zaimportowana jako pd. Kod ćwiczenia spróbuje odczytać plik. Jeśli wystąpi błąd pandas.errors.ParserError, zostanie wykonany kod zawarty w bloku except.

Instrukcje 1/3

undefined XP
  • 1

    Spróbuj zaimportować plik vt_tax_data_2016_corrupt.csv bez żadnych argumentów kluczowych.

  • 2

    Zaimportuj plik vt_tax_data_2016_corrupt.csv z parametrem error_bad_lines ustawionym tak, aby pomijać błędne rekordy.

  • 3

    Zaktualizuj import, dodając parametr warn_bad_lines ustawiony tak, aby wyświetlać ostrzeżenie za każdym razem, gdy błędny rekord zostanie pominięty.