1. Nauka
  2. /
  3. Kursy
  4. /
  5. Czyszczenie danych w Pythonie

Connected

ćwiczenie

Znajdowanie niespójności

W tym ćwiczeniu, a także przez cały rozdział, będziesz pracować z DataFrame airlines, który zawiera odpowiedzi z ankiety dotyczącej lotniska San Francisco, wypełnionej przez pasażerów linii lotniczych.

DataFrame zawiera metadane dotyczące lotów – m.in. linię lotniczą, cel podróży, czasy oczekiwania, a także odpowiedzi na kluczowe pytania dotyczące czystości, bezpieczeństwa i satysfakcji. Powstał również dodatkowy DataFrame o nazwie categories, zawierający wszystkie poprawne wartości dla kolumn ankiety.

W tym ćwiczeniu użyjesz obu tych DataFrame'ów, aby znaleźć odpowiedzi ankietowe z niespójnymi wartościami, a następnie je usunąć – wykonując w praktyce złączenie zewnętrzne i wewnętrzne (outer i inner join) na obu tych DataFrame'ach, tak jak pokazano w materiale wideo. Biblioteka pandas została już zaimportowana jako pd, a DataFrame'y airlines i categories są dostępne w twoim środowisku.

Instrukcje 1/4

undefined XP
    1
    2
    3
    4
  • Wyświetl DataFrame categories i dokładnie przejrzyj wszystkie poprawne kategorie kolumn ankiety.
  • Wyświetl unikalne wartości kolumn ankiety w DataFrame airlines, używając metody .unique().