1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Čištění dat v Pythonu

Connected

cvičení

Hledání nekonzistencí

V tomto cvičení a v celé této kapitole budeš pracovat s DataFrame airlines, který obsahuje odpovědi zákazníků aerolinek na průzkum o letišti San Francisco.

DataFrame obsahuje metadata o letech – jako je aerolinková společnost, cíl cesty, čekací doby – a také odpovědi na klíčové otázky týkající se čistoty, bezpečnosti a spokojenosti. Byl vytvořen také DataFrame categories, který obsahuje všechny správné možné hodnoty pro sloupce průzkumu.

V tomto cvičení použiješ oba tyto DataFrame k nalezení odpovědí z průzkumu s nekonzistentními hodnotami a jejich odstranění – provedením vnějšího a vnitřního joinu, jak bylo ukázáno ve videu. Balíček pandas byl importován jako pd a DataFrames airlines i categories jsou dostupné ve tvém prostředí.

Pokyny 1/4

undefined XP
    1
    2
    3
    4
  • Vypiš DataFrame categories a pečlivě se podívej na všechny správné možné kategorie sloupců průzkumu.
  • Vypiš unikátní hodnoty sloupců průzkumu v airlines pomocí metody .unique().