1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Čištění dat v Pythonu

Connected

Cvičení

Dostatečně popisné odpovědi

Aby oddělení kontroly kvality lépe porozumělo zkušenostem cestujících na letišti v San Franciscu, rozeslalo kvalitativní dotazník všem cestujícím, kteří ohodnotili letiště nejhorším možným skóre ve všech kategoriích. Cílem je odhalit opakující se vzory v tom, co cestující o letišti říkají.

Jejich odpovědi jsou uloženy ve sloupci survey_response. Při bližším pohledu si všimneš, že některé odpovědi obsahují jen minimální počet znaků a prakticky žádnou podstatnou informaci. V tomto cvičení vyfiltrujeme odpovědi s počtem znaků vyšším než 40 a pomocí příkazu assert ověříme, že nový DataFrame obsahuje pouze odpovědi s 40 a více znaky.

DataFrame airlines je dostupný v prostředí a pandas je naimportován jako pd.

Pokyny

100 XP
  • Pomocí .str.len() zjisti délku každé hodnoty ve sloupci survey_response v DataFramu airlines a výsledek ulož do resp_length.
  • Vyfiltruj z DataFramu airlines řádky, kde je resp_length vyšší než 40.
  • Pomocí příkazu assert ověř, že nejkratší odpověď ve sloupci survey_response v DataFramu airlines_survey má nyní více než 40 znaků.