1. Learn
  2. /
  3. Cursuri
  4. /
  5. Czyszczenie danych w Pythonie

Connected

exercițiu

Szczegółowe odpowiedzi

Aby lepiej zrozumieć doświadczenia podróżnych na lotnisku w San Francisco, dział kontroli jakości wysłał ankietę jakościową do wszystkich osób, które przyznały lotnisku najniższe oceny we wszystkich kategoriach. Celem ankiety jest identyfikacja powtarzających się wzorców w opiniach podróżnych.

Odpowiedzi są przechowywane w kolumnie survey_response. Po bliższym przyjrzeniu się danym okazało się, że część odpowiedzi jest bardzo krótka i mało treściwa. W tym ćwiczeniu wyodrębnisz odpowiedzi o liczbie znaków większej niż 40 i za pomocą instrukcji assert upewnisz się, że nowy DataFrame zawiera odpowiedzi o długości co najmniej 40 znaków.

DataFrame airlines jest dostępny w środowisku, a biblioteka pandas została zaimportowana jako pd.

Instrucțiuni

100 XP
  • Korzystając z DataFrame airlines, oblicz długość każdej odpowiedzi w kolumnie survey_response za pomocą .str.len() i zapisz wynik w zmiennej resp_length.
  • Wyodrębnij wiersze z airlines, dla których resp_length jest większe niż 40.
  • Za pomocą instrukcji assert sprawdź, czy minimalna długość odpowiedzi w kolumnie survey_response w DataFrame airlines_survey jest teraz większa niż 40.