1. Nauka
  2. /
  3. Kursy
  4. /
  5. Czyszczenie danych w Pythonie

Connected

ćwiczenie

Przemapowanie kategorii

Chcesz lepiej zrozumieć respondentów ankiety z ramki danych airlines – konkretnie zbadać, czy istnieje związek między niektórymi odpowiedziami a dniem tygodnia i czasem oczekiwania przy bramce.

Ramka danych airlines zawiera kolumny day i wait_min, które są odpowiednio kategoryczne i liczbowe. Kolumna day przechowuje dokładny dzień, w którym odbył się lot, a wait_min – liczbę minut spędzonych przez pasażerów na oczekiwanie przy bramce. Aby uprościć analizę, chcesz utworzyć dwie nowe zmienne kategoryczne:

  • wait_type: 'short' dla 0–60 min, 'medium' dla 60–180 min i long dla 180+ min
  • day_week: 'weekday', jeśli dzień jest dniem roboczym, lub 'weekend', jeśli jest dniem weekendowym.

Biblioteki pandas i numpy zostały zaimportowane jako pd i np. Czas stworzyć nowe dane kategoryczne!

Instrukcje

100 XP
  • Utwórz zakresy i etykiety dla kolumny wait_type opisane w treści ćwiczenia.
  • Utwórz kolumnę wait_type na podstawie kolumny wait_min, używając pd.cut() i podając label_ranges oraz label_names w odpowiednich argumentach.
  • Utwórz słownik mapping przypisujący dni robocze do 'weekday', a dni weekendowe do 'weekend'.
  • Utwórz kolumnę day_week, używając metody .replace().