1. Nauka
  2. /
  3. Kursy
  4. /
  5. Czyszczenie danych w Pythonie

Connected

ćwiczenie

Sumowanie łańcuchów i konkatenacja liczb

W poprzednim ćwiczeniu udało ci się zidentyfikować, że właściwym typem danych dla kolumny user_type jest category, a następnie dokonać konwersji, by wyodrębnić przydatne statystyki opisujące rozkład wartości user_type.

Inny częsty problem z typami danych to importowanie wartości liczbowych w postaci łańcuchów tekstowych. W takim przypadku operacje matematyczne, jak sumowanie czy mnożenie, prowadzą do konkatenacji tekstu zamiast do obliczeń numerycznych.

W tym ćwiczeniu przekonwertujesz kolumnę tekstową duration na typ int. Najpierw musisz jednak usunąć z niej ciąg "minutes", aby biblioteka pandas mogła potraktować tę kolumnę jako numeryczną. Biblioteka pandas została już zaimportowana jako pd.

Instrukcje

100 XP
  • Użyj metody .strip(), aby usunąć "minutes" z kolumny duration, i zapisz wynik w kolumnie duration_trim.
  • Przekonwertuj duration_trim na typ int i zapisz wynik w kolumnie duration_time.
  • Napisz instrukcję assert, która sprawdza, czy typ danych kolumny duration_time to teraz int.
  • Wyświetl średni czas przejazdu.