1. Uczyć się
  2. /
  3. Courses
  4. /
  5. Wprowadzenie do importowania danych w Pythonie

Connected

Exercise

Dostosowywanie importu w pandas

Biblioteka pandas świetnie radzi sobie z wieloma problemami, które napotkasz podczas importowania danych – takimi jak komentarze w plikach płaskich, puste wiersze czy brakujące wartości (NA lub NaN). Na zakończenie tego rozdziału zaimportujesz uszkodzoną kopię zbioru danych Titanic – plik titanic_corrupt.txt, który zawiera komentarze po znaku '#' i jest rozdzielany tabulatorem.

Najważniejsze argumenty funkcji pd.read_csv():

  • sep – określa oczekiwany separator.
    • Użyj ',' dla plików rozdzielanych przecinkiem.
    • Użyj '\t' dla plików rozdzielanych tabulatorem.
  • comment – przyjmuje znaki, po których w pliku występują komentarze; tekst zaczynający się od tych znaków będzie ignorowany.
  • na_values – przyjmuje listę ciągów znaków, które mają być traktowane jako NA/NaN. Domyślnie niektóre wartości są już rozpoznawane jako NA/NaN – ten argument pozwala dodać kolejne.

Instrukcje

100 XP
  • Uzupełnij argumenty funkcji pd.read_csv(), aby poprawnie zaimportować plik titanic_corrupt.txt za pomocą pandas:
    • sep – ustawia separator; działa tak samo jak argument delimiter w np.loadtxt(). Pamiętaj, że importowany plik jest rozdzielany tabulatorem.
    • comment – przyjmuje znaki, po których w pliku pojawiają się komentarze; w tym przypadku jest to '#'.
    • na_values – przyjmuje listę ciągów znaków, które mają być traktowane jako NA/NaN; tutaj jest to ciąg 'Nothing'.
  • Uruchom pozostałą część kodu, aby wyświetlić nagłówek wynikowego DataFrame i narysować histogram kolumny 'Age' z danymi pasażerów Titanica.