1. Learn
  2. /
  3. Курси
  4. /
  5. Вступ до імпорту даних у Python

Connected

вправа

Налаштування імпорту в pandas

Пакет pandas чудово справляється з багатьма проблемами, з якими ви стикаєтеся під час імпорту даних як дата-сайентитст, зокрема з коментарями у плоских файлах, порожніми рядками та пропущеними значеннями (NA або NaN). На завершення цього розділу ви імпортуєте пошкоджену копію набору даних Titanic — titanic_corrupt.txt, у якій є коментарі після символу '#', і файл є tab-delimited (розділення табуляцією).

Ключові аргументи для pd.read_csv():

  • sep задає очікуваний роздільник.
    • Можна використовувати ',' для розділення комами.
    • Можна використовувати '\t' для розділення табуляцією.
  • comment приймає символ(и), після яких у файлі починаються коментарі. Будь-який текст, що починається з цих символів, ігнорується.
  • na_values приймає список рядків, які слід вважати NA/NaN. Типово деякі значення вже розпізнаються як NA/NaN. Цей аргумент додає додаткові значення.

Інструкції

100 XP
  • Заповніть аргументи pd.read_csv(), щоб коректно імпортувати titanic_corrupt.txt за допомогою pandas:
    • sep задає роздільник і працює так само, як аргумент delimiter у np.loadtxt(). Зверніть увагу: файл розділено табуляцією.
    • comment приймає символ(и), після яких у файлі починаються коментарі; у цьому випадку це '#'.
    • na_values приймає список рядків, які слід трактувати як NA/NaN; у цьому випадку це рядок 'Nothing'.
  • Запустіть решту коду, щоб вивести перші рядки отриманого датафрейму та побудувати гістограму 'Age' пасажирів на борту «Титаніка».