1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Làm sạch dữ liệu với Python

Connected

Bài tập

Giữ mô tả có giá trị

Để hiểu rõ hơn về trải nghiệm của hành khách tại Sân bay San Francisco, bộ phận đảm bảo chất lượng đã gửi một bảng câu hỏi định tính đến tất cả những người cho sân bay điểm tệ nhất ở mọi hạng mục có thể. Mục tiêu là xác định các mẫu chung trong những gì hành khách nói về sân bay.

Phản hồi của họ được lưu trong cột survey_response. Khi xem kỹ, bạn nhận ra một vài câu trả lời chỉ gồm số ký tự tối thiểu và thiếu nội dung. Trong bài tập này, bạn sẽ tách các phản hồi có số ký tự lớn hơn 40, và đảm bảo DataFrame mới của bạn chỉ chứa các phản hồi có 40 ký tự trở lên bằng cách dùng câu lệnh assert.

DataFrame airlines đã có sẵn trong môi trường của bạn, và pandas đã được nhập với bí danh pd.

Hướng dẫn

100 XP
  • Sử dụng DataFrame airlines, lưu độ dài của từng phần tử trong cột survey_response vào resp_length bằng .str.len().
  • Lọc các hàng của airlines có resp_length lớn hơn 40.
  • Khẳng định (assert) rằng độ dài nhỏ nhất của survey_response trong airlines_survey hiện lớn hơn 40.