1. 学ぶ
  2. /
  3. コース
  4. /
  5. Pythonで学ぶデータクリーニング

Connected

演習

わかりやすく記述的に

サンフランシスコ空港での旅行者の体験をさらに把握するため、品質保証部門は、あらゆるカテゴリで空港に最低評価をつけた旅行者全員に自由記述のアンケートを送りました。目的は、旅行者が空港について述べている共通のパターンを特定することです。

回答は survey_response 列に保存されています。詳しく確認すると、内容が乏しく最短の文字数だけを入力した回答がいくつかあることに気づきました。この演習では、文字数が 40 より多い回答だけを抽出し、新しい DataFrame が 40 文字以上の回答のみを含んでいることを assert 文で確認します。

airlines DataFrame は環境に用意されており、pandas は pd としてインポートされています。

指示

100 XP
  • airlines DataFrame を使い、survey_response 列の各要素の長さを .str.len() で計算して resp_length に保存します。
  • resp_length が 40 より大きい行だけを airlines から抽出します。
  • airlines_survey における survey_response の最小の長さが、いまは 40 より大きいことを assert で確認します。