1. 学ぶ
  2. /
  3. コース
  4. /
  5. Pythonで学ぶMachine Learningの前処理

Connected

演習

最適なデータセットを選ぶ

それでは、ufo データセットから不要な特徴量を取り除きます。country 列は country_enc としてエンコード済みなので、country_enc を残し、位置情報に関する他の列である city、country、lat、long、state を削除できます。

month と year 列は作成済みなので、もとの date と recorded 列は不要です。また、seconds 列は seconds_log として標準化したため、seconds と minutes を削除できます。

desc はベクトル化済みなので、こちらも削除します。現時点では type は残しておきます。

さらに、length_of_time 列も、minutes を抽出した後は不要なので削除できます。

指示

100 XP
  • 削除するすべての列のリスト to_drop を作成します。
  • これらの列を ufo から削除します。
  • 以前に作成した words_to_filter() 関数を使い、vocab、vec.vocabulary_、desc_tfidf を渡し、最後の引数には上位 4 語を指定します。