1. 学ぶ
  2. /
  3. コース
  4. /
  5. Python で学ぶ Natural Language Processing 入門

Connected

演習

ベクトルを確認する

ベクトルがどのように機能するかをつかむために、これらを pandas の DataFrame に変換して調べます。

ここでは、前の 2 つの演習で作成した同じデータ構造(count_train、count_vectorizer、tfidf_train、tfidf_vectorizer)と、pd としてインポートされている pandas を使います。

指示

100 XP
  • pd.DataFrame() を使って DataFrame count_df と tfidf_df を作成します。第1引数に値、第2引数に列(または特徴量)を指定します。
    • 値はそれぞれ count_train と tfidf_train の .A 属性で取得できます。
    • 列は count_vectorizer と tfidf_vectorizer の .get_feature_names() メソッドで取得できます。
  • それぞれの DataFrame の先頭を出力して構造を確認します。これはすでに用意されています。
  • 各 DataFrame の列名が同じかどうかをテストします。difference という新しいオブジェクトを作り、count_df が tfidf_df と比べて持っている列の差分を確認します。列には DataFrame の .columns 属性でアクセスできます。set(count_df.columns) から set(tfidf_df.columns) を引き算します。
  • 2 つの DataFrame が同値かどうかを、count_df に対して .equals() メソッドを使い、引数に tfidf_df を渡してテストします。