1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Nhập môn Natural Language Processing bằng Python

Connected

Bài tập

Khám phá các vector

Để hiểu rõ hơn cách các vector hoạt động, bạn sẽ khảo sát chúng bằng cách chuyển đổi thành các DataFrame của pandas.

Tại đây, bạn sẽ dùng lại các cấu trúc dữ liệu đã tạo ở hai bài trước (count_train, count_vectorizer, tfidf_train, tfidf_vectorizer) cùng với pandas, đã được import là pd.

Hướng dẫn

100 XP
  • Tạo các DataFrame count_df và tfidf_df bằng cách dùng pd.DataFrame() và chỉ định các giá trị làm đối số thứ nhất và các cột (hoặc đặc trưng) làm đối số thứ hai.
    • Có thể truy cập các giá trị thông qua thuộc tính .A lần lượt của count_train và tfidf_train.
    • Có thể truy cập các cột bằng các phương thức .get_feature_names() của count_vectorizer và tfidf_vectorizer.
  • In phần đầu của mỗi DataFrame để khảo sát cấu trúc của chúng. Phần này đã được làm sẵn cho bạn.
  • Kiểm tra xem tên cột có giống nhau giữa hai DataFrame không bằng cách tạo một đối tượng mới gọi là difference để xem phần khác biệt giữa các cột mà count_df có so với tfidf_df. Có thể truy cập các cột bằng thuộc tính .columns của một DataFrame. Trừ tập tfidf_df.columns khỏi tập count_df.columns.
  • Kiểm tra xem hai DataFrame có tương đương nhau không bằng cách dùng phương thức .equals() trên count_df với đối số là tfidf_df.