MulaiMulai sekarang secara gratis

Memeriksa vektor

Untuk memahami lebih baik cara kerja vektor, Anda akan menelusurinya dengan mengonversinya menjadi DataFrame pandas.

Di sini, Anda akan menggunakan struktur data yang sama seperti yang dibuat pada dua latihan sebelumnya (count_train, count_vectorizer, tfidf_train, tfidf_vectorizer) serta pandas, yang diimpor sebagai pd.

Latihan ini adalah bagian dari kursus

Pengantar Natural Language Processing di Python

Lihat Kursus

Petunjuk latihan

  • Buat DataFrame count_df dan tfidf_df dengan menggunakan pd.DataFrame() dan tentukan nilai sebagai argumen pertama serta kolom (atau fitur) sebagai argumen kedua.
    • Nilai dapat diakses dengan atribut .A dari count_train dan tfidf_train masing-masing.
    • Kolom dapat diakses menggunakan metode .get_feature_names() dari count_vectorizer dan tfidf_vectorizer.
  • Cetak head dari setiap DataFrame untuk menelusuri strukturnya. Ini telah dilakukan untuk Anda.
  • Uji apakah nama kolom sama untuk setiap DataFrame dengan membuat objek baru bernama difference untuk melihat perbedaan antara kolom yang dimiliki count_df dibanding tfidf_df. Kolom dapat diakses menggunakan atribut .columns dari sebuah DataFrame. Kurangkan himpunan tfidf_df.columns dari himpunan count_df.columns.
  • Uji apakah kedua DataFrame setara dengan menggunakan metode .equals() pada count_df dengan tfidf_df sebagai argumennya.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Create the CountVectorizer DataFrame: count_df
count_df = ____(____, columns=____)

# Create the TfidfVectorizer DataFrame: tfidf_df
tfidf_df = ____

# Print the head of count_df
print(count_df.head())

# Print the head of tfidf_df
print(tfidf_df.head())

# Calculate the difference in columns: difference
difference = set(____) - set(____)
print(difference)

# Check whether the DataFrames are equal
print(____)
Edit dan Jalankan Kode