Memeriksa vektor
Untuk memahami lebih baik cara kerja vektor, Anda akan menelusurinya dengan mengonversinya menjadi DataFrame pandas.
Di sini, Anda akan menggunakan struktur data yang sama seperti yang dibuat pada dua latihan sebelumnya (count_train, count_vectorizer, tfidf_train, tfidf_vectorizer) serta pandas, yang diimpor sebagai pd.
Latihan ini adalah bagian dari kursus
Pengantar Natural Language Processing di Python
Petunjuk latihan
- Buat DataFrame
count_dfdantfidf_dfdengan menggunakanpd.DataFrame()dan tentukan nilai sebagai argumen pertama serta kolom (atau fitur) sebagai argumen kedua.- Nilai dapat diakses dengan atribut
.Adaricount_traindantfidf_trainmasing-masing. - Kolom dapat diakses menggunakan metode
.get_feature_names()daricount_vectorizerdantfidf_vectorizer.
- Nilai dapat diakses dengan atribut
- Cetak head dari setiap DataFrame untuk menelusuri strukturnya. Ini telah dilakukan untuk Anda.
- Uji apakah nama kolom sama untuk setiap DataFrame dengan membuat objek baru bernama
differenceuntuk melihat perbedaan antara kolom yang dimilikicount_dfdibandingtfidf_df. Kolom dapat diakses menggunakan atribut.columnsdari sebuah DataFrame. Kurangkan himpunantfidf_df.columnsdari himpunancount_df.columns. - Uji apakah kedua DataFrame setara dengan menggunakan metode
.equals()padacount_dfdengantfidf_dfsebagai argumennya.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Create the CountVectorizer DataFrame: count_df
count_df = ____(____, columns=____)
# Create the TfidfVectorizer DataFrame: tfidf_df
tfidf_df = ____
# Print the head of count_df
print(count_df.head())
# Print the head of tfidf_df
print(tfidf_df.head())
# Calculate the difference in columns: difference
difference = set(____) - set(____)
print(difference)
# Check whether the DataFrames are equal
print(____)