Menjelajahi vektor teks, bagian 1
Mari kita perluas metode eksplorasi vektor teks yang baru saja Anda pelajari, menggunakan vektor tf/idf title dari himpunan data volunteer. Pada bagian pertama eksplorasi vektor teks ini, kita akan menambahkan fungsi yang kita pelajari di slide. Kita akan mengembalikan daftar angka dengan fungsi tersebut. Pada latihan berikutnya, kita akan menulis fungsi lain untuk mengumpulkan kata-kata teratas di semua dokumen, mengekstraknya, lalu menggunakan daftar itu untuk menyaring vektor text_tfidf kita.
Latihan ini adalah bagian dari kursus
Prapemrosesan untuk Machine Learning di Python
Petunjuk latihan
- Tambahkan parameter bernama
original_vocabuntuktfidf_vec.vocabulary_, dantop_n. - Panggil
pd.Series()pada kamus yang telah di-zip. Ini akan memudahkan proses pengoperasian. - Gunakan fungsi
.sort_values()untuk mengurutkan series dan iris indeks hinggatop_nkata. - Panggil fungsinya, set
original_vocab=tfidf_vec.vocabulary_, setvector_index=8untuk mengambil baris ke-9, dan settop_n=3untuk mengambil 3 kata berbobot teratas.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Add in the rest of the arguments
def return_weights(vocab, ____, vector, vector_index, ____):
zipped = dict(zip(vector[vector_index].indices, vector[vector_index].data))
# Transform that zipped dict into a series
zipped_series = ____({vocab[i]:zipped[i] for i in vector[vector_index].indices})
# Sort the series to pull out the top n weighted words
zipped_index = zipped_series.____(ascending=False)[:____].index
return [original_vocab[i] for i in zipped_index]
# Print out the weighted words
print(return_weights(vocab, ____, text_tfidf, ____, ____))