Menjelajahi vektor teks, bagian 1

Mari kita perluas metode eksplorasi vektor teks yang baru saja Anda pelajari, menggunakan vektor tf/idf title dari himpunan data volunteer. Pada bagian pertama eksplorasi vektor teks ini, kita akan menambahkan fungsi yang kita pelajari di slide. Kita akan mengembalikan daftar angka dengan fungsi tersebut. Pada latihan berikutnya, kita akan menulis fungsi lain untuk mengumpulkan kata-kata teratas di semua dokumen, mengekstraknya, lalu menggunakan daftar itu untuk menyaring vektor text_tfidf kita.

Latihan ini merupakan bagian dari kursus

Prapemrosesan untuk Machine Learning di Python

Lihat Kursus

Instruksi latihan

Tambahkan parameter bernama original_vocab untuk tfidf_vec.vocabulary_, dan top_n.
Panggil pd.Series() pada kamus yang telah di-zip. Ini akan memudahkan proses pengoperasian.
Gunakan fungsi .sort_values() untuk mengurutkan series dan iris indeks hingga top_n kata.
Panggil fungsinya, set original_vocab=tfidf_vec.vocabulary_, set vector_index=8 untuk mengambil baris ke-9, dan set top_n=3 untuk mengambil 3 kata berbobot teratas.

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

# Add in the rest of the arguments
def return_weights(vocab, ____, vector, vector_index, ____):
    zipped = dict(zip(vector[vector_index].indices, vector[vector_index].data))
    
    # Transform that zipped dict into a series
    zipped_series = ____({vocab[i]:zipped[i] for i in vector[vector_index].indices})
    
    # Sort the series to pull out the top n weighted words
    zipped_index = zipped_series.____(ascending=False)[:____].index
    return [original_vocab[i] for i in zipped_index]

# Print out the weighted words
print(return_weights(vocab, ____, text_tfidf, ____, ____))

Edit dan Jalankan Kode