MulaiMulai sekarang secara gratis

Menjelajahi vektor teks, bagian 1

Mari kita perluas metode eksplorasi vektor teks yang baru saja Anda pelajari, menggunakan vektor tf/idf title dari himpunan data volunteer. Pada bagian pertama eksplorasi vektor teks ini, kita akan menambahkan fungsi yang kita pelajari di slide. Kita akan mengembalikan daftar angka dengan fungsi tersebut. Pada latihan berikutnya, kita akan menulis fungsi lain untuk mengumpulkan kata-kata teratas di semua dokumen, mengekstraknya, lalu menggunakan daftar itu untuk menyaring vektor text_tfidf kita.

Latihan ini adalah bagian dari kursus

Prapemrosesan untuk Machine Learning di Python

Lihat Kursus

Petunjuk latihan

  • Tambahkan parameter bernama original_vocab untuk tfidf_vec.vocabulary_, dan top_n.
  • Panggil pd.Series() pada kamus yang telah di-zip. Ini akan memudahkan proses pengoperasian.
  • Gunakan fungsi .sort_values() untuk mengurutkan series dan iris indeks hingga top_n kata.
  • Panggil fungsinya, set original_vocab=tfidf_vec.vocabulary_, set vector_index=8 untuk mengambil baris ke-9, dan set top_n=3 untuk mengambil 3 kata berbobot teratas.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Add in the rest of the arguments
def return_weights(vocab, ____, vector, vector_index, ____):
    zipped = dict(zip(vector[vector_index].indices, vector[vector_index].data))
    
    # Transform that zipped dict into a series
    zipped_series = ____({vocab[i]:zipped[i] for i in vector[vector_index].indices})
    
    # Sort the series to pull out the top n weighted words
    zipped_index = zipped_series.____(ascending=False)[:____].index
    return [original_vocab[i] for i in zipped_index]

# Print out the weighted words
print(return_weights(vocab, ____, text_tfidf, ____, ____))
Edit dan Jalankan Kode