Metin vektörlerini keşfetme, bölüm 1
Hadi az önce öğrendiğimiz metin vektörü keşfi yöntemini, volunteer veri kümesinin title tf/idf vektörlerini kullanarak genişletelim. Metin vektörü keşfinin bu ilk bölümünde, slaytlarda öğrendiğimiz o fonksiyona eklemeler yapacağız. Fonksiyonla birlikte bir sayı listesi döndüreceğiz. Sonraki egzersizde, tüm belgelerdeki en iyi kelimeleri toplayan başka bir fonksiyon yazacağız, bu kelimeleri çıkaracağız ve ardından bu listeyi kullanarak text_tfidf vektörümüzü filtreleyeceğiz.
Bu egzersiz
Python'da Machine Learning için Ön İşleme
kursunun bir parçasıdırEgzersiz talimatları
tfidf_vec.vocabulary_içinoriginal_vocabve ayrıcatop_nadlı parametreleri ekle.- Sıkıştırılmış sözlük üzerinde
pd.Series()çağır. Bu, üzerinde işlem yapmayı kolaylaştıracak. - Seriyi sıralamak için
.sort_values()fonksiyonunu kullan ve dizinitop_nkelimeye kadar dilimle. - Fonksiyonu çağırırken
original_vocab=tfidf_vec.vocabulary_ayarla, 9. satırı almak içinvector_index=8ayarla ve en yüksek ağırlığa sahip ilk 3 kelimeyi almak içintop_n=3ayarla.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Add in the rest of the arguments
def return_weights(vocab, ____, vector, vector_index, ____):
zipped = dict(zip(vector[vector_index].indices, vector[vector_index].data))
# Transform that zipped dict into a series
zipped_series = ____({vocab[i]:zipped[i] for i in vector[vector_index].indices})
# Sort the series to pull out the top n weighted words
zipped_index = zipped_series.____(ascending=False)[:____].index
return [original_vocab[i] for i in zipped_index]
# Print out the weighted words
print(return_weights(vocab, ____, text_tfidf, ____, ____))