BaşlayınÜcretsiz Başlayın

Metin vektörlerini keşfetme, bölüm 1

Hadi az önce öğrendiğimiz metin vektörü keşfi yöntemini, volunteer veri kümesinin title tf/idf vektörlerini kullanarak genişletelim. Metin vektörü keşfinin bu ilk bölümünde, slaytlarda öğrendiğimiz o fonksiyona eklemeler yapacağız. Fonksiyonla birlikte bir sayı listesi döndüreceğiz. Sonraki egzersizde, tüm belgelerdeki en iyi kelimeleri toplayan başka bir fonksiyon yazacağız, bu kelimeleri çıkaracağız ve ardından bu listeyi kullanarak text_tfidf vektörümüzü filtreleyeceğiz.

Bu egzersiz

Python'da Machine Learning için Ön İşleme

kursunun bir parçasıdır
Kursu Görüntüle

Egzersiz talimatları

  • tfidf_vec.vocabulary_ için original_vocab ve ayrıca top_n adlı parametreleri ekle.
  • Sıkıştırılmış sözlük üzerinde pd.Series() çağır. Bu, üzerinde işlem yapmayı kolaylaştıracak.
  • Seriyi sıralamak için .sort_values() fonksiyonunu kullan ve dizini top_n kelimeye kadar dilimle.
  • Fonksiyonu çağırırken original_vocab=tfidf_vec.vocabulary_ ayarla, 9. satırı almak için vector_index=8 ayarla ve en yüksek ağırlığa sahip ilk 3 kelimeyi almak için top_n=3 ayarla.

Uygulamalı interaktif egzersiz

Bu örnek kodu tamamlayarak bu egzersizi bitirin.

# Add in the rest of the arguments
def return_weights(vocab, ____, vector, vector_index, ____):
    zipped = dict(zip(vector[vector_index].indices, vector[vector_index].data))
    
    # Transform that zipped dict into a series
    zipped_series = ____({vocab[i]:zipped[i] for i in vector[vector_index].indices})
    
    # Sort the series to pull out the top n weighted words
    zipped_index = zipped_series.____(ascending=False)[:____].index
    return [original_vocab[i] for i in zipped_index]

# Print out the weighted words
print(return_weights(vocab, ____, text_tfidf, ____, ____))
Kodu Düzenle ve Çalıştır