BaşlayınÜcretsiz Başlayın

gensim ile bir korpus oluşturma ve sorgulama

Önceki videoda öğrendiğin yöntemleri uygulayıp ilk gensim sözlüğünü ve korpusunu oluşturma zamanı!

Bu veri yapılarıyla, belge kümen içinde kelime eğilimlerini ve potansiyel ilginç konuları inceleyeceksin. Başlamak için, Wikipedia'dan birkaç ek dağınık makaleyi içe aktardık; bunlar tüm kelimeleri küçük harfe çevirme, tokenleştirme ve durak kelimeler ile noktalama işaretlerini kaldırma adımlarından geçirilerek ön işleme tabi tutuldu. Ardından articles adlı bir belge tokenleri listesinde saklandılar. Biraz hafif ön işleme yapman ve sonra gensim sözlüğünü ve korpusunu üretmen gerekecek.

Bu egzersiz

Python ile Doğal Dil İşlemeye Giriş

kursunun bir parçasıdır
Kursu Görüntüle

Egzersiz talimatları

  • gensim.corpora.dictionary içinden Dictionary'yi içe aktar.
  • articles içindeki tokenlerle bir gensim Dictionary başlat.
  • dictionaryden "computer" için id'yi elde et. Bunu yapmak için, metinden id'ler döndüren .token2id yöntemini kullan ve ardından id'lerden token döndüren .get() ile zincirle. .get()'e bağımsız değişken olarak "computer" ver.
  • articles üzerinde yinelediğin bir liste üreteci kullanarak dictionaryden bir gensim MmCorpus oluştur.
    • Çıkış ifadesinde, dictionary üzerinde .doc2bow() yöntemini article argümanıyla kullan.
  • Beşinci belgeden ilk 10 kelime id'sini, frekans sayımlarıyla birlikte yazdır. Bu senin için yapıldı; sonuçları görmek için 'Yanıtı Gönder'e bas!

Uygulamalı interaktif egzersiz

Bu örnek kodu tamamlayarak bu egzersizi bitirin.

# Import Dictionary
____

# Create a Dictionary from the articles: dictionary
dictionary = ____(____)

# Select the id for "computer": computer_id
computer_id = ____.____.get("____")

# Use computer_id with the dictionary to print the word
print(dictionary.get(computer_id))

# Create a MmCorpus: corpus
corpus = [____.____(____) for article in articles]

# Print the first 10 word ids with their frequency counts from the fifth document
print(corpus[4][:10])
Kodu Düzenle ve Çalıştır