gensim ile bir korpus oluşturma ve sorgulama
Önceki videoda öğrendiğin yöntemleri uygulayıp ilk gensim sözlüğünü ve korpusunu oluşturma zamanı!
Bu veri yapılarıyla, belge kümen içinde kelime eğilimlerini ve potansiyel ilginç konuları inceleyeceksin. Başlamak için, Wikipedia'dan birkaç ek dağınık makaleyi içe aktardık; bunlar tüm kelimeleri küçük harfe çevirme, tokenleştirme ve durak kelimeler ile noktalama işaretlerini kaldırma adımlarından geçirilerek ön işleme tabi tutuldu. Ardından articles adlı bir belge tokenleri listesinde saklandılar. Biraz hafif ön işleme yapman ve sonra gensim sözlüğünü ve korpusunu üretmen gerekecek.
Bu egzersiz
Python ile Doğal Dil İşlemeye Giriş
kursunun bir parçasıdırEgzersiz talimatları
gensim.corpora.dictionaryiçindenDictionary'yi içe aktar.articlesiçindeki tokenlerle birgensimDictionarybaşlat.dictionaryden"computer"için id'yi elde et. Bunu yapmak için, metinden id'ler döndüren.token2idyöntemini kullan ve ardından id'lerden token döndüren.get()ile zincirle..get()'e bağımsız değişken olarak"computer"ver.articlesüzerinde yinelediğin bir liste üreteci kullanarakdictionaryden birgensimMmCorpusoluştur.- Çıkış ifadesinde,
dictionaryüzerinde.doc2bow()yönteminiarticleargümanıyla kullan.
- Çıkış ifadesinde,
- Beşinci belgeden ilk 10 kelime id'sini, frekans sayımlarıyla birlikte yazdır. Bu senin için yapıldı; sonuçları görmek için 'Yanıtı Gönder'e bas!
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Import Dictionary
____
# Create a Dictionary from the articles: dictionary
dictionary = ____(____)
# Select the id for "computer": computer_id
computer_id = ____.____.get("____")
# Use computer_id with the dictionary to print the word
print(dictionary.get(computer_id))
# Create a MmCorpus: corpus
corpus = [____.____(____) for article in articles]
# Print the first 10 word ids with their frequency counts from the fifth document
print(corpus[4][:10])