Gensim bag-of-words

Şimdi, yeni gensim gövdeni (corpus) ve sözlüğünü (dictionary) kullanarak hem her belge için hem de tüm belgeler genelinde en yaygın terimleri göreceksin. Terimlere bakmak için sözlüğünü kullanabilirsin. Konuların ne olduğuna dair bir tahminde bulun ve IPython Shell’de daha fazla belgeyi keşfetmekten çekinme!

Önceki egzersizde oluşturduğun dictionary ve corpus nesnelerine erişimin var. Ayrıca analiz için ara veri yapıları oluşturmana yardımcı olacak Python defaultdict ve itertools da mevcut.

defaultdict, var olmayan anahtarlara varsayılan bir değer atayan bir sözlük başlatmamızı sağlar. Argüman olarak int verdiğimizde, var olmayan tüm anahtarların otomatik olarak varsayılan değer olarak 0 almasını sağlarız. Bu, bu egzersizdeki kelime sayılarını saklamak için idealdir.
itertools.chain.from_iterable() bir dizi diziyi tek bir kesintisiz diziymiş gibi yinelememize olanak tanır. Bu fonksiyonu kullanarak, corpus nesnemizin (listelerin listesi) üzerinden kolayca yineleyebiliriz.

corpus içindeki beşinci belge doc değişkeninde saklanmıştır ve azalan düzende sıralanmıştır.

Bu egzersiz, kursun bir parçasıdır

Python ile Doğal Dil İşlemeye Giriş

Kursa Göz Atın

Uygulamalı etkileşimli egzersiz

Bu egzersizi bu örnek kodu tamamlayarak deneyin.

# Save the fifth document: doc
doc = corpus[4]

# Sort the doc for frequency: bow_doc
bow_doc = sorted(doc, key=lambda w: w[1], reverse=True)

# Print the top 5 words of the document alongside the count
for word_id, word_count in bow_doc[:5]:
    print(dictionary.____(____), ____)
    
# Create the defaultdict: total_word_count
total_word_count = ____
for word_id, word_count in itertools.chain.from_iterable(corpus):
    ____[____] += ____

Kodu Düzenle ve Çalıştır

Bu egzersiz, kursun bir parçasıdır

Python ile Doğal Dil İşlemeye Giriş

IntermediárioNível de habilidade

4.7+

Kursa Ücretsiz Başla

Bu bölüm, metinleri ayrıştırmana yardımcı olmak için kelime parçalama ve düzenli ifadeler gibi bazı temel NLP kavramlarını tanıtacak. Ayrıca İngilizce dışındaki metinleri nasıl ele alacağını ve karşılaşabileceğin daha zorlu parçalama senaryolarını da öğreneceksin.

Exercise 1: Düzenli ifadelere giriş Exercise 2: Hangi desen?Exercise 3: Düzenli ifadeler pratiği: re.split() ve re.findall()Exercise 4: Tokenizasyona giriş Exercise 5: NLTK ile sözcük parçalama Exercise 6: re.search() ile daha fazla regex Exercise 7: NLTK ve regex ile ileri düzey tokenleştirme Exercise 8: Bir belirteçleyici (tokenizer) seçme Exercise 9: NLTK ile regex kullanarak tokenleştirme Exercise 10: Ascii olmayan metinlerde tokenizasyon Exercise 11: NLTK ile sözcük uzunluklarını görselleştirme Exercise 12: Grafik pratikleri

Bu bölüm, gerçek dünyada karşılaştığın herhangi bir metne uygulayabileceğin konu tanımlamayı tanıtacak. Temel NLP modellerini kullanarak, terim sıklıklarına dayanarak metinlerden konuları belirleyeceksin. NLTK ile sözcük torbası (bag-of-words) ve Tf-idf olmak üzere iki basit yöntemi deneyecek ve karşılaştıracak, ayrıca yeni bir kütüphane olan Gensim’i kullanacaksın.

Exercise 1: Bag-of-words ile kelime sayımları Exercise 2: Bag-of-words seçici Exercise 3: Bag-of-words ile Counter oluşturma Exercise 4: Basit metin ön işleme Exercise 5: Metin ön işleme adımları Exercise 6: Metin ön işleme pratiği Exercise 7: Gensim'e giriş Exercise 8: Kelime vektörleri nedir?Exercise 9: gensim ile bir korpus oluşturma ve sorgulama Exercise 10: Gensim bag-of-words

Geçerli egzersiz

Exercise 11: gensim ile Tf-idf Exercise 12: tf-idf nedir?Exercise 13: Wikipedia ile Tf-idf

Bu bölüm biraz daha ileri bir konuyu tanıtacak: adlandırılmış varlık tanıma. İngilizce ve İngilizce dışı metinlerde önceden eğitilmiş modelleri kullanarak metinlerindeki kim, ne ve nereleri belirlemeyi öğreneceksin. NLP araç kutuna eklemek üzere polyglot ve spaCy gibi yeni kütüphaneleri kullanmayı da öğreneceksin.

Exercise 1: Varlık Adı Tanıma Exercise 2: NLTK ile NER Exercise 3: Grafik çizimi alıştırması Exercise 4: NLTK ile Stanford kütüphanesi Exercise 5: SpaCy'ye Giriş Exercise 6: NLTK ile spaCy NER karşılaştırması Exercise 7: spaCy NER Kategorileri Exercise 8: polyglot ile çok dilli Varlık Tanıma (NER)Exercise 9: polyglot ile Fransızca NER I Exercise 10: polyglot ile Fransızca Varlık Tanıma II Exercise 11: polyglot ile İspanyolca NER

Öğrendiklerinin temellerini gözetimli Machine Learning ile birleştirerek bir "sahte haber" algılayıcı oluşturacaksın. Önce gözetimli Machine Learning’in temellerini öğrenecek, ardından birkaç önemli özelliği seçip fikirlerini test ederek sahte haber makalelerini belirleyip sınıflandırmaya ilerleyeceksin.

Exercise 1: NLP ile supervised learning kullanarak sahte haberleri sınıflandırma Exercise 2: Hangi olası özellikler?Exercise 3: Eğitim ve test Exercise 4: scikit-learn ile kelime sayım vektörleri oluşturma Exercise 5: Metin sınıflandırma için CountVectorizer Exercise 6: Metin sınıflandırma için TfidfVectorizer Exercise 7: Vektörleri inceleme Exercise 8: scikit-learn ile bir sınıflandırma modelini eğitme ve test etme Exercise 9: Metin sınıflandırma modelleri Exercise 10: CountVectorizer ile "sahte haber" modelini eğitme ve test etme Exercise 11: TfidfVectorizer ile "fake news" modelini eğitme ve test etme Exercise 12: Basit NLP, karmaşık problemler Exercise 13: Modeli geliştirme Exercise 14: Modelini geliştirme Exercise 15: Modelini inceleme