gensim ile bir korpus oluşturma ve sorgulama

Önceki videoda öğrendiğin yöntemleri uygulayıp ilk gensim sözlüğünü ve korpusunu oluşturma zamanı!

Bu veri yapılarıyla, belge kümen içinde kelime eğilimlerini ve potansiyel ilginç konuları inceleyeceksin. Başlamak için, Wikipedia'dan birkaç ek dağınık makaleyi içe aktardık; bunlar tüm kelimeleri küçük harfe çevirme, tokenleştirme ve durak kelimeler ile noktalama işaretlerini kaldırma adımlarından geçirilerek ön işleme tabi tutuldu. Ardından articles adlı bir belge tokenleri listesinde saklandılar. Biraz hafif ön işleme yapman ve sonra gensim sözlüğünü ve korpusunu üretmen gerekecek.

Bu egzersiz, kursun bir parçasıdır

Python ile Doğal Dil İşlemeye Giriş

Kursa Göz Atın

Egzersiz talimatları

gensim.corpora.dictionary içinden Dictionary'yi içe aktar.
articles içindeki tokenlerle bir gensim Dictionary başlat.
dictionaryden "computer" için id'yi elde et. Bunu yapmak için, metinden id'ler döndüren .token2id yöntemini kullan ve ardından id'lerden token döndüren .get() ile zincirle. .get()'e bağımsız değişken olarak "computer" ver.
articles üzerinde yinelediğin bir liste üreteci kullanarak dictionaryden bir gensim MmCorpus oluştur.
- Çıkış ifadesinde, dictionary üzerinde .doc2bow() yöntemini article argümanıyla kullan.
Beşinci belgeden ilk 10 kelime id'sini, frekans sayımlarıyla birlikte yazdır. Bu senin için yapıldı; sonuçları görmek için 'Yanıtı Gönder'e bas!

Uygulamalı etkileşimli egzersiz

Bu egzersizi bu örnek kodu tamamlayarak deneyin.

# Import Dictionary
____

# Create a Dictionary from the articles: dictionary
dictionary = ____(____)

# Select the id for "computer": computer_id
computer_id = ____.____.get("____")

# Use computer_id with the dictionary to print the word
print(dictionary.get(computer_id))

# Create a MmCorpus: corpus
corpus = [____.____(____) for article in articles]

# Print the first 10 word ids with their frequency counts from the fifth document
print(corpus[4][:10])

Kodu Düzenle ve Çalıştır

Bu egzersiz, kursun bir parçasıdır

Python ile Doğal Dil İşlemeye Giriş

IntermediárioNível de habilidade

4.7+

Kursa Ücretsiz Başla

Bu bölüm, metinleri ayrıştırmana yardımcı olmak için kelime parçalama ve düzenli ifadeler gibi bazı temel NLP kavramlarını tanıtacak. Ayrıca İngilizce dışındaki metinleri nasıl ele alacağını ve karşılaşabileceğin daha zorlu parçalama senaryolarını da öğreneceksin.

Exercise 1: Düzenli ifadelere giriş Exercise 2: Hangi desen?Exercise 3: Düzenli ifadeler pratiği: re.split() ve re.findall()Exercise 4: Tokenizasyona giriş Exercise 5: NLTK ile sözcük parçalama Exercise 6: re.search() ile daha fazla regex Exercise 7: NLTK ve regex ile ileri düzey tokenleştirme Exercise 8: Bir belirteçleyici (tokenizer) seçme Exercise 9: NLTK ile regex kullanarak tokenleştirme Exercise 10: Ascii olmayan metinlerde tokenizasyon Exercise 11: NLTK ile sözcük uzunluklarını görselleştirme Exercise 12: Grafik pratikleri

Bu bölüm, gerçek dünyada karşılaştığın herhangi bir metne uygulayabileceğin konu tanımlamayı tanıtacak. Temel NLP modellerini kullanarak, terim sıklıklarına dayanarak metinlerden konuları belirleyeceksin. NLTK ile sözcük torbası (bag-of-words) ve Tf-idf olmak üzere iki basit yöntemi deneyecek ve karşılaştıracak, ayrıca yeni bir kütüphane olan Gensim’i kullanacaksın.

Exercise 1: Bag-of-words ile kelime sayımları Exercise 2: Bag-of-words seçici Exercise 3: Bag-of-words ile Counter oluşturma Exercise 4: Basit metin ön işleme Exercise 5: Metin ön işleme adımları Exercise 6: Metin ön işleme pratiği Exercise 7: Gensim'e giriş Exercise 8: Kelime vektörleri nedir?Exercise 9: gensim ile bir korpus oluşturma ve sorgulama

Geçerli egzersiz

Exercise 10: Gensim bag-of-words Exercise 11: gensim ile Tf-idf Exercise 12: tf-idf nedir?Exercise 13: Wikipedia ile Tf-idf

Bu bölüm biraz daha ileri bir konuyu tanıtacak: adlandırılmış varlık tanıma. İngilizce ve İngilizce dışı metinlerde önceden eğitilmiş modelleri kullanarak metinlerindeki kim, ne ve nereleri belirlemeyi öğreneceksin. NLP araç kutuna eklemek üzere polyglot ve spaCy gibi yeni kütüphaneleri kullanmayı da öğreneceksin.

Exercise 1: Varlık Adı Tanıma Exercise 2: NLTK ile NER Exercise 3: Grafik çizimi alıştırması Exercise 4: NLTK ile Stanford kütüphanesi Exercise 5: SpaCy'ye Giriş Exercise 6: NLTK ile spaCy NER karşılaştırması Exercise 7: spaCy NER Kategorileri Exercise 8: polyglot ile çok dilli Varlık Tanıma (NER)Exercise 9: polyglot ile Fransızca NER I Exercise 10: polyglot ile Fransızca Varlık Tanıma II Exercise 11: polyglot ile İspanyolca NER

Öğrendiklerinin temellerini gözetimli Machine Learning ile birleştirerek bir "sahte haber" algılayıcı oluşturacaksın. Önce gözetimli Machine Learning’in temellerini öğrenecek, ardından birkaç önemli özelliği seçip fikirlerini test ederek sahte haber makalelerini belirleyip sınıflandırmaya ilerleyeceksin.

Exercise 1: NLP ile supervised learning kullanarak sahte haberleri sınıflandırma Exercise 2: Hangi olası özellikler?Exercise 3: Eğitim ve test Exercise 4: scikit-learn ile kelime sayım vektörleri oluşturma Exercise 5: Metin sınıflandırma için CountVectorizer Exercise 6: Metin sınıflandırma için TfidfVectorizer Exercise 7: Vektörleri inceleme Exercise 8: scikit-learn ile bir sınıflandırma modelini eğitme ve test etme Exercise 9: Metin sınıflandırma modelleri Exercise 10: CountVectorizer ile "sahte haber" modelini eğitme ve test etme Exercise 11: TfidfVectorizer ile "fake news" modelini eğitme ve test etme Exercise 12: Basit NLP, karmaşık problemler Exercise 13: Modeli geliştirme Exercise 14: Modelini geliştirme Exercise 15: Modelini inceleme