Bag-of-words ile Counter oluşturma

Bu egzersizde, önceden article olarak yüklenmiş bir Wikipedia makalesiyle (bu kursta) ilk bag-of-words sayacını oluşturacaksın. Tam makale metnine bakmadan bag-of-words yapmayı dene ve konuyu tahmin etmeye çalış! Sonda başlığa göz atmak istersen, article_title olarak ekledik. Bu makale metninin ham Wikipedia veri tabanı girdisinden çok az ön işleme geçtiğini unutma.

word_tokenize senin için içe aktarıldı.

Bu egzersiz, kursun bir parçasıdır

Python ile Doğal Dil İşlemeye Giriş

Kursa Göz Atın

Egzersiz talimatları

collections içinden Counter'ı içe aktar.
Makaleyi token'lara ayırmak için word_tokenize() kullan.
Tüm token'ları küçük harfe çevirmek için yineleyici değişkeni t olan bir liste üreteci kullan. .lower() metodu metni küçük harfe dönüştürür.
lower_tokens'ı argüman olarak vererek Counter() ile bow_simple adlı bir bag-of-words sayacı oluştur.
bow_simple'ın .most_common() metodunu kullanarak en yaygın 10 token'ı yazdır.

Uygulamalı etkileşimli egzersiz

Bu egzersizi bu örnek kodu tamamlayarak deneyin.

# Import Counter
____

# Tokenize the article: tokens
tokens = ____

# Convert the tokens into lowercase: lower_tokens
lower_tokens = [____ for ____ in ____]

# Create a Counter with the lowercase tokens: bow_simple
bow_simple = ____

# Print the 10 most common tokens
print(____)

Kodu Düzenle ve Çalıştır

Bu egzersiz, kursun bir parçasıdır

Python ile Doğal Dil İşlemeye Giriş

IntermediárioNível de habilidade

4.7+

Kursa Ücretsiz Başla

Bu bölüm, metinleri ayrıştırmana yardımcı olmak için kelime parçalama ve düzenli ifadeler gibi bazı temel NLP kavramlarını tanıtacak. Ayrıca İngilizce dışındaki metinleri nasıl ele alacağını ve karşılaşabileceğin daha zorlu parçalama senaryolarını da öğreneceksin.

Exercise 1: Düzenli ifadelere giriş Exercise 2: Hangi desen?Exercise 3: Düzenli ifadeler pratiği: re.split() ve re.findall()Exercise 4: Tokenizasyona giriş Exercise 5: NLTK ile sözcük parçalama Exercise 6: re.search() ile daha fazla regex Exercise 7: NLTK ve regex ile ileri düzey tokenleştirme Exercise 8: Bir belirteçleyici (tokenizer) seçme Exercise 9: NLTK ile regex kullanarak tokenleştirme Exercise 10: Ascii olmayan metinlerde tokenizasyon Exercise 11: NLTK ile sözcük uzunluklarını görselleştirme Exercise 12: Grafik pratikleri

Bu bölüm, gerçek dünyada karşılaştığın herhangi bir metne uygulayabileceğin konu tanımlamayı tanıtacak. Temel NLP modellerini kullanarak, terim sıklıklarına dayanarak metinlerden konuları belirleyeceksin. NLTK ile sözcük torbası (bag-of-words) ve Tf-idf olmak üzere iki basit yöntemi deneyecek ve karşılaştıracak, ayrıca yeni bir kütüphane olan Gensim’i kullanacaksın.

Exercise 1: Bag-of-words ile kelime sayımları Exercise 2: Bag-of-words seçici Exercise 3: Bag-of-words ile Counter oluşturma

Geçerli egzersiz

Exercise 4: Basit metin ön işleme Exercise 5: Metin ön işleme adımları Exercise 6: Metin ön işleme pratiği Exercise 7: Gensim'e giriş Exercise 8: Kelime vektörleri nedir?Exercise 9: gensim ile bir korpus oluşturma ve sorgulama Exercise 10: Gensim bag-of-words Exercise 11: gensim ile Tf-idf Exercise 12: tf-idf nedir?Exercise 13: Wikipedia ile Tf-idf

Bu bölüm biraz daha ileri bir konuyu tanıtacak: adlandırılmış varlık tanıma. İngilizce ve İngilizce dışı metinlerde önceden eğitilmiş modelleri kullanarak metinlerindeki kim, ne ve nereleri belirlemeyi öğreneceksin. NLP araç kutuna eklemek üzere polyglot ve spaCy gibi yeni kütüphaneleri kullanmayı da öğreneceksin.

Exercise 1: Varlık Adı Tanıma Exercise 2: NLTK ile NER Exercise 3: Grafik çizimi alıştırması Exercise 4: NLTK ile Stanford kütüphanesi Exercise 5: SpaCy'ye Giriş Exercise 6: NLTK ile spaCy NER karşılaştırması Exercise 7: spaCy NER Kategorileri Exercise 8: polyglot ile çok dilli Varlık Tanıma (NER)Exercise 9: polyglot ile Fransızca NER I Exercise 10: polyglot ile Fransızca Varlık Tanıma II Exercise 11: polyglot ile İspanyolca NER

Öğrendiklerinin temellerini gözetimli Machine Learning ile birleştirerek bir "sahte haber" algılayıcı oluşturacaksın. Önce gözetimli Machine Learning’in temellerini öğrenecek, ardından birkaç önemli özelliği seçip fikirlerini test ederek sahte haber makalelerini belirleyip sınıflandırmaya ilerleyeceksin.

Exercise 1: NLP ile supervised learning kullanarak sahte haberleri sınıflandırma Exercise 2: Hangi olası özellikler?Exercise 3: Eğitim ve test Exercise 4: scikit-learn ile kelime sayım vektörleri oluşturma Exercise 5: Metin sınıflandırma için CountVectorizer Exercise 6: Metin sınıflandırma için TfidfVectorizer Exercise 7: Vektörleri inceleme Exercise 8: scikit-learn ile bir sınıflandırma modelini eğitme ve test etme Exercise 9: Metin sınıflandırma modelleri Exercise 10: CountVectorizer ile "sahte haber" modelini eğitme ve test etme Exercise 11: TfidfVectorizer ile "fake news" modelini eğitme ve test etme Exercise 12: Basit NLP, karmaşık problemler Exercise 13: Modeli geliştirme Exercise 14: Modelini geliştirme Exercise 15: Modelini inceleme