Metin sınıflandırma için CountVectorizer

Metin sınıflandırıcını inşa etmeye başlama zamanı! Veri df adlı bir DataFrame'e yüklendi. Hangi sütunları kullanabileceğini görmek için IPython Shell'de keşfet. Özellikle .head() metodu oldukça bilgilendiricidir.

Bu egzersizde, basit bir supervised modeli eğitip test etmek için kullanabileceğin seyrek bir metin vektörleyici oluşturmak üzere pandas'ı scikit-learn ile birlikte kullanacaksın. Başlangıç olarak bir CountVectorizer kuracak ve bazı özelliklerini inceleyeceksin.

Bu egzersiz, kursun bir parçasıdır

Python ile Doğal Dil İşlemeye Giriş

Kursa Göz Atın

Egzersiz talimatları

sklearn.feature_extraction.text içinden CountVectorizer'ı ve sklearn.model_selection içinden train_test_split'i içe aktar.
df'in .label özniteliğini y'ye atayarak etiketlerde kullanılacak y adlı bir Series oluştur.
df["text"] (özellikler) ve y (etiketler) kullanarak train_test_split() ile eğitim ve test setleri oluştur. test_size olarak 0.33 ve random_state olarak 53 kullan.
count_vectorizer adında bir CountVectorizer nesnesi oluştur. Durdurma kelimelerinin kaldırılması için stop_words="english" anahtar argümanını belirttiğinden emin ol.
CountVectorizer nesnenin .fit_transform() metodunu kullanarak X_train eğitim verisini uygula ve dönüştür. Test verisi X_test için aynı işlemi .transform() metodunu kullanarak yap.
count_vectorizerın ilk 10 özelliğini .get_feature_names() metodunu kullanarak yazdır.

Uygulamalı etkileşimli egzersiz

Bu egzersizi bu örnek kodu tamamlayarak deneyin.

# Import the necessary modules
____
____

# Print the head of df
print(df.head())

# Create a series to store the labels: y
y = ____

# Create training and test sets
X_train, X_test, y_train, y_test = ____

# Initialize a CountVectorizer object: count_vectorizer
count_vectorizer = ____

# Transform the training data using only the 'text' column values: count_train 
count_train = ____

# Transform the test data using only the 'text' column values: count_test 
count_test = ____

# Print the first 10 features of the count_vectorizer
print(____[:10])

Kodu Düzenle ve Çalıştır

Bu egzersiz, kursun bir parçasıdır

Python ile Doğal Dil İşlemeye Giriş

IntermediárioNível de habilidade

4.7+

Kursa Ücretsiz Başla

Bu bölüm, metinleri ayrıştırmana yardımcı olmak için kelime parçalama ve düzenli ifadeler gibi bazı temel NLP kavramlarını tanıtacak. Ayrıca İngilizce dışındaki metinleri nasıl ele alacağını ve karşılaşabileceğin daha zorlu parçalama senaryolarını da öğreneceksin.

Exercise 1: Düzenli ifadelere giriş Exercise 2: Hangi desen?Exercise 3: Düzenli ifadeler pratiği: re.split() ve re.findall()Exercise 4: Tokenizasyona giriş Exercise 5: NLTK ile sözcük parçalama Exercise 6: re.search() ile daha fazla regex Exercise 7: NLTK ve regex ile ileri düzey tokenleştirme Exercise 8: Bir belirteçleyici (tokenizer) seçme Exercise 9: NLTK ile regex kullanarak tokenleştirme Exercise 10: Ascii olmayan metinlerde tokenizasyon Exercise 11: NLTK ile sözcük uzunluklarını görselleştirme Exercise 12: Grafik pratikleri

Bu bölüm, gerçek dünyada karşılaştığın herhangi bir metne uygulayabileceğin konu tanımlamayı tanıtacak. Temel NLP modellerini kullanarak, terim sıklıklarına dayanarak metinlerden konuları belirleyeceksin. NLTK ile sözcük torbası (bag-of-words) ve Tf-idf olmak üzere iki basit yöntemi deneyecek ve karşılaştıracak, ayrıca yeni bir kütüphane olan Gensim’i kullanacaksın.

Exercise 1: Bag-of-words ile kelime sayımları Exercise 2: Bag-of-words seçici Exercise 3: Bag-of-words ile Counter oluşturma Exercise 4: Basit metin ön işleme Exercise 5: Metin ön işleme adımları Exercise 6: Metin ön işleme pratiği Exercise 7: Gensim'e giriş Exercise 8: Kelime vektörleri nedir?Exercise 9: gensim ile bir korpus oluşturma ve sorgulama Exercise 10: Gensim bag-of-words Exercise 11: gensim ile Tf-idf Exercise 12: tf-idf nedir?Exercise 13: Wikipedia ile Tf-idf

Bu bölüm biraz daha ileri bir konuyu tanıtacak: adlandırılmış varlık tanıma. İngilizce ve İngilizce dışı metinlerde önceden eğitilmiş modelleri kullanarak metinlerindeki kim, ne ve nereleri belirlemeyi öğreneceksin. NLP araç kutuna eklemek üzere polyglot ve spaCy gibi yeni kütüphaneleri kullanmayı da öğreneceksin.

Exercise 1: Varlık Adı Tanıma Exercise 2: NLTK ile NER Exercise 3: Grafik çizimi alıştırması Exercise 4: NLTK ile Stanford kütüphanesi Exercise 5: SpaCy'ye Giriş Exercise 6: NLTK ile spaCy NER karşılaştırması Exercise 7: spaCy NER Kategorileri Exercise 8: polyglot ile çok dilli Varlık Tanıma (NER)Exercise 9: polyglot ile Fransızca NER I Exercise 10: polyglot ile Fransızca Varlık Tanıma II Exercise 11: polyglot ile İspanyolca NER

Öğrendiklerinin temellerini gözetimli Machine Learning ile birleştirerek bir "sahte haber" algılayıcı oluşturacaksın. Önce gözetimli Machine Learning’in temellerini öğrenecek, ardından birkaç önemli özelliği seçip fikirlerini test ederek sahte haber makalelerini belirleyip sınıflandırmaya ilerleyeceksin.

Exercise 1: NLP ile supervised learning kullanarak sahte haberleri sınıflandırma Exercise 2: Hangi olası özellikler?Exercise 3: Eğitim ve test Exercise 4: scikit-learn ile kelime sayım vektörleri oluşturma Exercise 5: Metin sınıflandırma için CountVectorizer

Geçerli egzersiz

Exercise 6: Metin sınıflandırma için TfidfVectorizer Exercise 7: Vektörleri inceleme Exercise 8: scikit-learn ile bir sınıflandırma modelini eğitme ve test etme Exercise 9: Metin sınıflandırma modelleri Exercise 10: CountVectorizer ile "sahte haber" modelini eğitme ve test etme Exercise 11: TfidfVectorizer ile "fake news" modelini eğitme ve test etme Exercise 12: Basit NLP, karmaşık problemler Exercise 13: Modeli geliştirme Exercise 14: Modelini geliştirme Exercise 15: Modelini inceleme