BaşlayınÜcretsiz Başlayın

Metin sınıflandırma için CountVectorizer

Metin sınıflandırıcını inşa etmeye başlama zamanı! Veri df adlı bir DataFrame'e yüklendi. Hangi sütunları kullanabileceğini görmek için IPython Shell'de keşfet. Özellikle .head() metodu oldukça bilgilendiricidir.

Bu egzersizde, basit bir supervised modeli eğitip test etmek için kullanabileceğin seyrek bir metin vektörleyici oluşturmak üzere pandas'ı scikit-learn ile birlikte kullanacaksın. Başlangıç olarak bir CountVectorizer kuracak ve bazı özelliklerini inceleyeceksin.

Bu egzersiz

Python ile Doğal Dil İşlemeye Giriş

kursunun bir parçasıdır
Kursu Görüntüle

Egzersiz talimatları

  • sklearn.feature_extraction.text içinden CountVectorizer'ı ve sklearn.model_selection içinden train_test_split'i içe aktar.
  • df'in .label özniteliğini y'ye atayarak etiketlerde kullanılacak y adlı bir Series oluştur.
  • df["text"] (özellikler) ve y (etiketler) kullanarak train_test_split() ile eğitim ve test setleri oluştur. test_size olarak 0.33 ve random_state olarak 53 kullan.
  • count_vectorizer adında bir CountVectorizer nesnesi oluştur. Durdurma kelimelerinin kaldırılması için stop_words="english" anahtar argümanını belirttiğinden emin ol.
  • CountVectorizer nesnenin .fit_transform() metodunu kullanarak X_train eğitim verisini uygula ve dönüştür. Test verisi X_test için aynı işlemi .transform() metodunu kullanarak yap.
  • count_vectorizerın ilk 10 özelliğini .get_feature_names() metodunu kullanarak yazdır.

Uygulamalı interaktif egzersiz

Bu örnek kodu tamamlayarak bu egzersizi bitirin.

# Import the necessary modules
____
____

# Print the head of df
print(df.head())

# Create a series to store the labels: y
y = ____

# Create training and test sets
X_train, X_test, y_train, y_test = ____

# Initialize a CountVectorizer object: count_vectorizer
count_vectorizer = ____

# Transform the training data using only the 'text' column values: count_train 
count_train = ____

# Transform the test data using only the 'text' column values: count_test 
count_test = ____

# Print the first 10 features of the count_vectorizer
print(____[:10])
Kodu Düzenle ve Çalıştır