Metin sınıflandırma için CountVectorizer
Metin sınıflandırıcını inşa etmeye başlama zamanı! Veri df adlı bir DataFrame'e yüklendi. Hangi sütunları kullanabileceğini görmek için IPython Shell'de keşfet. Özellikle .head() metodu oldukça bilgilendiricidir.
Bu egzersizde, basit bir supervised modeli eğitip test etmek için kullanabileceğin seyrek bir metin vektörleyici oluşturmak üzere pandas'ı scikit-learn ile birlikte kullanacaksın. Başlangıç olarak bir CountVectorizer kuracak ve bazı özelliklerini inceleyeceksin.
Bu egzersiz
Python ile Doğal Dil İşlemeye Giriş
kursunun bir parçasıdırEgzersiz talimatları
sklearn.feature_extraction.textiçindenCountVectorizer'ı vesklearn.model_selectioniçindentrain_test_split'i içe aktar.df'in.labelözniteliğiniy'ye atayarak etiketlerde kullanılacakyadlı bir Series oluştur.df["text"](özellikler) vey(etiketler) kullanaraktrain_test_split()ile eğitim ve test setleri oluştur.test_sizeolarak0.33verandom_stateolarak53kullan.count_vectorizeradında birCountVectorizernesnesi oluştur. Durdurma kelimelerinin kaldırılması içinstop_words="english"anahtar argümanını belirttiğinden emin ol.CountVectorizernesnenin.fit_transform()metodunu kullanarakX_traineğitim verisini uygula ve dönüştür. Test verisiX_testiçin aynı işlemi.transform()metodunu kullanarak yap.count_vectorizerın ilk 10 özelliğini.get_feature_names()metodunu kullanarak yazdır.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Import the necessary modules
____
____
# Print the head of df
print(df.head())
# Create a series to store the labels: y
y = ____
# Create training and test sets
X_train, X_test, y_train, y_test = ____
# Initialize a CountVectorizer object: count_vectorizer
count_vectorizer = ____
# Transform the training data using only the 'text' column values: count_train
count_train = ____
# Transform the test data using only the 'text' column values: count_test
count_test = ____
# Print the first 10 features of the count_vectorizer
print(____[:10])