Vektörleri inceleme
Vektörlerin nasıl çalıştığını daha iyi anlamak için, onları pandas DataFrame’lerine dönüştürerek inceleyeceksin.
Burada, önceki iki egzersizde oluşturduğun aynı veri yapılarını (count_train, count_vectorizer, tfidf_train, tfidf_vectorizer) ve pd olarak içe aktarılan pandas’ı kullanacaksın.
Bu egzersiz
Python ile Doğal Dil İşlemeye Giriş
kursunun bir parçasıdırEgzersiz talimatları
pd.DataFrame()kullanarak ve ilk argüman olarak değerleri, ikinci argüman olarak da sütunları (veya özellikleri) belirterekcount_dfvetfidf_dfDataFrame’lerini oluştur.- Değerlere, sırasıyla
count_trainvetfidf_trainnesnelerinin.Aözniteliğiyle erişebilirsin. - Sütunlara,
count_vectorizervetfidf_vectorizernesnelerinin.get_feature_names()metodlarıyla erişebilirsin.
- Değerlere, sırasıyla
- Yapılarını incelemek için her bir DataFrame’in başını yazdır. Bu senin için yapıldı.
- Sütun adlarının her iki DataFrame’de de aynı olup olmadığını test etmek için,
differenceadlı yeni bir nesne oluşturarakcount_df’nintfidf_df’den farkı olan sütunlarını gör. DataFrame’in sütunlarına.columnsözniteliğiyle erişebilirsin.set(count_df.columns)kümesindenset(tfidf_df.columns)kümesini çıkar. - İki DataFrame’in eşdeğer olup olmadığını test etmek için,
count_dfüzerinde.equals()metodunutfidf_dfargümanıyla kullan.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Create the CountVectorizer DataFrame: count_df
count_df = ____(____, columns=____)
# Create the TfidfVectorizer DataFrame: tfidf_df
tfidf_df = ____
# Print the head of count_df
print(count_df.head())
# Print the head of tfidf_df
print(tfidf_df.head())
# Calculate the difference in columns: difference
difference = set(____) - set(____)
print(difference)
# Check whether the DataFrames are equal
print(____)