Vektörleri inceleme
Vektörlerin nasıl çalıştığını daha iyi anlamak için, onları pandas DataFrame’lerine dönüştürerek inceleyeceksin.
Burada, önceki iki egzersizde oluşturduğun aynı veri yapılarını (count_train, count_vectorizer, tfidf_train, tfidf_vectorizer) ve pd olarak içe aktarılan pandas’ı kullanacaksın.
Bu egzersiz, kursun bir parçasıdır
Python ile Doğal Dil İşlemeye Giriş
Egzersiz talimatları
pd.DataFrame()kullanarak ve ilk argüman olarak değerleri, ikinci argüman olarak da sütunları (veya özellikleri) belirterekcount_dfvetfidf_dfDataFrame’lerini oluştur.- Değerlere, sırasıyla
count_trainvetfidf_trainnesnelerinin.Aözniteliğiyle erişebilirsin. - Sütunlara,
count_vectorizervetfidf_vectorizernesnelerinin.get_feature_names()metodlarıyla erişebilirsin.
- Değerlere, sırasıyla
- Yapılarını incelemek için her bir DataFrame’in başını yazdır. Bu senin için yapıldı.
- Sütun adlarının her iki DataFrame’de de aynı olup olmadığını test etmek için,
differenceadlı yeni bir nesne oluşturarakcount_df’nintfidf_df’den farkı olan sütunlarını gör. DataFrame’in sütunlarına.columnsözniteliğiyle erişebilirsin.set(count_df.columns)kümesindenset(tfidf_df.columns)kümesini çıkar. - İki DataFrame’in eşdeğer olup olmadığını test etmek için,
count_dfüzerinde.equals()metodunutfidf_dfargümanıyla kullan.
Uygulamalı etkileşimli egzersiz
Bu egzersizi bu örnek kodu tamamlayarak deneyin.
# Create the CountVectorizer DataFrame: count_df
count_df = ____(____, columns=____)
# Create the TfidfVectorizer DataFrame: tfidf_df
tfidf_df = ____
# Print the head of count_df
print(count_df.head())
# Print the head of tfidf_df
print(tfidf_df.head())
# Calculate the difference in columns: difference
difference = set(____) - set(____)
print(difference)
# Check whether the DataFrames are equal
print(____)