Kategorik sütunları kodlama III: DictVectorizer
Pekâlâ, pipeline'lara dalmadan önce son bir numara. Az önce yaptığın iki adımlı süreç - LabelEncoder ve ardından OneHotEncoder - DictVectorizer kullanılarak basitleştirilebilir.
Bir DataFrame'i sözlüğe çevirip üzerine DictVectorizer uyguladığında, tek seferde hem label encoding hem de one-hot encoding elde edebilirsin.
Bu egzersizde bu stratejiyi adım adım uygulayacaksın!
Bu egzersiz
XGBoost ile Aşırı Gradyan Artırma
kursunun bir parçasıdırEgzersiz talimatları
sklearn.feature_extractioniçindenDictVectorizer'ı içe aktar.df'i.to_dict()metodunu"records"argümanıyla kullanarakdf_dictadlı bir sözlüğe dönüştür.sparse=Falseanahtar argümanıyladvadlı birDictVectorizernesnesi oluştur..fit_transform()metodunu kullanarakDictVectorizer'ıdf_dictüzerinde uygula.- Ortaya çıkan ilk beş satırı ve sözlüğü (vocabulary) yazdırmak için 'Yanıtı Gönder'e bas.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Import DictVectorizer
____
# Convert df into a dictionary: df_dict
df_dict = ____
# Create the DictVectorizer object: dv
dv = ____
# Apply dv on df: df_encoded
df_encoded = ____
# Print the resulting first five rows
print(df_encoded[:5,:])
# Print the vocabulary
print(dv.vocabulary_)