Ürün geri bildirimlerinin TF-IDF temsili
Akıllı ev şirketinde müşteri destek ekibiyle çalışıyorsun. Çeşitli akıllı cihazlarla ilgili kullanıcı geri bildirimleri topladılar ve her değerlendirmede hangi kelimelerin öne çıktığını bulmak istiyorlar. Geri bildirimler arasında en alakalı terimleri vurgulamak için TF-IDF tekniğini kullanmayı öneriyorsun. Haydi başlayalım!
Bir metni alıp işlenmiş halini döndüren preprocess() fonksiyonu senin için yüklendi. Bu fonksiyon küçük harfe çevirme, tokenizasyon ve noktalama işaretlerini kaldırma işlemlerini uygular. Pandas pd olarak içe aktarıldı ve TfidfVectorizer sınıfı kullanıma hazır.
Bu egzersiz
Python ile Natural Language Processing (NLP)
kursunun bir parçasıdırEgzersiz talimatları
- Bir TF-IDF
vectorizerbaşlat. - Temizlenmiş değerlendirmeleri
tfidf_matrixhaline dönüştür. - Sütunları sözcük dağarcığındaki kelimeler olacak şekilde
tfidf_matrixiçindfadlı bir DataFrame oluştur.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
reviews = ["The smart speaker is incredible. Clear sound and fast responses!",
"I am disappointed with the smart bulb. It stopped working in a week.",
"The thermostat is okay. Not too smart, but functional."]
cleaned_reviews = [preprocess(review) for review in reviews]
# Initialize the vectorizer
vectorizer = ____
# Transform the cleaned reviews
tfidf_matrix = ____
# Create a DataFrame for TF-IDF
df = pd.DataFrame(
tfidf_matrix.toarray(),
columns=vectorizer.____
)
print(df.head())