TF-IDF-Darstellung von Produktfeedback
Du arbeitest mit einem Support-Team eines Smart-Home-Unternehmens. Es hat Nutzerfeedback zu verschiedenen smarten Geräten gesammelt und möchte herausfinden, welche Wörter in jeder Rezension herausstechen. Du schlägst vor, die TF-IDF-Technik zu verwenden, um die relevantesten Begriffe über alle Feedback-Einträge hinweg hervorzuheben. Hilf ihnen beim Einstieg!
Eine Funktion preprocess(), die einen Text entgegennimmt und verarbeitet zurückgibt, ist für dich vorab geladen. Diese Funktion wendet Kleinschreibung, Tokenisierung und das Entfernen von Satzzeichen an. Pandas wurde als pd importiert, und die Klasse TfidfVectorizer ist einsatzbereit.
Diese Übung ist Teil des Kurses
Natural Language Processing (NLP) in Python
Anleitung zur Übung
- Initialisiere einen TF-IDF-
vectorizer. - Wandle die bereinigten Rezensionen in eine
tfidf_matrixum. - Erstelle ein DataFrame
dffür dietfidf_matrixmit den Vokabelwörtern als Spalten.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
reviews = ["The smart speaker is incredible. Clear sound and fast responses!",
"I am disappointed with the smart bulb. It stopped working in a week.",
"The thermostat is okay. Not too smart, but functional."]
cleaned_reviews = [preprocess(review) for review in reviews]
# Initialize the vectorizer
vectorizer = ____
# Transform the cleaned reviews
tfidf_matrix = ____
# Create a DataFrame for TF-IDF
df = pd.DataFrame(
tfidf_matrix.toarray(),
columns=vectorizer.____
)
print(df.head())