TF-IDF-representatie van productfeedback
Je werkt samen met een klantenserviceteam bij een smart home-bedrijf. Ze hebben gebruikersfeedback verzameld over verschillende slimme apparaten en willen weten welke woorden in elke review eruit springen. Jij stelt voor om de TF-IDF-techniek te gebruiken om de meest relevante termen in de feedback te markeren. Laten we ze op weg helpen!
Een functie preprocess() die tekst ontvangt en een bewerkte versie teruggeeft, is alvast voor je geladen. Deze functie past lowercasing, tokenization en het verwijderen van leestekens toe. Pandas is geïmporteerd als pd, en de klasse TfidfVectorizer is klaar voor gebruik.
Deze oefening maakt deel uit van de cursus
Natural Language Processing (NLP) in Python
Oefeninstructies
- Initialiseer een TF-IDF-
vectorizer. - Zet de opgeschoonde reviews om in een
tfidf_matrix. - Maak een DataFrame
dfvoor detfidf_matrix, met de woorden uit de woordenschat als kolommen.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
reviews = ["The smart speaker is incredible. Clear sound and fast responses!",
"I am disappointed with the smart bulb. It stopped working in a week.",
"The thermostat is okay. Not too smart, but functional."]
cleaned_reviews = [preprocess(review) for review in reviews]
# Initialize the vectorizer
vectorizer = ____
# Transform the cleaned reviews
tfidf_matrix = ____
# Create a DataFrame for TF-IDF
df = pd.DataFrame(
tfidf_matrix.toarray(),
columns=vectorizer.____
)
print(df.head())