TF-IDF-representatie van productfeedback

Je werkt samen met een klantenserviceteam bij een smart home-bedrijf. Ze hebben gebruikersfeedback verzameld over verschillende slimme apparaten en willen weten welke woorden in elke review eruit springen. Jij stelt voor om de TF-IDF-techniek te gebruiken om de meest relevante termen in de feedback te markeren. Laten we ze op weg helpen!

Een functie preprocess() die tekst ontvangt en een bewerkte versie teruggeeft, is alvast voor je geladen. Deze functie past lowercasing, tokenization en het verwijderen van leestekens toe. Pandas is geïmporteerd als pd, en de klasse TfidfVectorizer is klaar voor gebruik.

Deze oefening maakt deel uit van de cursus

Natural Language Processing (NLP) in Python

Oefeninstructies

Initialiseer een TF-IDF-vectorizer.
Zet de opgeschoonde reviews om in een tfidf_matrix.
Maak een DataFrame df voor de tfidf_matrix, met de woorden uit de woordenschat als kolommen.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

reviews = ["The smart speaker is incredible. Clear sound and fast responses!",
           "I am disappointed with the smart bulb. It stopped working in a week.",
           "The thermostat is okay. Not too smart, but functional."]
cleaned_reviews = [preprocess(review) for review in reviews]

# Initialize the vectorizer
vectorizer = ____
# Transform the cleaned reviews
tfidf_matrix = ____
# Create a DataFrame for TF-IDF
df = pd.DataFrame(
  tfidf_matrix.toarray(),
  columns=vectorizer.____
)
print(df.head())

Code bewerken en uitvoeren

Deze oefening maakt deel uit van de cursus

Natural Language Processing (NLP) in Python

SkillTag.level.intermediateSkillTag.label

4.9+

Begin gratis met de cursus

Leer de essentie van tekstverwerking in Natural Language Processing (NLP). Beheers technieken zoals tokenization, het verwijderen van stopwoorden en interpunctie, en tekstnormalisatie met lowercasing, stemming en lemmatization om tekstgegevens voor te bereiden op verdere analyse en het extraheren van inzichten.

Exercise 1: Introductie tot natural language processing Exercise 2: Zin- en woordtokenization Exercise 3: NLP-werkstroom Exercise 4: Stopwoorden en interpunctie verwerken Exercise 5: Stopwoorden verwijderen Exercise 6: Interpunctie verwijderen Exercise 7: Technieken voor het normaliseren van tekst Exercise 8: Kleine letters (lowercasing)Exercise 9: Stemming Exercise 10: Lemmatization

Zet ruwe tekst om in krachtige numerieke kenmerken. Maak Bag-of-Words- en TF-IDF-representaties om woordbelang over documenten vast te leggen, en verken vervolgens woordembeddings zoals Word2Vec en GloVe om diepere semantische patronen te ontdekken. Visualiseer frequentie, relevantie en overeenkomst om je tekstdata tot leven te brengen.

Exercise 1: Bag-of-Words-representatie Exercise 2: Woordenschat opbouwen uit klantreviews Exercise 3: Tekst omzetten naar getallen met BoW Exercise 4: Frequentieanalyse van productreviews Exercise 5: Woordfrequenties visualiseren Exercise 6: TF-IDF-vectorisatie Exercise 7: TF-IDF-representatie van productfeedback

Huidige oefening

Exercise 8: BoW- en TF-IDF-representaties vergelijken Exercise 9: Embeddings Exercise 10: Woordrelaties verkennen met embeddings Exercise 11: Woordembeddings visualiseren en vergelijken

Benut de kracht van voorgetrainde modellen om geavanceerde tekstclassificatietaken uit te voeren. Gebruik Hugging Face-pipelines voor sentimentanalyse, onderwerpclassificatie en natural language inference. Beoordeel semantische gelijkenis en grammaticale correctheid met state-of-the-art modellen, zonder iets from scratch te hoeven bouwen.

Exercise 1: Hugging Face-pijplijnen voor sentimentanalyse Exercise 2: Het sentiment van een review analyseren Exercise 3: Meerdere reviews in batch classificeren Exercise 4: Modellen vergelijken op gelabelde reviewdata Exercise 5: Zero-shot-classificatie en QNLI Exercise 6: Zero-shot-classificatie van supporttickets Exercise 7: Beantwoordt de tekst de vraag?Exercise 8: Overeenkomst tussen vragen en grammaticale correctheid Exercise 9: Dubbele vragen detecteren Exercise 10: Grammaticale correctheid controleren

Duik in de kern van moderne NLP-toepassingen met tokenclassificatie en technieken voor tekstgeneratie. Leer betekenisvolle entiteiten en grammaticale structuren extraheren met NER en PoS-tagging. Beheers zowel extractive als abstractive question answering en verken geavanceerde generatietaken zoals samenvatten, vertalen en language modeling met Hugging Face-pipelines.

Exercise 1: Tokenclassificatie Exercise 2: Benoemde entiteiten herkennen in nieuwskoppen Exercise 3: Part-of-speech-tagging voor tekstanalyse Exercise 4: Vraagbeantwoording Exercise 5: Vragen beantwoorden op basis van productbeschrijvingen Exercise 6: Natuurlijke antwoorden genereren met abstractive QA Exercise 7: Taken voor sequentiegeneratie Exercise 8: Nieuwsartikelen samenvatten voor snelle inzichten Exercise 9: Klantbeoordelingen naar het Frans vertalen Exercise 10: Een zoekaanvulsysteem bouwen Exercise 11: Gefeliciteerd