BoW- en TF-IDF-representaties vergelijken

Je bent onderdeel van het analytics-team bij een wearablesbedrijf. Je doel is productmanagers te helpen het klantfeedback over de nieuwe smartwatch van het bedrijf te begrijpen. Je hebt de tekst al voorbewerkt en twee representaties gemaakt: bow_matrix met CountVectorizer() en tfidf_matrix met TfidfVectorizer(). In deze oefening ga je ze visualiseren en vergelijken om beter te begrijpen hoe elke methode woordbelang vastlegt.

Deze oefening maakt deel uit van de cursus

Natural Language Processing (NLP) in Python

Bekijk cursus

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Convert BoW matrix to a DataFrame
df_bow = pd.DataFrame(
    ____,
    columns=vectorizer.____
)

# Plot the heatmap
plt.figure(figsize=(10, 6))
sns.heatmap(____, annot=True)
plt.title("BoW Scores Across Reviews")
plt.xlabel("Terms")
plt.xticks(rotation=45)
plt.ylabel("Documents")
plt.show()

Code bewerken en uitvoeren

Deze oefening maakt deel uit van de cursus

Natural Language Processing (NLP) in Python

SkillTag.level.intermediateSkillTag.label

4.9+

738 reviews

Begin gratis met de cursus

Leer de essentie van tekstverwerking in Natural Language Processing (NLP). Beheers technieken zoals tokenization, het verwijderen van stopwoorden en interpunctie, en tekstnormalisatie met lowercasing, stemming en lemmatization om tekstgegevens voor te bereiden op verdere analyse en het extraheren van inzichten.

Exercise 1: Introductie tot natural language processing Exercise 2: Zin- en woordtokenization Exercise 3: NLP-werkstroom Exercise 4: Stopwoorden en interpunctie verwerken Exercise 5: Stopwoorden verwijderen Exercise 6: Interpunctie verwijderen Exercise 7: Technieken voor het normaliseren van tekst Exercise 8: Kleine letters (lowercasing)Exercise 9: Stemming Exercise 10: Lemmatization

Zet ruwe tekst om in krachtige numerieke kenmerken. Maak Bag-of-Words- en TF-IDF-representaties om woordbelang over documenten vast te leggen, en verken vervolgens woordembeddings zoals Word2Vec en GloVe om diepere semantische patronen te ontdekken. Visualiseer frequentie, relevantie en overeenkomst om je tekstdata tot leven te brengen.

Exercise 1: Bag-of-Words-representatie Exercise 2: Woordenschat opbouwen uit klantreviews Exercise 3: Tekst omzetten naar getallen met BoW Exercise 4: Frequentieanalyse van productreviews Exercise 5: Woordfrequenties visualiseren Exercise 6: TF-IDF-vectorisatie Exercise 7: TF-IDF-representatie van productfeedback Exercise 8: BoW- en TF-IDF-representaties vergelijken

Huidige oefening

Exercise 9: Embeddings Exercise 10: Woordrelaties verkennen met embeddings Exercise 11: Woordembeddings visualiseren en vergelijken

Benut de kracht van voorgetrainde modellen om geavanceerde tekstclassificatietaken uit te voeren. Gebruik Hugging Face-pipelines voor sentimentanalyse, onderwerpclassificatie en natural language inference. Beoordeel semantische gelijkenis en grammaticale correctheid met state-of-the-art modellen, zonder iets from scratch te hoeven bouwen.

Exercise 1: Hugging Face-pijplijnen voor sentimentanalyse Exercise 2: Het sentiment van een review analyseren Exercise 3: Meerdere reviews in batch classificeren Exercise 4: Modellen vergelijken op gelabelde reviewdata Exercise 5: Zero-shot-classificatie en QNLI Exercise 6: Zero-shot-classificatie van supporttickets Exercise 7: Beantwoordt de tekst de vraag?Exercise 8: Overeenkomst tussen vragen en grammaticale correctheid Exercise 9: Dubbele vragen detecteren Exercise 10: Grammaticale correctheid controleren

Duik in de kern van moderne NLP-toepassingen met tokenclassificatie en technieken voor tekstgeneratie. Leer betekenisvolle entiteiten en grammaticale structuren extraheren met NER en PoS-tagging. Beheers zowel extractive als abstractive question answering en verken geavanceerde generatietaken zoals samenvatten, vertalen en language modeling met Hugging Face-pipelines.

Exercise 1: Tokenclassificatie Exercise 2: Benoemde entiteiten herkennen in nieuwskoppen Exercise 3: Part-of-speech-tagging voor tekstanalyse Exercise 4: Vraagbeantwoording Exercise 5: Vragen beantwoorden op basis van productbeschrijvingen Exercise 6: Natuurlijke antwoorden genereren met abstractive QA Exercise 7: Taken voor sequentiegeneratie Exercise 8: Nieuwsartikelen samenvatten voor snelle inzichten Exercise 9: Klantbeoordelingen naar het Frans vertalen Exercise 10: Een zoekaanvulsysteem bouwen Exercise 11: Gefeliciteerd