Stemming

Nu je de tekst in review hebt opgeschoond en stopwoorden en interpunctie hebt verwijderd, kun je de overgebleven woorden normaliseren met stemming om woorden terug te brengen tot hun stam. Zo groepeer je vergelijkbare woorden, waardoor je analyse consistenter en efficiënter wordt.

De klasse PorterStemmer is beschikbaar, samen met een lijst clean_tokens.

Deze oefening maakt deel uit van de cursus

Natural Language Processing (NLP) in Python

Oefeninstructies

Initialiseer de PorterStemmer().
Gebruik een list comprehension om elke token in de lijst clean_tokens te stemen.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

clean_tokens = ['flying', 'lot', 'lately', 'flights', 'keep', 'getting', 'delayed', 'honestly', 'traveling', 'work', 'gets', 'exhausting', 'endless', 'delays', 'every', 'travel', 'teaches', 'something', 'new']

# Create stemmer
stemmer = ____()

# Stem each token
stemmed_tokens = [____.____(____) for ____ in clean_tokens]

print(stemmed_tokens)

Code bewerken en uitvoeren

Deze oefening maakt deel uit van de cursus

Natural Language Processing (NLP) in Python

SkillTag.level.intermediateSkillTag.label

4.9+

Begin gratis met de cursus

Leer de essentie van tekstverwerking in Natural Language Processing (NLP). Beheers technieken zoals tokenization, het verwijderen van stopwoorden en interpunctie, en tekstnormalisatie met lowercasing, stemming en lemmatization om tekstgegevens voor te bereiden op verdere analyse en het extraheren van inzichten.

Exercise 1: Introductie tot natural language processing Exercise 2: Zin- en woordtokenization Exercise 3: NLP-werkstroom Exercise 4: Stopwoorden en interpunctie verwerken Exercise 5: Stopwoorden verwijderen Exercise 6: Interpunctie verwijderen Exercise 7: Technieken voor het normaliseren van tekst Exercise 8: Kleine letters (lowercasing)Exercise 9: Stemming

Huidige oefening

Exercise 10: Lemmatization

Zet ruwe tekst om in krachtige numerieke kenmerken. Maak Bag-of-Words- en TF-IDF-representaties om woordbelang over documenten vast te leggen, en verken vervolgens woordembeddings zoals Word2Vec en GloVe om diepere semantische patronen te ontdekken. Visualiseer frequentie, relevantie en overeenkomst om je tekstdata tot leven te brengen.

Exercise 1: Bag-of-Words-representatie Exercise 2: Woordenschat opbouwen uit klantreviews Exercise 3: Tekst omzetten naar getallen met BoW Exercise 4: Frequentieanalyse van productreviews Exercise 5: Woordfrequenties visualiseren Exercise 6: TF-IDF-vectorisatie Exercise 7: TF-IDF-representatie van productfeedback Exercise 8: BoW- en TF-IDF-representaties vergelijken Exercise 9: Embeddings Exercise 10: Woordrelaties verkennen met embeddings Exercise 11: Woordembeddings visualiseren en vergelijken

Benut de kracht van voorgetrainde modellen om geavanceerde tekstclassificatietaken uit te voeren. Gebruik Hugging Face-pipelines voor sentimentanalyse, onderwerpclassificatie en natural language inference. Beoordeel semantische gelijkenis en grammaticale correctheid met state-of-the-art modellen, zonder iets from scratch te hoeven bouwen.

Exercise 1: Hugging Face-pijplijnen voor sentimentanalyse Exercise 2: Het sentiment van een review analyseren Exercise 3: Meerdere reviews in batch classificeren Exercise 4: Modellen vergelijken op gelabelde reviewdata Exercise 5: Zero-shot-classificatie en QNLI Exercise 6: Zero-shot-classificatie van supporttickets Exercise 7: Beantwoordt de tekst de vraag?Exercise 8: Overeenkomst tussen vragen en grammaticale correctheid Exercise 9: Dubbele vragen detecteren Exercise 10: Grammaticale correctheid controleren

Duik in de kern van moderne NLP-toepassingen met tokenclassificatie en technieken voor tekstgeneratie. Leer betekenisvolle entiteiten en grammaticale structuren extraheren met NER en PoS-tagging. Beheers zowel extractive als abstractive question answering en verken geavanceerde generatietaken zoals samenvatten, vertalen en language modeling met Hugging Face-pipelines.

Exercise 1: Tokenclassificatie Exercise 2: Benoemde entiteiten herkennen in nieuwskoppen Exercise 3: Part-of-speech-tagging voor tekstanalyse Exercise 4: Vraagbeantwoording Exercise 5: Vragen beantwoorden op basis van productbeschrijvingen Exercise 6: Natuurlijke antwoorden genereren met abstractive QA Exercise 7: Taken voor sequentiegeneratie Exercise 8: Nieuwsartikelen samenvatten voor snelle inzichten Exercise 9: Klantbeoordelingen naar het Frans vertalen Exercise 10: Een zoekaanvulsysteem bouwen Exercise 11: Gefeliciteerd