Frequentieanalyse van productreviews

Je hebt nu toegang tot een grotere gegevensset met TechZone-productreviews. Net als eerder heb je de reviews voorbewerkt en omgezet naar een BoW-representatie X. Jouw taak is nu om de woordfrequenties te analyseren en de meest voorkomende termen in de gegevensset te identificeren.

Om te helpen bij de analyse is een hulpfunctie get_top_ten() beschikbaar. Die neemt een lijst met woorden en hun bijbehorende aantallen en geeft de 10 meest frequente woorden met hun tellingen terug.

Deze oefening maakt deel uit van de cursus

Natural Language Processing (NLP) in Python

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

def preprocess(text):
    text = text.lower()
    tokens = word_tokenize(text)
    tokens = [word for word in tokens if word not in string.punctuation]
    return " ".join(tokens)
  
cleaned_reviews = [preprocess(review) for review in product_reviews]
X = vectorizer.fit_transform(cleaned_reviews)

# Get word counts
word_counts = np.____(X.____, axis=0)
# Get words
words = vectorizer.____

top_words_with_stopwords, top_counts_with_stopwords = get_top_ten(words, word_counts)
print(top_words_with_stopwords, top_counts_with_stopwords)

Code bewerken en uitvoeren

Deze oefening maakt deel uit van de cursus

Natural Language Processing (NLP) in Python

SkillTag.level.intermediateSkillTag.label

4.9+

Begin gratis met de cursus

Leer de essentie van tekstverwerking in Natural Language Processing (NLP). Beheers technieken zoals tokenization, het verwijderen van stopwoorden en interpunctie, en tekstnormalisatie met lowercasing, stemming en lemmatization om tekstgegevens voor te bereiden op verdere analyse en het extraheren van inzichten.

Exercise 1: Introductie tot natural language processing Exercise 2: Zin- en woordtokenization Exercise 3: NLP-werkstroom Exercise 4: Stopwoorden en interpunctie verwerken Exercise 5: Stopwoorden verwijderen Exercise 6: Interpunctie verwijderen Exercise 7: Technieken voor het normaliseren van tekst Exercise 8: Kleine letters (lowercasing)Exercise 9: Stemming Exercise 10: Lemmatization

Zet ruwe tekst om in krachtige numerieke kenmerken. Maak Bag-of-Words- en TF-IDF-representaties om woordbelang over documenten vast te leggen, en verken vervolgens woordembeddings zoals Word2Vec en GloVe om diepere semantische patronen te ontdekken. Visualiseer frequentie, relevantie en overeenkomst om je tekstdata tot leven te brengen.

Exercise 1: Bag-of-Words-representatie Exercise 2: Woordenschat opbouwen uit klantreviews Exercise 3: Tekst omzetten naar getallen met BoW Exercise 4: Frequentieanalyse van productreviews

Huidige oefening

Exercise 5: Woordfrequenties visualiseren Exercise 6: TF-IDF-vectorisatie Exercise 7: TF-IDF-representatie van productfeedback Exercise 8: BoW- en TF-IDF-representaties vergelijken Exercise 9: Embeddings Exercise 10: Woordrelaties verkennen met embeddings Exercise 11: Woordembeddings visualiseren en vergelijken

Benut de kracht van voorgetrainde modellen om geavanceerde tekstclassificatietaken uit te voeren. Gebruik Hugging Face-pipelines voor sentimentanalyse, onderwerpclassificatie en natural language inference. Beoordeel semantische gelijkenis en grammaticale correctheid met state-of-the-art modellen, zonder iets from scratch te hoeven bouwen.

Exercise 1: Hugging Face-pijplijnen voor sentimentanalyse Exercise 2: Het sentiment van een review analyseren Exercise 3: Meerdere reviews in batch classificeren Exercise 4: Modellen vergelijken op gelabelde reviewdata Exercise 5: Zero-shot-classificatie en QNLI Exercise 6: Zero-shot-classificatie van supporttickets Exercise 7: Beantwoordt de tekst de vraag?Exercise 8: Overeenkomst tussen vragen en grammaticale correctheid Exercise 9: Dubbele vragen detecteren Exercise 10: Grammaticale correctheid controleren

Duik in de kern van moderne NLP-toepassingen met tokenclassificatie en technieken voor tekstgeneratie. Leer betekenisvolle entiteiten en grammaticale structuren extraheren met NER en PoS-tagging. Beheers zowel extractive als abstractive question answering en verken geavanceerde generatietaken zoals samenvatten, vertalen en language modeling met Hugging Face-pipelines.

Exercise 1: Tokenclassificatie Exercise 2: Benoemde entiteiten herkennen in nieuwskoppen Exercise 3: Part-of-speech-tagging voor tekstanalyse Exercise 4: Vraagbeantwoording Exercise 5: Vragen beantwoorden op basis van productbeschrijvingen Exercise 6: Natuurlijke antwoorden genereren met abstractive QA Exercise 7: Taken voor sequentiegeneratie Exercise 8: Nieuwsartikelen samenvatten voor snelle inzichten Exercise 9: Klantbeoordelingen naar het Frans vertalen Exercise 10: Een zoekaanvulsysteem bouwen Exercise 11: Gefeliciteerd