Häufigkeitsanalyse von Produktbewertungen

Du hast jetzt Zugriff auf einen größeren Datensatz mit TechZone-Produktbewertungen. Wie zuvor hast du die Bewertungen vorverarbeitet und in eine BoW-Darstellung X umgewandelt. Deine Aufgabe ist es nun, die Worthäufigkeiten zu analysieren und die häufigsten Begriffe im Datensatz zu identifizieren.

Zur Unterstützung steht dir die Hilfsfunktion get_top_ten() zur Verfügung. Sie nimmt eine Liste von Wörtern und deren zugehörigen Häufigkeiten entgegen und gibt die 10 häufigsten Wörter samt ihrer Häufigkeiten zurück.

Diese Übung ist Teil des Kurses

<Kurs>Natural Language Processing (NLP) in Python</Kurs>

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

def preprocess(text):
    text = text.lower()
    tokens = word_tokenize(text)
    tokens = [word for word in tokens if word not in string.punctuation]
    return " ".join(tokens)
  
cleaned_reviews = [preprocess(review) for review in product_reviews]
X = vectorizer.fit_transform(cleaned_reviews)

# Get word counts
word_counts = np.____(X.____, axis=0)
# Get words
words = vectorizer.____

top_words_with_stopwords, top_counts_with_stopwords = get_top_ten(words, word_counts)
print(top_words_with_stopwords, top_counts_with_stopwords)

Code bearbeiten und ausführen

Diese Übung ist Teil des Kurses

<Kurs>Natural Language Processing (NLP) in Python</Kurs>

Mittlere SchwierigkeitSchwierigkeitsgrad

4.9+

Kurs kostenlos starten

Lerne die Grundlagen der Textverarbeitung im Natural Language Processing (NLP). Beherrsche Techniken wie Tokenisierung, das Entfernen von Stoppwörtern und Satzzeichen sowie die Normalisierung von Text durch Kleinschreibung, Stemming und Lemmatisierung, um Textdaten für weitere Analysen und Erkenntnisse aufzubereiten.

Exercise 1: Einführung in die Verarbeitung natürlicher Sprache Exercise 2: Satz- und Wort-Tokenisierung Exercise 3: NLP-Workflow Exercise 4: Umgang mit Stoppwörtern und Satzzeichen Exercise 5: Stoppwörter entfernen Exercise 6: Satzzeichen entfernen Exercise 7: Techniken der Textnormalisierung Exercise 8: Kleinschreibung Exercise 9: Stemming Exercise 10: Lemmatisierung

Wandle Rohtext in aussagekräftige numerische Merkmale um. Erstelle Bag-of-Words- und TF-IDF-Repräsentationen, um die Wichtigkeit von Wörtern über Dokumente hinweg zu erfassen, und erkunde anschließend Wort-Embeddings wie Word2Vec und GloVe, um tiefere semantische Muster sichtbar zu machen. Visualisiere Häufigkeit, Relevanz und Ähnlichkeit, um deine Textdaten zum Leben zu erwecken.

Exercise 1: Bag-of-Words-Darstellung Exercise 2: Wortschatz aus Kundenrezensionen aufbauen Exercise 3: Text mit BoW in Zahlen umwandeln Exercise 4: Häufigkeitsanalyse von Produktbewertungen

Aktuelle Übung

Exercise 5: Worthäufigkeiten visualisieren Exercise 6: TF-IDF-Vektorisierung Exercise 7: TF-IDF-Darstellung von Produktfeedback Exercise 8: BoW- und TF-IDF-Repräsentationen vergleichen Exercise 9: Embeddings Exercise 10: Wortbeziehungen mit Embeddings erkunden Exercise 11: Wort-Embeddings visualisieren und vergleichen

Nutze die Stärke vortrainierter Modelle, um anspruchsvolle Textklassifikationsaufgaben zu lösen. Verwende Hugging Face Pipelines für Sentiment-Analyse, Themenklassifikation und Natural Language Inference. Bewerte semantische Ähnlichkeit und grammatische Korrektheit mit State-of-the-Art-Modellen – ganz ohne alles von Grund auf neu zu bauen.

Exercise 1: Hugging Face-Pipelines für Sentimentanalyse Exercise 2: Die Stimmung einer Rezension analysieren Exercise 3: Mehrere Rezensionen im Batch klassifizieren Exercise 4: Modelle mit gelabelten Review-Daten vergleichen Exercise 5: Zero-shot-Klassifikation und QNLI Exercise 6: Zero-shot-Klassifikation von Support-Tickets Exercise 7: Beantwortet der Text die Frage?Exercise 8: Frageähnlichkeit und grammatische Korrektheit Exercise 9: Doppelte Fragen erkennen Exercise 10: Grammatikalische Korrektheit überprüfen

Tauche in den Kern moderner NLP-Anwendungen mit Token-Klassifikation und Textgenerierung ein. Lerne, mit NER und PoS-Tagging bedeutungsvolle Entitäten und grammatische Strukturen zu extrahieren. Beherrsche sowohl extraktives als auch abstraktives Question Answering und erkunde fortgeschrittene Generierungsaufgaben wie Zusammenfassung, Übersetzung und Language Modeling mit Hugging Face Pipelines.

Exercise 1: Token-Klassifikation Exercise 2: Benannte Entitäten in Nachrichtenüberschriften erkennen Exercise 3: Part-of-Speech-Tagging für Textanalyse Exercise 4: Question Answering Exercise 5: Fragen aus Produktbeschreibungen beantworten Exercise 6: Natürliche Antworten mit abstraktivem QA erzeugen Exercise 7: Aufgaben zur Sequenzgenerierung Exercise 8: Nachrichtenartikel für schnelle Einblicke zusammenfassen Exercise 9: Kundenrezensionen ins Französische übersetzen Exercise 10: Ein System zur Suchvervollständigung bauen Exercise 11: Glückwunsch