TF-IDF auf Buchbeschreibungen anwenden

PyBooks hat mehrere Buchbeschreibungen gesammelt und möchte mit der TF-IDF-Codierungstechnik wichtige Wörter darin identifizieren. So erhoffen sie sich bessere Einblicke in die einzigartigen Merkmale jedes Buchs, um ihr Buchempfehlungssystem zu verbessern.

Die folgenden Pakete wurden bereits für dich importiert: torch, torchtext.

Diese Übung ist Teil des Kurses

<Kurs>Deep Learning für Text mit PyTorch</Kurs>

Übungsanweisungen

Importiere die Klasse TfidfVectorizer aus sklearn.feature_extraction.text, die eine Sammlung roher Dokumente in eine Matrix aus TF-IDF-Features umwandelt.
Erzeuge eine Instanz dieser Klasse und verwende sie dann, um die descriptions in eine TF-IDF-Matrix von Vektoren zu kodieren.
Rufe die ersten fünf Feature-Namen vom vectorizer sowie die kodierten Vektoren aus tfidf_encoded_descriptions ab und gib sie aus.

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Importing TF-IDF from sklearn
from sklearn.feature_extraction.text import ____

# Initialize TF-IDF encoding vectorizer
vectorizer = ____()
tfidf_encoded_descriptions = vectorizer.____(descriptions)

# Extract and print the first five features
print(____.get_feature_names_out()[:5])
print(____.toarray()[0, :5])

Code bearbeiten und ausführen

Diese Übung ist Teil des Kurses

<Kurs>Deep Learning für Text mit PyTorch</Kurs>

Hohe SchwierigkeitSchwierigkeitsgrad

4.8+

Kurs kostenlos starten

Dieses Kapitel führt dich in Deep Learning für Text und seine Anwendungen ein. Lerne, wie du PyTorch für die Textverarbeitung nutzt, und sammle praktische Erfahrung mit Techniken wie Tokenisierung, Stemming, Entfernen von Stopwörtern und mehr. Verstehe die Bedeutung der Kodierung von Textdaten und implementiere Encoding-Techniken mit PyTorch. Festige dein Wissen, indem du eine Textverarbeitungspipeline aufbaust, die diese Techniken kombiniert.

Exercise 1: Einführung in die Textvorverarbeitung Exercise 2: Wortfrequenzanalyse Exercise 3: Text vorverarbeiten Exercise 4: Textdaten kodieren Exercise 5: One-hot-codierte Buchtitel Exercise 6: Bag-of-Words für Buchtitel Exercise 7: TF-IDF auf Buchbeschreibungen anwenden

Aktuelle Übung

Exercise 8: Einstieg in den Aufbau einer Textverarbeitungspipeline Exercise 9: Vorverarbeitungspipeline für Shakespeare-Sprache Exercise 10: Shakespeare-Sprachencoder

Erkunde die Textklassifikation und ihre Rolle in der Natural Language Processing (NLP). Wende deine Fähigkeiten an, um Wort-Embeddings zu implementieren, und entwickle Convolutional Neural Networks (CNNs) sowie Recurrent Neural Networks (RNNs) für die Textklassifikation mit PyTorch. Außerdem lernst du, wie du deine Modelle mit geeigneten Metriken bewertest.

Exercise 1: Überblick über Textklassifikation Exercise 2: Embeddings in PyTorch Exercise 3: Textklassifizierungsaufgaben kategorisieren Exercise 4: Convolutional Neural Networks für die Textklassifizierung Exercise 5: Erstelle ein CNN-Modell für Text Exercise 6: Ein CNN-Modell für Text trainieren Exercise 7: Das Sentiment-Analyse-CNN-Modell testen Exercise 8: Rekurrente Neuronale Netze für die Textklassifikation Exercise 9: Ein RNN-Modell für Text bauen Exercise 10: Ein LSTM-Modell für Text aufbauen Exercise 11: Ein GRU-Modell für Text erstellen Exercise 12: Bewertungsmetriken für die Textklassifikation Exercise 13: RNN-Klassifikationsmodelle bewerten Exercise 14: Leistung des Modells bewerten Exercise 15: Modelle vergleichen

Tauche ein in die spannende Welt der Textgenerierung und ihre Anwendungen in der NLP. Verstehe, wie du Recurrent Neural Networks (RNNs), Generative Adversarial Networks (GANs) und vortrainierte Modelle für Aufgaben der Textgenerierung mit PyTorch einsetzt. Außerdem lernst du, die Leistung deiner Modelle mit passenden Metriken zu evaluieren.

Exercise 1: Einführung in die Textgenerierung Exercise 2: Ein RNN-Modell für die Textgenerierung erstellen Exercise 3: Textgenerierung mit RNN – Training und Generierung Exercise 4: Generative Adversarial Networks für die Textgenerierung Exercise 5: Einen Generator und einen Diskriminator erstellen Exercise 6: Ein GAN-Modell trainieren Exercise 7: Vortrainierte Modelle für die Textgenerierung Exercise 8: Textvervollständigung mit vortrainierten GPT-2-Modellen Exercise 9: Sprachübersetzung mit einem vortrainierten PyTorch-Modell Exercise 10: Bewertungsmetriken für die Textgenerierung Exercise 11: Vortrainiertes Textgenerierungsmodell bewerten Exercise 12: Text-Generierungsmetriken verstehen

Verstehe das Konzept des Transfer Learning und seine Anwendung in der Textklassifikation. Erkunde Transformer, ihre Architektur und wie du sie für Aufgaben der Textklassifikation und -generierung nutzt. Du befasst dich außerdem mit Attention-Mechanismen und ihrer Rolle in der Textverarbeitung. Schließlich lernst du die potenziellen Auswirkungen adversarialer Angriffe auf Textklassifikationsmodelle kennen und wie du deine Modelle schützt.

Exercise 1: Transfer Learning für die Textklassifikation Exercise 2: Transfer Learning mit BERT Exercise 3: Das BERT-Modell auswerten Exercise 4: Transformer für die Textverarbeitung Exercise 5: Ein Transformermodell erstellen Exercise 6: Transformer-Modell trainieren und testen Exercise 7: Aufmerksamkeitsmechanismen für die Textverarbeitung Exercise 8: Ein RNN-Modell mit Attention erstellen Exercise 9: Training und Testen des RNN-Modells mit Attention Exercise 10: Adversarielle Angriffe auf Textklassifikationsmodelle Exercise 11: Einteilung adversarieller Angriffe Exercise 12: KI absichern bei PyBooks Exercise 13: Abschluss