Textvektorisierung
Jetzt wandelst du die Spalte desc im UFO-Datensatz in TF-IDF-Vektoren um, denn aus diesem Feld lässt sich vermutlich etwas lernen.
Diese Übung ist Teil des Kurses
Vorverarbeitung für Machine Learning in Python
Anleitung zur Übung
- Gib das
.head()der Spaltedescaus. - Erzeuge ein
TfidfVectorizer()-Objekt. - Fitte und transformiere die Spalte
descmitvec. - Gib die
.shapedes Vektorsdesc_tfidfaus, um dir die Anzahl der erzeugten Spalten anzusehen.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Take a look at the head of the desc field
print(____)
# Instantiate the tfidf vectorizer object
vec = ____
# Fit and transform desc using vec
desc_tfidf = vec.____
# Look at the number of columns and rows
print(____.shape)