Tekstvectorisatie
Je gaat nu de kolom desc in de UFO-gegevensset omzetten naar tf/idf-vectoren, omdat er waarschijnlijk iets te leren valt uit dit veld.
Deze oefening maakt deel uit van de cursus
Preprocessing voor Machine Learning in Python
Oefeninstructies
- Print de
.head()van de kolomdesc. - Maak een
TfidfVectorizer()-object aan. - Fit en transformeer de kolom
descmetvec. - Print de
.shapevan dedesc_tfidf-vector om te zien hoeveel kolommen dit heeft opgeleverd.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Take a look at the head of the desc field
print(____)
# Instantiate the tfidf vectorizer object
vec = ____
# Fit and transform desc using vec
desc_tfidf = vec.____
# Look at the number of columns and rows
print(____.shape)