Den idealen Datensatz auswählen
Jetzt entfernst du einige der unnötigen Features im ufo-Datensatz. Da die Spalte country als country_enc kodiert wurde, kannst du sie behalten und die anderen ortsbezogenen Spalten löschen: city, country, lat, long und state.
Du hast die Spalten month und year erstellt, daher brauchst du date oder recorded nicht mehr. Außerdem hast du die Spalte seconds als seconds_log standardisiert, also kannst du seconds und minutes löschen.
Du hast desc vektorisiert, daher kann es entfernt werden. type behältst du vorerst bei.
Außerdem kannst du die Spalte length_of_time entfernen, die nach dem Extrahieren von minutes überflüssig ist.
Diese Übung ist Teil des Kurses
Vorverarbeitung für Machine Learning in Python
Anleitung zur Übung
- Erstelle eine Liste aller zu löschenden Spalten,
to_drop. - Entferne diese Spalten aus
ufo. - Verwende die zuvor erstellte Funktion
words_to_filter(); übergibvocab,vec.vocabulary_,desc_tfidfund behalte als letzten Parameter die obersten4Wörter.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Make a list of features to drop
to_drop = [____]
# Drop those features
ufo_dropped = ufo.____
# Let's also filter some words out of the text vector we created
filtered_words = ____(____, ____, ____, ____)