LoslegenKostenlos loslegen

Den idealen Datensatz auswählen

Jetzt entfernst du einige der unnötigen Features im ufo-Datensatz. Da die Spalte country als country_enc kodiert wurde, kannst du sie behalten und die anderen ortsbezogenen Spalten löschen: city, country, lat, long und state.

Du hast die Spalten month und year erstellt, daher brauchst du date oder recorded nicht mehr. Außerdem hast du die Spalte seconds als seconds_log standardisiert, also kannst du seconds und minutes löschen.

Du hast desc vektorisiert, daher kann es entfernt werden. type behältst du vorerst bei.

Außerdem kannst du die Spalte length_of_time entfernen, die nach dem Extrahieren von minutes überflüssig ist.

Diese Übung ist Teil des Kurses

Vorverarbeitung für Machine Learning in Python

Kurs anzeigen

Anleitung zur Übung

  • Erstelle eine Liste aller zu löschenden Spalten, to_drop.
  • Entferne diese Spalten aus ufo.
  • Verwende die zuvor erstellte Funktion words_to_filter(); übergib vocab, vec.vocabulary_, desc_tfidf und behalte als letzten Parameter die obersten 4 Wörter.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Make a list of features to drop
to_drop = [____]

# Drop those features
ufo_dropped = ufo.____

# Let's also filter some words out of the text vector we created
filtered_words = ____(____, ____, ____, ____)
Code bearbeiten und ausführen