1. Uczyć się
  2. /
  3. Courses
  4. /
  5. Preprocessing w uczeniu maszynowym w Pythonie

Connected

Exercise

Wybór optymalnego zbioru danych

Czas pozbyć się zbędnych cech ze zbioru danych ufo. Kolumna country została zakodowana jako country_enc, więc możesz ją zachować i usunąć pozostałe kolumny związane z lokalizacją: city, country, lat, long oraz state.

Skoro utworzyłeś kolumny month i year, kolumny date i recorded nie są już potrzebne. Kolumna seconds została zestandaryzowana jako seconds_log, więc możesz usunąć seconds i minutes.

Kolumna desc została zwektoryzowana, więc można ją usunąć. Na razie zachowaj kolumnę type.

Możesz również pozbyć się kolumny length_of_time, która stała się zbędna po wyodrębnieniu wartości minutes.

Instrukcje

100 XP
  • Utwórz listę wszystkich kolumn do usunięcia – to_drop.
  • Usuń te kolumny ze zbioru ufo.
  • Użyj funkcji words_to_filter(), którą wcześniej utworzyłeś; przekaż jej vocab, vec.vocabulary_, desc_tfidf i jako ostatni parametr podaj 4 – czyli liczbę słów, które chcesz zachować.