1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Preprocessing pro Machine Learning v Pythonu

Connected

Cvičení

Výběr ideální datové sady

Teď se zbavíme nepotřebných příznaků v datasetu ufo. Protože sloupec country byl zakódován jako country_enc, můžeš ho ponechat a odstranit ostatní sloupce související s polohou: city, country, lat, long a state.

Sloupce month a year jsi vytvořil/a ručně, takže sloupce date ani recorded už nepotřebuješ. Sloupec seconds jsi standardizoval/a jako seconds_log, takže seconds a minutes můžeš vypustit.

Sloupec desc byl vektorizován, takže ho lze odstranit. Sloupec type prozatím ponecháš.

Můžeš se také zbavit sloupce length_of_time, který je po extrakci minutes nadbytečný.

Pokyny

100 XP
  • Vytvoř seznam všech sloupců k odstranění — pojmenuj ho to_drop.
  • Tyto sloupce odstraň z ufo.
  • Použij funkci words_to_filter(), kterou jsi vytvořil/a dříve; předej jí vocab, vec.vocabulary_, desc_tfidf a jako poslední parametr zadej, že chceš ponechat top 4 slova.