1. Învăţa
  2. /
  3. Courses
  4. /
  5. Preprocesare pentru Machine Learning în Python

Connected

exercise

Selectarea setului de date ideal

Acum este momentul să eliminăm câteva caracteristici inutile din setul de date ufo. Deoarece coloana country a fost codificată ca country_enc, o poți păstra pe aceasta și elimina celelalte coloane legate de locație: city, country, lat, long și state.

Ai creat coloanele month și year, așa că nu mai ai nevoie de coloanele date sau recorded. De asemenea, ai standardizat coloana seconds sub forma seconds_log, deci poți elimina seconds și minutes.

Ai vectorizat desc, așa că o poți șterge. Deocamdată, vei păstra type.

Poți elimina și coloana length_of_time, care nu mai este necesară după extragerea coloanei minutes.

Instrucțiuni

100 XP
  • Creează o listă cu toate coloanele de eliminat, to_drop.
  • Elimină aceste coloane din ufo.
  • Folosește funcția words_to_filter() creată anterior; transmite vocab, vec.vocabulary_, desc_tfidf și păstrează primele 4 cuvinte ca ultim parametru.