1. Learn
  2. /
  3. Cursuri
  4. /
  5. Ingineria caracteristicilor pentru Machine Learning în Python

Connected

exercițiu

Transformarea datelor nevăzute

Când creezi vectori din text, orice transformări aplicate înainte de antrenarea unui model de machine learning trebuie aplicate și asupra datelor noi, nevăzute (de testare). Pentru a realiza acest lucru, urmează aceeași abordare din capitolul anterior: antrenează vectorizatorul doar pe datele de antrenament și aplică-l pe datele de testare.

Pentru acest exercițiu, DataFrame-ul speech_df a fost împărțit în două:

  • train_speech_df: Setul de antrenament, format din primele 45 de discursuri.
  • test_speech_df: Setul de testare, format din discursurile rămase.

Instrucțiuni

100 XP
  • Instanțiază TfidfVectorizer.
  • Antrenează vectorizatorul și aplică-l pe coloana text_clean.
  • Aplică același vectorizator pe coloana text_clean din datele de testare.
  • Creează un DataFrame cu aceste noi caracteristici din setul de testare.