1. Learn
  2. /
  3. Cursuri
  4. /
  5. Ingineria caracteristicilor pentru Machine Learning în Python

Connected

exercițiu

Curățarea textului

Datele text nestructurate nu pot fi folosite direct în majoritatea analizelor. Sunt necesari mai mulți pași pentru a transforma un șir lung de text liber într-un set de coloane numerice, în formatul potrivit pentru a fi preluat de un model de machine learning. Primul pas al acestui proces este standardizarea datelor și eliminarea oricăror caractere care ar putea cauza probleme mai târziu în fluxul tău de analiză.

În acest capitol vei lucra cu un nou set de date care conține discursurile inaugurale ale președinților Statelor Unite, încărcat ca speech_df, cu discursurile stocate în coloana text.

Instrucțiuni 1/2

undefined XP
    1
    2

Afișează primele 5 rânduri ale coloanei text pentru a vedea câmpurile de text liber.