1. Nauka
  2. /
  3. Kursy
  4. /
  5. Inżynieria cech w uczeniu maszynowym w Pythonie

Connected

ćwiczenie

Porządkowanie tekstu

Nieustrukturyzowane dane tekstowe nie mogą być bezpośrednio wykorzystane w większości analiz. Aby przejść od długiego, swobodnego ciągu znaków do zestawu kolumn numerycznych w odpowiednim formacie, który można podać modelowi uczenia maszynowego, trzeba wykonać kilka kroków. Pierwszym z nich jest standaryzacja danych i usunięcie znaków, które mogłyby powodować problemy w dalszej części potoku analitycznego.

W tym rozdziale będziesz pracować z nowym zbiorem danych zawierającym przemówienia inauguracyjne prezydentów Stanów Zjednoczonych, wczytanym jako speech_df. Treści przemówień znajdziesz w kolumnie text.

Instrukcje 1/2

undefined XP
    1
    2

Wyświetl pierwsze 5 wierszy kolumny text, aby zobaczyć zawartość pól z tekstem swobodnym.