テキストをきれいに整える

非構造化テキストデータは、そのままでは多くの分析に使えません。自由記述の長い文字列から、Machine Learning モデルが取り込める適切な形式の数値列へと変換するには、複数の手順が必要です。最初のステップは、データを標準化し、後の分析パイプラインで問題の原因になり得る文字を取り除くことです。

この章では、speech_df として読み込まれた、アメリカ合衆国大統領の就任演説を含む新しいデータセットを扱います。演説文は text 列に格納されています。

自由記述フィールドを確認するため、text 列の先頭5行を表示します。