演習

シェイクスピア語の前処理パイプライン

PyBooks では、シェイクスピアの膨大なテキストデータを分析に向けて変換したいと考えています。これを最も効率よく行うには、前処理から始めるテキスト処理パイプラインを使うのが有効です。

次のモジュールは読み込まれています： torch, nltk, stopwords, PorterStemmer, get_tokenizer。

シェイクスピアのテキストデータは shakespeare に保存されており、文はすでに抽出されています。

undefined XP