1. सीखें
  2. /
  3. पाठ्यक्रम
  4. /
  5. Kerasで学ぶ言語モデリングのためのRecurrent Neural Networks (RNNs)

Connected

अभ्यास

テキストデータに慣れよう

この演習では、TV番組 The Big Bang Theory に登場する Sheldon Cooper の名言を分析して、テキストデータで遊んでみます。実際のテキストデータを扱うときの感覚をつかむために、文を分析して洞察を得ていきます。

単語からインデックス、インデックスから単語への対応を作るため、辞書内包表記を使って辞書を作成します。pandas.DataFrame などではなく辞書を使うのは、より直感的で、不要な複雑さを増やさないためです。

データは sheldon_quotes に用意されており、最初の2文はすでに表示されています。

निर्देश

100 XP
  • 文を join して1つの変数にまとめ、そこからすべての単語を抽出して all_words に格納します。
  • 単語のリストに list(set()) を適用して重複を取り除き、unique_words に格納します。
  • 辞書内包表記を使って、インデックスをキー、単語を値とする辞書を作成します。
  • 辞書内包表記を使って、単語をキー、インデックスを値とする辞書を作成します。