1. 学ぶ
  2. /
  3. コース
  4. /
  5. Kerasで学ぶMachine Translation

Connected

演習

パート1:データセットを探索する

ここではデータセットを少し探索していきます。まず、どのようなデータか感覚をつかみましょう。いくつかのデータを表示し、文を単語ごとにトークン化する方法を学びます。英語ではトークン化は比較的簡単に見えますが、日本語のように英語ほど明確な区切りがない言語もあります。

この演習では、en_text と fr_text の2つのデータセットが用意されています。en_text には英語の文のリストが、fr_text には対応するフランス語の文のリストが含まれています。

指示

100 XP
  • 英語文(en_text)とフランス語文(fr_text)の最初の5文を反復処理する zip() を書いてください。
  • en_text から最初の英語文を取得します。
  • 取得した文を split() 関数と半角スペースでトークン化し、first_words に代入します。
  • トークン化した単語を出力します。