1. 학습
  2. /
  3. 강의
  4. /
  5. Kerasで学ぶMachine Translation

Connected

연습 문제

パート2:データセットを探索する

ここではデータセットの属性をいくつか調べます。具体的には、すべての文の平均長(語数)と、英語データセットの語彙サイズを求めます。

この演習では、英語の文のリストを含む英語データセット en_text が与えられています。ここで使用するのは、Python のリスト関連の関数 <list>.extend() で、<list>.append() の別バリエーションです。違いを例で確認しましょう。a=[1,2,3]、b=[4,5] とします。a.append(b) の結果は [1,2,3,[4,5]] になりますが、a.extend(b) の結果は [1,2,3,4,5] になります。

지침

100 XP
  • en_text を反復しながら、split() と len() を使って各文の長さを計算します。
  • numpy を使って文の平均長を計算します。
  • for ループ本体で、トークン化後の文に含まれるすべての単語を追加して、リスト all_words を作成します。
  • リスト all_words を set オブジェクトに変換し、その長さ(サイズ)を計算します。