1. Learn
  2. /
  3. Courses
  4. /
  5. Traducere automată cu Keras

Connected

Exercise

Partea 2: Explorarea setului de date

Acum vei explora câteva atribute ale setului de date. Mai exact, vei determina lungimea medie (adică numărul de cuvinte) a tuturor propozițiilor, precum și dimensiunea vocabularului pentru setul de date în limba engleză.

Pentru acest exercițiu, ți-a fost furnizat setul de date în engleză en_text, care conține o listă de propoziții în limba engleză. În acest exercițiu vei folosi o funcție Python pentru liste numită <list>.extend(), care este o variantă diferită a funcției <list>.append(). Să înțelegem diferența printr-un exemplu. Fie a=[1,2,3] și b=[4,5]. a.append(b) va produce lista [1,2,3,[4,5]], în timp ce a.extend(b) va produce [1,2,3,4,5].

Instructions

100 XP
  • Calculează lungimile fiecărei propoziții folosind funcția split() și funcția len(), iterând prin en_text.
  • Calculează lungimea medie a propozițiilor folosind numpy.
  • Populează lista all_words, în corpul buclei for, adăugând toate cuvintele găsite în propoziții după tokenizare.
  • Convertește lista all_words într-un obiect de tip set și calculează lungimea/dimensiunea setului.