MulaiMulai sekarang secara gratis

Bagian 2: Menjelajahi himpunan data

Sekarang Anda akan menelusuri beberapa atribut dari himpunan data. Secara khusus, Anda akan menentukan panjang rata-rata (yaitu jumlah kata) dari semua kalimat dan ukuran kosakata untuk himpunan data bahasa Inggris.

Untuk latihan ini, himpunan data bahasa Inggris en_text yang berisi daftar kalimat bahasa Inggris telah disediakan. Dalam latihan ini Anda akan menggunakan sebuah fungsi terkait daftar di Python bernama <list>.extend() yang merupakan varian berbeda dari fungsi <list>.append(). Mari pahami perbedaannya melalui contoh. Misalkan a=[1,2,3] dan b=[4,5]. a.append(b) akan menghasilkan daftar [1,2,3,[4,5]] sedangkan a.extend(b) akan menghasilkan [1,2,3,4,5].

Latihan ini adalah bagian dari kursus

Penerjemahan Mesin dengan Keras

Lihat Kursus

Petunjuk latihan

  • Hitung panjang setiap kalimat menggunakan fungsi split() dan len(), sambil mengiterasi en_text.
  • Hitung rata-rata panjang kalimat menggunakan numpy.
  • Isi daftar all_words di dalam badan perulangan for dengan menambahkan semua kata yang ditemukan dalam kalimat setelah ditokenisasi.
  • Ubah daftar all_words menjadi objek set dan hitung panjang/ukuran set tersebut.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Compute length of sentences
sent_lengths = [len(____.____(____)) for en_sent in ____]
# Compute the mean of sentences lengths
mean_length = np.____(____)
print('(English) Mean sentence length: ', mean_length)

all_words = []
for sent in en_text:
  # Populate all_words with all the words in sentences
  all_words.____(____.____(____))
# Compute the length of the set containing all_words
vocab_size = len(____(____))
print("(English) Vocabulary size: ", vocab_size)
Edit dan Jalankan Kode