Część 1: Eksploracja zbioru danych

Teraz trochę przyjrzysz się zbiorowi danych. Na początku zorientujesz się, jak wyglądają dane. Wyświetlisz część z nich i nauczysz się, jak tokenizować zdania na poszczególne słowa. W przypadku języka angielskiego tokenizacja wydaje się prostym zadaniem – istnieją jednak języki, takie jak japoński, w których granice między słowami nie są tak wyraźne jak w angielskim.

W tym ćwiczeniu masz do dyspozycji dwa zbiory danych: en_text i fr_text. Zbiór en_text zawiera listę zdań w języku angielskim, a fr_text – odpowiadającą im listę zdań w języku francuskim.

Napisz funkcję zip(), która przejdzie przez pierwsze 5 zdań z angielskiego zbioru (en_text) i francuskiego zbioru (fr_text).
Pobierz pierwsze zdanie angielskie ze zbioru en_text.
Stokenizuj uzyskane zdanie za pomocą funkcji split() i znaku spacji, a wynik przypisz do zmiennej first_words.
Wyświetl stokenizowane słowa.

ćwiczenie

Część 1: Eksploracja zbioru danych

Instrukcje

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}ćwiczenie

Instrukcje

ćwiczenie