Część 2: Eksploracja zbioru danych

Teraz przyjrzysz się wybranym właściwościom zbioru danych. Konkretnie – wyznaczysz średnią długość zdań (czyli liczbę słów) oraz rozmiar słownika dla angielskiego zbioru danych.

W tym ćwiczeniu dostępny jest angielski zbiór danych en_text zawierający listę zdań w języku angielskim. Będziesz korzystać z funkcji listowej Pythona <list>.extend(), która różni się od <list>.append(). Zobaczmy tę różnicę na przykładzie. Niech a=[1,2,3] i b=[4,5]. Wywołanie a.append(b) da listę [1,2,3,[4,5]], natomiast a.extend(b) da [1,2,3,4,5].

Oblicz długości poszczególnych zdań, używając funkcji split() i len() podczas iterowania po en_text.
Oblicz średnią długość zdań za pomocą biblioteki numpy.
Wypełnij listę all_words w ciele pętli for, dodając wszystkie słowa znalezione w zdaniach po tokenizacji.
Przekształć listę all_words w obiekt set i oblicz jego długość/rozmiar.

ćwiczenie

Część 2: Eksploracja zbioru danych

Instrukcje

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}ćwiczenie

Instrukcje

ćwiczenie