Tworzenie wektorów zdań i kolejnych znaków

To ćwiczenie kładzie szczególny nacisk na wartość przygotowania danych. Jako dane wejściowe wykorzystasz teksty zawierające frazy wypowiadane przez Sheldona z serialu Teoria wielkiego podrywu, a następnie stworzysz wektory indeksów zdań i kolejnych znaków – niezbędne przed zbudowaniem modelu generowania tekstu.

Tekst jest dostępny w zmiennej sheldon, słownik (zbiór znaków) – w zmiennej vocabulary, a hiperparametry chars_window i step mają wartości odpowiednio 20 i 3. Oznacza to, że do przewidzenia kolejnego znaku używana jest sekwencja 20 znaków, a okno przesuwa się o 3 znaki w każdej iteracji.

W środowisku załadowana jest również biblioteka pandas jako pd.

Podziel tekst według znaku nowej linii, aby iterować po zdaniach.
Przechodź pętlą do końca zdania pomniejszonego o chars_window.
Dodaj do zmiennej sentences fragment zdania o długości chars_window znaków, a do zmiennej next_chars – kolejny znak.
Użyj uzyskanych wektorów, aby utworzyć pd.DataFrame() i wydrukuj jego pierwsze wiersze.

演習

Tworzenie wektorów zdań i kolejnych znaków

指示

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}演習

指示

演習