1. Nauka
  2. /
  3. Kursy
  4. /
  5. Wprowadzenie do Spark SQL w Pythonie

Connected

ćwiczenie

Tworzenie danych cech okna kontekstowego

Technika ruchomego okna jest przydatna w algorytmach uczenia maszynowego korzystających z danych cech okna kontekstowego.

W twoim środowisku pracy dostępna jest tabela text z kolumnami id, word, part, title. Zawiera ona rozdziały 9, 10, 11 i 12 książki o Sherlocku Holmesie. Słowa zostały już przetworzone i zorganizowane w formacie jedno słowo na wiersz. Każde słowo ma unikalny indeks całkowity podany w kolumnie id. Kolumna id ma niższe wartości dla słów pojawiających się wcześniej w tekście i wyższe dla słów pojawiających się później.

Pierwsze 10 wierszy zbioru danych dla rozdziału 12 jest wyświetlonych w konsoli jako Table1. Pierwsze dziesięć wierszy oczekiwanego wyniku, ograniczonego do części 12 (Rozdział 12), jest wyświetlonych w konsoli jako Table2. W Table2 „dane" słowo dla danego wiersza znajduje się w kolumnie w3. Kolumny w1 i w2 zawierają dwa słowa bezpośrednio poprzedzające dane słowo. Kolumny w4 i w5 zawierają dwa słowa bezpośrednio po danym słowie.

Zwróć uwagę, że w1 i w2 mają wartość null dla pierwszego wiersza. Wynika to z tego, że w części 12 nie ma żadnych słów poprzedzających w3 (tutaj: „xii").

Jeśli nie pamiętasz, jak coś zostało zrobione w filmie, skorzystaj ze slajdów dostępnych po prawej stronie konsoli.

Instrukcje

100 XP
  • Pobierz słowo dla każdego wiersza wraz z dwoma poprzedzającymi je słowami i dwoma następującymi po nim słowami.