1. Nauka
  2. /
  3. Kursy
  4. /
  5. Wprowadzenie do Spark SQL w Pythonie

Connected

ćwiczenie

Nadaj etykiety danym

Dostępna jest ramka danych df zawierająca kolumny endword (typ: string), features (typ: wektor) oraz outvec (typ: wektor). Wybierz wiersze, w których endword jest równe "him", i dodaj kolumnę label z wartością całkowitą 1. Następnie użyj operacji union, aby dodać taką samą liczbę wierszy, w których endword nie jest równe "him" – te dodatkowe wiersze powinny mieć label = 0.

Przypomnij sobie, że w SQL operator „różne od" zapisujemy jako <>.

Instrukcje

100 XP
  • Zaimportuj funkcję lit.
  • Wybierz wiersze, w których endword wynosi 'him', i dodaj całkowitoliczbową kolumnę label z wartością 1.
  • Wybierz wiersze, w których endword nie wynosi 'him', i dodaj całkowitoliczbową kolumnę label z wartością 0.
  • Połącz oba zbiory za pomocą union, używając tylu przykładów negatywnych, ile jest przykładów pozytywnych.