1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Úvod do Spark SQL v Pythonu

Connected

cvičení

Označení dat

K dispozici máš datový rámec df se sloupci endword (řetězec), features (vektor) a outvec (vektor). Vyber řádky, kde se endword rovná "him", a přidej sloupec label s celočíselnou hodnotou 1. Poté pomocí operace union přidej stejný počet řádků, kde se endword nerovná "him", přičemž tyto řádky budou mít label = 0.

Připomínka: v SQL se nerovnost vyjadřuje pomocí <>.

Pokyny

100 XP
  • Importuj funkci lit.
  • Vyber řádky, kde je endword rovno 'him', a přidej celočíselný sloupec label s hodnotou 1.
  • Vyber řádky, kde endword není rovno 'him', a přidej celočíselný sloupec label s hodnotou 0.
  • Obě množiny spoj pomocí union, přičemž počet negativních příkladů musí odpovídat počtu pozitivních.