1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Tvorba doporučovacích systémů s PySparkem

Connected

Cvičení

Zobrazení schématu

Jak už víš z předchozích kapitol, Sparkova implementace ALS vyžaduje, aby movieId a userId byly zadány jako celá čísla (datový typ integer). Mnoho datových sad je potřeba před použitím ve Sparku odpovídajícím způsobem připravit. Častým problémem je, že Spark považuje čísla za řetězce, nebo naopak.

Zde použiješ metodu .cast(), abys tento typ problémů vyřešil/a. Nejdříve se podíváme na schéma datové sady a ověříme, že je ve správném formátu.

Pokyny

100 XP
  • Pomocí .printSchema() zkontroluj, zda datová sada s hodnoceními obsahuje správné datové typy pro správnou funkci ALS. Jsou userId a movieId ve formátu integer? Jsou rating v číselném formátu?
  • Ujisti se, že sloupce dataframu ratings mají správné datové typy. Zavolej metodu cast() na každém sloupci a nastav sloupce userID a movieId na typ "integer" a sloupec rating na typ "double". (Sloupec timestamp nepotřebujeme, takže ho přeskočíme.)
  • Zavolej .printSchema() znovu na ratings a potvrď, že datové typy jsou teď správně nastaveny.