1. Learn
  2. /
  3. Courses
  4. /
  5. Machine Learning with PySpark

Connected

Exercise

Vytvoření SparkSession

V tomto cvičení spustíš lokální Spark cluster využívající všechna dostupná jádra. K clusteru budeš přistupovat přes objekt SparkSession.

Třída SparkSession má atribut builder, což je instance třídy Builder. Ta nabízí tři důležité metody:

  • určení umístění master node;
  • pojmenování aplikace (volitelné); a
  • získání existující SparkSession, nebo vytvoření nové, pokud žádná neexistuje.

Třída SparkSession má atribut version, který vrací verzi Sparku. Poznámka: Verzi lze získat také přes atribut __version__ modulu pyspark.

Víc o SparkSession najdeš zde.

Až s clusterem skončíš, je dobré ho vypnout – uvolníš tím jeho prostředky pro ostatní procesy.

Poznámky:

  1. Může se ti hodit podívat se na snímky z lekcí v panelu Slides vedle IPython Shell.
  2. Verze Sparku v cvičení není stejná jako ve výukových materiálech. Platforma cvičení byla aktualizována na novější verzi Sparku.

Instructions

100 XP
  • Importuj třídu SparkSession z modulu pyspark.sql.
  • Vytvoř objekt SparkSession připojený k lokálnímu clusteru. Využij všechna dostupná jádra a aplikaci pojmenuj 'test'.
  • Pomocí atributu version objektu SparkSession zjisti verzi Sparku běžícího na clusteru. Poznámka: Verze se může lišit od té použité v prezentaci (čas od času se aktualizuje).
  • Vypni cluster.