Přerozdělení dat do oddílů

Existuje dataframe text_df se sloupci id, word a chapter. Prvních 5 řádků text_df je vypsáno do konzole.

Počet 12 kapitol můžeš zjistit takto:

text_df.select('chapter')\
       .distinct()\
       .sort('chapter')\
       .show(truncate=False)

Výsledek tohoto příkazu je v konzoli zobrazen jako Table 1.

Dataframe text_df je momentálně v jediném oddílu. Předpokládejme, že víš, že následující kroky zpracování budou data seskupovat podle kapitol. Zpracování bude nejefektivnější, pokud každá kapitola zůstane na jednom stroji. Aby nedocházelo k zbytečnému přesouvání dat mezi stroji, rozdělme dataframe do oddílů — jeden oddíl na kapitolu — pomocí příkazů repartition a getNumPartitions, které byly představeny v prvním videu této kapitoly.

Neváhej se podívat na snímky prezentace dostupné vpravo od konzole, pokud si potřebuješ něco připomenout.

Rozděl text_df do 12 oddílů tak, aby každá kapitola měla vlastní oddíl.
Zobraz počet oddílů nového dataframu.

Exercise

Přerozdělení dat do oddílů

Instructions

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}Exercise

Instructions

Exercise