1. Nauka
  2. /
  3. Kursy
  4. /
  5. Wprowadzenie do Spark SQL w Pythonie

Connected

ćwiczenie

Repartycjonowanie danych

Istnieje DataFrame text_df z kolumnami id, word i chapter. Pierwsze 5 wierszy text_df jest wydrukowanych w konsoli.

Możesz sprawdzić, że jest 12 rozdziałów, korzystając z poniższego kodu:

text_df.select('chapter')\
       .distinct()\
       .sort('chapter')\
       .show(truncate=False)

Wynik tego polecenia jest wydrukowany w konsoli jako Table 1.

DataFrame text_df jest obecnie w jednej partycji. Przyjmijmy, że wiesz, że nadchodzące kroki przetwarzania będą grupować dane według rozdziałów. Przetwarzanie danych będzie najbardziej wydajne, jeśli każdy rozdział pozostanie na jednej maszynie. Aby uniknąć niepotrzebnego przesyłania danych między maszynami, przeprowadź repartycjonowanie DataFrame na jedną partycję na rozdział, używając poleceń repartition i getNumPartitions omówionych w pierwszej lekcji wideo tego rozdziału.

Jeśli nie pamiętasz, jak coś zostało zrobione w filmie, zajrzyj do Slajdów dostępnych po prawej stronie konsoli.

Instrukcje

100 XP
  • Przeprowadź repartycjonowanie text_df na 12 partycji, tak aby każdy rozdział znalazł się we własnej partycji.
  • Wyświetl liczbę partycji w nowym DataFrame.