1. Обучение
  2. /
  3. Курса
  4. /
  5. Podstawy Big Data z PySpark

Connected

упражнение

Partycje w twoich danych

Metoda textFile() klasy SparkContext przyjmuje opcjonalny drugi argument minPartitions, który określa minimalną liczbę partycji. W tym ćwiczeniu utworzysz RDD o nazwie fileRDD_part z 5 partycjami, a następnie porównasz je z fileRDD utworzonym w poprzednim ćwiczeniu. Zajrzyj do slajdu „Rozumienie partycji" z lekcji 2.1, aby zapoznać się z metodami tworzenia partycji i sprawdzania ich liczby w RDD.

Pamiętaj, że w swoim środowisku masz już dostępne: SparkContext sc, zmienną file_path oraz fileRDD.

Инструкции

100 XP
  • Sprawdź liczbę partycji, na których oparty jest RDD fileRDD.
  • Utwórz RDD o nazwie fileRDD_part na podstawie ścieżki do pliku, tym razem z 5 partycjami.
  • Potwierdź liczbę partycji w nowym RDD fileRDD_part.