Aan de slagGa gratis aan de slag

Partities in je data

De textFile()-methode van SparkContext heeft een optioneel tweede argument, minPartitions, om het minimale aantal partities op te geven. In deze oefening maak je een RDD met de naam fileRDD_part met 5 partities en vergelijk je die vervolgens met fileRDD die je in de vorige oefening hebt gemaakt. Raadpleeg de dia "Understanding Partition" in video 2.1 om de methoden te zien voor het maken en opvragen van het aantal partities in een RDD.

Onthoud: je hebt al een SparkContext sc, file_path en fileRDD beschikbaar in je werkruimte.

Deze oefening maakt deel uit van de cursus

Big Data Fundamentals met PySpark

Cursus bekijken

Oefeninstructies

  • Zoek het aantal partities waarop de RDD fileRDD draait.
  • Maak een RDD met de naam fileRDD_part vanaf het bestandspad, maar maak 5 partities.
  • Bevestig het aantal partities in de nieuwe RDD fileRDD_part.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Check the number of partitions in fileRDD
print("Number of partitions in fileRDD is", fileRDD.____)

# Create a fileRDD_part from file_path with 5 partitions
fileRDD_part = sc.textFile(____, minPartitions = ____)

# Check the number of partitions in fileRDD_part
print("Number of partitions in fileRDD_part is", fileRDD_part.____)
Code bewerken en uitvoeren