Gegevens laden in de PySpark-shell

In PySpark drukken we onze berekeningen uit via bewerkingen op gedistribueerde collecties die automatisch over het cluster worden geparallelliseerd. In de vorige oefening zag je een voorbeeld van het laden van een lijst als geparallelliseerde collecties en in deze oefening laad je de gegevens uit een lokaal bestand in de PySpark-shell.

Onthoud dat je al een SparkContext sc en een variabele file_path (dit is het pad naar het bestand README.md) in je werkruimte hebt.

Deze oefening maakt deel uit van de cursus

Big Data Fundamentals met PySpark

Cursus bekijken

Oefeninstructies

Laad een lokaal tekstbestand README.md in de PySpark-shell.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Load a local file into PySpark shell
lines = sc.____(file_path)

Code bewerken en uitvoeren