Gegevens laden in de PySpark-shell
In PySpark drukken we onze berekeningen uit via bewerkingen op gedistribueerde collecties die automatisch over het cluster worden geparallelliseerd. In de vorige oefening zag je een voorbeeld van het laden van een lijst als geparallelliseerde collecties en in deze oefening laad je de gegevens uit een lokaal bestand in de PySpark-shell.
Onthoud dat je al een SparkContext sc en een variabele file_path (dit is het pad naar het bestand README.md) in je werkruimte hebt.
Deze oefening maakt deel uit van de cursus
Big Data Fundamentals met PySpark
Oefeninstructies
- Laad een lokaal tekstbestand
README.mdin de PySpark-shell.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Load a local file into PySpark shell
lines = sc.____(file_path)