Aan de slagBegin gratis

Gegevens laden in de PySpark-shell

In PySpark drukken we onze berekeningen uit via bewerkingen op gedistribueerde collecties die automatisch over het cluster worden geparallelliseerd. In de vorige oefening zag je een voorbeeld van het laden van een lijst als geparallelliseerde collecties en in deze oefening laad je de gegevens uit een lokaal bestand in de PySpark-shell.

Onthoud dat je al een SparkContext sc en een variabele file_path (dit is het pad naar het bestand README.md) in je werkruimte hebt.

Deze oefening maakt deel uit van de cursus

Big Data Fundamentals met PySpark

Bekijk cursus

Oefeninstructies

  • Laad een lokaal tekstbestand README.md in de PySpark-shell.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Load a local file into PySpark shell
lines = sc.____(file_path)
Code bewerken en uitvoeren