Carregar dados no shell do PySpark
No PySpark, expressamos nossa computação por meio de operações em coleções distribuídas que são automaticamente paralelizadas no cluster. No exercício anterior, você viu um exemplo de carregamento de uma lista como coleções paralelizadas e, neste exercício, você carregará os dados de um arquivo local no shell do PySpark.
Lembre-se de que você já tem uma variável do SparkContext sc
e file_path
(que é o caminho para o arquivo README.md
) disponível em seu espaço de trabalho.
Este exercício faz parte do curso
Fundamentos de Big Data com PySpark
Instruções de exercício
- Carregue um arquivo de texto local
README.md
no shell do PySpark.
Exercício interativo prático
Experimente este exercício preenchendo este código de exemplo.
# Load a local file into PySpark shell
lines = sc.____(file_path)