Carregar dados no shell do PySpark

No PySpark, expressamos nossa computação por meio de operações em coleções distribuídas que são automaticamente paralelizadas no cluster. No exercício anterior, você viu um exemplo de carregamento de uma lista como coleções paralelizadas e, neste exercício, você carregará os dados de um arquivo local no shell do PySpark.

Lembre-se de que você já tem uma variável do SparkContext sc e file_path (que é o caminho para o arquivo README.md ) disponível em seu espaço de trabalho.

Este exercício faz parte do curso

Fundamentos de Big Data com PySpark

Ver curso

Instruções do exercício

Carregue um arquivo de texto local README.md no shell do PySpark.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Load a local file into PySpark shell
lines = sc.____(file_path)

Editar e executar o código