ComeçarComece de graça

Uso interativo do PySpark

O Spark vem com um shell do Python interativo no qual o PySpark já está instalado. O shell do PySpark é útil para testes e depuração básicos e é bastante avançado. A maneira mais fácil de demonstrar o poder do shell do PySpark é com um exercício. Neste exercício, você carregará uma lista simples contendo números que variam de 1 a 100 no shell do PySpark.

O mais importante a ser entendido aqui é que não estamos criando nenhum objeto SparkContext porque o PySpark cria automaticamente o objeto SparkContext chamado sc no shell do PySpark.

Este exercício faz parte do curso

Fundamentos de Big Data com PySpark

Ver curso

Instruções do exercício

  • Crie uma lista Python chamada numb contendo os números de 1 a 100.
  • Carregue a lista no Spark usando o método parallelize do Spark Context e atribua-o a uma variável spark_data.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Create a Python list of numbers from 1 to 100 
numb = range(____, ____)

# Load the list into PySpark  
spark_data = sc.____(numb)
Editar e executar o código