Uso interativo do PySpark
O Spark vem com um shell do Python interativo no qual o PySpark já está instalado. O shell do PySpark é útil para testes e depuração básicos e é bastante avançado. A maneira mais fácil de demonstrar o poder do shell do PySpark é com um exercício. Neste exercício, você carregará uma lista simples contendo números que variam de 1 a 100 no shell do PySpark.
O mais importante a ser entendido aqui é que não estamos criando nenhum objeto SparkContext porque o PySpark cria automaticamente o objeto SparkContext chamado sc
no shell do PySpark.
Este exercício faz parte do curso
Fundamentos de Big Data com PySpark
Instruções do exercício
- Crie uma lista Python chamada
numb
contendo os números de 1 a 100. - Carregue a lista no Spark usando o método
parallelize
do Spark Context e atribua-o a uma variávelspark_data
.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Create a Python list of numbers from 1 to 100
numb = range(____, ____)
# Load the list into PySpark
spark_data = sc.____(numb)