Otimização do tamanho do arquivo
Considere se você recebe 2 arquivos de dados grandes em um cluster com 10 nós. Cada arquivo contém 10 milhões de linhas com aproximadamente o mesmo tamanho. Ao trabalhar com seus dados, a capacidade de resposta é aceitável, mas a leitura inicial dos arquivos leva um tempo considerável. Observe que você é a única pessoa que usará os dados e que eles mudam a cada execução.
Qual das opções a seguir é a melhor para melhorar o desempenho?
Este exercício faz parte do curso
Limpeza de dados com o PySpark
Exercício interativo prático
Transforme a teoria em ação com um de nossos exercícios interativos
