ComeçarComece de graça

Análise de cães

Você já fez uma limpeza considerável no conjunto de dados inicial, mas agora precisa analisar os dados um pouco mais profundamente. Há várias perguntas que surgiram agora sobre o tipo de cães vistos em uma imagem e alguns detalhes sobre as imagens. Você percebe que, para responder a essas perguntas, precisa processar os dados em um tipo específico. Antes de poder usá-lo, você precisará criar um esquema/tipo para representar os detalhes do cão.

O DataFrame joined_df está como você o definiu pela última vez e o pyspark.sql.types foi todo importado.

Este exercício faz parte do curso

Limpeza de dados com o PySpark

Ver curso

Instruções do exercício

  • Selecione a coluna que representa os detalhes do cão no DataFrame e mostre as primeiras 10 linhas não truncadas.
  • Crie um novo esquema como você fez anteriormente, usando breed, startx, starty, endx e endy como nomes. Certifique-se de especificar os tipos de dados adequados para cada campo no esquema (qualquer valor numérico é um número inteiro).

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Select the dog details and show 10 untruncated rows
print(joined_df.____.show(____, truncate=____))

# Define a schema type for the details in the dog list
DogType = ____([
	StructField("breed", ____, False),
    StructField("start_x", ____, False),
    ____,
    ____,
    ____
])
Editar e executar o código