ComeçarComece de graça

Usando o pandas para importar arquivos simples como DataFrames (2)

No último exercício, você conseguiu importar arquivos simples em um pandas DataFrame. Como bônus, é simples para recuperar o correspondente numpy usando o método .to_numpy(). Agora você terá uma chance Você pode fazer isso usando o conjunto de dados MNIST, que está disponível em digits.csv.

Há vários argumentos que o pd.read_csv() usa e que você achará úteis para este exercício:

  • nrows permite que você especifique quantas linhas devem ser lidas do arquivo. Por exemplo, o site nrows=10 importará apenas as 10 primeiras linhas.
  • header aceita números de linha para serem usados como rótulos de coluna e marca o início dos dados. Se o arquivo não contiver uma linha de cabeçalho, você poderá definir header=None, e pandas atribuirá automaticamente rótulos de coluna inteiros a partir de 0 (por exemplo, 0, 1, 2, …).

Este exercício faz parte do curso

Introdução à importação de dados em Python

Ver curso

Instruções do exercício

  • Importe as primeiras 5 linhas do arquivo para um DataFrame usando a função pd.read_csv() e atribua o resultado a data. Você precisará usar os argumentos nrows e header. Observe que não há linha de cabeçalho nesse arquivo.
  • Crie uma matriz numpy a partir do DataFrame resultante em data e atribua a data_array.
  • Execute print(type(data_array)) para imprimir o tipo de dados de data_array.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Assign the filename: file
file = 'digits.csv'

# Read the first 5 rows of the file into a DataFrame: data
data = ____(____, ____, ____)

# Build a numpy array from the DataFrame: data_array
data_array = ____

# Print the datatype of data_array to the shell
print(type(data_array))
Editar e executar o código