ComeçarComece de graça

Usando pandas para importar arquivos simples como DataFrames (2)

No último exercício, você conseguiu importar arquivos simples em um DataFrame pandas. Como um bônus, é simples para recuperar o correspondente numpy matriz usando o método .to_numpy(). Agora você terá uma chance para fazer isso usando o conjunto de dados MNIST, que está disponível como digits.csv.

O pd.read_csv() usa várias argumentos que você achará úteis para este exercício:

  • nrows permite que você especifique quantas linhas devem ser lidas do arquivo. Por exemplo,nrows=10 importará apenas as primeiras 10 linhas.
  • header aceita números de linha para serem usados como rótulos de coluna e marca o início dos dados. Se o arquivo não contiver uma linha de cabeçalho, você pode definir header=None, e o pandas atribuirá automaticamente números inteiros a partir de 0 como rótulos de coluna (por exemplo, 0, 1, 2, …).

Este exercício faz parte do curso

Introdução à importação de dados em Python

Ver curso

Instruções do exercício

  • Importe as primeiras 5 linhas do arquivo em um DataFrame usando a função pd.read_csv() e atribua o resultado a data. Você precisará usar os argumentos nrows e header. Observa que não há linha de cabeçalho neste arquivo.
  • Crie uma matriz numpy a partir do DataFrame resultante em data e atribua a data_array.
  • Execute print(type(data_array)) para imprimir o tipo de dados de data_array.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Assign the filename: file
file = 'digits.csv'

# Read the first 5 rows of the file into a DataFrame: data
data = ____(____, ____, ____)

# Build a numpy array from the DataFrame: data_array
data_array = ____

# Print the datatype of data_array to the shell
print(type(data_array))
Editar e executar o código