Usando o pandas para importar arquivos simples como DataFrames (2)
No último exercício, você conseguiu importar arquivos simples
em um pandas
DataFrame. Como bônus, é simples
para recuperar o correspondente
numpy
usando o método .to_numpy()
. Agora você terá uma chance
Você pode fazer isso usando o conjunto de dados MNIST, que está disponível em digits.csv
.
Há vários argumentos que o pd.read_csv()
usa e que você achará úteis para este exercício:
nrows
permite que você especifique quantas linhas devem ser lidas do arquivo. Por exemplo, o sitenrows=10
importará apenas as 10 primeiras linhas.header
aceita números de linha para serem usados como rótulos de coluna e marca o início dos dados. Se o arquivo não contiver uma linha de cabeçalho, você poderá definirheader=None
, epandas
atribuirá automaticamente rótulos de coluna inteiros a partir de 0 (por exemplo, 0, 1, 2, …).
Este exercício faz parte do curso
Introdução à importação de dados em Python
Instruções do exercício
- Importe as primeiras 5 linhas do arquivo para um DataFrame usando a função
pd.read_csv()
e atribua o resultado adata
. Você precisará usar os argumentosnrows
eheader
. Observe que não há linha de cabeçalho nesse arquivo. - Crie uma matriz
numpy
a partir do DataFrame resultante emdata
e atribua adata_array
. - Execute
print(type(data_array))
para imprimir o tipo de dados dedata_array
.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Assign the filename: file
file = 'digits.csv'
# Read the first 5 rows of the file into a DataFrame: data
data = ____(____, ____, ____)
# Build a numpy array from the DataFrame: data_array
data_array = ____
# Print the datatype of data_array to the shell
print(type(data_array))