Usando o pandas para importar arquivos simples como DataFrames (2)
No último exercício, você conseguiu importar arquivos simples
em um pandas DataFrame. Como bônus, é simples
para recuperar o correspondente
numpy usando o método .to_numpy(). Agora você terá uma chance
Você pode fazer isso usando o conjunto de dados MNIST, que está disponível em digits.csv.
Há vários argumentos que o pd.read_csv() usa e que você achará úteis para este exercício:
nrowspermite que você especifique quantas linhas devem ser lidas do arquivo. Por exemplo, o sitenrows=10importará apenas as 10 primeiras linhas.headeraceita números de linha para serem usados como rótulos de coluna e marca o início dos dados. Se o arquivo não contiver uma linha de cabeçalho, você poderá definirheader=None, epandasatribuirá automaticamente rótulos de coluna inteiros a partir de 0 (por exemplo, 0, 1, 2, …).
Este exercício faz parte do curso
Introdução à importação de dados em Python
Instruções do exercício
- Importe as primeiras 5 linhas do arquivo para um DataFrame usando a função
pd.read_csv()e atribua o resultado adata. Você precisará usar os argumentosnrowseheader. Observe que não há linha de cabeçalho nesse arquivo. - Crie uma matriz
numpya partir do DataFrame resultante emdatae atribua adata_array. - Execute
print(type(data_array))para imprimir o tipo de dados dedata_array.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Assign the filename: file
file = 'digits.csv'
# Read the first 5 rows of the file into a DataFrame: data
data = ____(____, ____, ____)
# Build a numpy array from the DataFrame: data_array
data_array = ____
# Print the datatype of data_array to the shell
print(type(data_array))