Usando pandas para importar arquivos simples como DataFrames (2)
No último exercício, você conseguiu importar arquivos simples
em um DataFrame pandas. Como um bônus, é simples
para recuperar o correspondente
numpy matriz usando o método .to_numpy(). Agora você terá uma chance
para fazer isso usando o conjunto de dados MNIST, que está disponível como digits.csv.
O pd.read_csv() usa várias argumentos que você achará úteis para este exercício:
nrowspermite que você especifique quantas linhas devem ser lidas do arquivo. Por exemplo,nrows=10importará apenas as primeiras 10 linhas.headeraceita números de linha para serem usados como rótulos de coluna e marca o início dos dados. Se o arquivo não contiver uma linha de cabeçalho, você pode definirheader=None, e opandasatribuirá automaticamente números inteiros a partir de 0 como rótulos de coluna (por exemplo, 0, 1, 2, …).
Este exercício faz parte do curso
Introdução à importação de dados em Python
Instruções do exercício
- Importe as primeiras 5 linhas do arquivo em um DataFrame usando a função
pd.read_csv()e atribua o resultado adata. Você precisará usar os argumentosnrowseheader. Observa que não há linha de cabeçalho neste arquivo. - Crie uma matriz
numpya partir do DataFrame resultante emdatae atribua adata_array. - Execute
print(type(data_array))para imprimir o tipo de dados dedata_array.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Assign the filename: file
file = 'digits.csv'
# Read the first 5 rows of the file into a DataFrame: data
data = ____(____, ____, ____)
# Build a numpy array from the DataFrame: data_array
data_array = ____
# Print the datatype of data_array to the shell
print(type(data_array))