Preparando os dados
Diferente dos capítulos anteriores, em que preparamos os dados para você para Machine Learning não supervisionado, o objetivo deste capítulo é conduzir você por um fluxo de trabalho mais realista e completo.
Relembre do vídeo que o primeiro passo é baixar e preparar os dados.
Este exercício faz parte do curso
Aprendizado não supervisionado em R
Instruções do exercício
- Use a função
read.csv()para baixar o arquivo CSV (valores separados por vírgula) contendo os dados a partir da URL fornecida. Atribua o resultado awisc.df. - Use
as.matrix()para converter as variáveis preditoras dos dados (nas colunas 3 a 32) em uma matriz. Armazene isso em uma variável chamadawisc.data. - Atribua aos nomes das linhas de
wisc.dataos valores atualmente contidos na colunaiddewisc.df. Embora não seja estritamente necessário, isso vai ajudar você a acompanhar as diferentes observações ao longo do processo de modelagem. - Por fim, defina um vetor chamado
diagnosispara ser1se o diagnóstico for maligno ("M") e0caso contrário. Observe que o R converteTRUEem 1 eFALSEem 0.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
url <- "https://assets.datacamp.com/production/course_1903/datasets/WisconsinCancer.csv"
# Download the data: wisc.df
# Convert the features of the data: wisc.data
# Set the row names of wisc.data
row.names(wisc.data) <- wisc.df$___
# Create diagnosis vector
diagnosis <- as.numeric(wisc.df$diagnosis == ___)