Poda com gráficos de dispersão
Depois de analisar sua proposta para o serviço de streaming inspirado no Batman do exercício anterior, a fundadora percebe que o plano inicial talvez fosse estreito demais. Em vez de focar em títulos específicos, ela pede que você observe os padrões gerais nas regras de associação e faça a poda com base nisso. Seu objetivo deve ser identificar um grande conjunto de associações fortes.
Por sorte, você acabou de aprender a gerar gráficos de dispersão. Você decide começar plotando suporte e confiança, já que todas as regras ótimas segundo muitas métricas comuns ficam na borda confiança–suporte. Os dados one-hot codificados já foram importados para você e estão disponíveis como onehot. Além disso, apriori() e association_rules() foram importadas e pandas está disponível como pd.
Este exercício faz parte do curso
Análise de Cesta de Compras em Python
Instruções do exercício
- Gere um grande número de conjuntos de itens com 2 itens definindo o suporte mínimo como 0,0075 e o comprimento máximo como 2.
- Complete a chamada de
association_rules()de forma a evitar filtros adicionais. - Complete a instrução para gerar o gráfico de dispersão, definindo a variável
ycomoconfidence.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Import seaborn under its standard alias
import seaborn as sns
# Apply the Apriori algorithm with a support value of 0.0075
frequent_itemsets = apriori(onehot, min_support = ___,
use_colnames = True, max_len = ____)
# Generate association rules without performing additional pruning
rules = association_rules(____, metric = 'support',
min_threshold = ____)
# Generate scatterplot using support and confidence
sns.scatterplot(x = "support", y = "____", data = ____)
plt.show()