Respostas no Fórum
- AutorPosts
Olá, pessoal!
Resolvi aproveitar este tópico para não ficar criando várias já que o contexto é o mesmo.
Uma dúvida que tenho é sobre analise estatística na perspectiva de diferentes categorias de um produto. Por exemplo, uma coluna com diferentes categorias pertencente a um mesmo produto (Investimento) (Cat1, Cat2, Cat3, Cat4) tendo diversos valores ref. aos pagamentos de cada categoria.
Nesse caso, para calcular o limite inferior e superior por categoria, seria necessário segmentar o dataframe por categoria para então aplicar os cálculos? Sei que para algumas outras estatísticas (média, std e outras), é possível agrupar os dados e aplicar o método .describe()
Pelos exemplos e exercício, aplicar algum método ou calcular na coluna (ex. valor transação) retornaria as estatísticas acima da coluna toda sem distinção das categorias.
Um exemplo de código para calcular o coeficiente de variação.
# Coeficiente de variação
std_groupresg = df_resgpd1.groupby(‘dshistorico’)[‘vltransacao’].std()
mean_groupresg = df_resgpd1.groupby(‘dshistorico’)[‘vltransacao’].mean()
cv_resg = std_groupresg / mean_groupresgprint(mean_groupresg)
print(std_groupresg)
print(cv_resg)Como resultado, obtive o cv para cada categoria.
Agradeço o esclarecimento
- AutorPosts