Home › Fóruns › Fórum Estatística para Ciência de Dados e Machine Learning › Analise Exploratória de Dados – AED
- Este tópico contém 3 respostas, 3 vozes e foi atualizado pela última vez 8 meses, 3 semanas atrás por Jones Granatyr.
- AutorPosts
- 20 de junho de 2022 às 15:46 #35373
Pessoal, boa tarde!
Uma duvida conceitual ou talvez de estratégia.
No caso de um projeto com 8 arquivos (dataset) tipo customer, orders, payments e etc.
O melhor caminho ou mais indicado é realizar uma AED individual (cada dataset) ou partir para um merge dos datasets logo no início para depois realizar a AED?
Obrigado!
24 de junho de 2022 às 12:21 #35644Olá José,
Não tem uma resposta pronta. Eu certamente faria primeiro uma análise de cada dataset individual, para tentar descobrir informações isoladas sobre os clientes, ou sobre as ordens, ou sobre os pagamentos, e depois faria uma nova análise com todos os dados agrupados, para tentar evidenciar algumas correlações.
30 de agosto de 2023 às 16:12 #41682Olá, pessoal!
Resolvi aproveitar este tópico para não ficar criando várias já que o contexto é o mesmo.
Uma dúvida que tenho é sobre analise estatística na perspectiva de diferentes categorias de um produto. Por exemplo, uma coluna com diferentes categorias pertencente a um mesmo produto (Investimento) (Cat1, Cat2, Cat3, Cat4) tendo diversos valores ref. aos pagamentos de cada categoria.
Nesse caso, para calcular o limite inferior e superior por categoria, seria necessário segmentar o dataframe por categoria para então aplicar os cálculos? Sei que para algumas outras estatísticas (média, std e outras), é possível agrupar os dados e aplicar o método .describe()
Pelos exemplos e exercício, aplicar algum método ou calcular na coluna (ex. valor transação) retornaria as estatísticas acima da coluna toda sem distinção das categorias.
Um exemplo de código para calcular o coeficiente de variação.
# Coeficiente de variação
std_groupresg = df_resgpd1.groupby(‘dshistorico’)[‘vltransacao’].std()
mean_groupresg = df_resgpd1.groupby(‘dshistorico’)[‘vltransacao’].mean()
cv_resg = std_groupresg / mean_groupresgprint(mean_groupresg)
print(std_groupresg)
print(cv_resg)Como resultado, obtive o cv para cada categoria.
Agradeço o esclarecimento
3 de maio de 2024 às 11:24 #44637Obrigado pela contribuição!
- AutorPosts
- Você deve fazer login para responder a este tópico.