Analise Exploratória de Dados - AED

This topic has 3 replies, 3 voices, and was last updated 2 years, 3 months ago by Jones Granatyr.

Viewing 4 posts - 1 through 4 (of 4 total)

Author

Posts
20 de junho de 2022 at 15:46 #35373
José
Participant
Pessoal, boa tarde!

Uma duvida conceitual ou talvez de estratégia.

No caso de um projeto com 8 arquivos (dataset) tipo customer, orders, payments e etc.

O melhor caminho ou mais indicado é realizar uma AED individual (cada dataset) ou partir para um merge dos datasets logo no início para depois realizar a AED?

Obrigado!
24 de junho de 2022 at 12:21 #35644
Denny Ceccon
Moderator
Olá José,

Não tem uma resposta pronta. Eu certamente faria primeiro uma análise de cada dataset individual, para tentar descobrir informações isoladas sobre os clientes, ou sobre as ordens, ou sobre os pagamentos, e depois faria uma nova análise com todos os dados agrupados, para tentar evidenciar algumas correlações.
30 de agosto de 2023 at 16:12 #41682
José
Participant
Olá, pessoal!

Resolvi aproveitar este tópico para não ficar criando várias já que o contexto é o mesmo.

Uma dúvida que tenho é sobre analise estatística na perspectiva de diferentes categorias de um produto. Por exemplo, uma coluna com diferentes categorias pertencente a um mesmo produto (Investimento) (Cat1, Cat2, Cat3, Cat4) tendo diversos valores ref. aos pagamentos de cada categoria.

Nesse caso, para calcular o limite inferior e superior por categoria, seria necessário segmentar o dataframe por categoria para então aplicar os cálculos? Sei que para algumas outras estatísticas (média, std e outras), é possível agrupar os dados e aplicar o método .describe()

Pelos exemplos e exercício, aplicar algum método ou calcular na coluna (ex. valor transação) retornaria as estatísticas acima da coluna toda sem distinção das categorias.

Um exemplo de código para calcular o coeficiente de variação.

# Coeficiente de variação

std_groupresg = df_resgpd1.groupby(‘dshistorico’)[‘vltransacao’].std()
mean_groupresg = df_resgpd1.groupby(‘dshistorico’)[‘vltransacao’].mean()
cv_resg = std_groupresg / mean_groupresg

print(mean_groupresg)
print(std_groupresg)
print(cv_resg)

Como resultado, obtive o cv para cada categoria.

Agradeço o esclarecimento
3 de maio de 2024 at 11:24 #44637
Jones Granatyr
Keymaster
Obrigado pela contribuição!
Author

Posts

Viewing 4 posts - 1 through 4 (of 4 total)

You must be logged in to reply to this topic.