Analise Exploratória de Dados – AED

Home Fóruns Fórum Estatística para Ciência de Dados e Machine Learning Analise Exploratória de Dados – AED

Visualizando 3 posts - 1 até 3 (de 3 do total)
  • Autor
    Posts
  • #35373
    José
    Participante

      Pessoal, boa tarde!

      Uma duvida conceitual ou talvez de estratégia.

      No caso de um projeto com 8 arquivos (dataset) tipo customer, orders, payments e etc.

      O melhor caminho ou mais indicado é realizar uma AED individual (cada dataset) ou partir para um merge dos datasets logo no início para depois realizar a AED?

       

      Obrigado!

       

      #35644
      Denny Ceccon
      Moderador

        Olá José,

        Não tem uma resposta pronta. Eu certamente faria primeiro uma análise de cada dataset individual, para tentar descobrir informações isoladas sobre os clientes, ou sobre as ordens, ou sobre os pagamentos, e depois faria uma nova análise com todos os dados agrupados, para tentar evidenciar algumas correlações.

        #41682
        José
        Participante

          Olá, pessoal!

          Resolvi aproveitar este tópico para não ficar criando várias já que o contexto é o mesmo.

          Uma dúvida que tenho é sobre analise estatística na perspectiva de diferentes categorias de um produto. Por exemplo, uma coluna com diferentes categorias pertencente a um mesmo produto (Investimento) (Cat1, Cat2, Cat3, Cat4) tendo diversos valores ref. aos pagamentos de cada categoria.

          Nesse caso, para calcular o limite inferior e superior por categoria, seria necessário segmentar o dataframe por categoria para então aplicar os cálculos? Sei que para algumas outras estatísticas (média, std e outras), é possível agrupar os dados e aplicar o método .describe()

          Pelos exemplos e exercício, aplicar algum método ou calcular na coluna (ex. valor transação) retornaria as estatísticas acima da coluna toda sem distinção das categorias.

          Um exemplo de código para calcular o coeficiente de variação.

          # Coeficiente de variação

          std_groupresg = df_resgpd1.groupby(‘dshistorico’)[‘vltransacao’].std()
          mean_groupresg = df_resgpd1.groupby(‘dshistorico’)[‘vltransacao’].mean()
          cv_resg = std_groupresg / mean_groupresg

          print(mean_groupresg)
          print(std_groupresg)
          print(cv_resg)

          Como resultado, obtive o cv para cada categoria.

          Agradeço o esclarecimento

        Visualizando 3 posts - 1 até 3 (de 3 do total)
        • Você deve fazer login para responder a este tópico.