Forum Replies Created

Viewing 15 posts - 316 through 330 (of 410 total)
  • Author
    Posts
  • in reply to: Inverse Transform #35951
    Denny Ceccon
    Moderator

      Olá Lucas,

      É que o scaler recebe objetos no formato (n_instancias, n_variaveis), então mesmo quando só tem uma instância, ela deve ser apresentada como um array bidimensional (1, n_variaveis).

      in reply to: Erro ao executar a função message_cleaning #35927
      Denny Ceccon
      Moderator

        Olá Pericles,

        Isto acontece porque, em algum momento do seu código, o valor de message é um número do tipo float, aí a comprehension não funciona pois message deve ser um iterável, ou seja, algo capaz de ser utilizado em um loop do tipo for. Para evitar isso, converte antes a coluna Review Text para string, pois toda string é iterável.

        in reply to: Cálculo do ajuste dos pesos #35921
        Denny Ceccon
        Moderator

          Olá Koki,

          Na verdade não, é que os outros registros não foram classificados errado (ou seja, o erro é igual a 0), mas o correto é usar todos os registros na atualização.

          in reply to: Base de Dados de Sentimentos em Português #35920
          Denny Ceccon
          Moderator

            Olá Daniel,

            Certamente que ajustar os hiperparâmetros pode melhorar o modelo (este processo é chamado de otimização dos hiperparâmetros), mas a melhoria não costuma ser muito significativa, dificilmente você vai sair de 75% para 90% só com isso, por exemplo.

            Muitos problemas se beneficiam de dados sintéticos, mas você deve imaginar como é difícil gerar dados sintéticos para texto, acredito que isso hoje só seja possível utilizando outra inteligência artificial. No meu trabalho, por exemplo, um colega usou o modelo GPT-3 para gerar dados para treinar, com resultados bem satisfatórios.

            Por último, é difícil se manter atualizado sobre bases de dados quando a gente não trabalha diretamente com isso, então minha recomendação seria a mesma que eu faria: pesquisar no Google. 🙂

            in reply to: Mapas auto-organizaveis #35905
            Denny Ceccon
            Moderator

              Acho que é porque você precisa rodar a parte do código onde plota o gráfico tudo de uma vez, porque os elementos do gráfico são adicionados um a um, e se você interromper o código no meio, só vai plotar a metade das informações.

              Roda desde a linha pcolor(som.distance_map().T) até o final em uma única célula.

              in reply to: Atributos categóricos – OneHotEncoder #35899
              Denny Ceccon
              Moderator

                É isso mesmo Marcos. Quando a gente atualiza uma variável, tem que tomar cuidado para criar ela de volta se quiser reexecutar alguma parte do código.

                in reply to: Atributos categóricos – OneHotEncoder #35896
                Denny Ceccon
                Moderator

                  Marcos, eu desconfio que isto está acontecendo porque o resultado do método fit_transform já é um array.

                  Tenta simplesmente retirar o método toarray() do final da chamada do código.

                  in reply to: Mapas auto-organizaveis #35895
                  Denny Ceccon
                  Moderator

                    Você tentou reexecutar o código original da aula?

                    in reply to: Mapas auto-organizaveis #35885
                    Denny Ceccon
                    Moderator

                      Parece que seu código está colocando todos os registros no mesmo neurônio. Nessas horas, é melhor reiniciar o ambiente de execução com o código original e tentar de novo.

                      Denny Ceccon
                      Moderator

                        Não precisa botar dentro de uma função, pode ser exatamente como eu escrevi:

                        import pandas as pd
                        
                        df1 = {"Task1": ["Appoint department heads or managers and assign or delegate responsibilities to them", "Analyze operations to assess the performance of a company or its staff in meeting objectives or to determine areas of potential cost reduction, program improvement, or policy change", "Directing, planning or implementing policies, objectives or activities of organizations or businesses to ensure continuity of operations, maximize return on investment or increase productivity", "Prepare budgets for approval, including those for program funding or implementation", "Establish departmental responsibilities and coordinate roles across departments and sites", "Give speeches, write articles, or present information at meetings or conventions to promote services, exchange ideas, or achieve goals","Prepare or report on activities, expenses, budgets, statutes or government decisions or other items that affect program business or services", "Organize or approve promotional campaigns"]}
                        #load data into a DataFrame object:
                        df1 = pd.DataFrame(df1)
                        
                        df2 = {  "Task2": ["Define unit to participate in the production process", "Apply resources, according to the company's mission", "Sign agreements, agreements and contracts", "Supervise the execution of commercial, industrial, administrative and financial activity plans", "Interact with government agencies", "Define guidelines for contracting infrastructure services", "Evaluate the quality of the services provided", "Manage purchases and contracts", "Plan strategic actions for people management", "Discuss budget distribution between areas", "Demonstrate oral and written communication skills", "Sign agreements, agreements and contracts"]}
                        df2 = pd.DataFrame(df2)
                        
                        df_final = pd.concat([df1,df2], axis=1)
                        
                        matriz_similaridade = []
                        for sent1 in df_final['Task1']:
                            vetor_similaridade = []
                            for sent2 in df_final['Task2']:
                                vetor_similaridade.append(calcula_similaridade_sentencas(sent1, sent2))
                            matriz_similaridade.append(vetor_similaridade)
                        matriz_similaridade = np.array(matriz_similaridade)
                        in reply to: Mapas auto-organizaveis #35823
                        Denny Ceccon
                        Moderator

                          Para agrupamento não-supervisionado dá pra usar o KNN, que é o mais clássico. Não tenho experiência com as ferramentas mais recentes mas ouço falar bastante das que constam nesses dois artigos: https://towardsdatascience.com/unsupervised-learning-and-data-clustering-eeecb78b422a, https://towardsdatascience.com/t-sne-clearly-explained-d84c537f53a

                          Denny Ceccon
                          Moderator

                            Adiciona o seu código (definição do df_final) mais o meu código neste ponto do notebook:

                            in reply to: Erro na implementação do DeepLearning #35820
                            Denny Ceccon
                            Moderator

                              O que eu acho mais provável é por causa de versões das bibliotecas, às vezes os desenvolvedores mudam a forma de usar o algoritmo, eu acho que este foi o caso. Antigamente aceitava numérico, agora não aceita mais.

                              in reply to: Mapas auto-organizaveis #35816
                              Denny Ceccon
                              Moderator

                                Olá Caio,

                                Te confesso que não sei exatamente como o algoritmo funciona em detalhes, não é um algoritmo muito utilizado hoje em dia então não é comum alguém se especializar nele, mas como se trata de um algoritmo de aprendizagem não-supervisionada, então é ele próprio quem determina o número de clusters (veja que nós nem passamos o número de clusters ou a variável y para o algoritmo treinar), dependendo de quantos BMUs são selecionados na primeira iteração. Mas justamente por isso, como o posicionamento inicial dos neurônios é feito aleatoriamente, a cada vez que você gera um SOM é possível que isto resulte em um número de BMUs diferente, o importante é que há essa tendência de os registros migrarem para regiões similares do mapa. Podemos dizer que é um algoritmo que apresenta várias possíveis soluções, mas todas elas são válidas.

                                Eu desconfio que os cálculos são feitos todos de uma única vez, geralmente só fazemos em “batches” quando os dados não cabem todos na memória, mas teria que inspecionar o algoritmo com cuidado para ter uma resposta definitiva.

                                Se você quiser se aprofundar no assunto, sugiro procurar mais vídeos no YouTube, é geralmente como eu faço para entender melhor sobre algum método.

                                in reply to: Erro na implementação do DeepLearning #35813
                                Denny Ceccon
                                Moderator

                                  Se você seguir a minha orientação, os valores serão expressos como 0 ou 1, e não haverá mais problema para interpretação. Sem a correção, os resultados não fazem sentido.

                                Viewing 15 posts - 316 through 330 (of 410 total)