Bert para outras linguas

Visualizando 4 posts - 1 até 4 (de 4 do total)
  • Autor
    Posts
  • #33617
    Felix Nganga
    Participante

    Bom dia professor!

    Primeiro, gostaria de informar que assinei essa trilha no vosso site após ter sido vosso aluno em Udemy em curso PLN com Deep learning.

    Infelizmente as minhas dúvidas foram respondidas muito tarde e duma forma não convincente. Espero que não seja o caso aqui.

    A minha dúvida é a seguinte:

    No curso PLN com deep learning, o texto inserido no nosso modelo era em português e aqui neste curso, está em inglês.

    Quais seriam as modificações necessarias a fazer caso optasse pela idioma portuguesa e francesa?

     

    Atentamente

    #33628
    Fábio Spak
    Participante

    Olá Felix, segue a resposta do instrutor Denny:

    Para outros idiomas que não o inglês, você pode usar o modelo https://tfhub.dev/tensorflow/bert_multi_cased_L-12_H-768_A-12/4, que foi treinado em múltiplas línguas. Esta é a solução mais fácil nestes casos.

    Fabio

    #33639
    Felix Nganga
    Participante

    Fiz isso mas dei conta que não suporta mesmo bem outras linguas viston que quando fiz:

    print(tokenizer.vocab)

    Elle me retornou 119547 palvras mas só ouvias menos de 10 em francês ou português.

    Gostaria muito que os cursos fossem actualisados para ajudar os novos alunos que estão se inscrevendo.

    Alguém disse me para pesquisar: camemBERT, não sei se voces já ouviram falar.

    #33725
    Denny Ceccon
    Moderador

    Felix, é que o BERT trabalha com uma estratégia de tokenização chamada subwords, onde as palavras são quebradas nos n-gramas de letras mais frequentes. Adicione a isso o fato de que o modelo multilíngua foi treinado com várias línguas, e o resultado é que muitos tokens não farão sentido gramatical, mas computacionalmente eles são úteis. O importante não é que a tokenização “faça sentido”, mas que sirva para a finalidade do algoritmo.

    Existem modelos treinados em outras línguas, mas são soluções de outros grupos, não oficiais do Google. Algumas, inclusive, você consegue importar do próprio hub do Tensorflow, o que facilita a adaptação do código da aula. Não temos como oferecer suporte neste caso, mas você está livre para testá-las por conta própria.

Visualizando 4 posts - 1 até 4 (de 4 do total)
  • Você deve fazer login para responder a este tópico.