Home › Fóruns › Fórum Processamento de Linguagem Natural com BERT e Python › Bert para outras linguas
- Este tópico contém 3 respostas, 3 vozes e foi atualizado pela última vez 2 anos, 8 meses atrás por Denny Ceccon.
- AutorPosts
- 1 de março de 2022 às 06:20 #33617
Bom dia professor!
Primeiro, gostaria de informar que assinei essa trilha no vosso site após ter sido vosso aluno em Udemy em curso PLN com Deep learning.
Infelizmente as minhas dúvidas foram respondidas muito tarde e duma forma não convincente. Espero que não seja o caso aqui.
A minha dúvida é a seguinte:
No curso PLN com deep learning, o texto inserido no nosso modelo era em português e aqui neste curso, está em inglês.
Quais seriam as modificações necessarias a fazer caso optasse pela idioma portuguesa e francesa?
Atentamente
2 de março de 2022 às 10:15 #33628Olá Felix, segue a resposta do instrutor Denny:
Para outros idiomas que não o inglês, você pode usar o modelo https://tfhub.dev/tensorflow/bert_multi_cased_L-12_H-768_A-12/4, que foi treinado em múltiplas línguas. Esta é a solução mais fácil nestes casos.
Fabio
3 de março de 2022 às 12:41 #33639Fiz isso mas dei conta que não suporta mesmo bem outras linguas viston que quando fiz:
print(tokenizer.vocab)
Elle me retornou 119547 palvras mas só ouvias menos de 10 em francês ou português.
Gostaria muito que os cursos fossem actualisados para ajudar os novos alunos que estão se inscrevendo.
Alguém disse me para pesquisar: camemBERT, não sei se voces já ouviram falar.
14 de março de 2022 às 09:33 #33725Felix, é que o BERT trabalha com uma estratégia de tokenização chamada subwords, onde as palavras são quebradas nos n-gramas de letras mais frequentes. Adicione a isso o fato de que o modelo multilíngua foi treinado com várias línguas, e o resultado é que muitos tokens não farão sentido gramatical, mas computacionalmente eles são úteis. O importante não é que a tokenização “faça sentido”, mas que sirva para a finalidade do algoritmo.
Existem modelos treinados em outras línguas, mas são soluções de outros grupos, não oficiais do Google. Algumas, inclusive, você consegue importar do próprio hub do Tensorflow, o que facilita a adaptação do código da aula. Não temos como oferecer suporte neste caso, mas você está livre para testá-las por conta própria.
- AutorPosts
- Você deve fazer login para responder a este tópico.