Home › Fóruns › Domine LLMs com LangChain › Document loader do Langchain › Responder a: Document loader do Langchain
Olá Michael! O método from_youtube_url() não detecta automaticamente o idioma das legendas. Você precisa especificar o idioma desejado usando o parâmetro language. Se não for definido, o loader tentará buscar as legendas no idioma padrão do vídeo ou as automáticas, caso estejam disponíveis.
Portanto, se você precisar de legendas em um idioma específico, pode usar o parâmetro language ao inicializar o YoutubeLoader, conforme exemplo no Colab oficial desse projeto.
Para vídeos armazenados localmente, o LangChain não possui um loader específico como o YoutubeLoader. No entanto, você pode usar bibliotecas como MoviePy ou FFmpeg para extrair o áudio do vídeo e, em seguida, aplicar a transcrição do áudio (speech-to-text) com ferramentas como o Google Speech-to-Text Audio Transcripts ou o Whisper da OpenAI (ambas podem ser integradas com o LangChain). Isso permite transcrever o áudio local e processá-lo da mesma forma que faria com vídeos do YouTube.
Como alternativa, você também pode integrar outras APIs específicas para isso, como a AssemblyAI ou Deepgram, que oferecem transcrição e análise de vídeos/áudios com suporte a múltiplos idiomas.