Como treinar agentes de IA com a base de conhecimento da sua empresa (guia RAG 2026)

Um agente genérico responde bem sobre o mundo — mas não sabe nada sobre a sua empresa. Para transformar um LLM genérico em especialista na sua operação, você precisa conectá-lo à sua base de conhecimento de forma estruturada. Esse processo é conhecido como RAG (Retrieval-Augmented Generation) e é o diferencial entre agentes de ia que impressionam e chatbots que envergonham.

Neste guia técnico você vai aprender o passo a passo completo de RAG em 2026: desde a coleta de documentos, passando por chunking, embeddings, busca híbrida, reranking e avaliação contínua.

O que é RAG e por que ele existe

LLMs são treinados até uma data de corte e não conhecem nada depois disso. Também não conhecem seus documentos internos, seus preços, suas políticas. RAG resolve isso ao buscar, em tempo real, os trechos mais relevantes da sua base e injetar no contexto do modelo antes da geração da resposta.

Fluxo resumido:

Usuário envia pergunta
Sistema transforma pergunta em vetor (embedding)
Busca vetorial retorna top-K trechos mais similares
Reranker reordena pelos mais relevantes
Prompt final contém pergunta + trechos + instruções
LLM gera resposta ancorada na base

Fontes de conhecimento que alimentam agentes de ia

FAQ público e interno
Catálogo de produtos com descrições técnicas
Políticas comerciais e de atendimento
Manuais de procedimento
Histórico de tickets resolvidos no CRM/help desk
Transcrições de calls de venda de sucesso
Base de conhecimento técnica (Confluence, Notion)
Documentos legais e contratos

Passo 1: coleta e higienização

O maior inimigo da qualidade de um agente é a base bagunçada. Antes de indexar, faça:

Centralize tudo em uma pasta ou repositório único
Identifique e remova documentos obsoletos
Padronize metadados (título, setor, data, versão)
Corrija erros de OCR em PDFs escaneados
Remova informações confidenciais que não devem chegar ao modelo

Passo 2: chunking — o segredo mais negligenciado

Chunking é dividir documentos em pedaços. Ruim = respostas imprecisas. Bom = respostas cirúrgicas.

Estratégias de chunking

Fixed-size: pedaços de N tokens (ex.: 500). Rápido, genérico, muitas vezes quebra frases.
Recursive character splitter: respeita quebras naturais (parágrafos > frases > tokens).
Semantic chunking: usa embeddings para cortar onde o sentido muda.
Document-aware: respeita a estrutura de títulos e seções do documento original.

Tamanho ideal

Para a maioria dos casos, chunks de 400-800 tokens com overlap de 50-100 tokens performam melhor. Chunks muito curtos perdem contexto; muito longos diluem relevância.

Passo 3: geração de embeddings

Embedding é um vetor numérico que representa o significado do chunk. Modelos mais usados em 2026:

Modelo	Dimensões	Preço por 1M tokens	Performance PT-BR
OpenAI text-embedding-3-small	1536	US$ 0,02	Muito boa
OpenAI text-embedding-3-large	3072	US$ 0,13	Excelente
Cohere embed-multilingual-v3	1024	US$ 0,10	Excelente
BGE-M3 (open source)	1024	Self-hosted	Muito boa

Passo 4: banco vetorial

Onde armazenar os vetores para busca rápida. As opções mais usadas:

pgvector: extensão do Postgres. Simples, robusto, perfeito até ~5M chunks.
Qdrant: open source, performance excelente, ótima feature de filtros.
Weaviate: open source com módulos prontos de hybrid search.
Pinecone: SaaS gerenciado, escala ilimitada, preço maior.
Milvus: para volumes gigantes (>100M chunks).

Passo 5: busca híbrida

Busca apenas vetorial perde em consultas que dependem de palavras-chave exatas (códigos de produto, nomes). A solução é busca híbrida:

Busca vetorial (similaridade semântica)
Busca lexical (BM25)
Fusão de resultados (Reciprocal Rank Fusion)

Resultado: cobertura muito maior sem perder precisão.

Passo 6: reranking

Depois da busca, passe os top-50 por um reranker (modelo cross-encoder) que reordena pelos mais realmente relevantes. Modelos como Cohere Rerank 3 ou bge-reranker-v2 aumentam precisão em 15-30%.

Passo 7: montagem do prompt

Um bom prompt de RAG tem 4 partes:

Instrução de sistema (papel do agente, tom, políticas)
Contexto recuperado (chunks da base)
Pergunta do usuário
Diretrizes de resposta (formato, citações, fallback)

Regra de ouro: se o contexto não contém a resposta, o agente deve dizer "não sei" e oferecer humano — nunca inventar.

Passo 8: avaliação contínua

RAG sem avaliação vira caixa preta. Métricas essenciais:

Context Precision: % do contexto que é realmente relevante
Context Recall: % da informação necessária que foi recuperada
Faithfulness: % da resposta que é fiel ao contexto
Answer Relevance: % da resposta que endereça a pergunta

Ferramentas: Ragas, TruLens, DeepEval.

Erros comuns em projetos RAG

Chunking ruim (fixed-size em documentos longos)
Não usar reranking
Ignorar metadados nos filtros
Base de conhecimento desatualizada
Falta de citação de fonte na resposta
Não testar com casos reais de usuários
Dependência só de embeddings (sem BM25)

Quando RAG não é a solução

Quando a informação muda a cada segundo (use API direta)
Quando o volume de contexto excede 100K tokens (considere long-context LLM)
Quando você precisa de raciocínio complexo sobre a base inteira (fine-tuning pode ajudar)

Stack recomendada em 2026

Para o Brasil, nossa stack padrão em projetos de agentes de ia é:

LLM: Claude Sonnet ou GPT-4o-mini (melhor custo-benefício)
Embeddings: OpenAI text-embedding-3-small
Banco vetorial: pgvector (Postgres) até ~2M chunks, Qdrant acima
Reranker: Cohere Rerank 3
Framework: LangChain ou código próprio enxuto
Observabilidade: Langfuse
Avaliação: Ragas em CI

Perguntas frequentes sobre RAG e treinamento de agentes de IA

Preciso fazer fine-tuning para ter um bom agente?

Na grande maioria dos casos, não. RAG bem feito entrega 90% do valor do fine-tuning a uma fração do custo e mantém a base atualizável sem retreinar.

Quantos documentos preciso para começar?

Um MVP útil roda com 20-50 documentos bem curados. Mais importante que volume é qualidade e cobertura das perguntas frequentes.

RAG funciona em português?

Sim. Modelos modernos (OpenAI, Cohere, BGE) têm excelente performance em PT-BR. Cuidado apenas com chunking que quebre palavras compostas ou acentuação.

Como proteger informação confidencial?

Separe bases por nível de acesso, adicione controles no metadado (setor, permissão) e filtre no retriever antes de enviar ao LLM. Para dados ultra-sensíveis, use modelos on-premise.

RAG ou long-context (1M+ tokens)?

RAG é mais barato, mais rápido e mais preciso para bases grandes. Long-context serve para analisar um único documento muito extenso sem indexação prévia.

Quanto custa operar RAG com 100k tokens por dia?

Setup inicial R$ 8.000-25.000. Operação mensal tipicamente R$ 400-1.800 incluindo LLM + embeddings + banco vetorial.

Conclusão

RAG é o coração técnico de qualquer agente de ia que realmente entenda sua empresa. Investir bem em chunking, embeddings e reranking vale mais do que gastar fortuna no modelo de linguagem mais caro.

Quer implantar RAG robusto com a base de conhecimento da sua empresa? fale com um especialista IA365 e receba uma proposta técnica detalhada da IA365.