Um agente genérico responde bem sobre o mundo — mas não sabe nada sobre a sua empresa. Para transformar um LLM genérico em especialista na sua operação, você precisa conectá-lo à sua base de conhecimento de forma estruturada. Esse processo é conhecido como RAG (Retrieval-Augmented Generation) e é o diferencial entre agentes de ia que impressionam e chatbots que envergonham.
Neste guia técnico você vai aprender o passo a passo completo de RAG em 2026: desde a coleta de documentos, passando por chunking, embeddings, busca híbrida, reranking e avaliação contínua.
O que é RAG e por que ele existe
LLMs são treinados até uma data de corte e não conhecem nada depois disso. Também não conhecem seus documentos internos, seus preços, suas políticas. RAG resolve isso ao buscar, em tempo real, os trechos mais relevantes da sua base e injetar no contexto do modelo antes da geração da resposta.
Fluxo resumido:
- Usuário envia pergunta
- Sistema transforma pergunta em vetor (embedding)
- Busca vetorial retorna top-K trechos mais similares
- Reranker reordena pelos mais relevantes
- Prompt final contém pergunta + trechos + instruções
- LLM gera resposta ancorada na base
Fontes de conhecimento que alimentam agentes de ia
- FAQ público e interno
- Catálogo de produtos com descrições técnicas
- Políticas comerciais e de atendimento
- Manuais de procedimento
- Histórico de tickets resolvidos no CRM/help desk
- Transcrições de calls de venda de sucesso
- Base de conhecimento técnica (Confluence, Notion)
- Documentos legais e contratos
Passo 1: coleta e higienização
O maior inimigo da qualidade de um agente é a base bagunçada. Antes de indexar, faça:
- Centralize tudo em uma pasta ou repositório único
- Identifique e remova documentos obsoletos
- Padronize metadados (título, setor, data, versão)
- Corrija erros de OCR em PDFs escaneados
- Remova informações confidenciais que não devem chegar ao modelo
Passo 2: chunking — o segredo mais negligenciado
Chunking é dividir documentos em pedaços. Ruim = respostas imprecisas. Bom = respostas cirúrgicas.
Estratégias de chunking
- Fixed-size: pedaços de N tokens (ex.: 500). Rápido, genérico, muitas vezes quebra frases.
- Recursive character splitter: respeita quebras naturais (parágrafos > frases > tokens).
- Semantic chunking: usa embeddings para cortar onde o sentido muda.
- Document-aware: respeita a estrutura de títulos e seções do documento original.
Tamanho ideal
Para a maioria dos casos, chunks de 400-800 tokens com overlap de 50-100 tokens performam melhor. Chunks muito curtos perdem contexto; muito longos diluem relevância.
Passo 3: geração de embeddings
Embedding é um vetor numérico que representa o significado do chunk. Modelos mais usados em 2026:
| Modelo | Dimensões | Preço por 1M tokens | Performance PT-BR |
|---|---|---|---|
| OpenAI text-embedding-3-small | 1536 | US$ 0,02 | Muito boa |
| OpenAI text-embedding-3-large | 3072 | US$ 0,13 | Excelente |
| Cohere embed-multilingual-v3 | 1024 | US$ 0,10 | Excelente |
| BGE-M3 (open source) | 1024 | Self-hosted | Muito boa |
Passo 4: banco vetorial
Onde armazenar os vetores para busca rápida. As opções mais usadas:
- pgvector: extensão do Postgres. Simples, robusto, perfeito até ~5M chunks.
- Qdrant: open source, performance excelente, ótima feature de filtros.
- Weaviate: open source com módulos prontos de hybrid search.
- Pinecone: SaaS gerenciado, escala ilimitada, preço maior.
- Milvus: para volumes gigantes (>100M chunks).
Passo 5: busca híbrida
Busca apenas vetorial perde em consultas que dependem de palavras-chave exatas (códigos de produto, nomes). A solução é busca híbrida:
- Busca vetorial (similaridade semântica)
- Busca lexical (BM25)
- Fusão de resultados (Reciprocal Rank Fusion)
Resultado: cobertura muito maior sem perder precisão.
Passo 6: reranking
Depois da busca, passe os top-50 por um reranker (modelo cross-encoder) que reordena pelos mais realmente relevantes. Modelos como Cohere Rerank 3 ou bge-reranker-v2 aumentam precisão em 15-30%.
Passo 7: montagem do prompt
Um bom prompt de RAG tem 4 partes:
- Instrução de sistema (papel do agente, tom, políticas)
- Contexto recuperado (chunks da base)
- Pergunta do usuário
- Diretrizes de resposta (formato, citações, fallback)
Regra de ouro: se o contexto não contém a resposta, o agente deve dizer "não sei" e oferecer humano — nunca inventar.
Passo 8: avaliação contínua
RAG sem avaliação vira caixa preta. Métricas essenciais:
- Context Precision: % do contexto que é realmente relevante
- Context Recall: % da informação necessária que foi recuperada
- Faithfulness: % da resposta que é fiel ao contexto
- Answer Relevance: % da resposta que endereça a pergunta
Ferramentas: Ragas, TruLens, DeepEval.
Erros comuns em projetos RAG
- Chunking ruim (fixed-size em documentos longos)
- Não usar reranking
- Ignorar metadados nos filtros
- Base de conhecimento desatualizada
- Falta de citação de fonte na resposta
- Não testar com casos reais de usuários
- Dependência só de embeddings (sem BM25)
Quando RAG não é a solução
- Quando a informação muda a cada segundo (use API direta)
- Quando o volume de contexto excede 100K tokens (considere long-context LLM)
- Quando você precisa de raciocínio complexo sobre a base inteira (fine-tuning pode ajudar)
Stack recomendada em 2026
Para o Brasil, nossa stack padrão em projetos de agentes de ia é:
- LLM: Claude Sonnet ou GPT-4o-mini (melhor custo-benefício)
- Embeddings: OpenAI text-embedding-3-small
- Banco vetorial: pgvector (Postgres) até ~2M chunks, Qdrant acima
- Reranker: Cohere Rerank 3
- Framework: LangChain ou código próprio enxuto
- Observabilidade: Langfuse
- Avaliação: Ragas em CI
Perguntas frequentes sobre RAG e treinamento de agentes de IA
Preciso fazer fine-tuning para ter um bom agente?
Na grande maioria dos casos, não. RAG bem feito entrega 90% do valor do fine-tuning a uma fração do custo e mantém a base atualizável sem retreinar.
Quantos documentos preciso para começar?
Um MVP útil roda com 20-50 documentos bem curados. Mais importante que volume é qualidade e cobertura das perguntas frequentes.
RAG funciona em português?
Sim. Modelos modernos (OpenAI, Cohere, BGE) têm excelente performance em PT-BR. Cuidado apenas com chunking que quebre palavras compostas ou acentuação.
Como proteger informação confidencial?
Separe bases por nível de acesso, adicione controles no metadado (setor, permissão) e filtre no retriever antes de enviar ao LLM. Para dados ultra-sensíveis, use modelos on-premise.
RAG ou long-context (1M+ tokens)?
RAG é mais barato, mais rápido e mais preciso para bases grandes. Long-context serve para analisar um único documento muito extenso sem indexação prévia.
Quanto custa operar RAG com 100k tokens por dia?
Setup inicial R$ 8.000-25.000. Operação mensal tipicamente R$ 400-1.800 incluindo LLM + embeddings + banco vetorial.
Conclusão
RAG é o coração técnico de qualquer agente de ia que realmente entenda sua empresa. Investir bem em chunking, embeddings e reranking vale mais do que gastar fortuna no modelo de linguagem mais caro.
Quer implantar RAG robusto com a base de conhecimento da sua empresa? fale com um especialista IA365 e receba uma proposta técnica detalhada da IA365.