Como Funciona
Documentação técnica pública · Versão 2026-06-01 · Winserv Factual AI
Esta página descreve a metodologia de verificação, os validadores implementados, o modelo de cobrança e o ciclo de vida dos dados. Destina-se a quem quer entender exatamente o que o sistema faz antes de enviar um documento.
1. Pré-inspeção estática (gratuita)
Antes de qualquer cobrança, o sistema lê a estrutura do arquivo para determinar formato, número de páginas e faixa de complexidade. Nenhum modelo de IA é acionado nesta etapa. O resultado é o orçamento exibido na tela de confirmação.
| Faixa | Critério | Cobrança |
|---|---|---|
| Simples | até 15 páginas e até 2 MB | R$ 19,90 — captura condicional (se houver afirmações verificáveis) |
| Médio | acima de simples, até ~50 MB | R$ 49,90 (captura condicional — se houver afirmações verificáveis) |
| Complexo | volume elevado | valor indicado no orçamento |
| Enterprise | acima de 50 MB ou ilegível automaticamente | sob consulta — contato@winserv.com.br |
2. As três camadas de verificação
Camada 1 — Extração (Gemini API)
O texto do documento é enviado ao modelo Gemini (API paga Google AI Studio) com instruções para identificar e extrair afirmações verificáveis: cada campo de dado estruturado encontrado no texto, seu tipo e o valor declarado. O resultado é uma lista de campos candidatos à validação.
Camada 2 — Validação determinística (L1)
Cada campo extraído passa por um validador específico para seu tipo. Esta camada é 100% determinística — sem IA, sem probabilidade. O resultado é ok, warning ou critical com a razão exata da falha.
Camada 3 — Revisão cética (L2, Gemini API)
Um segundo passo com o modelo de linguagem revisa os resultados da Camada 2, perguntando se há inconsistências contextuais ou de fidelidade que o validador determinístico não captura (ex.: data de vencimento anterior à data de emissão, razão social que não corresponde ao CNPJ declarado no contexto do documento). Esta camada é probabilística — pode ter falsos positivos e falsos negativos.
3. Validadores implementados (L1)
Estes são os 11 tipos de campo que o sistema valida deterministicamente. Campos de outro tipo extraídos pela IA passam apenas pela Camada 3.
| Tipo | O que é verificado |
|---|---|
| cnpj | 14 dígitos, módulo-11 nos dois dígitos verificadores, sem sequência repetida |
| cpf | 11 dígitos, módulo-11 nos dois dígitos verificadores, sem sequência repetida |
| cnh | 11 dígitos, dígito verificador conforme algoritmo oficial |
| cep | 8 dígitos, formato XXXXX-XXX ou sequência sem máscara |
| money | parseabilidade como valor monetário no padrão pt-BR (R$, vírgula decimal) |
| percent | parseabilidade como percentual (0–100%), formato pt-BR |
| date | data válida no calendário gregoriano nos formatos DD/MM/AAAA e variações comuns |
| phone | número brasileiro: DDD válido, comprimento de 8 ou 9 dígitos |
| formato RFC 5322 simplificado (sintaxe local@domínio) | |
| ie | Inscrição Estadual: dígito verificador por UF (formato variável por estado) |
| placa | placa veicular brasileira: Mercosul (LLLNLNN) e padrão antigo (LLLNNNN) |
4. Modelo de cobrança
O cartão de crédito é apenas autorizado (não capturado) no momento em que você confirma o envio. A captura efetiva ocorre somente se o relatório final contiver pelo menos uma afirmação verificável. Nos seguintes casos a autorização é cancelada sem cobrança:
- O relatório não contém nenhuma afirmação verificável.
- Ocorre falha técnica antes da conclusão do processamento.
- O documento contém injeção de prompt detectada — o processamento é abortado.
5. Ciclo de vida dos dados
| Dado | Retenção | O que resta depois |
|---|---|---|
| Arquivo original e texto extraído | 72 horas após a conclusão | Nada — expurgo automático |
| Veredito anonimizado | até 30 dias | Status dos campos por categoria (ok/warning/critical), sem nenhum trecho do documento |
| Hash SHA-256 do conteúdo | até 30 dias (junto ao veredito) | Permite cache: mesmo documento reenviado retorna o resultado sem reprocessar |
O Google (Gemini API) processa o texto em trânsito mas é contratualmente impedido de usar seus dados para treinar modelos, conforme os Termos de Serviço da API paga do Google AI Studio.
6. Proteção contra fraude e abuso
- Rate limit por IP/UA: máximo 3 tentativas de checkout por hora por combinação IP+User-Agent, com hashing de ambos antes do armazenamento.
- Rate limit de uploads: máximo 20 uploads por hora por usuário autenticado.
- Turnstile (Cloudflare): desafio de bot ativado automaticamente quando o rate limit de checkout é atingido.
- Injeção de prompt: o texto extraído é escaneado antes do processamento. Conteúdo com padrões de manipulação de prompt resulta em cancelamento imediato sem cobrança.
7. Contato técnico
Dúvidas sobre a metodologia ou comportamento inesperado do sistema: contato@winserv.com.br