Como Funciona

Documentação técnica pública · Versão 2026-06-01 · Winserv Factual AI

Esta página descreve a metodologia de verificação, os validadores implementados, o modelo de cobrança e o ciclo de vida dos dados. Destina-se a quem quer entender exatamente o que o sistema faz antes de enviar um documento.

1. Pré-inspeção estática (gratuita)

Antes de qualquer cobrança, o sistema lê a estrutura do arquivo para determinar formato, número de páginas e faixa de complexidade. Nenhum modelo de IA é acionado nesta etapa. O resultado é o orçamento exibido na tela de confirmação.

Faixa	Critério	Cobrança
Simples	até 15 páginas e até 2 MB	R$ 19,90 — captura condicional (se houver afirmações verificáveis)
Médio	acima de simples, até ~50 MB	R$ 49,90 (captura condicional — se houver afirmações verificáveis)
Complexo	volume elevado	valor indicado no orçamento
Enterprise	acima de 50 MB ou ilegível automaticamente	sob consulta — contato@winserv.com.br

2. As três camadas de verificação

Camada 1 — Extração (Gemini API)

O texto do documento é enviado ao modelo Gemini (API paga Google AI Studio) com instruções para identificar e extrair afirmações verificáveis: cada campo de dado estruturado encontrado no texto, seu tipo e o valor declarado. O resultado é uma lista de campos candidatos à validação.

Camada 2 — Validação determinística (L1)

Cada campo extraído passa por um validador específico para seu tipo. Esta camada é 100% determinística — sem IA, sem probabilidade. O resultado é ok, warning ou critical com a razão exata da falha.

Camada 3 — Revisão cética (L2, Gemini API)

Um segundo passo com o modelo de linguagem revisa os resultados da Camada 2, perguntando se há inconsistências contextuais ou de fidelidade que o validador determinístico não captura (ex.: data de vencimento anterior à data de emissão, razão social que não corresponde ao CNPJ declarado no contexto do documento). Esta camada é probabilística — pode ter falsos positivos e falsos negativos.

3. Validadores implementados (L1)

Estes são os 11 tipos de campo que o sistema valida deterministicamente. Campos de outro tipo extraídos pela IA passam apenas pela Camada 3.

Tipo	O que é verificado
cnpj	14 dígitos, módulo-11 nos dois dígitos verificadores, sem sequência repetida
cpf	11 dígitos, módulo-11 nos dois dígitos verificadores, sem sequência repetida
cnh	11 dígitos, dígito verificador conforme algoritmo oficial
cep	8 dígitos, formato XXXXX-XXX ou sequência sem máscara
money	parseabilidade como valor monetário no padrão pt-BR (R$, vírgula decimal)
percent	parseabilidade como percentual (0–100%), formato pt-BR
date	data válida no calendário gregoriano nos formatos DD/MM/AAAA e variações comuns
phone	número brasileiro: DDD válido, comprimento de 8 ou 9 dígitos
email	formato RFC 5322 simplificado (sintaxe local@domínio)
ie	Inscrição Estadual: dígito verificador por UF (formato variável por estado)
placa	placa veicular brasileira: Mercosul (LLLNLNN) e padrão antigo (LLLNNNN)

Importante: cada campo é validado individualmente. O sistema não cruza valores entre campos (ex.: total vs. soma de itens, ou prazo de contrato vs. data de assinatura). Essas análises cross-field ficam a cargo da revisão humana ou de auditoria especializada.

4. Modelo de cobrança

O cartão de crédito é apenas autorizado (não capturado) no momento em que você confirma o envio. A captura efetiva ocorre somente se o relatório final contiver pelo menos uma afirmação verificável. Nos seguintes casos a autorização é cancelada sem cobrança:

O relatório não contém nenhuma afirmação verificável.
Ocorre falha técnica antes da conclusão do processamento.
O documento contém injeção de prompt detectada — o processamento é abortado.

5. Ciclo de vida dos dados

Dado	Retenção	O que resta depois
Arquivo original e texto extraído	72 horas após a conclusão	Nada — expurgo automático
Veredito anonimizado	até 30 dias	Status dos campos por categoria (ok/warning/critical), sem nenhum trecho do documento
Hash SHA-256 do conteúdo	até 30 dias (junto ao veredito)	Permite cache: mesmo documento reenviado retorna o resultado sem reprocessar

O Google (Gemini API) processa o texto em trânsito mas é contratualmente impedido de usar seus dados para treinar modelos, conforme os Termos de Serviço da API paga do Google AI Studio.

6. Proteção contra fraude e abuso

Rate limit por IP/UA: máximo 3 tentativas de checkout por hora por combinação IP+User-Agent, com hashing de ambos antes do armazenamento.
Rate limit de uploads: máximo 20 uploads por hora por usuário autenticado.
Turnstile (Cloudflare): desafio de bot ativado automaticamente quando o rate limit de checkout é atingido.
Injeção de prompt: o texto extraído é escaneado antes do processamento. Conteúdo com padrões de manipulação de prompt resulta em cancelamento imediato sem cobrança.

7. Contato técnico

Dúvidas sobre a metodologia ou comportamento inesperado do sistema: contato@winserv.com.br