Arthur v0.1 · Sintropia Atelier

Cómo Arthur piensa

Un agente RAG híbrido construido con principios de ingeniería primero — caché semántica, búsqueda vectorial y un backbone de Gemini, corriendo sobre un núcleo SQLite que cabe en una sola máquina.

01 — Cliente 02 — API Gateway 03 — Caché Semántica 04 — Pipeline RAG 05 — Generación LLM 06 — Respuesta Oracle Cliente web / móvil Historial últimos 6 turnos POST /chat · query + historial FastAPI CORS · /health · /chat Caché Semántica similitud coseno · TTL caché HIT → caché MISS Embeber Query gemini-embedding-2 Búsqueda BM25 índice FTS5 texto completo Búsqueda KNN sqlite-vec · distancia coseno SQLite chunks · embeddings · FTS5 Base de Conocimiento PDF · XLSX · Markdown Fusión RRF Reciprocal Rank Fusion top-k fragmentos Gemini Flash prompt · contexto · historial Prompt del Sistema rol · reglas · handoff ChatResponse respuesta · suggest_handoff · fuentes · caché HANDOFF ruta al equipo respuesta →

— Decisiones de ingeniería

Cómo fue construido

01 / 04

Búsqueda Híbrida

Arthur recupera conocimiento usando dos estrategias que corren en paralelo. BM25 (FTS5) destaca en precisión por palabras clave — términos exactos, jerga técnica, nombres de productos. La búsqueda vectorial KNN usa similitud coseno sobre embeddings densos para encontrar contenido semánticamente relacionado aunque las palabras no coincidan. Ambos resultados se fusionan con Reciprocal Rank Fusion (RRF) — un algoritmo que produce una lista top-k más precisa que cualquiera de las dos estrategias por separado.

BM25 · FTS5 KNN · sqlite-vec RRF Fusion
02 / 04

SQLite como núcleo

La base de conocimiento se almacena en SQLite con sqlite-vec — una decisión deliberada frente a bases de datos vectoriales en la nube. Corre en el mismo proceso, cabe en un VPS de $6/mes y arranca en milisegundos. Para bases de conocimiento de pocos millones de chunks — lo que cubre cualquier PyME — el rendimiento es idéntico a Pinecone o Weaviate. Sin overhead de infraestructura, sin factura mensual adicional, sin dependencia externa.

SQLite sqlite-vec $6/mes VPS Zero infra overhead
03 / 04

Caché Semántica

Antes del pipeline de recuperación, cada consulta pasa por una caché en memoria. Las consultas entrantes se comparan con entradas en caché usando similitud coseno. Si el score supera el umbral, la respuesta en caché se devuelve instantáneamente — sin llamada al LLM, sin búsqueda vectorial. Esto reduce drásticamente la latencia y el costo de API para preguntas repetidas, que son comunes en flujos conversacionales. La caché tiene TTL configurable y evicción automática.

In-memory Cosine similarity TTL eviction
04 / 04

LLM + Señal de Handoff

La capa LLM usa Gemini Flash con un system prompt que define el rol de Arthur, sus reglas y una señal de handoff integrada. Cuando un cliente describe un proyecto concreto, Arthur añade HANDOFF:true al final de su respuesta. La API parsea esta señal y la devuelve como campo booleano — suggest_handoff — activando la captura de email en el frontend en el momento preciso.

Gemini 2.5 Flash System prompt Handoff signal SSE streaming

— Para tu proyecto

Tu propio Arthur

Arthur no es un producto — es un patrón. La misma arquitectura puede adaptarse a cualquier dominio: documentación de tu empresa, specs de producto, corpus legal, wiki interno. Así es como lo construimos para ti.

01
Auditoría de base de conocimiento

Revisamos tus documentos existentes — PDFs, hojas de cálculo, Notion, Confluence, Markdown. Identificamos huecos y estructuramos una estrategia de fragmentación que preserva el contexto semántico. La calidad de la recuperación es tan buena como lo que entra.

02
Pipeline de ingesta

Construimos un script repetible que parsea tus documentos, los divide en fragmentos coherentes, genera embeddings con Gemini e indexa en SQLite con índices BM25 y KNN. Córrelo cada vez que tu base de conocimiento cambie.

03
Diseño del agente

Escribimos el system prompt — la decisión más importante en cualquier agente. Define el rol, el tono, el comportamiento de citación y los triggers de escalación. Un prompt bien diseñado vale más que el tamaño del modelo.

04
Despliegue de la API

El servicio FastAPI se containeriza y despliega en Railway o tu nube preferida. Expone POST /chat con query e historial. Nos encargamos de CORS, autenticación, rate limiting y monitoreo.

05
Integración de interfaz

Construimos la UI conversacional en tu producto — orbe flotante como Arthur, panel embebido, voz o bot de Slack. El backend es agnóstico al modelo y al frontend. El stack completo es tuyo.

¿Listo para construir tu agente?

Cuéntanos sobre tu base de conocimiento y lo que quieres que haga el agente. Lo scopeamos, lo arquitectamos y lo entregamos — ingeniería primero, sin atajos.

hello@sintropia.io