Arthur — Arquitectura del Sistema / Sintropia

Cómo fue construido

01 / 04

Búsqueda Híbrida

Arthur recupera conocimiento usando dos estrategias que corren en paralelo. BM25 (FTS5) destaca en precisión por palabras clave — términos exactos, jerga técnica, nombres de productos. La búsqueda vectorial KNN usa similitud coseno sobre embeddings densos para encontrar contenido semánticamente relacionado aunque las palabras no coincidan. Ambos resultados se fusionan con Reciprocal Rank Fusion (RRF) — un algoritmo que produce una lista top-k más precisa que cualquiera de las dos estrategias por separado.

BM25 · FTS5 KNN · sqlite-vec RRF Fusion

02 / 04

SQLite como núcleo

La base de conocimiento se almacena en SQLite con sqlite-vec — una decisión deliberada frente a bases de datos vectoriales en la nube. Corre en el mismo proceso, cabe en un VPS de $6/mes y arranca en milisegundos. Para bases de conocimiento de pocos millones de chunks — lo que cubre cualquier PyME — el rendimiento es idéntico a Pinecone o Weaviate. Sin overhead de infraestructura, sin factura mensual adicional, sin dependencia externa.

SQLite sqlite-vec $6/mes VPS Zero infra overhead

03 / 04

Caché Semántica

Antes del pipeline de recuperación, cada consulta pasa por una caché en memoria. Las consultas entrantes se comparan con entradas en caché usando similitud coseno. Si el score supera el umbral, la respuesta en caché se devuelve instantáneamente — sin llamada al LLM, sin búsqueda vectorial. Esto reduce drásticamente la latencia y el costo de API para preguntas repetidas, que son comunes en flujos conversacionales. La caché tiene TTL configurable y evicción automática.

In-memory Cosine similarity TTL eviction

04 / 04

LLM + Señal de Handoff

La capa LLM usa Gemini Flash con un system prompt que define el rol de Arthur, sus reglas y una señal de handoff integrada. Cuando un cliente describe un proyecto concreto, Arthur añade HANDOFF:true al final de su respuesta. La API parsea esta señal y la devuelve como campo booleano — suggest_handoff — activando la captura de email en el frontend en el momento preciso.

Gemini 2.5 Flash System prompt Handoff signal SSE streaming

Tu propio Arthur

Arthur no es un producto — es un patrón. La misma arquitectura puede adaptarse a cualquier dominio: documentación de tu empresa, specs de producto, corpus legal, wiki interno. Así es como lo construimos para ti.

Auditoría de base de conocimiento

Revisamos tus documentos existentes — PDFs, hojas de cálculo, Notion, Confluence, Markdown. Identificamos huecos y estructuramos una estrategia de fragmentación que preserva el contexto semántico. La calidad de la recuperación es tan buena como lo que entra.

Pipeline de ingesta

Construimos un script repetible que parsea tus documentos, los divide en fragmentos coherentes, genera embeddings con Gemini e indexa en SQLite con índices BM25 y KNN. Córrelo cada vez que tu base de conocimiento cambie.

Diseño del agente

Escribimos el system prompt — la decisión más importante en cualquier agente. Define el rol, el tono, el comportamiento de citación y los triggers de escalación. Un prompt bien diseñado vale más que el tamaño del modelo.

Despliegue de la API

El servicio FastAPI se containeriza y despliega en Railway o tu nube preferida. Expone POST /chat con query e historial. Nos encargamos de CORS, autenticación, rate limiting y monitoreo.

Integración de interfaz

Construimos la UI conversacional en tu producto — orbe flotante como Arthur, panel embebido, voz o bot de Slack. El backend es agnóstico al modelo y al frontend. El stack completo es tuyo.

Cómo Arthur piensa

Cómo fue construido

Búsqueda Híbrida

SQLite como núcleo

Caché Semántica

LLM + Señal de Handoff

Tu propio Arthur

¿Listo para construir tu agente?