Arthur v0.1 · Sintropia Atelier
Cómo Arthur piensa
Un agente RAG híbrido construido con principios de ingeniería primero — caché semántica, búsqueda vectorial y un backbone de Gemini, corriendo sobre un núcleo SQLite que cabe en una sola máquina.
— Decisiones de ingeniería
Cómo fue construido
Arthur recupera conocimiento usando dos estrategias que corren en paralelo. BM25 (FTS5) destaca en precisión por palabras clave — términos exactos, jerga técnica, nombres de productos. La búsqueda vectorial KNN usa similitud coseno sobre embeddings densos para encontrar contenido semánticamente relacionado aunque las palabras no coincidan. Ambos resultados se fusionan con Reciprocal Rank Fusion (RRF) — un algoritmo que produce una lista top-k más precisa que cualquiera de las dos estrategias por separado.
BM25 · FTS5
KNN · sqlite-vec
RRF Fusion
La base de conocimiento se almacena en SQLite con sqlite-vec — una decisión deliberada frente a bases de datos vectoriales en la nube. Corre en el mismo proceso, cabe en un VPS de $6/mes y arranca en milisegundos. Para bases de conocimiento de pocos millones de chunks — lo que cubre cualquier PyME — el rendimiento es idéntico a Pinecone o Weaviate. Sin overhead de infraestructura, sin factura mensual adicional, sin dependencia externa.
SQLite
sqlite-vec
$6/mes VPS
Zero infra overhead
Antes del pipeline de recuperación, cada consulta pasa por una caché en memoria. Las consultas entrantes se comparan con entradas en caché usando similitud coseno. Si el score supera el umbral, la respuesta en caché se devuelve instantáneamente — sin llamada al LLM, sin búsqueda vectorial. Esto reduce drásticamente la latencia y el costo de API para preguntas repetidas, que son comunes en flujos conversacionales. La caché tiene TTL configurable y evicción automática.
In-memory
Cosine similarity
TTL eviction
La capa LLM usa Gemini Flash con un system prompt que define el rol de Arthur, sus reglas y una señal de handoff integrada. Cuando un cliente describe un proyecto concreto, Arthur añade HANDOFF:true al final de su respuesta. La API parsea esta señal y la devuelve como campo booleano — suggest_handoff — activando la captura de email en el frontend en el momento preciso.
Gemini 2.5 Flash
System prompt
Handoff signal
SSE streaming
— Para tu proyecto
Tu propio Arthur
Arthur no es un producto — es un patrón. La misma arquitectura puede adaptarse a cualquier dominio: documentación de tu empresa, specs de producto, corpus legal, wiki interno. Así es como lo construimos para ti.
01
Auditoría de base de conocimiento
Revisamos tus documentos existentes — PDFs, hojas de cálculo, Notion, Confluence, Markdown. Identificamos huecos y estructuramos una estrategia de fragmentación que preserva el contexto semántico. La calidad de la recuperación es tan buena como lo que entra.
02
Pipeline de ingesta
Construimos un script repetible que parsea tus documentos, los divide en fragmentos coherentes, genera embeddings con Gemini e indexa en SQLite con índices BM25 y KNN. Córrelo cada vez que tu base de conocimiento cambie.
03
Diseño del agente
Escribimos el system prompt — la decisión más importante en cualquier agente. Define el rol, el tono, el comportamiento de citación y los triggers de escalación. Un prompt bien diseñado vale más que el tamaño del modelo.
04
Despliegue de la API
El servicio FastAPI se containeriza y despliega en Railway o tu nube preferida. Expone POST /chat con query e historial. Nos encargamos de CORS, autenticación, rate limiting y monitoreo.
05
Integración de interfaz
Construimos la UI conversacional en tu producto — orbe flotante como Arthur, panel embebido, voz o bot de Slack. El backend es agnóstico al modelo y al frontend. El stack completo es tuyo.
¿Listo para construir tu agente?
Cuéntanos sobre tu base de conocimiento y lo que quieres que haga el agente. Lo scopeamos, lo arquitectamos y lo entregamos — ingeniería primero, sin atajos.
hello@sintropia.io