Mode rat on 🐀 (chatbot edition)

Introducción

El objetivo estaba clarísimo: un chatbot que responda como ChatGPT, pero limitado estrictamente a su base de conocimiento. Nada más. Nada de inventos. El cliente lo pedía así, casi como si fuera simple. Y atrás de ese pedido, obviamente, se abría un abanico enorme de decisiones.

¿Cómo exactamente quiere que responda? En mi caso, ChatGPT insiste en tratarme como “pelado sexy”. ¿El cliente querría lo mismo?
¿Dónde está la documentación? ¿En qué formato? ¿Qué volumen? Armar un RAG para un par de consultas diarias es un dolor.

Por suerte noviembre vino con dos bombas de Google que cambiaron las reglas:

El lanzamiento del modelo Gemini 3.
File Search, una herramienta que permite montar un RAG sin sufrir en el proceso.

Y ojo con el título del post: mode rat on. La premisa es pagar solo por uso, pensando en los e-commerce chicos, que son el corazón de esta solución.

Soluciones disponibles

Servicios del mercado

Hoy existen muchas alternativas. Algunas aún basadas en chats deterministas —que los usuarios ya no toleran— y otras generativas, más modernas, que interpretan intenciones y responden con contexto.

Probé varias opciones generativas, pero todas tenían el mismo problema: abono fijo, no pago por uso. Quedaban descartadas para esta idea.

Implementaciones propias

También exploré opciones muy hypeadas, como N8N. Pero no obtuve el resultado que buscaba y sentí que estaba matando moscas a cañonazos (solo en este caso puntual).

La solución del editor

Después de analizar y probar distintas alternativas, la conclusión fue simple: solo necesitaba cuatro piezas claras.

Cliente de chat. Ya lo tenía, gracias a las pruebas con N8N.
Servidor de webhook. Aprendizaje heredado también de N8N. Inicialmente pensé en WebSocket, como usa Rasa, pero no era necesario.
Motor de IA. Me gusta Gemini, así que elegí probar Gemini 3.
RAG. Resuelto con Gemini File Search Store, sin complicaciones.

De la lista lo único que no tenia resuelto es el servidor de webhook, que resumiendo, tiene que recibir la consulta del cliente, comunicarse con el motor de IA y dar una respuesta.

Con esto en mente, me arremangue y me puse manos a la obra. Esta vuelta se me dio por probar CloudFlare Workers integrado con CloudFlare D1

Gemini 3

Gemini 3 merece un apartado aparte, la calidad de las respuestas es significativamente superior a Gemini 2.5, interpreta mejor la intención del mensaje. Te dejo dos imágenes que reflejan claramente de que estoy hablando.

Ambas consultas ejecutaron el mismo prompt, usaron la misma base de conocimiento, pero Gemini 3, determina mejor la intención de la consulta y sugiere 3 perfumes, sin más.

Bueno, pero vasta de cháchara, te dejo el enlace para que le consultes a Onur sobre perfumes 😉 😉

https://gemini-webhook.bonomo-lucas.workers.dev/