El nuevo modelo de enrutador 1.5B logra una precisión del 93 % sin necesidad de un costoso reentrenamiento

¿Quieres recibir información más inteligente en tu bandeja de entrada? Suscríbete a nuestros boletines semanales para recibir solo lo que importa a los líderes empresariales en IA, datos y seguridad. Suscríbete ahora.
Los investigadores de Katanemo Labs han presentado Arch-Router , un nuevo modelo y marco de enrutamiento diseñado para mapear de manera inteligente las consultas de los usuarios al modelo de lenguaje grande (LLM) más adecuado.
Para las empresas que crean productos que dependen de múltiples LLM, Arch-Router apunta a resolver un desafío clave: cómo dirigir las consultas al mejor modelo para el trabajo sin depender de una lógica rígida o una costosa capacitación cada vez que algo cambia.
A medida que crece el número de LLM, los desarrolladores están pasando de configuraciones de modelo único a sistemas multimodelo que utilizan las fortalezas únicas de cada modelo para tareas específicas (por ejemplo, generación de código, resumen de texto o edición de imágenes).
El enrutamiento LLM ha surgido como una técnica clave para construir e implementar estos sistemas, actuando como un controlador de tráfico que dirige cada consulta del usuario al modelo más apropiado.
Los métodos de enrutamiento existentes generalmente se dividen en dos categorías: “enrutamiento basado en tareas”, donde las consultas se enrutan en función de tareas predefinidas, y “enrutamiento basado en el rendimiento”, que busca un equilibrio óptimo entre costo y rendimiento.
Sin embargo, el enrutamiento basado en tareas presenta dificultades con las intenciones poco claras o cambiantes del usuario, especialmente en conversaciones con varios turnos. El enrutamiento basado en el rendimiento, por otro lado, prioriza rígidamente las puntuaciones de referencia, a menudo ignora las preferencias reales del usuario y se adapta deficientemente a los nuevos modelos a menos que se someta a un costoso ajuste.
Fundamentalmente, como señalan los investigadores de Katanemo Labs en su artículo , «los enfoques de enrutamiento existentes presentan limitaciones en el uso práctico. Suelen optimizar el rendimiento de referencia, ignorando las preferencias humanas basadas en criterios de evaluación subjetivos».
Los investigadores destacan la necesidad de sistemas de enrutamiento que “se alineen con las preferencias humanas subjetivas, ofrezcan más transparencia y sigan siendo fácilmente adaptables a medida que evolucionan los modelos y los casos de uso”.
Para abordar estas limitaciones, los investigadores proponen un marco de “enrutamiento alineado con las preferencias” que combina las consultas con las políticas de enrutamiento basadas en las preferencias definidas por el usuario.
En este marco, los usuarios definen sus políticas de enrutamiento en lenguaje natural mediante una "Taxonomía Dominio-Acción". Esta es una jerarquía de dos niveles que refleja cómo las personas describen las tareas de forma natural, comenzando con un tema general (el Dominio, como "legal" o "finanzas") y reduciéndose a una tarea específica (la Acción, como "resumen" o "generación de código").
Cada una de estas políticas se vincula a un modelo preferido, lo que permite a los desarrolladores tomar decisiones de enrutamiento basadas en necesidades reales, en lugar de basarse únicamente en puntuaciones de referencia. Como se indica en el artículo, «Esta taxonomía sirve como modelo mental para ayudar a los usuarios a definir políticas de enrutamiento claras y estructuradas».
El proceso de enrutamiento se desarrolla en dos etapas. En primer lugar, un modelo de enrutador alineado con preferencias toma la consulta del usuario y el conjunto completo de políticas y selecciona la más adecuada. En segundo lugar, una función de mapeo conecta la política seleccionada con su LLM designado.
Dado que la lógica de selección de modelos está separada de la política, es posible agregar, eliminar o intercambiar modelos simplemente editando las políticas de enrutamiento, sin necesidad de reentrenar ni modificar el enrutador. Esta disociación proporciona la flexibilidad necesaria para implementaciones prácticas, donde los modelos y los casos de uso evolucionan constantemente.

La selección de políticas se realiza mediante Arch-Router, un modelo de lenguaje compacto de 1500 millones de parámetros, optimizado para un enrutamiento alineado con las preferencias. Arch-Router recibe la consulta del usuario y el conjunto completo de descripciones de políticas en su mensaje. A continuación, genera el identificador de la política más adecuada.
Dado que las políticas forman parte de la entrada, el sistema puede adaptarse a rutas nuevas o modificadas en el momento de la inferencia mediante aprendizaje contextual y sin necesidad de reentrenamiento. Este enfoque generativo permite a Arch-Router utilizar su conocimiento preentrenado para comprender la semántica tanto de la consulta como de las políticas, y procesar todo el historial de conversaciones simultáneamente.
Una preocupación común al incluir políticas extensas en un mensaje es la posibilidad de una mayor latencia. Sin embargo, los investigadores diseñaron Arch-Router para que fuera altamente eficiente. "Si bien la longitud de las políticas de enrutamiento puede ser extensa, podemos aumentar fácilmente la ventana de contexto de Arch-Router con un impacto mínimo en la latencia", explica Salman Paracha, coautor del artículo y fundador y director ejecutivo de Katanemo Labs. Paracha señala que la latencia se debe principalmente a la longitud de la salida, y para Arch-Router, la salida es simplemente el nombre corto de una política de enrutamiento, como "edición_de_imagen" o "creación_de_documento".
Para construir Arch-Router, los investigadores perfeccionaron una versión de 1500 millones de parámetros del modelo Qwen 2.5 en un conjunto de datos depurado de 43 000 ejemplos. Posteriormente, probaron su rendimiento con modelos propietarios de vanguardia de OpenAI, Anthropic y Google en cuatro conjuntos de datos públicos diseñados para evaluar sistemas de IA conversacional.
Los resultados muestran que Arch-Router alcanza la puntuación de enrutamiento general más alta, con un 93,17 %, superando a todos los demás modelos, incluidos los propietarios más destacados, en un promedio del 7,71 %. La ventaja del modelo aumentó con conversaciones más largas, lo que demuestra su gran capacidad para rastrear el contexto en múltiples turnos.

En la práctica, este enfoque ya se aplica en varios escenarios, según Paracha. Por ejemplo, en herramientas de programación de código abierto, los desarrolladores usan Arch-Router para dirigir las diferentes etapas de su flujo de trabajo, como el diseño, la comprensión y la generación de código, a los LLM más adecuados para cada tarea. De igual forma, las empresas pueden dirigir las solicitudes de creación de documentos a un modelo como Claude 3.7 Sonnet y, al mismo tiempo, enviar las tareas de edición de imágenes a Gemini 2.5 Pro .
El sistema también es ideal “para asistentes personales en varios dominios, donde los usuarios tienen una diversidad de tareas, desde resúmenes de texto hasta consultas de datos”, dijo Paracha, y agregó que “en esos casos, Arch-Router puede ayudar a los desarrolladores a unificar y mejorar la experiencia general del usuario”.
Este marco está integrado con Arch , el servidor proxy nativo de IA de Katanemo Labs para agentes, lo que permite a los desarrolladores implementar sofisticadas reglas de modelado de tráfico. Por ejemplo, al integrar un nuevo LLM, un equipo puede enviar una pequeña porción del tráfico para una política de enrutamiento específica al nuevo modelo, verificar su rendimiento con métricas internas y, posteriormente, realizar la transición completa del tráfico con total confianza. La empresa también está trabajando para integrar sus herramientas con plataformas de evaluación para agilizar aún más este proceso para los desarrolladores empresariales.
En definitiva, el objetivo es superar las implementaciones de IA aisladas. «Arch-Router, y Arch en general, ayuda a desarrolladores y empresas a migrar de implementaciones LLM fragmentadas a un sistema unificado basado en políticas», afirma Paracha. «En escenarios donde las tareas del usuario son diversas, nuestro framework ayuda a convertir esa fragmentación de tareas y LLM en una experiencia unificada, lo que permite que el producto final resulte fluido para el usuario final».
Si quieres impresionar a tu jefe, VB Daily te tiene cubierto. Te ofrecemos información exclusiva sobre lo que las empresas están haciendo con la IA generativa, desde cambios regulatorios hasta implementaciones prácticas, para que puedas compartir tus conocimientos y maximizar el retorno de la inversión.
Lea nuestra Política de Privacidad
Gracias por suscribirte. Consulta más boletines de VB aquí .
Se produjo un error.

venturebeat