OctoTools: el marco de código abierto de Stanford optimiza el razonamiento LLM a través de la orquestación de herramientas modulares

Suscríbase a nuestros boletines diarios y semanales para recibir las últimas actualizaciones y contenido exclusivo sobre la cobertura de inteligencia artificial líder en la industria. Más información
OctoTools , una nueva plataforma de código abierto lanzada por científicos de la Universidad de Stanford, puede potenciar los modelos de lenguaje de gran tamaño (LLM) para tareas de razonamiento al dividir las tareas en subunidades y mejorar los modelos con herramientas. Si bien el uso de herramientas ya se ha convertido en una aplicación importante de los LLM, OctoTools hace que estas capacidades sean mucho más accesibles al eliminar las barreras técnicas y permitir que los desarrolladores y las empresas amplíen una plataforma con sus propias herramientas y flujos de trabajo.
Los experimentos muestran que OctoTools supera a los métodos de solicitud clásicos y otros marcos de aplicación LLM, lo que lo convierte en una herramienta prometedora para usos del mundo real de modelos de IA.
Los estudiantes de máster suelen tener dificultades con tareas de razonamiento que implican múltiples pasos, descomposición lógica o conocimiento especializado del dominio. Una solución es externalizar pasos específicos de la solución a herramientas externas como calculadoras, intérpretes de código, motores de búsqueda o herramientas de procesamiento de imágenes. En este escenario, el modelo se centra en la planificación de nivel superior mientras que el cálculo y el razonamiento reales se realizan a través de las herramientas.
Sin embargo, el uso de herramientas tiene sus propios desafíos. Por ejemplo, los LLM clásicos suelen requerir una formación sustancial o un aprendizaje en pocas oportunidades con datos seleccionados para adaptarse a nuevas herramientas y, una vez ampliados, se limitarán a dominios y tipos de herramientas específicos.
La selección de herramientas también sigue siendo un problema. Los LLM pueden llegar a ser buenos en el uso de una o varias herramientas, pero cuando una tarea requiere el uso de varias, pueden confundirse y tener un mal desempeño.

OctoTools aborda estos problemas a través de un marco de trabajo de agentes que no requiere entrenamiento y que puede orquestar múltiples herramientas sin necesidad de ajustar los modelos. OctoTools utiliza un enfoque modular para abordar las tareas de planificación y razonamiento y puede utilizar cualquier LLM de propósito general como su columna vertebral.
Entre los componentes clave de OctoTools se encuentran las “tarjetas de herramientas”, que actúan como contenedores de las herramientas que puede utilizar el sistema, como los intérpretes de código Python y las API de búsqueda web. Las tarjetas de herramientas incluyen metadatos como formatos de entrada y salida, limitaciones y mejores prácticas para cada herramienta. Los desarrolladores pueden agregar sus propias tarjetas de herramientas al marco para adaptarlas a sus aplicaciones.
Cuando se introduce un nuevo mensaje en OctoTools, un módulo de “planificación” utiliza el módulo LLM principal para generar un plan de alto nivel que resume el objetivo, analiza las habilidades requeridas, identifica las herramientas relevantes e incluye consideraciones adicionales para la tarea. El planificador determina un conjunto de subobjetivos que el sistema debe alcanzar para realizar la tarea y los describe en un plan de acción basado en texto.
Para cada paso del plan, un módulo “predictor de acciones” refina el subobjetivo para especificar la herramienta necesaria para lograrlo y asegurarse de que sea ejecutable y verificable.
Una vez que el plan está listo para ejecutarse, un “generador de comandos” asigna el plan basado en texto a código Python que invoca las herramientas especificadas para cada subobjetivo y luego pasa el comando al “ejecutor de comandos”, que ejecuta el comando en un entorno Python. Los resultados de cada paso son validados por un módulo “verificador de contexto” y el resultado final es consolidado por un “resumidor de soluciones”.

“Al separar la planificación estratégica de la generación de comandos, OctoTools reduce los errores y aumenta la transparencia, haciendo que el sistema sea más confiable y más fácil de mantener”, escriben los investigadores.
OctoTools también utiliza un algoritmo de optimización para seleccionar el mejor subconjunto de herramientas para cada tarea. Esto ayuda a evitar sobrecargar el modelo con herramientas irrelevantes.
Existen varios marcos para crear aplicaciones LLM y sistemas de agentes, incluidos Microsoft AutoGen , LangChain y la “ llamada de funciones ” de la API OpenAI. OctoTools supera a estas plataformas en tareas que requieren razonamiento y uso de herramientas, según sus desarrolladores.

Los investigadores probaron todos los marcos en varios puntos de referencia para razonamiento visual, matemático y científico, así como para tareas de conocimiento médico y de agente. OctoTools logró una mejora de precisión promedio del 10,6 % en comparación con AutoGen, del 7,5 % en comparación con GPT-Functions y del 7,3 % en comparación con LangChain al utilizar las mismas herramientas. Según los investigadores, la razón del mejor rendimiento de OctoTools es su distribución superior del uso de la herramienta y la descomposición adecuada de la consulta en subobjetivos.
OctoTools ofrece a las empresas una solución práctica para utilizar LLM en tareas complejas. Su integración de herramientas extensibles ayudará a superar las barreras existentes para crear aplicaciones avanzadas de razonamiento de IA. Los investigadores han publicado el código de OctoTools en GitHub .
Si desea impresionar a su jefe, VB Daily lo tiene cubierto. Le brindamos información exclusiva sobre lo que las empresas están haciendo con la IA generativa, desde cambios regulatorios hasta implementaciones prácticas, para que pueda compartir información y obtener el máximo retorno de la inversión.
Lea nuestra Política de privacidad
Gracias por suscribirse. Vea más boletines de VB aquí .
Se produjo un error.

venturebeat