У ИИ все еще есть проблема галлюцинаций: как MongoDB стремится решить ее с помощью усовершенствованных реранжировщиков и моделей встраивания

Подпишитесь на наши ежедневные и еженедельные рассылки, чтобы получать последние обновления и эксклюзивный контент о ведущих в отрасли материалах об ИИ. Узнать больше
Чтобы получить наилучший возможный результат от запроса ИИ, организациям необходимы наилучшие возможные данные.
Ответ, который пришлось преодолеть многим организациям, чтобы преодолеть эту проблему, — это генерация дополненной поисковой информации (RAG). С RAG результаты основываются на данных из базы данных. Однако, как оказалось, не все RAG одинаковы, и оптимизация базы данных для получения наилучших возможных результатов может оказаться сложной задачей.
Поставщик баз данных MongoDB не новичок в мире ИИ или RAG. База данных, названная в честь компании, уже используется для RAG, и MongoDB также запустила инициативы по разработке приложений ИИ . Хотя компания и ее пользователи — например, медицинский гигант Novo Nordisk — добились успеха с ИИ-генерацией, предстоит сделать еще больше.
В частности, галлюцинации и точность продолжают оставаться проблемой, удерживающей некоторые организации от внедрения искусственного интеллекта в производство. С этой целью MongoDB сегодня объявила о приобретении частной компании Voyage AI , которая разрабатывает передовые модели встраивания и извлечения. Voyage привлекла $20 млн финансирования в октябре 2024 года в раунде, поддержанном гигантом облачных данных Snowflake. Это приобретение принесет экспертизу Voyage AI в области встраивания генерации и переранжирования — критически важных компонентов для поиска и извлечения на основе ИИ — непосредственно в платформу базы данных MongoDB.
«За последний год, особенно когда организации пытались придумать, как они могут создавать приложения на базе ИИ, становилось все более очевидным, что качество и надежность приложений, которые они создают, или их отсутствие, становятся одним из препятствий для применения ИИ в критически важных сценариях использования», — рассказал VentureBeat директор по продукции MongoDB Сахир Азам.
Основная идея RAG заключается в том, что вместо того, чтобы просто полагаться на базу знаний из обученных данных, механизм искусственного интеллекта может получать обоснованные данные из базы данных.
Создание высокоточного RAG — довольно сложная задача, и все еще существует потенциальный риск галлюцинаций — проблема, с которой сталкиваются MongoDB и ее пользователи. Хотя Азам отказался привести какой-либо конкретный пример или инцидент, когда gen AI RAG подвел пользователя, он отметил, что точность всегда вызывает беспокойство.
Повышение точности и уменьшение галлюцинаций включает в себя несколько шагов. Первый — улучшение качества извлечения (буква «R» в RAG).
«Во многих случаях качество поиска недостаточно хорошее», — сказал VentureBeat Тенгю Ма, основатель и генеральный директор Voyage AI. «На этапе поиска, если они не извлекают релевантную информацию, то поиск не очень полезен, и большая языковая модель (LLM) галлюцинирует, потому что ей приходится угадывать некий контекст».
Модели Voyage AI, которые теперь являются частью MongoDB, помогают улучшить RAG в нескольких ключевых направлениях:
- Модели и реранжировщики, ориентированные на определенную область: они обучаются на больших объемах неструктурированных данных из определенных областей, что позволяет им лучше понимать терминологию и семантику этих областей.
- Настройка и тонкая настройка: пользователи могут настраивать механизм извлечения для уникальных наборов данных и вариантов использования.

MongoDB — не первый и не единственный поставщик, осознавший необходимость и ценность высокооптимизированной технологии встраивания и повторного ранжирования. В конце концов, это одна из причин, по которой Snowflake инвестировала в Voyage AI и использует модели этой компании.
Важно отметить, что даже после приобретения MongoDB модели Voyage AI будут по-прежнему доступны Snowflake и другим пользователям Voyage AI. Главное отличие в том, что Voyage AI теперь будет все больше интегрироваться в платформы баз данных MongoDB.
Прямая интеграция расширенных моделей встраивания в базу данных — это подход, используемый и другими конкурирующими поставщиками баз данных. Еще в июне 2024 года DataStax анонсировала собственную технологию RAGStack , которая объединяет расширенные модели встраивания и извлечения.
Азам утверждал, что MongoDB немного отличается. Во-первых, это операционная база данных, а не аналитическая. Кроме того, в отличие от простого предоставления информации и анализа, MongoDB помогает проводить транзакции и операции в реальном мире. MongoDB также является так называемой «базой данных модели документа», которая имеет структуру, отличную от традиционной реляционной базы данных. Эта структура не опирается на столбцы и таблицы, которые не особенно хороши для представления информации о неструктурированных данных (критический элемент для приложений ИИ).
«Мы являемся единственной технологией баз данных, которая объединяет управление метаданными об информации клиента, операциях и транзакциях, которые являются сердцем того, что происходит в бизнесе, а также основой для поиска — и все это в рамках единой системы», — сказал Азам.
Потребность в высокоточных моделях внедрения и извлечения данных еще больше возрастает из-за развития агентного ИИ.
«Агентному ИИ по-прежнему нужны методы поиска, поскольку агент не может принимать решения вне контекста», — сказал Ма. «Иногда даже в одном решении фактически используется несколько компонентов поиска».
Ма отметил, что Voyage AI в настоящее время работает над конкретными моделями, которые в значительной степени адаптированы для случаев использования агентского ИИ. Он объяснил, что агентский ИИ может использовать различные типы запросов, которые все еще могут выиграть от большей оптимизации.
Поскольку ИИ-ген все больше переходит в операционные сценарии использования, необходимость устранения риска галлюцинаций становится явно первостепенной. Хотя MongoDB добилась успеха с ИИ-геном, Азам ожидает, что интеграция Voyage AI откроет новые критически важные сценарии использования.
«Если теперь мы можем сказать: «Эй, мы можем обеспечить точность ваших приложений, значительно превышающую 90%, тогда как сегодня точность результатов может достигать лишь 30 или 60%», то возможности применения ИИ в своих программных приложениях расширяются», — сказал Азам.
Если вы хотите произвести впечатление на своего босса, VB Daily вам поможет. Мы даем вам внутреннюю информацию о том, что компании делают с генеративным ИИ, от изменений в регулировании до практических развертываний, чтобы вы могли поделиться идеями для максимальной окупаемости инвестиций.
Ознакомьтесь с нашей Политикой конфиденциальности
Спасибо за подписку. Ознакомьтесь с другими рассылками VB здесь .
Произошла ошибка.

venturebeat