Дистилляция может сделать модели ИИ меньше и дешевле

Оригинальная версия этой истории была опубликована в журнале Quanta Magazine .
Ранее в этом году китайская компания DeepSeek, занимающаяся разработкой ИИ, выпустила чат-бот R1, который привлёк огромное внимание. В основном, внимание было сосредоточено на заявлении относительно небольшой и неизвестной компании о создании чат-бота, который по производительности не уступает чат-ботам самых известных мировых компаний в области ИИ, но при этом использует лишь малую долю вычислительной мощности и стоимости. В результате акции многих западных технологических компаний резко упали; акции Nvidia, продающей чипы для ведущих моделей ИИ, потеряли за один день больше акций, чем любая другая компания в истории.
В этом внимании присутствовал элемент обвинения. Источники утверждали , что DeepSeek без разрешения получила информацию из собственной модели OpenAI o1, используя метод, известный как дистилляция. В новостях это событие часто преподносилось как шок для индустрии ИИ, подразумевая, что DeepSeek открыла новый, более эффективный способ создания ИИ.
Однако дистилляция, также называемая дистилляцией знаний, — широко используемый инструмент в области искусственного интеллекта, предмет исследований в области компьютерных наук, начавшийся десять лет назад, и инструмент, который крупные технологические компании используют в своих моделях. «Дистилляция — один из важнейших инструментов, доступных компаниям сегодня для повышения эффективности моделей», — сказал Энрик Буа-Адсера , исследователь, изучающий дистилляцию в Школе бизнеса Уортона Пенсильванского университета.
Темные знанияИдея дистилляции зародилась в 2015 году в статье трёх исследователей из Google, включая Джеффри Хинтона, так называемого крестного отца ИИ и лауреата Нобелевской премии 2024 года. В то время исследователи часто запускали ансамбли моделей — «множество моделей, склеенных вместе», — сказал Ориол Виньялс , ведущий научный сотрудник Google DeepMind и один из авторов статьи, — чтобы улучшить их производительность. «Но было невероятно сложно и дорого запускать все модели параллельно», — сказал Виньялс. «Нас заинтриговала идея объединить это в одну модель».
Исследователи полагали, что смогут добиться прогресса, устранив заметное слабое место алгоритмов машинного обучения: все неправильные ответы считались одинаково плохими, независимо от степени их ошибочности. Например, в модели классификации изображений «перепутывание собаки с лисой наказывалось так же, как перепутывание собаки с пиццей», — сказал Виньялс. Исследователи подозревали, что ансамблевые модели действительно содержат информацию о том, какие неправильные ответы были менее плохими, чем другие. Возможно, меньшая модель «ученика» могла бы использовать информацию из большей модели «учителя», чтобы быстрее усваивать категории, по которым она должна сортировать изображения. Хинтон назвал это «тёмным знанием», проведя аналогию с космологической тёмной материей.
Обсудив эту возможность с Хинтоном, Виньялс разработал способ заставить большую модель учителя передавать больше информации о категориях изображений меньшей модели ученика. Ключевым моментом было сосредоточение на «мягких целях» в модели учителя, где она присваивает вероятности каждой возможности, а не даёт твёрдые ответы. Одна модель, например, вычислила , что существует 30% вероятность того, что на изображении изображена собака, 20% — что на нём изображена кошка, 5% — что на нём изображена корова, и 0,5% — что на нём изображен автомобиль. Используя эти вероятности, модель учителя фактически показала ученику, что собаки очень похожи на кошек, не так уж сильно отличаются от коров и существенно отличаются от автомобилей. Исследователи обнаружили, что эта информация поможет ученику научиться более эффективно распознавать изображения собак, кошек, коров и автомобилей. Большую, сложную модель можно было упростить до более простой практически без потери точности.
Взрывной ростИдея не сразу стала хитом. Доклад был отклонен на конференции, и Виньялс, обескураженный, обратился к другим темам. Но кульминация пришлась на важный момент. Примерно в это же время инженеры обнаружили, что чем больше обучающих данных они загружают в нейронные сети, тем эффективнее они становятся. Размеры моделей вскоре резко возросли, как и их возможности , но стоимость их поддержки росла пропорционально их размеру.
Многие исследователи обратились к дистилляции как к способу создания более мелких моделей. Например, в 2018 году исследователи Google представили мощную языковую модель под названием BERT , которую компания вскоре начала использовать для анализа миллиардов веб-поисков. Но BERT был большим и дорогим в использовании, поэтому в следующем году другие разработчики дистиллировали уменьшенную версию, разумно названную DistilBERT, которая стала широко использоваться в бизнесе и исследованиях. Постепенно дистилляция стала повсеместным явлением, и теперь ее предлагают в качестве услуги такие компании, как Google , OpenAI и Amazon . Оригинальная статья о дистилляции, до сих пор опубликованная только на сервере препринтов arxiv.org, к настоящему времени процитирована более 25 000 раз .
Учитывая, что для извлечения данных требуется доступ к внутренней структуре модели учителя, третья сторона не сможет скрытно извлечь данные из модели с закрытым исходным кодом, например, o1 от OpenAI, как, как предполагалось, сделал DeepSeek. Тем не менее, модель ученика всё равно может многому научиться у модели учителя, просто задавая учителю определённые вопросы и используя ответы для обучения своих собственных моделей — почти сократовский подход к извлечению данных.
Тем временем другие исследователи продолжают находить новые приложения. В январе лаборатория NovaSky в Калифорнийском университете в Беркли продемонстрировала, что дистилляция хорошо подходит для обучения моделей рассуждений на основе цепочки мыслей , которые используют многошаговое «мышление» для более точного ответа на сложные вопросы. В лаборатории утверждают, что обучение модели Sky-T1 с полностью открытым исходным кодом обошлось менее чем в 450 долларов, и она достигла результатов, схожих с результатами гораздо более крупной модели с открытым исходным кодом. «Мы были искренне удивлены тем, насколько хорошо дистилляция сработала в этой ситуации», — сказал Дачэн Ли, докторант из Беркли и соруководитель команды NovaSky. «Дистилляция — фундаментальный метод в области искусственного интеллекта».
Оригинальная история перепечатана с разрешения журнала Quanta Magazine , редакционно-независимого издания Фонда Саймонса , миссия которого заключается в повышении уровня понимания науки среди общественности путем освещения научных разработок и тенденций в области математики, физических и биологических наук.
wired