Destylacja może sprawić, że modele AI będą mniejsze i tańsze

Oryginalna wersja tej historii ukazała się w czasopiśmie Quanta Magazine .
Chińska firma DeepSeek, zajmująca się sztuczną inteligencją, wypuściła na początku tego roku chatbota o nazwie R1, który wzbudził ogromne zainteresowanie. Większość z nich koncentrowała się na fakcie, że stosunkowo mała i nieznana firma ogłosiła, że stworzyła chatbota, który dorównywał wydajnością chatbotom najsłynniejszych firm z branży sztucznej inteligencji na świecie, ale zużywał ułamek mocy obliczeniowej i był tańszy. W rezultacie akcje wielu zachodnich firm technologicznych gwałtownie spadły; Nvidia, która sprzedaje układy scalone obsługujące wiodące modele sztucznej inteligencji, straciła na wartości akcji w ciągu jednego dnia więcej niż jakakolwiek inna firma w historii.
Część tej uwagi wiązała się z elementem oskarżenia. Źródła twierdziły , że DeepSeek uzyskał , bez pozwolenia, wiedzę z zastrzeżonego modelu o1 firmy OpenAI, stosując technikę zwaną destylacją. Większość doniesień medialnych przedstawiała tę możliwość jako szok dla branży sztucznej inteligencji, sugerując, że DeepSeek odkrył nowy, bardziej efektywny sposób tworzenia sztucznej inteligencji.
Destylacja, zwana również destylacją wiedzy, jest powszechnie stosowanym narzędziem w sztucznej inteligencji (AI), przedmiotem badań informatycznych od dekady i narzędziem, z którego korzystają duże firmy technologiczne we własnych modelach. „Destylacja to jedno z najważniejszych narzędzi, jakimi dysponują obecnie firmy, aby zwiększać wydajność modeli” – powiedział Enric Boix-Adsera , badacz destylacji w Wharton School na Uniwersytecie Pensylwanii.
Ciemna wiedzaPomysł destylacji narodził się w 2015 roku wraz z publikacją trzech badaczy z Google, w tym Geoffreya Hintona, tak zwanego ojca chrzestnego sztucznej inteligencji i laureata Nagrody Nobla z 2024 roku. W tamtym czasie badacze często uruchamiali zespoły modeli – „wiele modeli sklejonych ze sobą”, powiedział Oriol Vinyals , główny naukowiec w Google DeepMind i jeden z autorów publikacji – w celu poprawy wydajności. „Ale uruchamianie wszystkich modeli równolegle było niezwykle uciążliwe i kosztowne”, powiedział Vinyals. „Byliśmy zaintrygowani pomysłem destylacji tego w jednym modelu”.
Naukowcy sądzili, że mogą poczynić postępy, usuwając istotny słaby punkt algorytmów uczenia maszynowego: błędne odpowiedzi były uznawane za równie złe, niezależnie od tego, jak bardzo były błędne. Na przykład w modelu klasyfikacji obrazów „pomylenie psa z lisem było karane tak samo, jak pomylenie psa z pizzą” – powiedział Vinyals. Naukowcy podejrzewali, że modele zespołowe rzeczywiście zawierały informacje o tym, które błędne odpowiedzi były mniej złe niż inne. Być może mniejszy model „ucznia” mógłby wykorzystać informacje z dużego modelu „nauczyciela”, aby szybciej zrozumieć kategorie, do których miał sortować obrazy. Hinton nazwał to „ciemną wiedzą”, przywołując analogię do kosmologicznej ciemnej materii.
Po omówieniu tej możliwości z Hintonem, Vinyals opracował sposób, aby model dużego nauczyciela przekazywał więcej informacji o kategoriach obrazów mniejszemu modelowi ucznia. Kluczem było skupienie się na „miękkich celach” w modelu nauczyciela – gdzie przypisuje on prawdopodobieństwo każdej możliwości, zamiast sztywnych odpowiedzi typu „to albo tamto”. Jeden z modeli, na przykład, obliczył , że istnieje 30% szans, że obraz przedstawia psa, 20%, że przedstawia kota, 5%, że przedstawia krowę i 0,5%, że przedstawia samochód. Wykorzystując te prawdopodobieństwa, model nauczyciela skutecznie pokazał uczniowi, że psy są dość podobne do kotów, nie różnią się tak bardzo od krów i zupełnie różnią się od samochodów. Naukowcy odkryli, że ta informacja pomoże uczniowi nauczyć się skuteczniej identyfikować obrazy psów, kotów, krów i samochodów. Duży, skomplikowany model można zredukować do uproszczonego, z niewielką utratą dokładności.
Eksplozywny wzrostPomysł nie od razu odniósł sukces. Artykuł został odrzucony na konferencji, a Vinyals, zniechęcony, zajął się innymi tematami. Destylacja nastąpiła jednak w ważnym momencie. Mniej więcej w tym czasie inżynierowie odkryli, że im więcej danych treningowych wprowadzili do sieci neuronowych, tym bardziej efektywne stawały się te sieci. Rozmiar modeli wkrótce gwałtownie wzrósł, podobnie jak ich możliwości , ale koszty ich eksploatacji rosły proporcjonalnie do ich rozmiaru.
Wielu badaczy zwróciło się ku destylacji jako sposobowi na tworzenie mniejszych modeli. Na przykład w 2018 roku badacze Google przedstawili potężny model językowy o nazwie BERT , którego firma wkrótce zaczęła używać do analizy miliardów wyszukiwań w internecie. Jednak BERT był duży i kosztowny w utrzymaniu, więc w następnym roku inni programiści destylowali mniejszą wersję o sensownej nazwie DistilBERT, która znalazła szerokie zastosowanie w biznesie i badaniach. Destylacja stopniowo stawała się wszechobecna i jest obecnie oferowana jako usługa przez firmy takie jak Google , OpenAI i Amazon . Oryginalny artykuł na temat destylacji, nadal opublikowany jedynie na serwerze preprintów arxiv.org, został cytowany ponad 25 000 razy .
Biorąc pod uwagę, że destylacja wymaga dostępu do wnętrza modelu nauczyciela, osoba trzecia nie jest w stanie potajemnie wydestylować danych z modelu o zamkniętym kodzie źródłowym, takiego jak o1 firmy OpenAI, jak przypuszczano w przypadku DeepSeek. Mimo to model ucznia mógłby się wiele nauczyć od modelu nauczyciela, zadając mu określone pytania i wykorzystując odpowiedzi do trenowania własnych modeli – niemal sokratejskie podejście do destylacji.
Tymczasem inni badacze wciąż znajdują nowe zastosowania. W styczniu laboratorium NovaSky na Uniwersytecie Kalifornijskim w Berkeley wykazało, że destylacja dobrze sprawdza się w trenowaniu modeli rozumowania łańcuchowego , które wykorzystują wieloetapowe „myślenie” do lepszego odpowiadania na skomplikowane pytania. Laboratorium twierdzi, że trenowanie w pełni otwartego modelu Sky-T1 kosztowało mniej niż 450 dolarów, a wyniki były podobne do znacznie większego modelu otwartego. „Byliśmy szczerze zaskoczeni, jak dobrze destylacja sprawdziła się w tym kontekście” – powiedział Dacheng Li, doktorant z Berkeley i współkierownik zespołu NovaSky. „Destylacja jest fundamentalną techniką w sztucznej inteligencji”.
Oryginalny artykuł przedrukowano za zgodą czasopisma Quanta Magazine , niezależnej pod względem redakcyjnym publikacji Fundacji Simonsa , której misją jest pogłębianie wiedzy naukowej poprzez relacjonowanie postępów badań i trendów w matematyce, fizyce i naukach biologicznych.
wired