Nowe modele Phi-4 AI firmy Microsoft oferują dużą wydajność w małych obudowach

Dołącz do naszych codziennych i cotygodniowych newsletterów, aby otrzymywać najnowsze aktualizacje i ekskluzywne treści na temat wiodących w branży relacji z AI. Dowiedz się więcej
Firma Microsoft wprowadziła nową klasę wysoce wydajnych modeli AI, które przetwarzają tekst, obrazy i mowę jednocześnie, wymagając znacznie mniejszej mocy obliczeniowej niż istniejące systemy. Nowe modele Phi-4 , wydane dzisiaj, stanowią przełom w rozwoju małych modeli językowych (SLM), które zapewniają możliwości wcześniej zarezerwowane dla znacznie większych systemów AI.
Według raportu technicznego firmy Microsoft , Phi-4-Multimodal , model z zaledwie 5,6 miliardami parametrów, i Phi-4-Mini , z 3,8 miliardami parametrów, przewyższają podobnej wielkością komputery konkurencji, a w przypadku niektórych zadań ich wydajność dorównuje lub przewyższa modele dwukrotnie większe.
„Te modele zostały zaprojektowane, aby wyposażyć programistów w zaawansowane możliwości AI” — powiedział Weizhu Chen, wiceprezes ds. Generative AI w Microsoft. „Phi-4-multimodal, dzięki swojej zdolności do jednoczesnego przetwarzania mowy, obrazu i tekstu, otwiera nowe możliwości tworzenia innowacyjnych i kontekstowo zależnych aplikacji”.
To osiągnięcie techniczne pojawia się w momencie, gdy przedsiębiorstwa coraz częściej poszukują modeli sztucznej inteligencji, które mogą działać na standardowym sprzęcie lub „na krawędzi ” — bezpośrednio na urządzeniach, a nie w centrach danych w chmurze — w celu zmniejszenia kosztów i opóźnień przy jednoczesnym zachowaniu prywatności danych.
Cechą wyróżniającą Phi-4-Multimodal jest nowatorska technika „ mieszanki LoRA ”, która umożliwia obsługę tekstu, obrazów i mowy w ramach jednego modelu.
„Wykorzystując mieszankę LoRA, Phi-4-Multimodal rozszerza możliwości multimodalne, minimalizując jednocześnie zakłócenia między modalnościami” — stwierdza artykuł badawczy . „To podejście umożliwia bezproblemową integrację i zapewnia spójną wydajność zadań obejmujących tekst, obrazy i mowę/dźwięk”.
Dzięki tej innowacji model zachowuje swoje silne możliwości językowe, dodając jednocześnie rozpoznawanie obrazu i mowy, bez pogorszenia wydajności, które często występuje, gdy modele są dostosowywane do wielu typów danych wejściowych.
Model ten zajął pierwsze miejsce w tabeli liderów Hugging Face OpenASR ze wskaźnikiem błędów słownych wynoszącym 6,14%, przewyższając specjalistyczne systemy rozpoznawania mowy, takie jak WhisperV3 . Wykazuje również konkurencyjną wydajność w zadaniach wizualnych, takich jak rozumowanie matematyczne i naukowe z obrazami.
Pomimo kompaktowych rozmiarów Phi-4-Mini wykazuje wyjątkowe możliwości w zadaniach opartych na tekście. Microsoft informuje, że model „przewyższa podobne modele o podobnych rozmiarach i dorównuje modelom dwa razy większym” w różnych testach porównawczych rozumienia języka.
Szczególnie godna uwagi jest wydajność modelu w zadaniach matematycznych i kodowania. Zgodnie z dokumentem badawczym „Phi-4-Mini składa się z 32 warstw transformatora o rozmiarze ukrytego stanu 3072” i obejmuje uwagę zapytań grupowych w celu optymalizacji wykorzystania pamięci do generowania długiego kontekstu.
W teście matematycznym GSM-8K Phi-4-Mini uzyskał wynik 88,6%, przewyższając większość modeli o 8 miliardach parametrów, natomiast w teście MATH osiągnął wynik 64%, znacznie wyższy niż konkurenci o podobnych rozmiarach.
„W przypadku benchmarku Math model przewyższa modele o podobnej wielkości z dużymi marżami, czasami przekraczającymi 20 punktów. Przewyższa nawet wyniki modeli dwa razy większych” — zauważa raport techniczny.
Capacity , system odpowiedzi AI, który pomaga organizacjom ujednolicać różne zestawy danych, wykorzystał już rodzinę Phi do zwiększenia wydajności i dokładności swojej platformy.
Steve Frederickson, szef działu produktów w Capacity, powiedział w oświadczeniu : „Od naszych początkowych eksperymentów, tym, co naprawdę zrobiło na nas wrażenie w Phi, była jego niezwykła dokładność i łatwość wdrażania, nawet przed dostosowaniem. Od tego czasu byliśmy w stanie zwiększyć zarówno dokładność, jak i niezawodność, jednocześnie zachowując opłacalność i skalowalność, które ceniliśmy od samego początku”.
Firma Capacity odnotowała 4,2-krotną oszczędność kosztów w porównaniu z konkurencyjnymi procesami pracy, przy jednoczesnym osiągnięciu takich samych lub lepszych wyników jakościowych dla zadań wstępnego przetwarzania.
Przez lata rozwój AI był napędzany jedną filozofią: większe znaczy lepsze. Więcej parametrów, większe modele, większe wymagania obliczeniowe. Jednak modele Phi-4 firmy Microsoft podważają to założenie, udowadniając, że moc nie polega tylko na skali — chodzi o wydajność.
Phi-4-Multimodal i Phi-4-Mini nie są przeznaczone do centrów danych gigantów technologicznych, ale do rzeczywistego świata — gdzie moc obliczeniowa jest ograniczona, kwestie prywatności są najważniejsze, a sztuczna inteligencja musi działać bezproblemowo bez stałego połączenia z chmurą. Te modele są małe, ale mają dużą wagę. Phi-4-Multimodal integruje przetwarzanie mowy, obrazu i tekstu w jednym systemie bez poświęcania dokładności, podczas gdy Phi-4-Mini zapewnia wydajność matematyczną, kodowania i rozumowania porównywalną z modelami dwa razy większymi.
Nie chodzi tylko o zwiększenie wydajności AI; chodzi o zwiększenie jej dostępności. Microsoft przygotował Phi-4 do powszechnego przyjęcia, udostępniając go za pośrednictwem Azure AI Foundry , Hugging Face i Nvidia API Catalog . Cel jest jasny: AI, która nie jest zamknięta w drogim sprzęcie lub ogromnej infrastrukturze, ale może działać na standardowych urządzeniach, na skraju sieci i w branżach, w których moc obliczeniowa jest ograniczona.
Masaya Nishimaki, dyrektor japońskiej firmy AI Headwaters Co., Ltd., widzi ten wpływ na własne oczy. „Edge AI wykazuje wyjątkową wydajność nawet w środowiskach z niestabilnymi połączeniami sieciowymi lub tam, gdzie poufność jest najważniejsza” — powiedział w oświadczeniu . Oznacza to AI, która może działać w fabrykach, szpitalach, pojazdach autonomicznych — miejscach, w których wymagana jest inteligencja w czasie rzeczywistym, ale gdzie tradycyjne modele oparte na chmurze zawodzą.
W swej istocie Phi-4 reprezentuje zmianę myślenia. AI nie jest tylko narzędziem dla tych, którzy mają największe serwery i najgłębsze kieszenie. To zdolność, która, jeśli zostanie dobrze zaprojektowana, może działać wszędzie i dla każdego. Najbardziej rewolucyjną rzeczą w Phi-4 nie jest to, co może zrobić — ale to, gdzie może to zrobić.
Jeśli chcesz zaimponować swojemu szefowi, VB Daily ma dla Ciebie rozwiązanie. Dajemy Ci wewnętrzny wgląd w to, co firmy robią z generatywną sztuczną inteligencją, od zmian regulacyjnych po praktyczne wdrożenia, dzięki czemu możesz dzielić się spostrzeżeniami, aby uzyskać maksymalny zwrot z inwestycji.
Przeczytaj naszą Politykę prywatności
Dziękujemy za subskrypcję. Sprawdź więcej newsletterów VB tutaj .
Wystąpił błąd.

venturebeat