Selecteer taal

Dutch

Down Icon

Selecteer land

America

Down Icon

QwenLong-L1 lost de uitdaging van lange-context redeneren op die huidige LLM's voor een raadsel stelt

QwenLong-L1 lost de uitdaging van lange-context redeneren op die huidige LLM's voor een raadsel stelt

Abonneer u op onze dagelijkse en wekelijkse nieuwsbrieven voor de laatste updates en exclusieve content over toonaangevende AI-dekking. Lees meer

Alibaba Group heeft QwenLong-L1 geïntroduceerd, een nieuw framework waarmee grote taalmodellen (LLM's) kunnen redeneren over extreem lange invoer. Deze ontwikkeling zou een nieuwe golf van bedrijfsapplicaties kunnen ontsluiten die modellen vereisen om uitgebreide documenten, zoals gedetailleerde bedrijfsdocumenten, lange financiële overzichten of complexe juridische contracten, te begrijpen en er inzichten uit te halen.

Recente ontwikkelingen in grote redeneermodellen (LRM's), met name door middel van reinforcement learning (RL), hebben hun probleemoplossend vermogen aanzienlijk verbeterd. Onderzoek toont aan dat LRM's, wanneer ze getraind worden met RL finetuning, vaardigheden verwerven die vergelijkbaar zijn met menselijk ' slow thinking ', waarbij ze geavanceerde strategieën ontwikkelen om complexe taken aan te pakken.

Deze verbeteringen worden echter vooral gezien wanneer modellen werken met relatief korte stukjes tekst, doorgaans rond de 4.000 tokens. Het vermogen van deze modellen om hun redenering op te schalen naar veel langere contexten (bijvoorbeeld 120.000 tokens) blijft een grote uitdaging. Dergelijke lange redeneringen vereisen een gedegen begrip van de volledige context en de mogelijkheid om meerstapsanalyses uit te voeren. "Deze beperking vormt een aanzienlijke barrière voor praktische toepassingen die interactie met externe kennis vereisen, zoals diepgaand onderzoek, waarbij LRM's informatie uit kennisintensieve omgevingen moeten verzamelen en verwerken", schrijven de ontwikkelaars van QwenLong-L1 in hun paper .

De onderzoekers formaliseren deze uitdagingen in het concept van 'lange-context redeneren (RL)'. In tegenstelling tot korte-context redeneren, dat vaak afhankelijk is van kennis die al in het model is opgeslagen, vereist lange-context redeneren (RL) dat modellen relevante informatie nauwkeurig uit lange inputs halen en onderbouwen. Alleen dan kunnen ze redeneerketens genereren op basis van deze opgenomen informatie.

Het trainen van modellen hiervoor via RL is lastig en resulteert vaak in inefficiënt leren en onstabiele optimalisatieprocessen. Modellen hebben moeite om tot goede oplossingen te komen of verliezen hun vermogen om diverse redeneerpaden te verkennen.

QwenLong-L1 is een reinforcement learning-framework dat is ontworpen om LRM's te helpen de overgang te maken van vaardigheid met korte teksten naar robuuste generalisatie in lange contexten. Het framework verbetert bestaande LRM's met korte contexten via een zorgvuldig gestructureerd, meerfasenproces:

Opwarming Supervised Fine-Tuning (SFT): Het model doorloopt eerst een SFT-fase, waarin het wordt getraind met voorbeelden van lange-contextredeneringen. Deze fase legt een solide basis, waardoor het model informatie uit lange inputs accuraat kan baseren. Het helpt bij het ontwikkelen van fundamentele vaardigheden in het begrijpen van context, het genereren van logische redeneerketens en het extraheren van antwoorden.

Curriculumgestuurde gefaseerde RL: In deze fase wordt het model getraind in meerdere fasen, waarbij de gewenste lengte van de invoerdocumenten geleidelijk toeneemt. Deze systematische, stapsgewijze aanpak helpt het model zijn redeneerstrategieën stabiel aan te passen van kortere naar steeds langere contexten. Het vermijdt de instabiliteit die vaak optreedt wanneer modellen abrupt worden getraind met zeer lange teksten.

Moeilijkheidsbewuste retrospectieve steekproeven: De laatste trainingsfase integreert uitdagende voorbeelden uit de voorgaande trainingsfasen, waardoor het model blijft leren van de moeilijkste problemen. Dit geeft prioriteit aan moeilijke gevallen en moedigt het model aan om meer diverse en complexe redeneerpaden te verkennen.

QwenLong-L1-proces (bron: arXiv)
QwenLong-L1-proces Bron: arXiv

Naast deze gestructureerde training gebruikt QwenLong-L1 ook een specifiek beloningssysteem. Terwijl training voor korte-context redeneertaken vaak gebaseerd is op strikte, op regels gebaseerde beloningen (bijvoorbeeld een correct antwoord op een wiskundeopgave), gebruikt QwenLong-L1 een hybride beloningsmechanisme. Dit combineert een op regels gebaseerde verificatie, die nauwkeurigheid garandeert door te controleren op strikte naleving van correctheidscriteria, met een " LLM-als-rechter ". Dit rechtermodel vergelijkt de semanticiteit van het gegenereerde antwoord met de grondwaarheid, wat zorgt voor meer flexibiliteit en een betere verwerking van de diverse manieren waarop correcte antwoorden kunnen worden geformuleerd bij het werken met lange, genuanceerde documenten.

Het Alibaba-team evalueerde QwenLong-L1 met document-vraag-antwoord (DocQA) als primaire taak. Dit scenario is zeer relevant voor de behoeften van bedrijven, waar AI complexe documenten moet begrijpen om complexe vragen te beantwoorden.

Experimentele resultaten in zeven DocQA-benchmarks met lange context toonden de mogelijkheden van QwenLong-L1 aan. Opvallend was dat het QWENLONG-L1-32B-model (gebaseerd op DeepSeek-R1-Distill-Qwen-32B ) prestaties behaalde die vergelijkbaar waren met Anthropic's Claude-3.7 Sonnet Thinking en beter presteerde dan modellen zoals OpenAI's o3-mini en Qwen3-235B-A22B. Het kleinere QWENLONG-L1-14B-model presteerde ook beter dan Google's Gemini 2.0 Flash Thinking en Qwen3-32B.

Bron: arXiv
Bron: arXiv

Een belangrijke bevinding die relevant is voor toepassingen in de praktijk, is hoe RL-training ervoor zorgt dat het model gespecialiseerd gedrag ontwikkelt voor redeneren in lange contexten. Het artikel merkt op dat modellen die getraind zijn met QwenLong-L1 beter worden in 'grounding' (het koppelen van antwoorden aan specifieke delen van een document), 'subgoal setting' (het afbreken van complexe vragen), 'backtracking' (het herkennen en corrigeren van eigen fouten tijdens het redeneren) en 'verification' (het dubbel controleren van hun antwoorden).

Terwijl een basismodel bijvoorbeeld afgeleid kan raken door irrelevante details in een financieel document of vast kan komen te zitten in een lus van overanalyse van niet-gerelateerde informatie, toonde het met QwenLong-L1 getrainde model aan dat het in staat is tot effectieve zelfreflectie. Het kon deze afleidende details succesvol filteren, onjuiste paden terugdraaien en tot het juiste antwoord komen.

Technieken zoals QwenLong-L1 zouden de bruikbaarheid van AI in het bedrijfsleven aanzienlijk kunnen vergroten. Mogelijke toepassingen zijn onder andere juridische technologie (het analyseren van duizenden pagina's juridische documenten), financiën (diepgaand onderzoek naar jaarverslagen en financiële deponeringen voor risicobeoordeling of investeringsmogelijkheden) en klantenservice (het analyseren van lange klantinteractiegeschiedenissen om beter geïnformeerde ondersteuning te bieden). De onderzoekers hebben de code voor het QwenLong-L1-recept en de gewichten voor de getrainde modellen vrijgegeven.

Dagelijkse inzichten in zakelijke use cases met VB Daily

Wil je indruk maken op je baas? VB Daily helpt je op weg. We geven je inzicht in wat bedrijven doen met generatieve AI, van wetswijzigingen tot praktische implementaties, zodat je inzichten kunt delen voor een maximale ROI.

Lees ons privacybeleid

Bedankt voor uw aanmelding. Bekijk hier meer VB-nieuwsbrieven .

Er is een fout opgetreden.

venturebeat

venturebeat

Vergelijkbaar nieuws

Alle nieuws
Animated ArrowAnimated ArrowAnimated Arrow