Toen Meta in februari 2023 LLaMA uitbracht — per ongeluk gelekt, officieel alleen voor onderzoekers — veranderde het AI-landschap voorgoed. Voor het eerst had de open source community een fundament om op voort te bouwen. Wat volgde was een ongekende acceleratie.
Van speeltje naar concurrent
In maart 2023 scoorde het beste open source model — LLaMA 65B — zo'n 64% op de MMLU-benchmark, een veelgebruikte maatstaf voor kennisgebaseerd redeneren. GPT-4 stond op dat moment op 86,4%. Een kloof van ruim 22 procentpunt.
Twee jaar later, begin 2025, scoort DeepSeek R1 90,8% op diezelfde benchmark — terwijl OpenAI's o1 op 91,8% staat. De kloof is van 22 procentpunt gekrompen tot slechts 1 punt. Op sommige benchmarks scoort open source zelfs hoger.
Open source vs. gesloten modellen — MMLU benchmark
MMLU benchmark scores van topmodellen per categorie (2023–2025)
De doorbraken van 2024
Het afgelopen jaar heeft een reeks doorbraken opgeleverd die de verhoudingen fundamenteel hebben verschoven:
- →Llama 3.1 405B (Meta, juli 2024) was het eerste open source model dat op MMLU-niveau GPT-4 evenaarde. Met 405 miljard parameters bewijst het dat schaal niet exclusief is voor Big Tech.
- →Mixtral en Mistral Large (Mistral AI) lieten zien dat een Frans bedrijf met een fractie van de middelen modellen kan bouwen die concurreren met de Amerikaanse giganten.
- →DeepSeek V3 en R1 (DeepSeek, dec 2024–jan 2025) scoorden op veel benchmarks op het niveau van GPT-4o en Claude 3.5 Sonnet — en dat als volledig open source modellen met openbare gewichten.
- →Qwen 2.5 72B (Alibaba) werd een favoriet in de community voor zijn sterke meertalige prestaties en efficiënte architectuur.
Kleiner maar krachtiger
Misschien nog indrukwekkender dan de grote modellen is de vooruitgang bij kleinere varianten. Modellen als Phi-3 Mini (3.8B), Gemma 2 9B en Llama 3.2 3B presteren nu op het niveau waar GPT-3.5 twee jaar geleden stond — en ze draaien op een enkele GPU met 8 GB VRAM.
Dit betekent concreet: je kunt vandaag een model op je eigen laptop draaien dat betere antwoorden geeft dan de betaalde ChatGPT van begin 2023. Volledig offline, zonder abonnement, en met volledige privacy.
De ranglijsten spreken voor zich
Op de LMSYS Chatbot Arena — een platform waar gebruikers blind twee modellen vergelijken — staan open source modellen inmiddels in de top 10 tussen gesloten giganten. DeepSeek R1 haalt een Elo-score van ~1358 — hoger dan Claude 3.5 Sonnet en vergelijkbaar met GPT-4o.
Ook op de Open LLM Leaderboard van Hugging Face zie je de trend: elk kwartaal verschijnt er een nieuw model dat records breekt. De competitie tussen Meta, Mistral, DeepSeek, Alibaba en de community drijft de kwaliteit in een ongekend tempo omhoog.
Top open source modellen — begin 2025
| Model | Parameters | MMLU | Min. VRAM | Sterk in |
|---|---|---|---|---|
| DeepSeek R1 | 671B (MoE) | 90,8% | 80+ GB | Redeneren, wiskunde, coderen |
| Llama 3.1 405B | 405B | 87,3% | 80+ GB | Algemeen, meertalig |
| Qwen 2.5 72B | 72B | 86,1% | 48 GB | Meertalig, coderen |
| Llama 3.3 70B | 70B | 86,0% | 48 GB | Instructies volgen, chat |
| Gemma 2 27B | 27B | 78,7% | 16 GB | Compacte kracht, efficiënt |
| Phi-3 Mini | 3.8B | 75,7% | 4 GB | Redeneren op kleine hardware |
Wat betekent dit voor jou?
De boodschap is helder: je hebt geen duur abonnement meer nodig voor krachtige AI. Met een fatsoenlijke GPU en gratis software als Ollama draai je modellen die twee jaar geleden science fiction waren.
En het gaat alleen maar sneller. Elke maand verschijnen er nieuwe modellen die efficiënter zijn, beter presteren en op minder hardware draaien. De trend is onmiskenbaar: open source AI is niet langer een compromis — het is een volwaardig alternatief.
Zelf aan de slag?
Op onze homepagina vind je een stap-voor-stap handleiding om vandaag nog je eerste lokale AI-model te draaien.