Open source modellen via de cloud: gratis of goedkoop zonder eigen hardware

In onze eerdere artikelen bespraken we hoe je AI lokaal draait met Ollama en welke laptops daarvoor geschikt zijn. Maar wat als je hardware niet krachtig genoeg is? Of als je een model met 400 miljard parameters wil proberen zonder €2.500 aan GPU's uit te geven?

Dan zijn er cloud-providers die open source modellen hosten en via een API aanbieden. Dezelfde modellen, dezelfde kwaliteit — maar op hun hardware.

Hoe werkt het?

Het principe is simpel: in plaats van een model op je eigen GPU te laden, stuur je je vraag naar een server die het model al draait. Je krijgt een API-sleutel, en betaalt per gebruik (of het is gratis binnen bepaalde limieten).

Het verschil met diensten als ChatGPT of Claude? Je kiest zelf welk open source model je wilt gebruiken. Je bent niet gebonden aan één aanbieder of één model. En de modellen zijn dezelfde die je ook lokaal kunt draaien — alleen dan op snellere hardware.

De beste providers vergeleken

Groq

groq.com

De snelste optie. Groq draait modellen op eigen LPU-chips (Language Processing Units) die speciaal ontworpen zijn voor AI-inferentie. Resultaat: razendsnelle antwoorden met een eerste token in ~0,13 seconden.

Gratis tier beschikbaarExtreem snel

Modellen: Llama 3.3 70B, Gemma 2 9B, Mistral, DeepSeek R1

Gratis limiet: ~30 verzoeken per minuut

Betaald: Vanaf ~$0,05 per miljoen tokens

Together AI

together.ai

Breed aanbod van 200+ open source modellen met eigen inference-clusters. Vaste, transparante prijzen per model — geen routing-toeslag. Populair bij developers die een betrouwbare API willen.

$1 gratis tegoed200+ modellen

Modellen: Qwen 3.5, Llama 3.3, DeepSeek, Mistral, Phi-3

Prijs: Vanaf ~$0,10 per miljoen tokens (klein model) tot ~$1,20 (groot model)

OpenRouter

openrouter.ai

Een marktplaats die 300+ modellen van verschillende providers bundelt onder één API. Handig als je wilt wisselen tussen modellen zonder meerdere accounts aan te maken. Voegt een kleine toeslag toe (5–10%) bovenop de onderliggende prijs.

Gratis modellen beschikbaar300+ modellen

Modellen: Alles — van Llama tot Claude tot GPT, open source én commercieel

Gratis modellen: ~20 req/min, 200 req/dag limiet

Betaald: Variabel per model, transparant op de site

NVIDIA NIM

build.nvidia.com

NVIDIA biedt geselecteerde modellen aan via hun NIM-platform, geoptimaliseerd voor hun eigen GPU's. Interessant als je de allergrootste modellen wil testen, zoals Qwen3.5-397B.

Gratis tierGeoptimaliseerd voor snelheid

Modellen: Qwen 3.5 397B, Llama 3.3, Nemotron, Mistral Large

Gratis: Beperkt aantal verzoeken per dag

Wat kost het in de praktijk?

Laten we een concreet voorbeeld nemen. Stel je stelt 50 vragen per dag aan een model, met gemiddeld 500 tokens per antwoord. Dat is zo'n 25.000 output-tokens per dag, of ~750.000 per maand.

Provider + model	Prijs / M tokens	~Kosten / maand
Groq — Llama 3.3 70B	$0,05	Gratis(binnen limiet)
OpenRouter — gratis model	$0,00	Gratis(200 req/dag)
Together AI — Llama 3.3 70B	~$0,90	~€0,65
Together AI — Qwen 3.5 397B	~$1,20	~€0,85
ChatGPT Plus (ter vergelijking)	vast	€20,00
Claude Pro (ter vergelijking)	vast	€20,00

Voor normaal gebruik betaal je met open source modellen via de cloud minder dan €1 per maand — of helemaal niets met een gratis tier. Vergelijk dat met €20/maand voor ChatGPT Plus of Claude Pro.

Koppelen aan Claude Code

Het mooie is dat je deze cloud-providers kunt gebruiken als backend voor Claude Code. Daarmee krijg je de agentic workflow van Claude Code (bestanden lezen, code schrijven, tests draaien) maar dan aangedreven door een open source model in de cloud.

Via OpenRouter

Maak een account op openrouter.ai en kopieer je API-key. Dan:

ANTHROPIC_BASE_URL=https://openrouter.ai/api/v1 \
ANTHROPIC_API_KEY=sk-or-... \
claude --model qwen/qwen3.5-397b-a17b

Via Together AI

Maak een account op together.ai en gebruik je API-key:

ANTHROPIC_BASE_URL=https://api.together.xyz/v1 \
ANTHROPIC_API_KEY=... \
claude --model meta-llama/Llama-3.3-70B-Instruct-Turbo

Via Groq (gratis)

Maak een gratis account op groq.com en pak je API-key:

ANTHROPIC_BASE_URL=https://api.groq.com/openai/v1 \
ANTHROPIC_API_KEY=gsk_... \
claude --model llama-3.3-70b-versatile

Lokaal vs. cloud: wanneer kies je wat?

Kies lokaal als...

→Privacy essentieel is (gevoelige code, klantdata)
→Je offline wilt werken
→Je al een GPU hebt met 12+ GB VRAM
→Je geen terugkerende kosten wilt

Kies cloud als...

→Je hardware niet krachtig genoeg is
→Je de grootste modellen (70B+) wilt gebruiken
→Snelheid belangrijker is dan privacy
→Je wilt experimenteren met verschillende modellen

Het privacy-verhaal

Eerlijk is eerlijk: zodra je een cloud-provider gebruikt, verlaat je data je computer. Dat is het belangrijkste verschil met lokaal draaien. Maar er zijn nuances:

→De meeste providers (Together AI, Groq) geven aan dat ze je data niet gebruiken voor training van hun modellen.
→Je data wordt getransporteerd via HTTPS (versleuteld), maar staat wel tijdelijk op hun servers.
→Voor gevoelige bedrijfsdata is lokaal altijd veiliger. Voor persoonlijke projecten en leren is cloud prima.

Ons advies

Begin met Groq — het is gratis, extreem snel, en je kunt direct aan de slag met Llama 3.3 70B. Wil je meer modellen of hogere limieten? Stap over naar OpenRouter voor de meeste flexibiliteit, of Together AI voor de laagste prijzen.

En als je privacy echt belangrijk vindt? Gebruik de cloud om te experimenteren en te leren, en investeer daarna in hardware om lokaal te draaien.

Direct proberen?

Maak een gratis account op groq.com, pak je API-key, en draai binnen 2 minuten een 70B-model. Geen creditcard nodig, geen installatie, geen GPU.