Je eigen AI draaien: De complete gids voor lokale LLM's

Je bent het zat om elke maand braaf twintig euro over te maken naar Sam Altman voor een chatbot die steeds vaker weigert antwoord te geven op je ietwat ‘creatieve’ vragen. Of misschien vind je het gewoon een onprettig idee dat al jouw briljante bedrijfsplannen en gênante medische vragen op een server in Amerika worden opgeslagen. Wat de reden ook is: het is tijd om de navelstreng met de cloud door te knippen. We gaan je leren hoe je je eigen AI-brein draait, gewoon lokaal op je eigen pc of Mac. Gratis, privé en zonder pottenkijkers.

Het klinkt als pure sciencefiction of iets waar je een graad in computerwetenschappen voor nodig hebt, maar anno 2026 is het draaien van een zogeheten Local LLM (Large Language Model) makkelijker dan het installeren van een printer. En laten we eerlijk zijn: dat is een lage lat. In deze gids nemen we je mee in de wondere wereld van open-source AI, VRAM-verslaving en de vrijheid van je eigen digitale assistent.

WAAROM ZOU JE DIT IN VREDESNAAM WILLEN?

Laten we de olifant in de serverruimte even benoemen: ChatGPT en Claude zijn fantastisch. Maar ze hebben nadelen. Grote nadelen.

Privacy: Alles wat je typt, wordt potentieel gebruikt om het model te trainen. Niet handig voor je NDA’s.
Censuur: Commerciële modellen zijn zo braaf als een schoothondje. Vraag iets over controversiële onderwerpen en je krijgt een preek.
Kosten: Die maandelijkse abonnementen tikken aan.
Offline: Geen internet? Geen AI. Een lokaal model werkt zelfs in een bunker.

DE HARDWARE-CHECK: HEB IK EEN SUPERCOMPUTER NODIG?

Nee, maar een aardappel gaat het ook niet trekken. De allerbelangrijkste factor voor het draaien van AI is VRAM (Video RAM) op je videokaart. AI-modellen leven in het geheugen van je GPU. Hoe groter het model, hoe meer VRAM je nodig hebt.

De ‘Ik wil gewoon even proberen’-gebruiker: Een moderne laptop met 16GB RAM (Apple Silicon M1/M2/M3 is hier koning) of een pc met een NVIDIA RTX 3060 (12GB).
De serieuze hobbyist: Een pc met een NVIDIA RTX 3090 of 4090 (24GB VRAM). Hiermee draai je modellen die akelig dicht in de buurt komen van GPT-4.
De CPU-route: Heb je geen dikke videokaart maar wel heel veel systeemgeheugen (RAM)? Je kunt modellen op je processor draaien. Het is trager, maar het werkt.

DE SOFTWARE: OLLAMA IS JE BESTE VRIEND

Vergeet ingewikkelde Python-scripts en terminal-commando’s waar je hoofdpijn van krijgt. De tool die de wereld heeft veroverd heet Ollama. Het maakt het downloaden en draaien van modellen net zo simpel als een app installeren op je telefoon.

STAPPENPLAN: IN 5 MINUTEN JE EIGEN CHATGPT

Volg deze stappen en je bent binnen no-time up and running.

Download Ollama: Ga naar de website van Ollama en download de versie voor Windows, Mac of Linux. Installeren is next-next-finish.
Kies je smaakje: Open je terminal (of Command Prompt). Nu moeten we een model kiezen. ‘Llama 3’ van Meta of ‘Mistral’ zijn de huidige favorieten.
Het magische commando: Typ ollama run llama3 en druk op enter. Ollama trekt nu automatisch de benodigde bestanden binnen (een paar gigabyte).
Chatten maar: Zodra de download klaar is, verandert je terminal in een chatvenster. Typ “Hallo!” en zie hoe je eigen pc antwoord geeft. Geen cloud, geen vertraging.

HET OOG WIL OOK WAT: OPEN WEBUI

Praten tegen een zwart scherm met witte letters voelt wel heel erg als 1995. Wil je de look and feel van ChatGPT? Installeer dan Open WebUI. Dit is een grafische interface die bovenop Ollama draait. Je krijgt je chatgeschiedenis, de mogelijkheid om documenten te uploaden (ja, je kunt chatten met je eigen PDF’s!) en een gelikte interface.

CONCLUSIE: DE GEEST IS UIT DE FLES

Het draaien van lokale AI is niet alleen een leuke party-trick voor nerds. Het is een fundamentele verschuiving in hoe we met technologie omgaan. Je bent weer eigenaar van je data en je gereedschap. Natuurlijk, een lokaal model van 8GB zal nooit exact zo slim zijn als een cloud-model van duizenden gigabytes, maar voor 90% van de dagelijkse taken (mailtjes tikken, samenvatten, brainstormen) is het meer dan genoeg.

Dus, stof die videokaart af en begin met experimenteren. Voor je het weet ben je verslaafd en sta je op Marktplaats te zoeken naar tweedehands GPU’s. Zeg niet dat we je niet gewaarschuwd hebben.

Kijk ook: Run Your Own AI (Ollama Tutorial)

Veelgestelde vragen over het draaien van je eigen AI

Heb ik echt een NVIDIA-videokaart nodig?
Niet per se, maar het helpt enorm. Apple MacBooks met M-chips (M1, M2, M3) zijn ook fantastisch voor lokale AI dankzij hun gedeelde geheugen. Heb je een AMD-kaart of alleen een processor? Het kan, maar verwacht geen snelheidsrecords.

Is dit legaal?
Ja, absoluut. Bedrijven als Meta (Facebook) en Mistral geven hun modellen vrij onder open licenties. Je mag ze downloaden, gebruiken en vaak zelfs aanpassen voor eigen gebruik.

Kan mijn lokale AI ook afbeeldingen genereren?
Standaard LLM’s (zoals Llama) doen alleen tekst. Voor plaatjes heb je ‘Stable Diffusion’ nodig. Dat werkt volgens hetzelfde principe (lokaal draaien), maar vereist andere software.

Kost dit veel stroom?
Als de AI hard moet nadenken, gaat je videokaart flink aan het werk, vergelijkbaar met gamen. Voor simpele chatvragen valt het mee, maar ga je hele boeken laten samenvatten, dan zal je energiemeter wel even uitslaan.