LLM-sammenligningsmatrise

Poengene er veiledende, ikke absolutte. Bruk skalaen 1-5 for rask sammenligning, og sorter deretter etter det som betyr mest for produktet ditt i 2026.

📢 Oppdatering mai 2026

Claude Opus 4.8, GPT-5.5, o3 og Mistral Small 4 er lagt til. Gemini 3.5 Flash, DeepSeek V4 (preview) og Mistral Medium 3.5 er også inkludert. Claude 4-familien, Llama 4 Scout og norske åpne modeller (NB-Llama-3.2, NorMistral-11B, NorwAI) er oppdatert.

Sorter etter

Modell	Totalt	Resonnering	Koding	Kostnadseffektivitet	Latenstid	Kontekstkvalitet	Driftskontroll
Claude Opus 4.8	4.5/5★★★★★	5/5★★★★★	5/5★★★★★	2/5★★☆☆☆	3/5★★★☆☆	5/5★★★★★	2/5★★☆☆☆
GPT-5.5	4.3/5★★★★☆	5/5★★★★★	5/5★★★★★	2/5★★☆☆☆	3/5★★★☆☆	4/5★★★★☆	2/5★★☆☆☆
o3	4.2/5★★★★☆	5/5★★★★★	5/5★★★★★	2/5★★☆☆☆	2/5★★☆☆☆	4/5★★★★☆	2/5★★☆☆☆
Mistral Small 4	4.0/5★★★★☆	4/5★★★★☆	4/5★★★★☆	5/5★★★★★	4/5★★★★☆	4/5★★★★☆	5/5★★★★★
GPT-4.1	4.0/5★★★★☆	5/5★★★★★	5/5★★★★★	3/5★★★☆☆	3/5★★★☆☆	4/5★★★★☆	2/5★★☆☆☆
o3-mini	3.8/5★★★★☆	5/5★★★★★	4/5★★★★☆	4/5★★★★☆	4/5★★★★☆	3/5★★★☆☆	2/5★★☆☆☆
Claude Sonnet 4.6	4.2/5★★★★☆	5/5★★★★★	5/5★★★★★	3/5★★★☆☆	4/5★★★★☆	5/5★★★★★	2/5★★☆☆☆
Llama 4 Scout	4.0/5★★★★☆	4/5★★★★☆	4/5★★★★☆	4/5★★★★☆	4/5★★★★☆	5/5★★★★★	5/5★★★★★
Claude 3.7 Sonnet	3.8/5★★★★☆	5/5★★★★★	4/5★★★★☆	3/5★★★☆☆	3/5★★★☆☆	5/5★★★★★	2/5★★☆☆☆
Claude 3.5 Haiku	3.5/5★★★★☆	4/5★★★★☆	3/5★★★☆☆	4/5★★★★☆	5/5★★★★★	3/5★★★☆☆	2/5★★☆☆☆
Gemini 3.5 Flash	4.2/5★★★★☆	5/5★★★★★	5/5★★★★★	4/5★★★★☆	5/5★★★★★	4/5★★★★☆	2/5★★☆☆☆
Mistral Medium 3.5	3.7/5★★★★☆	4/5★★★★☆	4/5★★★★☆	4/5★★★★☆	4/5★★★★☆	3/5★★★☆☆	3/5★★★☆☆
DeepSeek V4	3.8/5★★★★☆	5/5★★★★★	4/5★★★★☆	5/5★★★★★	3/5★★★☆☆	4/5★★★★☆	4/5★★★★☆
Gemini 2.0 Pro	3.5/5★★★★☆	4/5★★★★☆	4/5★★★★☆	3/5★★★☆☆	4/5★★★★☆	4/5★★★★☆	2/5★★☆☆☆
Gemini 2.0 Flash	3.3/5★★★☆☆	3/5★★★☆☆	3/5★★★☆☆	4/5★★★★☆	5/5★★★★★	3/5★★★☆☆	2/5★★☆☆☆
Llama 3.1 70B Instruct	4.0/5★★★★☆	4/5★★★★☆	4/5★★★★☆	4/5★★★★☆	4/5★★★★☆	3/5★★★☆☆	5/5★★★★★
Mixtral 8x22B	3.8/5★★★★☆	4/5★★★★☆	4/5★★★★☆	4/5★★★★☆	4/5★★★★☆	3/5★★★☆☆	4/5★★★★☆
Mistral Large	3.5/5★★★★☆	4/5★★★★☆	4/5★★★★☆	3/5★★★☆☆	4/5★★★★☆	4/5★★★★☆	3/5★★★☆☆
Qwen2.5 72B Instruct	3.8/5★★★★☆	4/5★★★★☆	4/5★★★★☆	5/5★★★★★	4/5★★★★☆	3/5★★★☆☆	4/5★★★★☆
DeepSeek V3	3.8/5★★★★☆	4/5★★★★☆	4/5★★★★☆	5/5★★★★★	4/5★★★★☆	3/5★★★☆☆	4/5★★★★☆
Phi-3 Medium	3.5/5★★★★☆	3/5★★★☆☆	3/5★★★☆☆	5/5★★★★★	5/5★★★★★	2/5★★☆☆☆	4/5★★★★☆

Poengnøkkel: 5 = svært bra, 4 = bra, 3 = middels, 2 = lav.

Slik tolker du matrisen

For kundevendt kvalitet bør du prioritere resonnering + kontekstkvalitet. For intern automatisering i skala bør du prioritere kostnadseffektivitet + latenstid.