LLM-sammenligningsmatrise

Poengene er veiledende, ikke absolutte. Bruk skalaen 1-5 for rask sammenligning, og sorter deretter etter det som betyr mest for produktet ditt i 2026.

📢 Oppdatering mai 2026

Claude Opus 4.8, GPT-5.5, o3 og Mistral Small 4 er lagt til. Gemini 3.5 Flash, DeepSeek V4 (preview) og Mistral Medium 3.5 er også inkludert. Claude 4-familien, Llama 4 Scout og norske åpne modeller (NB-Llama-3.2, NorMistral-11B, NorwAI) er oppdatert.

Modell Totalt Resonnering Koding Kostnadseffektivitet Latenstid Kontekstkvalitet Driftskontroll
Claude Opus 4.8 4.5/5★★★★★ 5/5★★★★★ 5/5★★★★★ 2/5★★☆☆☆ 3/5★★★☆☆ 5/5★★★★★ 2/5★★☆☆☆
GPT-5.5 4.3/5★★★★☆ 5/5★★★★★ 5/5★★★★★ 2/5★★☆☆☆ 3/5★★★☆☆ 4/5★★★★☆ 2/5★★☆☆☆
o3 4.2/5★★★★☆ 5/5★★★★★ 5/5★★★★★ 2/5★★☆☆☆ 2/5★★☆☆☆ 4/5★★★★☆ 2/5★★☆☆☆
Mistral Small 4 4.0/5★★★★☆ 4/5★★★★☆ 4/5★★★★☆ 5/5★★★★★ 4/5★★★★☆ 4/5★★★★☆ 5/5★★★★★
GPT-4.1 4.0/5★★★★☆ 5/5★★★★★ 5/5★★★★★ 3/5★★★☆☆ 3/5★★★☆☆ 4/5★★★★☆ 2/5★★☆☆☆
o3-mini 3.8/5★★★★☆ 5/5★★★★★ 4/5★★★★☆ 4/5★★★★☆ 4/5★★★★☆ 3/5★★★☆☆ 2/5★★☆☆☆
Claude Sonnet 4.6 4.2/5★★★★☆ 5/5★★★★★ 5/5★★★★★ 3/5★★★☆☆ 4/5★★★★☆ 5/5★★★★★ 2/5★★☆☆☆
Llama 4 Scout 4.0/5★★★★☆ 4/5★★★★☆ 4/5★★★★☆ 4/5★★★★☆ 4/5★★★★☆ 5/5★★★★★ 5/5★★★★★
Claude 3.7 Sonnet 3.8/5★★★★☆ 5/5★★★★★ 4/5★★★★☆ 3/5★★★☆☆ 3/5★★★☆☆ 5/5★★★★★ 2/5★★☆☆☆
Claude 3.5 Haiku 3.5/5★★★★☆ 4/5★★★★☆ 3/5★★★☆☆ 4/5★★★★☆ 5/5★★★★★ 3/5★★★☆☆ 2/5★★☆☆☆
Gemini 3.5 Flash 4.2/5★★★★☆ 5/5★★★★★ 5/5★★★★★ 4/5★★★★☆ 5/5★★★★★ 4/5★★★★☆ 2/5★★☆☆☆
Mistral Medium 3.5 3.7/5★★★★☆ 4/5★★★★☆ 4/5★★★★☆ 4/5★★★★☆ 4/5★★★★☆ 3/5★★★☆☆ 3/5★★★☆☆
DeepSeek V4 3.8/5★★★★☆ 5/5★★★★★ 4/5★★★★☆ 5/5★★★★★ 3/5★★★☆☆ 4/5★★★★☆ 4/5★★★★☆
Gemini 2.0 Pro 3.5/5★★★★☆ 4/5★★★★☆ 4/5★★★★☆ 3/5★★★☆☆ 4/5★★★★☆ 4/5★★★★☆ 2/5★★☆☆☆
Gemini 2.0 Flash 3.3/5★★★☆☆ 3/5★★★☆☆ 3/5★★★☆☆ 4/5★★★★☆ 5/5★★★★★ 3/5★★★☆☆ 2/5★★☆☆☆
Llama 3.1 70B Instruct 4.0/5★★★★☆ 4/5★★★★☆ 4/5★★★★☆ 4/5★★★★☆ 4/5★★★★☆ 3/5★★★☆☆ 5/5★★★★★
Mixtral 8x22B 3.8/5★★★★☆ 4/5★★★★☆ 4/5★★★★☆ 4/5★★★★☆ 4/5★★★★☆ 3/5★★★☆☆ 4/5★★★★☆
Mistral Large 3.5/5★★★★☆ 4/5★★★★☆ 4/5★★★★☆ 3/5★★★☆☆ 4/5★★★★☆ 4/5★★★★☆ 3/5★★★☆☆
Qwen2.5 72B Instruct 3.8/5★★★★☆ 4/5★★★★☆ 4/5★★★★☆ 5/5★★★★★ 4/5★★★★☆ 3/5★★★☆☆ 4/5★★★★☆
DeepSeek V3 3.8/5★★★★☆ 4/5★★★★☆ 4/5★★★★☆ 5/5★★★★★ 4/5★★★★☆ 3/5★★★☆☆ 4/5★★★★☆
Phi-3 Medium 3.5/5★★★★☆ 3/5★★★☆☆ 3/5★★★☆☆ 5/5★★★★★ 5/5★★★★★ 2/5★★☆☆☆ 4/5★★★★☆

Poengnøkkel: 5 = svært bra, 4 = bra, 3 = middels, 2 = lav.

Slik tolker du matrisen

For kundevendt kvalitet bør du prioritere resonnering + kontekstkvalitet. For intern automatisering i skala bør du prioritere kostnadseffektivitet + latenstid.