LLM-sammenligningsmatrise

Poengene er veiledende, ikke absolutte. Bruk skalaen 1-5 for rask sammenligning, og sorter deretter etter det som betyr mest for produktet ditt.

Modell Totalt Resonnering Koding Kostnadseffektivitet Latenstid Kontekstkvalitet Driftskontroll
GPT-4.1 4.0/5★★★★☆ 5/5★★★★★ 5/5★★★★★ 3/5★★★☆☆ 3/5★★★☆☆ 4/5★★★★☆ 2/5★★☆☆☆
o3-mini 3.8/5★★★★☆ 5/5★★★★★ 4/5★★★★☆ 4/5★★★★☆ 4/5★★★★☆ 3/5★★★☆☆ 2/5★★☆☆☆
Claude 3.7 Sonnet 3.8/5★★★★☆ 5/5★★★★★ 4/5★★★★☆ 3/5★★★☆☆ 3/5★★★☆☆ 5/5★★★★★ 2/5★★☆☆☆
Claude 3.5 Haiku 3.5/5★★★★☆ 4/5★★★★☆ 3/5★★★☆☆ 4/5★★★★☆ 5/5★★★★★ 3/5★★★☆☆ 2/5★★☆☆☆
Gemini 2.0 Pro 3.5/5★★★★☆ 4/5★★★★☆ 4/5★★★★☆ 3/5★★★☆☆ 4/5★★★★☆ 4/5★★★★☆ 2/5★★☆☆☆
Gemini 2.0 Flash 3.3/5★★★☆☆ 3/5★★★☆☆ 3/5★★★☆☆ 4/5★★★★☆ 5/5★★★★★ 3/5★★★☆☆ 2/5★★☆☆☆
Llama 3.1 70B Instruct 4.0/5★★★★☆ 4/5★★★★☆ 4/5★★★★☆ 4/5★★★★☆ 4/5★★★★☆ 3/5★★★☆☆ 5/5★★★★★
Mixtral 8x22B 3.8/5★★★★☆ 4/5★★★★☆ 4/5★★★★☆ 4/5★★★★☆ 4/5★★★★☆ 3/5★★★☆☆ 4/5★★★★☆
Mistral Large 3.5/5★★★★☆ 4/5★★★★☆ 4/5★★★★☆ 3/5★★★☆☆ 4/5★★★★☆ 4/5★★★★☆ 3/5★★★☆☆
Qwen2.5 72B Instruct 3.8/5★★★★☆ 4/5★★★★☆ 4/5★★★★☆ 5/5★★★★★ 4/5★★★★☆ 3/5★★★☆☆ 4/5★★★★☆
DeepSeek V3 3.8/5★★★★☆ 4/5★★★★☆ 4/5★★★★☆ 5/5★★★★★ 4/5★★★★☆ 3/5★★★☆☆ 4/5★★★★☆
Phi-3 Medium 3.5/5★★★★☆ 3/5★★★☆☆ 3/5★★★☆☆ 5/5★★★★★ 5/5★★★★★ 2/5★★☆☆☆ 4/5★★★★☆

Poengnøkkel: 5 = svært bra, 4 = bra, 3 = middels, 2 = lav.

Slik tolker du matrisen

For kundevendt kvalitet bør du prioritere resonnering + kontekstkvalitet. For intern automatisering i skala bør du prioritere kostnadseffektivitet + latenstid.