LLM-strategi for bedrift

For regulerte miljøer, globale organisasjoner og virksomhetskritisk automatisering. Denne guiden fokuserer på konkrete valg: hvilken modelloppsett du bør kjøre, hvordan risiko styres, og hvordan du skalerer uten leverandørlåsing i 2026.

📢 Oppdatering mai 2026

Google lanserte Gemini 3.5 Flash på I/O 2026 med frontier agentisk ytelse. Anthropic inngikk KPMG-partnerskap (276 000 ansatte) og lanserte Claude for Small Business. DeepSeek V4 (preview) og Mistral Medium 3.5 er nye alternativer. Norske åpne modeller (NB-Llama-3.2, NorMistral, NorwAI) kan vurderes som del av leverandøruavhengig strategi. Se norske modeller for detaljer.

Lederanbefaling (kortversjon)

Kjør en leverandøruavhengig todelt modellstack for kritiske arbeidslaster.
Bruk ett premiumnivå for kvalitetskritiske oppgaver.
Bruk ett rimeligere nivå for høyvolum og rutineautomatisering.
Bruk kun godkjente åpne modeller i avgrensede interne arbeidsflyter.
Håndhev policy, logging og evaluering gjennom en sentral gateway.

Referansearkitektur

Kontrollplan (obligatorisk)

Samlet LLM-gateway med authN/authZ og signering av forespørsler.
Register for promptmaler med versjonering og godkjenninger.
Policykontroller: PII-filtre, temastyring og datalagringskrav.
Sentral telemetri for latenstid, feil og tokenforbruk.

Dataplan (produksjon)

RAG-lag med kildehenvisning og terskler for trygghetsscore.
Modellruter med fallback og timeout-policy per brukstilfelle.
Menneskelig godkjenningsløp for juridiske, finansielle og kundepåvirkende handlinger.
Svarvalidatorer for skjema, forretningsregler og sladding.

Konkret modellstack per bedriftsbruk

Brukstilfelle	Primærmodell	Fallback-modell	Åpent/internt alternativ	Anbefalingsnotat
Leder- og juridisk skriving	Claude Sonnet 4.6	GPT-4.1	Llama 4 Scout (begrenset dokumenttilgang)	Prioriter kontekstkvalitet og en konservativ svarstil.
Ingeniør- og utviklerassistenter	GPT-4.1 / Claude Sonnet 4.6	o3-mini	DeepSeek Coder V2, Qwen2.5 32B	Bruk repo-spesifikke evalueringer og obligatorisk sjekk av testgenerering.
Supportautomatisering	Gemini 2.0 Flash	Claude Haiku 4.5	Qwen2.5 14B	Bruk rimelig førstegangsvurdering og eskaler saker med lav trygghet.
Oppsummering av backoffice-arbeid	GPT-4o mini	Gemini 2.0 Flash	Phi-3 Medium	Batchbehandling med streng skjemavalidering.
Etterlevelses- og revisjonsassistenter	Claude Sonnet 4.6	Gemini 2.0 Pro	Llama 4 Scout	Krev full sporbarhet, kildehenvisning og formell godkjenning fra fagansvarlig.

Sjekkliste for styring og sikkerhet

Retningslinjer

Dataklassifisering før hver innsending av prompt.
Tillattliste for modeller per forretningsområde og land.
Beskyttelse mot prompt-injeksjon i alle RAG-pipelines.

Risiko

Misbrukstesting for jailbreak, lekkasje og rolleforvirring.
Automatisert screening for toksisitet og sensitive temaer.
Hendelsesplan for hallusinasjoner i høykritiske prosesser.

Etterlevelse

Uforanderlige revisjonslogger og policy for lagringstid.
Regionale behandlingskontroller for juridiske grenser.
Kvartalsvis resertifisering av modeller med oppdaterte eval-sett.

Kostnads- og pålitelighetsmål (konkrete)

Driftsmål

P95-latenstid under 3,5 s for interaktive assistenter.
Fallback-suksessrate over 99,5 %.
Månedlig tokenavvik innenfor pluss/minus 10 % av budsjett.
Automatisert beståttgrad over 92 % på virksomhetens evalueringssett.

Kostnadskontroll

Mellomlagre deterministiske prompts og gjentatte retrieval-biter.
Ruter enkle oppgaver til rimeligere modellnivåer først.
Sett harde tak per avdeling, arbeidsflyt og miljø.
Gå gjennom de 20 dyreste promptene annenhver uke.

90-dagers utrullingsplan for bedrift

Uke 1-2: etabler evalueringsgrunnlag, policy-gateway og observabilitet.
Uke 3-6: lanser to pilotarbeidsflyter med to-modell fallback.
Uke 7-10: utvid til tre avdelinger med kostnadskontroll.
Uke 11-13: sikkerhetsgjennomgang, red-team-test og go-live-sjekkliste.

Hva som velter store satsinger

Leverandørbinding til én modell uten migrasjonsløp.
Uklart eierskap mellom plattform-, produkt- og risikoteam.
Prompt-spredning uten versjonering, godkjenning eller rollback.
Mangler målbare KPI-er koblet til forretningsresultater.