LLM-strategi for bedrift

For regulerte miljøer, globale organisasjoner og virksomhetskritisk automatisering. Denne guiden fokuserer på konkrete valg: hvilken modelloppsett du bør kjøre, hvordan risiko styres, og hvordan du skalerer uten leverandørlåsing i 2026.

📢 Oppdatering mai 2026

Google lanserte Gemini 3.5 Flash på I/O 2026 med frontier agentisk ytelse. Anthropic inngikk KPMG-partnerskap (276 000 ansatte) og lanserte Claude for Small Business. DeepSeek V4 (preview) og Mistral Medium 3.5 er nye alternativer. Norske åpne modeller (NB-Llama-3.2, NorMistral, NorwAI) kan vurderes som del av leverandøruavhengig strategi. Se norske modeller for detaljer.

Lederanbefaling (kortversjon)

  1. Kjør en leverandøruavhengig todelt modellstack for kritiske arbeidslaster.
  2. Bruk ett premiumnivå for kvalitetskritiske oppgaver.
  3. Bruk ett rimeligere nivå for høyvolum og rutineautomatisering.
  4. Bruk kun godkjente åpne modeller i avgrensede interne arbeidsflyter.
  5. Håndhev policy, logging og evaluering gjennom en sentral gateway.

Referansearkitektur

Kontrollplan (obligatorisk)

  • Samlet LLM-gateway med authN/authZ og signering av forespørsler.
  • Register for promptmaler med versjonering og godkjenninger.
  • Policykontroller: PII-filtre, temastyring og datalagringskrav.
  • Sentral telemetri for latenstid, feil og tokenforbruk.

Dataplan (produksjon)

  • RAG-lag med kildehenvisning og terskler for trygghetsscore.
  • Modellruter med fallback og timeout-policy per brukstilfelle.
  • Menneskelig godkjenningsløp for juridiske, finansielle og kundepåvirkende handlinger.
  • Svarvalidatorer for skjema, forretningsregler og sladding.

Konkret modellstack per bedriftsbruk

Brukstilfelle Primærmodell Fallback-modell Åpent/internt alternativ Anbefalingsnotat
Leder- og juridisk skriving Claude Sonnet 4.6 GPT-4.1 Llama 4 Scout (begrenset dokumenttilgang) Prioriter kontekstkvalitet og en konservativ svarstil.
Ingeniør- og utviklerassistenter GPT-4.1 / Claude Sonnet 4.6 o3-mini DeepSeek Coder V2, Qwen2.5 32B Bruk repo-spesifikke evalueringer og obligatorisk sjekk av testgenerering.
Supportautomatisering Gemini 2.0 Flash Claude Haiku 4.5 Qwen2.5 14B Bruk rimelig førstegangsvurdering og eskaler saker med lav trygghet.
Oppsummering av backoffice-arbeid GPT-4o mini Gemini 2.0 Flash Phi-3 Medium Batchbehandling med streng skjemavalidering.
Etterlevelses- og revisjonsassistenter Claude Sonnet 4.6 Gemini 2.0 Pro Llama 4 Scout Krev full sporbarhet, kildehenvisning og formell godkjenning fra fagansvarlig.

Sjekkliste for styring og sikkerhet

Retningslinjer

  • Dataklassifisering før hver innsending av prompt.
  • Tillattliste for modeller per forretningsområde og land.
  • Beskyttelse mot prompt-injeksjon i alle RAG-pipelines.

Risiko

  • Misbrukstesting for jailbreak, lekkasje og rolleforvirring.
  • Automatisert screening for toksisitet og sensitive temaer.
  • Hendelsesplan for hallusinasjoner i høykritiske prosesser.

Etterlevelse

  • Uforanderlige revisjonslogger og policy for lagringstid.
  • Regionale behandlingskontroller for juridiske grenser.
  • Kvartalsvis resertifisering av modeller med oppdaterte eval-sett.

Kostnads- og pålitelighetsmål (konkrete)

Driftsmål

  • P95-latenstid under 3,5 s for interaktive assistenter.
  • Fallback-suksessrate over 99,5 %.
  • Månedlig tokenavvik innenfor pluss/minus 10 % av budsjett.
  • Automatisert beståttgrad over 92 % på virksomhetens evalueringssett.

Kostnadskontroll

  • Mellomlagre deterministiske prompts og gjentatte retrieval-biter.
  • Ruter enkle oppgaver til rimeligere modellnivåer først.
  • Sett harde tak per avdeling, arbeidsflyt og miljø.
  • Gå gjennom de 20 dyreste promptene annenhver uke.

90-dagers utrullingsplan for bedrift

  1. Uke 1-2: etabler evalueringsgrunnlag, policy-gateway og observabilitet.
  2. Uke 3-6: lanser to pilotarbeidsflyter med to-modell fallback.
  3. Uke 7-10: utvid til tre avdelinger med kostnadskontroll.
  4. Uke 11-13: sikkerhetsgjennomgang, red-team-test og go-live-sjekkliste.

Hva som velter store satsinger