LLM-strategi for bedrift
For regulerte miljøer, globale organisasjoner og virksomhetskritisk
automatisering. Denne guiden fokuserer på konkrete valg: hvilken
modelloppsett du bør kjøre, hvordan risiko styres, og hvordan du
skalerer uten leverandørlåsing.
Lederanbefaling (kortversjon)
-
Kjør en leverandøruavhengig todelt modellstack for kritiske
arbeidslaster.
- Bruk ett premiumnivå for kvalitetskritiske oppgaver.
-
Bruk ett rimeligere nivå for høyvolum og rutineautomatisering.
-
Bruk kun godkjente åpne modeller i avgrensede interne arbeidsflyter.
-
Håndhev policy, logging og evaluering gjennom en sentral gateway.
Referansearkitektur
Kontrollplan (obligatorisk)
-
Samlet LLM-gateway med authN/authZ og signering av forespørsler.
-
Register for promptmaler med versjonering og godkjenninger.
-
Policykontroller: PII-filtre, temastyring og datalagringskrav.
- Sentral telemetri for latenstid, feil og tokenforbruk.
Dataplan (produksjon)
-
RAG-lag med kildehenvisning og terskler for trygghetsscore.
-
Modellruter med fallback og timeout-policy per brukstilfelle.
-
Menneskelig godkjenningsløp for juridiske, finansielle og
kundepåvirkende handlinger.
-
Svarvalidatorer for skjema, forretningsregler og sladding.
Konkret modellstack per bedriftsbruk
| Brukstilfelle |
Primærmodell |
Fallback-modell |
Åpent/internt alternativ |
Anbefalingsnotat |
| Leder- og juridisk skriving |
Claude 3.7 Sonnet |
GPT-4.1 |
Llama 3.1 70B (begrenset dokumenttilgang) |
Prioriter kontekstkvalitet og en konservativ svarstil. |
| Ingeniør- og utviklerassistenter |
GPT-4.1 / o3-mini |
Claude 3.7 Sonnet |
DeepSeek Coder V2, Qwen2.5 32B |
Bruk repo-spesifikke evalueringer og obligatorisk sjekk av
testgenerering.
|
| Supportautomatisering |
Gemini 2.0 Flash |
Claude 3.5 Haiku |
Qwen2.5 14B |
Bruk rimelig førstegangsvurdering og eskaler saker med lav
trygghet.
|
| Oppsummering av backoffice-arbeid |
GPT-4o mini |
Gemini 2.0 Flash |
Phi-3 Medium |
Batchbehandling med streng skjemavalidering. |
| Etterlevelses- og revisjonsassistenter |
Claude 3.7 Sonnet |
Gemini 2.0 Pro |
Llama 3.1 70B |
Krev full sporbarhet, kildehenvisning og formell godkjenning
fra fagansvarlig.
|
Sjekkliste for styring og sikkerhet
Retningslinjer
- Dataklassifisering før hver innsending av prompt.
- Tillattliste for modeller per forretningsområde og land.
- Beskyttelse mot prompt-injeksjon i alle RAG-pipelines.
Risiko
-
Misbrukstesting for jailbreak, lekkasje og rolleforvirring.
-
Automatisert screening for toksisitet og sensitive temaer.
-
Hendelsesplan for hallusinasjoner i høykritiske prosesser.
Etterlevelse
- Uforanderlige revisjonslogger og policy for lagringstid.
- Regionale behandlingskontroller for juridiske grenser.
-
Kvartalsvis resertifisering av modeller med oppdaterte
eval-sett.
Kostnads- og pålitelighetsmål (konkrete)
Driftsmål
- P95-latenstid under 3,5 s for interaktive assistenter.
- Fallback-suksessrate over 99,5 %.
-
Månedlig tokenavvik innenfor pluss/minus 10 % av budsjett.
-
Automatisert beståttgrad over 92 % på virksomhetens
evalueringssett.
Kostnadskontroll
-
Mellomlagre deterministiske prompts og gjentatte
retrieval-biter.
- Ruter enkle oppgaver til rimeligere modellnivåer først.
- Sett harde tak per avdeling, arbeidsflyt og miljø.
- Gå gjennom de 20 dyreste promptene annenhver uke.
90-dagers utrullingsplan for bedrift
-
Uke 1-2: etabler evalueringsgrunnlag, policy-gateway og
observabilitet.
- Uke 3-6: lanser to pilotarbeidsflyter med to-modell fallback.
- Uke 7-10: utvid til tre avdelinger med kostnadskontroll.
-
Uke 11-13: sikkerhetsgjennomgang, red-team-test og
go-live-sjekkliste.
Hva som velter store satsinger
- Leverandørbinding til én modell uten migrasjonsløp.
- Uklart eierskap mellom plattform-, produkt- og risikoteam.
-
Prompt-spredning uten versjonering, godkjenning eller rollback.
- Mangler målbare KPI-er koblet til forretningsresultater.