Om konsesjonsassistenten
Optimalisert AS leverer konsesjonsassistenten basert på lokaliQ som et selvbetjent innsynsverktøy for avisa Fjell-Ljom.
Som med alle løsninger basert på språkmodeller, eksisterer det en risiko for at en bruker forsøker å bruke verktøyet til formål det ikke er ment for, i særlig grad spørsmål eller forespørsler om selvskading, vold eller andre alvorlige temaer som ligger utenfor konsesjonsbehandlingas fagområde. Dette notatet beskriver hvilke mekanismer som er på plass for å redusere risikoen, og hvor grensene for slike mekanismer realistisk går.
Den underliggende språkmodellen, Mistral Large, har en underliggende innebygd sikkerhetstrening som gjør modellen trent til å avslå forespørsler om selvskading, seksualisert innhold som involverer mindreårige, instruksjoner som muliggjør vold eller terror, og tilsvarende.
Disse egenskapene er forankret i modellens vekter og den avhenger ikke av om persona-instruksjoner (promtper) blir lest og/eller respektert. Modellen er trent til å avvise de vanligste omgåelsesforsøkene, uavhengig av språk og kreativ form. Dette er en påviselig robust mekanisme.
Det vil allikevel alltid være en kjent restrisiko. Ingen språkmodell, det være seg Mistral, OpenAI, ChatGPT/Copilot eller andre, er unntatt for det som omtales som «jailbreaks». En «jailbreak» er kort fortalt gjerne en kreativt utformet spørring designet for å lure modellen til å produsere innhold den ellers ville avvist.
Suksessraten for slike forsøk har falt betydelig over de siste to–tre modellgenerasjonene, men den vil aldri være null. Innholdet som realistisk lekker gjennom er i hovedsak grensetilfeller. For eksempel tvetydige helseråd eller mildere normalisering av risikoatferd snarere enn de mest alvorlige kategoriene.
I lokaliQ ligger det flere sikkerhetslag som samlet reduserer risikoen. Mistrals sikkerhetstrening utgjør grunnvollen, som beskrevet over. På toppen av dette er assistentens persona eksplisitt avgrenset til konsesjons-, dele- og byggesaker; et omgåelsesforsøk må derfor passere både den rolleavgrensninga og modellens egen sikkerhetstrening for å lykkes, og to lag er vesentlig vanskeligere å omgå enn ett. Videre har assistenten ingen samtalehistorikk.
Hvert spørsmål behandles isolert, uten kontekst fra eventuelle tidligere spørsmål. Det betyr at iterative angrep, der hver tur forsøker å manipulere restriksjonene fra den forrige, ikke vil fungere mot denne løsninga. Dette er en langt kraftigere sikkerhetsegenskap enn det umiddelbart framstår som.
I tillegg er det aktivert et tidsbasert tak på antall forespørsler per IP-adresse, slik at en potensiell angripers forsøks-rate er begrenset uten at legitime spørringer blir påvirket.
Og endelig er assistenten plassert på Fjell-Ljoms egen «flate», noe som gjør et eventuelt problematisk svar sporbar til en konkret spørring, et tidspunkt og en IP-adresse, hvilket både gir oss innsyn og endrer angriperens insentiv. Sammen gir disse mekanismene en realistisk, dog ikke absolutt, beskyttelse.
Optimalisert AS har driftsrutiner som retrospektivt analyserer logger kun dersom det ut ifra et sikkerhetsmessig eller personvernsmessig forhold er tvingende nødvendig.
Bekymringsverdige interaksjoner kan fanges opp i ettertid og vil kunne vurderes konkret. En slik gjennomgang krever ikke spesiell teknisk kompetanse og fanger opp den marginalrisikoen som ikke kan elimineres på forhånd.
Ved spørsmål eller observasjoner som krever oppfølging fra leverandørens side, kontakt Optimalisert AS direkte.