Per-request model routing
Olcsó modell olcsó kérdésekre, drágább csak ahol szükséges. ~30% csökkenés.
A Nortinia Engine AI cost optimization rétege per-request kiválasztja a legolcsóbb-még-megfelelő modellt, cache-eli az ismétlődő kéréseket, batch-eli a batchelhetőket. Tipikusan 30-50% LLM API költség-csökkenés, eval-vezérelten validálva.
Az LLM költség három fő tényezőből áll: modell-választás (gpt-4o-mini vs gpt-4-turbo nagyságrendi különbség), token-szám (prompt + completion) és request-szám (cache + batch nélkül minden kérdés új token).
A Nortinia Engine mind a hármat optimalizálja: per-request modell routing eval-validált accuracy szinten, prompt-cache (claude prompt caching, openai prompt caching), és batch-API a batchelhető feladatokra.
Olcsó modell olcsó kérdésekre, drágább csak ahol szükséges. ~30% csökkenés.
Az ismétlődő system prompt + few-shot példák cache-elve. Akár 90% token-megtakarítás per ismétlésen.
OpenAI/Anthropic batch endpoint a batchelhető feladatokra. -50% token költség.
Az optimalizálás csak ott történik, ahol az accuracy megmarad. A/B-tesztelhető.
Mai LLM költség per use-case. Token-mix, modell-mix, request-frequency.
Mely use-case-eken vagy érzékeny az accuracy-re? Eval-set létrehozása.
Top 3 költséges use-case-en bevezetjük a cost-aware routing-ot. A/B teszt.
A validált optimalizálás kiterjesztése. Folyamatos eval + drift-monitoring.
Tipikus eredmény 30-50%, a use-case-tól függően. Standard chat + RAG: 30-40%. Batchelhető feladatok (klasszifikáció, summary): 50-70%. Mind A/B-tesztelve.
Eval-set: 50-200 kérdés ground truth válasszal. Minden modell-route variánst lefuttatunk az eval-set-en és csak akkor élesítjük, ha az accuracy a target-en marad.
Anthropic prompt caching: 90% kedvezmény az ismétlődő system prompt + few-shot példákon. OpenAI prompt caching: 50% kedvezmény. Automatikusan aktiválódik, ha támogatott.
Per-use-case cost, per-tenant cost, per-model cost, savings vs. baseline, eval accuracy trend. Élő, exportálható.
30 perces cost workshop, jelenlegi LLM bill audit, becsült megtakarítás a végén.