Kontextus-méret
4k, 16k, 128k, 1M — a kérés mérete alapján a megfelelő window-jú model.
A Nortinia Engine AI model routing rétege per-request kiválasztja a megfelelő LLM-et: kontextus, latency, ár és accuracy alapján. Multi-provider, fallback, retry és kontextus-érzékeny policy.
A Nortinia AI model routing négy szempont alapján dönt: kontextus-méret (mely model bírja), latency-igény (real-time vs batch), ár (token cost) és accuracy (eval-set alapján mért).
A routing policy explicit (rule-based, te állítod) és implicit (ML-alapú, eval-set tanítja). Mindkettő kombinálható, és minden döntés audit-trail-elt.
4k, 16k, 128k, 1M — a kérés mérete alapján a megfelelő window-jú model.
Real-time chat vs. batch task — modell kiválasztása response time alapján.
Per-request cost optimization. Olcsóbb model olcsóbb kérdésekre.
Eval-set alapján mért pontosság. Magasabb accuracy igényű kérdéshez magasabb model.
HTTP endpoint vagy SDK call. Token-count + context tagging.
Rule-based: ha "/chat" → preferred small model. Ha kontextus > 32k → large window.
Confidence + accuracy score — ha low, eskaláció nagyobb modellhez.
Decision log: melyik prompt, melyik model, ár, latency, fallback?
Minden egyes API hívásnál a Nortinia Engine kiválasztja a megfelelő modellt — nem session vagy user szinten, hanem kérésenként.
Igen. A SDK / HTTP header-rel forced model paraméter — pl. `x-nortinia-model: claude-opus`. Auditban látszik mint manual override.
Automatikus fallback a következő provider-re a fallback chain alapján. Pl. anthropic-claude-haiku → openai-gpt-4o-mini → llama-3-8b on-prem.
Igen. Custom HTTP endpoint (OpenAI-compatible vagy egyedi protokoll) regisztrálható model provider-ként.
30 perces architektúra workshop, policy-tervezés, eval-becslés a végén.