Nortinia Engine — LLM orchestrator és AI model routing platform

2024

ELSŐ DÖNTÉS

MÉRNÖK

MODELL CSALÁD

HU · EN

KORLÁTLAN NYELV

A TÖRTÉNET

Miért építettük.

2024 nyarán megszámoltuk — az átlagos AI-asszisztens projektünkben hat különböző LLM-hívást futtattunk párhuzamosan, és senki nem tudta megmondani, melyik mit költ. Ez nem infrastruktúra. Ez kontrollálatlan számla.

Egy budapesti kereskedelmi platformnál nyolc különböző chat-asszisztens futott egymás mellett — fejlesztett a marketing, a support, a logisztika, és az ügyvezetés. Mindegyik más LLM-en. Mindegyik más prompt-stratégiával. Senki nem mérte, melyik milyen drága, milyen gyors, vagy egyáltalán működik-e.

2024-ben eldöntöttük: felépítjük a réteget, ami eddig hiányzott. Nem újabb LLM-burkolót. Egy döntéshozót, ami minden kérésre futás közben választ modellt, eszközt, lépésszámot, kontextust. Multi-tenant, multi-modell, egy interfész.

Tizenhárom hónappal később 42 tenant futott rajta. Az átlagos költséghatékonyság 3.2×, a tool-választás átlaga 100 ms alatt. A fejlesztők nem írnak több if/else router-logikát — a motor választ.

DÖNTÉS · DÖNTÉSI GRÁF · t = 92ms

Egyetlen kérés. Három jelölt. Egy győztes.

Minden bejövő kéréshez a router kiértékel 3-5 jelöltet (modell × eszköz × kontextus). A győztest a futtatás előtt választja ki — költség, latencia és minőségi score alapján.

HITVALLÁS

Hat mondat. A többi ebből jön.

A modell-választás láthatatlan.

A jó motor nem kérdez vissza, hogy melyik LLM-mel akarsz dolgozni. A te kérdésed számít, nem a szállító neve. Mi a háttérben döntünk, és elmondjuk, miért.

A költséget mérni kell.

Minden kérés egy árcédulát kap futás közben. Ha 4 cent elég, nem hívunk 40 centeset. A számládat reggel a metrika magyarázza, nem a havi meglepetés.

Az audit nem opció.

Minden döntés mögé indok kerül. Melyik modell, miért, mennyiért, milyen kontextussal. A naplót nem törölheti senki — beleértve minket is.

A latencia tervezhető.

92 ms átlagos döntésidő. Nem a véletlen műve — minden cache-szint, minden routing-szabály, minden fallback előre megírt játszma.

Korlátlan nyelven.

Nem HU/EN kapcsoló — bármely nyelven kérdezhetsz, és a motor a megfelelő nyelven válaszol. A prompt-tár nem ismer határt.

Bevalljuk, ha rossz.

Ha a motor rossz modellt választott, a post-mortem publikus, és a router-szabály kódban változik a következő release-ig. Nincs „tanulság”-nyelv.

A CSAPAT

Tizenkét ember. Egy interfész.

Senior-only mérnöki szervezet. A founderek kódolnak. Mindenki ír router-szabályt, mindenki olvas trace-eket.

4 fő

LLM ops

Router-szabályok, fallback-stratégiák, modell-egészség. Nyolc szállító, egy interfész.

4 fő

Backend

NestJS, Postgres, Redis, BullMQ. Multi-tenant RLS, audit log, kvóták. Egyetlen rendszerben fut a 42 ügyfél.

2 fő

Prompt evaluation

Mérünk: minőség, költség, latencia. Egy kérdés három modellen, három mérőszámon — utána döntés.

1 fő

DevOps

Magyarországi szerverflotta, Kubernetes, CI/CD, monitoring és incidensválasz. A motor rendelkezésre állása az ő keze alatt fut.

2 fő

Founders

Még mindig kódolnak. Heti egy ügyfél-interjú. Nincs HR osztály.

A BEMUTATKOZÁS VÉGE

Beszéljünk a te forgalmadról.

20 perc, képernyőmegosztás, a saját kéréseidből generált becslés. Utána kapsz egy írott összefoglalót, hogy a motor mit tudna nálad átvenni.

Élő bemutató kérése →Ügyfelek