Gyors válasz: Az OpenAI 2026.05.07-én jelentette be a GPT-Realtime-2 voice modellt, ami az első hangalapú AI GPT-5 szintű érveléssel. Mellé érkezett a GPT-Realtime-Translate (élő fordítás, $0,034/perc) és a GPT-Realtime-Whisper (streaming transzkripció, $0,017/perc). A modell 128 000 token kontextust támogat (4× nagyobb mint korábban), párhuzamos eszközhívásokat végez, és a Big Bench Audio benchmarkon 96,6%-ot ér el (a korábbi 81,4% helyett). Az API-árak: $4 input / $24 output szöveg-token, $32 / $64 audio-token 1 millió token-re — 90-98,75% cache-kedvezménnyel. Magyar KKV-knak ez azt jelenti, hogy az AI hangbot most először lett valóban alkalmas telefonos ügyfélszolgálatra, lead-kvalifikálásra és többnyelvű kommunikációra.
2026 májusában az OpenAI nemcsak egy újabb hangmodellt adott ki — hanem áttörte azt a határt, amitől eddig a hangalapú AI inkább látványos demó volt, mint üzleti eszköz. A GPT-Realtime-2 az első voice modell, ami GPT-5-szintű érveléssel dolgozik, és emellett megjelent két dedikált streaming modell is: a GPT-Realtime-Translate (élő tolmácsolás) és a GPT-Realtime-Whisper (valós idejű transzkripció).
A bejelentés időzítése sokat elárul: csupán két nappal a GPT-5.5 Instant után érkezett, jelezve, hogy az OpenAI nagyon agresszív tempóban tolja a voice agent kategóriát az általános AI piacra. (A GPT-5.5-ről részletesen ebben a cikkben írtunk.)
Ebben a cikkben végigvesszük: mit tud konkrétan az új modell, mennyibe kerül, hogyan teljesít a versenytársakhoz képest, és mit jelent ez egy magyar KKV-nak, ahol az ügyfélszolgálat, a foglalási rendszerek vagy a többnyelvű kommunikáció a napi élet része.
Mi az a GPT-Realtime-2 voice AI?
A GPT-Realtime-2 az OpenAI első olyan hangalapú modellje, amely a GPT-5 család érvelési képességét hozza el a valós idejű beszélgetésekbe. A modell egységes speech-to-speech architektúrában dolgozik — vagyis nem külön beszédfelismerő, nyelvi modell és beszédszintetizátor pipeline-t használ, hanem egyetlen modell végzi a hang feldolgozását a bemenettől a kimenetig. Ez a fajta architektúra alacsonyabb késleltetést és természetesebb intonációt tesz lehetővé.
Az OpenAI így fogalmazott a hivatalos bejelentésben:
„Voice agents are now real-time collaborators that can listen, reason, and solve complex problems as conversations unfold."
„A voice ügynökök immár valós idejű partnerek, akik képesek figyelni, érvelni és összetett problémákat megoldani, miközben a beszélgetés zajlik."
— OpenAI, 2026.05.07. (Forrás: openai.com/index/advancing-voice-intelligence)
A főbb technikai paraméterek:
- Kontextusablak: 128 000 token (a korábbi 32 000-hez képest 4×-es növekedés) — a gyakorlatban egy 30-45 perces telefonbeszélgetés teljes előzménye benne marad a modell „rövid távú memóriájában".
- Maximális kimenet: 32 000 token (előzőleg 4 096).
- Érvelési erőfeszítés szintek: minimal, low, medium, high, very high — a fejlesztő dinamikusan állíthatja, hogy egy adott válasznál mennyit „gondolkodjon" a modell.
- Tudásvágás: 2024.09.30.
- Token konvenció: a felhasználói hangból 1 token / 100 ms keletkezik, az asszisztens hangjából 1 token / 50 ms.
GPT-Realtime-Translate és GPT-Realtime-Whisper
Az OpenAI nem egy, hanem három modellt adott ki. Mindegyik más feladatra optimalizált, és mindegyik közvetlenül az API-n keresztül érhető el.
GPT-Realtime-Translate — élő tolmácsolás
A Translate modell a beszélő szavait valós időben fordítja, miközben az illető még beszél — nem a mondat végét várja meg. Bemenetként 70+ nyelvet támogat, kimenetként 13 nyelvet. A kimenet egyszerre tartalmaz fordított hangot és szöveges transzkripciós „delta" csomagokat, így egy alkalmazás a feliratot is megjelenítheti, miközben a hang a fülhallgatóból szól.
Az árazás itt különösen erős: $0,034 / perc — ez nagyjából egyharmada a piaci szabványnak. A The Next Web elemzése szerint ez önmagában elég ahhoz, hogy az OpenAI átrajzolja a tolmács-szegmens üzleti modelljét.
GPT-Realtime-Whisper — streaming transzkripció
A Whisper modell tisztán transzkripcióra szolgál: a beszélt szöveget alacsony késleltetéssel írott szöveggé alakítja. A fejlesztő beállíthatja a késleltetés vs. minőség kompromisszumot — alacsonyabb késleltetés mellett korábbi részleges szövegeket kap, de pontatlanabbul; magasabb késleltetés pontosabb átírást ad.
A modell paraméterei: 16 000 token kontextus, max 2 000 token kimenet, ára $0,017 / perc. Tipikus felhasználása: élő feliratozás konferenciákon, megbeszélés-átírás, voice-to-text alkalmazások.
Mit tud új a voice AI modell? Négy lényegi képesség
A specifikációk önmagukban nem mondanak el mindent. A gyakorlati különbséget négy újdonság hozza, amelyek a korábbi voice agentek legidegesítőbb hibáit célozzák.
1. Párhuzamos eszközhívások (parallel tool calls)
A korábbi voice agentek úgy működtek, hogy lekérdezést indítottak, vártak, válaszoltak, majd újabb lekérdezést indítottak. A felhasználó ezalatt csendet hallott — az ún. „dead air" jelenség. A GPT-Realtime-2 több eszközt egyszerre tud hívni, és közben narrálja, mit csinál. „Miközben megnézem a foglalási naptárat, ellenőrzöm az árakat is" — és valóban párhuzamosan futnak a hívások.
2. Preamble frázisok
A modell képes természetes „filler" mondatokat beilleszteni, amíg gondolkodik: „hadd nézzek utána", „egy pillanat", „nézem". Ez emberszerűbbé teszi a beszélgetést, és kitölti azt az 1-2 másodpercet, amíg az érvelési motor dolgozik.
3. Hibajavítás közben
Ha valami probléma van — például egy backend lekérdezés timeout-ol —, a modell nem hallgat el bizonytalan ideig. Megfogalmaz egy „I'm having trouble with that right now" típusú visszajelzést, és kezdeményez tovább. Ez a viselkedés különösen az ügyfélszolgálati alkalmazásokban kritikus.
4. Beállítható érvelési mélység
Az „adjustable reasoning effort" azt jelenti, hogy egy egyszerű kérdésnél a fejlesztő low szintet kérhet (gyors, olcsó válasz), egy bonyolultabb diagnózisnál vagy árazási döntésnél pedig high szintet (lassabb, drágább, de pontosabb érvelés). Ez ugyanaz a mintázat, amit a GPT-5 reasoning családból ismerünk — most először voice modellben.
Ha általában is érdekli, hogyan különbözik egy AI ügynök egy egyszerű chatbottól, érdemes elolvasni a AI agent vs chatbot cikkünket — a GPT-Realtime-2 pontosan ezt a határt tolja arrébb, csak hangalapú modalitásban.
Benchmark eredmények: ugrásszerű javulás
A számok beszédesek. Az OpenAI három fő benchmarkon mérte az új modellt a korábbi GPT-Realtime-1.5-höz képest, és mindegyiken jelentős javulás látszik.
| Benchmark | GPT-Realtime-1.5 | GPT-Realtime-2 | Javulás |
|---|---|---|---|
| Big Bench Audio | 81,4% | 96,6% | +15,2 pp |
| Audio MultiChallenge | 34,7% | 48,5% | +13,8 pp |
| Zillow „call success" benchmark | 69% | 95% | +26 pp |
| BolnaAI (hindi/tamil/telugu szóhibaarány) | baseline | −12,5% | jelentős javulás |
Forrás: OpenAI hivatalos benchmark adatok 2026.05.07. (összegezve: DataCamp elemzése).
A Big Bench Audio +15,2 pontos ugrásával kapcsolatban a The Next Web ezt írja:
„A 96,6% Big Bench Audio score practically saturates audio benchmarks — what matters now is no longer speech understanding, but the speed and quality of reasoning."
„A 96,6%-os Big Bench Audio pontszám gyakorlatilag plafonra szorítja az audio benchmarkokat — most már nem a beszéd megértése, hanem az érvelés sebessége és minősége számít."
— The Next Web, 2026. május
A Zillow-féle benchmark különösen érdekes magyar KKV szempontból: ez egy ingatlanos hívás-szimuláció, ahol a voice agentnek el kell kérdezni a hívót, megérteni a szándékát, és helyesen lefoglalni egy időpontot vagy átirányítani. A 69%-ról 95%-ra ugrás azt jelenti, hogy az új modell 20-ból csak egyszer hibázik egy realisztikus üzleti hívásban — ez már átléphetőnek tűnő küszöb.
API árazás részletesen
Az OpenAI az új modelleknél megtartotta a korábbi „token-alapú" elszámolást, de bevezetett egy radikális cache-kedvezményt: az ismételt input-tokenek 90-98,75%-os kedvezménnyel mennek át. Ez egy hosszabb beszélgetésnél, ahol minden fordulóban a teljes előzmény részt vesz az inputban, hatalmas megtakarítást jelent.
GPT-Realtime-2 árak
| Token típus | Input | Cached input | Output |
|---|---|---|---|
| Szöveg | $4,00 / 1M | $0,40 / 1M (−90%) | $24,00 / 1M |
| Audio | $32,00 / 1M | $0,40 / 1M (−98,75%) | $64,00 / 1M |
| Kép | $5,00 / 1M | $0,50 / 1M | — |
Streaming modellek (perc-alapú)
| Modell | Ár | Felhasználás |
|---|---|---|
| GPT-Realtime-Translate | $0,034 / perc | Élő tolmácsolás 70 → 13 nyelv |
| GPT-Realtime-Whisper | $0,017 / perc | Streaming transzkripció |
Forrás: OpenAI hivatalos árlista, 2026.05.07.
Mit jelent ez egy konkrét hívásban? Egy 3 perces ügyfélszolgálati beszélgetés (~600 input audio token/perc + válasz) az új árazással nagyjából $0,15-0,40 (kb. 55-150 Ft) közé esik. Az előző Realtime-1.5 modellnél ugyanez $0,30-0,80 lett volna. Egy KKV, ami napi 100 hívást kezel, percek alatt ki tudja számolni a havi költséget.
Az OpenAI a Realtime API dokumentációjában aktívan tanácsolja a kontextus-tömörítést: egy hosszabb beszélgetésnél érdemes a régebbi fordulókat összegezni, mert a teljes előzmény minden új inputban benne van.
Versenytárs összehasonlítás: hol pozícionál a GPT-Realtime-2?
A GPT-Realtime-2 árban és benchmark-pontszámban is meghatározza az OpenAI, ElevenLabs, Google Gemini Live, AssemblyAI és Anthropic közötti pozíciót. A voice AI piac 2026 májusában messze nem egyszereplős — az OpenAI lépése elsősorban az ElevenLabs és az AssemblyAI pozícióját feszegeti.
| Megoldás | Architektúra | Erősség | Gyengeség |
|---|---|---|---|
| OpenAI GPT-Realtime-2 | Egységes speech-to-speech | Érvelés, parallel tool calls, ár | Hangkészlet limitált, nincs voice cloning |
| ElevenLabs Conversational AI | Pipeline (STT → LLM → TTS) | 3000+ hang, voice cloning, ~75 ms latency | Drágább, nem unified reasoning |
| Google Gemini Live | Multimodális (vision + voice) | Vertex AI, enterprise integráció | Voice agent funkciók kevésbé érettek |
| AssemblyAI Universal-Streaming | Streaming transcription | Speaker diarization, timestamp | Nem voice agent, csak transzkripció |
| Anthropic Claude | Még nincs natív voice modell | Erős reasoning szöveges modalitásban | Realtime API szinten lemaradás |
A TechCrunch elemzői megjegyzése a megjelenés napján:
„The launch of GPT-Realtime-2 puts serious pressure on ElevenLabs and AssemblyAI, who positioned themselves on low latency and voice quality. The reasoning-based voice agent segment is creating a new category."
„A GPT-Realtime-2 megjelenése komoly nyomást gyakorol az ElevenLabs és AssemblyAI cégekre, akik az alacsony latency-vel és a hangminőséggel pozícionálták magukat. Az érvelés-alapú voice agent szegmens új kategóriát hoz létre."
— TechCrunch, 2026.05.07.
Mire jó ez magyar KKV-nak? 5 konkrét voice AI alkalmazás
Magyar viszonyok között a GPT-Realtime-2 nem önmagában érdekes — hanem azért, mert most először lett elég jó ahhoz, hogy üzleti folyamatokat építsünk rá. Öt konkrét területen látjuk a legközvetlenebb hatást.
1. 24/7 telefonos AI ügyfélszolgálat magyarul
A „nyitvatartási időn kívüli" hívások — esti, hétvégi panaszok, érdeklődések — eddig vagy üzenetrögzítőre futottak, vagy drága outsource call centerhez. A GPT-Realtime-2 magyar nyelven is kezeli ezt: meghallgatja az ügyfelet, érvel, lekér adatokat (CRM, készlet, ár), és vagy elintézi a kérést, vagy érdemi jegyzettel átadja az emberi munkatársnak másnap reggelre.
2. Telefonos lead-kvalifikálás és értékesítés
Egy ingatlanos vagy biztosítási iroda jellemzően kap napi 30-50 érdeklődő hívást, amelyekből 5-10 minősül „komolynak". A voice agent át tudja venni az első kvalifikációs kört: elkérdezi a kulcsadatokat (igény, költségvetés, időzítés), és csak a hot lead-eket kapcsolja át emberhez. A Zillow benchmark 95%-os pontossága mellett ez már védhető üzletileg.
3. Foglalási rendszerek
Étterem, fodrász, fogorvos, autószerviz — bárhol, ahol naptár + telefonos időpontfoglalás van, a voice agent direkt megoldást kínál. A 128 000 token kontextus elegendő ahhoz, hogy egy hosszabb beszélgetés végéig is emlékezzen, ki a hívó és mit akar.
4. Többnyelvű ügyfélkommunikáció
Exportőr KKV-knak a GPT-Realtime-Translate önmagában is forradalmi. Egy magyar értékesítő német vagy lengyel ügyféllel beszél, és a fordítás valós időben fut a fülhallgatóban — nincs videohívás-tolmács, nincs lassítás. Ez kis cégeknél eddig elérhetetlen volt.
5. Élő feliratozás és átirat
Konferenciák, webinárok, belső megbeszélések automatikus átirata és magyar feliratozása a GPT-Realtime-Whisperrel percenként ~5 forintba kerül. Ez egy 60 perces meeting-nél kb. 300 Ft — gyakorlatilag elhanyagolható egy belső pénzügyi vagy stratégiai megbeszélés értékéhez képest.
Hogy az AI ügynök általános működését hogyan érdemes egy magyar KKV-nál bevezetni, arról részletesen az AI ügynök működése KKV-knak 2026 pillér cikkünk szól.
EU AI Act és GDPR: amit nem szabad átugrani
A voice agent technológia nem szabályozási vákuumban működik az Európai Unióban. Egy magyar bevezetésnél három jogi pontot mindenképpen át kell gondolni.
- EU AI Act (2024) — high-risk besorolás: Egyes voice agent felhasználások (pl. ügyfél-profilozás, hitelképesség-vizsgálat, állásinterjú) magas kockázatú kategóriába esnek. Itt kötelező az emberi felügyelet, a részletes dokumentáció és az incidenskezelés.
- GDPR — biometrikus adat: A hangfelvétel, ha azonosításra alkalmas, a GDPR 9. cikk szerinti különleges adatkategória. Tárolásához kifejezett, célhoz kötött hozzájárulás kell.
- Transzparencia 2026 augusztusától: Az EU AI Act fokozatos hatályba lépésével kötelező az ügyfelet egyértelműen tájékoztatni, ha AI-val beszél, nem emberrel. Ezt a hangagentnek a beszélgetés elején meg kell tennie.
Ez a gyakorlatban azt jelenti, hogy egy magyar bevezetésnél nem elég a technológia — minimum egy adatkezelési tájékoztató frissítés és egy belső eljárásrend (mikor lép be ember, mikor záródik a beszélgetés, hogyan tárolódnak a felvételek) szükséges.
Mit jelent ez a magyar piacnak?
A globális voice agent piac 2025-ben 4,8 milliárd USD-t tett ki, 2034-re a Grand View Research 47,5 milliárd USD-re becsüli — 28,7%-os CAGR mellett. Magyarország ebből töredéket ad, de a relatív növekedés itt is hasonló nagyságrendű lehet.
Hazai voice AI szereplők — VoiceGenie, WebOrigo VoiceBot, Stratify — eddig azzal versenyeztek, hogy magyarul jól működnek és helyi integrációkat (pl. NAV, KSH, hazai CRM-ek) támogatnak. Az OpenAI nyersereje most arra kényszeríti őket, hogy vagy a lokalizációs előnyre koncentráljanak, vagy közvetlenül az OpenAI API-ra építsenek és inkább integrátorként pozícionálódjanak.
SocialPro perspektívából egyértelmű a kép: 2026 második felében már nincs technológiai oka annak, hogy egy magyar KKV ne tegye fel az AI-t a telefonjára. A kérdés nem az, hogy „működik-e" — a Zillow 95%-os benchmark megválaszolta. A kérdés most az, hogy melyik folyamattal érdemes kezdeni, hogyan számítható ki a megtérülés, és hogyan hangolható úgy a rendszer, hogy az ügyfél ne érezze idegennek.
Ha foglalkoztatja, hogy a saját cégénél melyik folyamatba illeszthető be értelmesen voice agent — például az ügyfélszolgálatba, foglalásba vagy lead-kvalifikációba —, kezdje a gondolkodást a konkrét fájdalompontnál: hol veszít a cég ügyfelet, csak azért, mert nem ér rá emberrel felvenni a telefont? Az új modell pontosan ezt a rést tölti be.
Ha szeretne voice AI bevezetést, telefonos AI ügyfélszolgálat tervezést vagy magyar nyelvű hangbot fejlesztést, vegye fel a kapcsolatot a SocialPro csapatával — magyar KKV környezetre szabott voice agent integrációt készítünk.