AI Agent

OpenAI GPT-Realtime-2: a hangalapú AI ügynök, ami most már érvel és telefonál helyetted

Az OpenAI 2026. május 7-én bemutatta a GPT-Realtime-2 voice modellt, ami GPT-5 szintű érveléssel hozza el a valódi hangalapú AI ügynököket. Mellé érkezett a GPT-Realtime-Translate (élő fordítás, $0,034/perc) és a GPT-Realtime-Whisper (streaming transzkripció, $0,017/perc). Mit jelent ez a magyar KKV-knak ügyfélszolgálatban, telefonos értékesítésben és többnyelvű kommunikációban?

Krasznai Gábor Krasznai Gábor
11 perc olvasás
OpenAI GPT-Realtime-2 voice AI modell bejelentés 2026.05.07 — hangalapú AI ügynök hullámforma vizualizációval, narancs-kék gradiens

Gyors válasz: Az OpenAI 2026.05.07-én jelentette be a GPT-Realtime-2 voice modellt, ami az első hangalapú AI GPT-5 szintű érveléssel. Mellé érkezett a GPT-Realtime-Translate (élő fordítás, $0,034/perc) és a GPT-Realtime-Whisper (streaming transzkripció, $0,017/perc). A modell 128 000 token kontextust támogat (4× nagyobb mint korábban), párhuzamos eszközhívásokat végez, és a Big Bench Audio benchmarkon 96,6%-ot ér el (a korábbi 81,4% helyett). Az API-árak: $4 input / $24 output szöveg-token, $32 / $64 audio-token 1 millió token-re — 90-98,75% cache-kedvezménnyel. Magyar KKV-knak ez azt jelenti, hogy az AI hangbot most először lett valóban alkalmas telefonos ügyfélszolgálatra, lead-kvalifikálásra és többnyelvű kommunikációra.

2026 májusában az OpenAI nemcsak egy újabb hangmodellt adott ki — hanem áttörte azt a határt, amitől eddig a hangalapú AI inkább látványos demó volt, mint üzleti eszköz. A GPT-Realtime-2 az első voice modell, ami GPT-5-szintű érveléssel dolgozik, és emellett megjelent két dedikált streaming modell is: a GPT-Realtime-Translate (élő tolmácsolás) és a GPT-Realtime-Whisper (valós idejű transzkripció).

A bejelentés időzítése sokat elárul: csupán két nappal a GPT-5.5 Instant után érkezett, jelezve, hogy az OpenAI nagyon agresszív tempóban tolja a voice agent kategóriát az általános AI piacra. (A GPT-5.5-ről részletesen ebben a cikkben írtunk.)

OpenAI GPT-Realtime-2 voice AI modell bejelentés 2026.05.07 — hangalapú AI ügynök hullámforma vizualizációval, narancs-kék gradiens
OpenAI GPT-Realtime-2 — az első voice AI modell GPT-5 szintű érveléssel (2026.05.07).

Ebben a cikkben végigvesszük: mit tud konkrétan az új modell, mennyibe kerül, hogyan teljesít a versenytársakhoz képest, és mit jelent ez egy magyar KKV-nak, ahol az ügyfélszolgálat, a foglalási rendszerek vagy a többnyelvű kommunikáció a napi élet része.

Mi az a GPT-Realtime-2 voice AI?

A GPT-Realtime-2 az OpenAI első olyan hangalapú modellje, amely a GPT-5 család érvelési képességét hozza el a valós idejű beszélgetésekbe. A modell egységes speech-to-speech architektúrában dolgozik — vagyis nem külön beszédfelismerő, nyelvi modell és beszédszintetizátor pipeline-t használ, hanem egyetlen modell végzi a hang feldolgozását a bemenettől a kimenetig. Ez a fajta architektúra alacsonyabb késleltetést és természetesebb intonációt tesz lehetővé.

Az OpenAI így fogalmazott a hivatalos bejelentésben:

„Voice agents are now real-time collaborators that can listen, reason, and solve complex problems as conversations unfold."

„A voice ügynökök immár valós idejű partnerek, akik képesek figyelni, érvelni és összetett problémákat megoldani, miközben a beszélgetés zajlik."

— OpenAI, 2026.05.07. (Forrás: openai.com/index/advancing-voice-intelligence)

A főbb technikai paraméterek:

  • Kontextusablak: 128 000 token (a korábbi 32 000-hez képest 4×-es növekedés) — a gyakorlatban egy 30-45 perces telefonbeszélgetés teljes előzménye benne marad a modell „rövid távú memóriájában".
  • Maximális kimenet: 32 000 token (előzőleg 4 096).
  • Érvelési erőfeszítés szintek: minimal, low, medium, high, very high — a fejlesztő dinamikusan állíthatja, hogy egy adott válasznál mennyit „gondolkodjon" a modell.
  • Tudásvágás: 2024.09.30.
  • Token konvenció: a felhasználói hangból 1 token / 100 ms keletkezik, az asszisztens hangjából 1 token / 50 ms.

GPT-Realtime-Translate és GPT-Realtime-Whisper

Az OpenAI nem egy, hanem három modellt adott ki. Mindegyik más feladatra optimalizált, és mindegyik közvetlenül az API-n keresztül érhető el.

OpenAI 3 voice modell összehasonlítás magyarul: GPT-Realtime-2 (érvelő voice agent), GPT-Realtime-Translate (élő tolmács), GPT-Realtime-Whisper (streaming átirat)
Az OpenAI három új voice modellje 2026 májusában — érvelés, fordítás, transzkripció.

GPT-Realtime-Translate — élő tolmácsolás

A Translate modell a beszélő szavait valós időben fordítja, miközben az illető még beszél — nem a mondat végét várja meg. Bemenetként 70+ nyelvet támogat, kimenetként 13 nyelvet. A kimenet egyszerre tartalmaz fordított hangot és szöveges transzkripciós „delta" csomagokat, így egy alkalmazás a feliratot is megjelenítheti, miközben a hang a fülhallgatóból szól.

Az árazás itt különösen erős: $0,034 / perc — ez nagyjából egyharmada a piaci szabványnak. A The Next Web elemzése szerint ez önmagában elég ahhoz, hogy az OpenAI átrajzolja a tolmács-szegmens üzleti modelljét.

GPT-Realtime-Whisper — streaming transzkripció

A Whisper modell tisztán transzkripcióra szolgál: a beszélt szöveget alacsony késleltetéssel írott szöveggé alakítja. A fejlesztő beállíthatja a késleltetés vs. minőség kompromisszumot — alacsonyabb késleltetés mellett korábbi részleges szövegeket kap, de pontatlanabbul; magasabb késleltetés pontosabb átírást ad.

A modell paraméterei: 16 000 token kontextus, max 2 000 token kimenet, ára $0,017 / perc. Tipikus felhasználása: élő feliratozás konferenciákon, megbeszélés-átírás, voice-to-text alkalmazások.

Mit tud új a voice AI modell? Négy lényegi képesség

A specifikációk önmagukban nem mondanak el mindent. A gyakorlati különbséget négy újdonság hozza, amelyek a korábbi voice agentek legidegesítőbb hibáit célozzák.

1. Párhuzamos eszközhívások (parallel tool calls)

A korábbi voice agentek úgy működtek, hogy lekérdezést indítottak, vártak, válaszoltak, majd újabb lekérdezést indítottak. A felhasználó ezalatt csendet hallott — az ún. „dead air" jelenség. A GPT-Realtime-2 több eszközt egyszerre tud hívni, és közben narrálja, mit csinál. „Miközben megnézem a foglalási naptárat, ellenőrzöm az árakat is" — és valóban párhuzamosan futnak a hívások.

2. Preamble frázisok

A modell képes természetes „filler" mondatokat beilleszteni, amíg gondolkodik: „hadd nézzek utána", „egy pillanat", „nézem". Ez emberszerűbbé teszi a beszélgetést, és kitölti azt az 1-2 másodpercet, amíg az érvelési motor dolgozik.

3. Hibajavítás közben

Ha valami probléma van — például egy backend lekérdezés timeout-ol —, a modell nem hallgat el bizonytalan ideig. Megfogalmaz egy „I'm having trouble with that right now" típusú visszajelzést, és kezdeményez tovább. Ez a viselkedés különösen az ügyfélszolgálati alkalmazásokban kritikus.

4. Beállítható érvelési mélység

Az „adjustable reasoning effort" azt jelenti, hogy egy egyszerű kérdésnél a fejlesztő low szintet kérhet (gyors, olcsó válasz), egy bonyolultabb diagnózisnál vagy árazási döntésnél pedig high szintet (lassabb, drágább, de pontosabb érvelés). Ez ugyanaz a mintázat, amit a GPT-5 reasoning családból ismerünk — most először voice modellben.

Ha általában is érdekli, hogyan különbözik egy AI ügynök egy egyszerű chatbottól, érdemes elolvasni a AI agent vs chatbot cikkünket — a GPT-Realtime-2 pontosan ezt a határt tolja arrébb, csak hangalapú modalitásban.

Benchmark eredmények: ugrásszerű javulás

A számok beszédesek. Az OpenAI három fő benchmarkon mérte az új modellt a korábbi GPT-Realtime-1.5-höz képest, és mindegyiken jelentős javulás látszik.

BenchmarkGPT-Realtime-1.5GPT-Realtime-2Javulás
Big Bench Audio81,4%96,6%+15,2 pp
Audio MultiChallenge34,7%48,5%+13,8 pp
Zillow „call success" benchmark69%95%+26 pp
BolnaAI (hindi/tamil/telugu szóhibaarány)baseline−12,5%jelentős javulás

Forrás: OpenAI hivatalos benchmark adatok 2026.05.07. (összegezve: DataCamp elemzése).

GPT-Realtime-2 vs 1.5 benchmark oszlopdiagram magyarul: Big Bench Audio 81,4% → 96,6%, Audio MultiChallenge 34,7% → 48,5%, Zillow telefonhívás 69% → 95%
Benchmark eredmények: a GPT-Realtime-2 mindhárom audio teszten ugrásszerű javulást mutat.

A Big Bench Audio +15,2 pontos ugrásával kapcsolatban a The Next Web ezt írja:

„A 96,6% Big Bench Audio score practically saturates audio benchmarks — what matters now is no longer speech understanding, but the speed and quality of reasoning."

„A 96,6%-os Big Bench Audio pontszám gyakorlatilag plafonra szorítja az audio benchmarkokat — most már nem a beszéd megértése, hanem az érvelés sebessége és minősége számít."

The Next Web, 2026. május

A Zillow-féle benchmark különösen érdekes magyar KKV szempontból: ez egy ingatlanos hívás-szimuláció, ahol a voice agentnek el kell kérdezni a hívót, megérteni a szándékát, és helyesen lefoglalni egy időpontot vagy átirányítani. A 69%-ról 95%-ra ugrás azt jelenti, hogy az új modell 20-ból csak egyszer hibázik egy realisztikus üzleti hívásban — ez már átléphetőnek tűnő küszöb.

API árazás részletesen

Az OpenAI az új modelleknél megtartotta a korábbi „token-alapú" elszámolást, de bevezetett egy radikális cache-kedvezményt: az ismételt input-tokenek 90-98,75%-os kedvezménnyel mennek át. Ez egy hosszabb beszélgetésnél, ahol minden fordulóban a teljes előzmény részt vesz az inputban, hatalmas megtakarítást jelent.

GPT-Realtime-2 árak

Token típusInputCached inputOutput
Szöveg$4,00 / 1M$0,40 / 1M (−90%)$24,00 / 1M
Audio$32,00 / 1M$0,40 / 1M (−98,75%)$64,00 / 1M
Kép$5,00 / 1M$0,50 / 1M

Streaming modellek (perc-alapú)

ModellÁrFelhasználás
GPT-Realtime-Translate$0,034 / percÉlő tolmácsolás 70 → 13 nyelv
GPT-Realtime-Whisper$0,017 / percStreaming transzkripció

Forrás: OpenAI hivatalos árlista, 2026.05.07.

Mit jelent ez egy konkrét hívásban? Egy 3 perces ügyfélszolgálati beszélgetés (~600 input audio token/perc + válasz) az új árazással nagyjából $0,15-0,40 (kb. 55-150 Ft) közé esik. Az előző Realtime-1.5 modellnél ugyanez $0,30-0,80 lett volna. Egy KKV, ami napi 100 hívást kezel, percek alatt ki tudja számolni a havi költséget.

Az OpenAI a Realtime API dokumentációjában aktívan tanácsolja a kontextus-tömörítést: egy hosszabb beszélgetésnél érdemes a régebbi fordulókat összegezni, mert a teljes előzmény minden új inputban benne van.

Versenytárs összehasonlítás: hol pozícionál a GPT-Realtime-2?

A GPT-Realtime-2 árban és benchmark-pontszámban is meghatározza az OpenAI, ElevenLabs, Google Gemini Live, AssemblyAI és Anthropic közötti pozíciót. A voice AI piac 2026 májusában messze nem egyszereplős — az OpenAI lépése elsősorban az ElevenLabs és az AssemblyAI pozícióját feszegeti.

MegoldásArchitektúraErősségGyengeség
OpenAI GPT-Realtime-2Egységes speech-to-speechÉrvelés, parallel tool calls, árHangkészlet limitált, nincs voice cloning
ElevenLabs Conversational AIPipeline (STT → LLM → TTS)3000+ hang, voice cloning, ~75 ms latencyDrágább, nem unified reasoning
Google Gemini LiveMultimodális (vision + voice)Vertex AI, enterprise integrációVoice agent funkciók kevésbé érettek
AssemblyAI Universal-StreamingStreaming transcriptionSpeaker diarization, timestampNem voice agent, csak transzkripció
Anthropic ClaudeMég nincs natív voice modellErős reasoning szöveges modalitásbanRealtime API szinten lemaradás

A TechCrunch elemzői megjegyzése a megjelenés napján:

„The launch of GPT-Realtime-2 puts serious pressure on ElevenLabs and AssemblyAI, who positioned themselves on low latency and voice quality. The reasoning-based voice agent segment is creating a new category."

„A GPT-Realtime-2 megjelenése komoly nyomást gyakorol az ElevenLabs és AssemblyAI cégekre, akik az alacsony latency-vel és a hangminőséggel pozícionálták magukat. Az érvelés-alapú voice agent szegmens új kategóriát hoz létre."

TechCrunch, 2026.05.07.
Voice AI versenytárs piaci pozícionálás 2026 magyarul: OpenAI GPT-Realtime-2, ElevenLabs, Google Gemini Live, AssemblyAI, Anthropic — hangminőség és érvelési képesség mátrix
Voice AI piaci pozícionálás 2026 májusában — a GPT-Realtime-2 az érvelés-alapú voice agent szegmens élén.

Mire jó ez magyar KKV-nak? 5 konkrét voice AI alkalmazás

Magyar viszonyok között a GPT-Realtime-2 nem önmagában érdekes — hanem azért, mert most először lett elég jó ahhoz, hogy üzleti folyamatokat építsünk rá. Öt konkrét területen látjuk a legközvetlenebb hatást.

1. 24/7 telefonos AI ügyfélszolgálat magyarul

A „nyitvatartási időn kívüli" hívások — esti, hétvégi panaszok, érdeklődések — eddig vagy üzenetrögzítőre futottak, vagy drága outsource call centerhez. A GPT-Realtime-2 magyar nyelven is kezeli ezt: meghallgatja az ügyfelet, érvel, lekér adatokat (CRM, készlet, ár), és vagy elintézi a kérést, vagy érdemi jegyzettel átadja az emberi munkatársnak másnap reggelre.

2. Telefonos lead-kvalifikálás és értékesítés

Egy ingatlanos vagy biztosítási iroda jellemzően kap napi 30-50 érdeklődő hívást, amelyekből 5-10 minősül „komolynak". A voice agent át tudja venni az első kvalifikációs kört: elkérdezi a kulcsadatokat (igény, költségvetés, időzítés), és csak a hot lead-eket kapcsolja át emberhez. A Zillow benchmark 95%-os pontossága mellett ez már védhető üzletileg.

3. Foglalási rendszerek

Étterem, fodrász, fogorvos, autószerviz — bárhol, ahol naptár + telefonos időpontfoglalás van, a voice agent direkt megoldást kínál. A 128 000 token kontextus elegendő ahhoz, hogy egy hosszabb beszélgetés végéig is emlékezzen, ki a hívó és mit akar.

4. Többnyelvű ügyfélkommunikáció

Exportőr KKV-knak a GPT-Realtime-Translate önmagában is forradalmi. Egy magyar értékesítő német vagy lengyel ügyféllel beszél, és a fordítás valós időben fut a fülhallgatóban — nincs videohívás-tolmács, nincs lassítás. Ez kis cégeknél eddig elérhetetlen volt.

5. Élő feliratozás és átirat

Konferenciák, webinárok, belső megbeszélések automatikus átirata és magyar feliratozása a GPT-Realtime-Whisperrel percenként ~5 forintba kerül. Ez egy 60 perces meeting-nél kb. 300 Ft — gyakorlatilag elhanyagolható egy belső pénzügyi vagy stratégiai megbeszélés értékéhez képest.

Hogy az AI ügynök általános működését hogyan érdemes egy magyar KKV-nál bevezetni, arról részletesen az AI ügynök működése KKV-knak 2026 pillér cikkünk szól.

Magyar KKV voice AI ügyfélszolgálat: üzletasszony headset-tel modern budapesti irodában, voice agent dashboard a monitoron magyar feliratokkal
Magyar KKV voice AI use case — telefonos ügyfélszolgálat 24/7, GPT-Realtime-2 alapokon.

EU AI Act és GDPR: amit nem szabad átugrani

A voice agent technológia nem szabályozási vákuumban működik az Európai Unióban. Egy magyar bevezetésnél három jogi pontot mindenképpen át kell gondolni.

  • EU AI Act (2024) — high-risk besorolás: Egyes voice agent felhasználások (pl. ügyfél-profilozás, hitelképesség-vizsgálat, állásinterjú) magas kockázatú kategóriába esnek. Itt kötelező az emberi felügyelet, a részletes dokumentáció és az incidenskezelés.
  • GDPR — biometrikus adat: A hangfelvétel, ha azonosításra alkalmas, a GDPR 9. cikk szerinti különleges adatkategória. Tárolásához kifejezett, célhoz kötött hozzájárulás kell.
  • Transzparencia 2026 augusztusától: Az EU AI Act fokozatos hatályba lépésével kötelező az ügyfelet egyértelműen tájékoztatni, ha AI-val beszél, nem emberrel. Ezt a hangagentnek a beszélgetés elején meg kell tennie.

Ez a gyakorlatban azt jelenti, hogy egy magyar bevezetésnél nem elég a technológia — minimum egy adatkezelési tájékoztató frissítés és egy belső eljárásrend (mikor lép be ember, mikor záródik a beszélgetés, hogyan tárolódnak a felvételek) szükséges.

Mit jelent ez a magyar piacnak?

A globális voice agent piac 2025-ben 4,8 milliárd USD-t tett ki, 2034-re a Grand View Research 47,5 milliárd USD-re becsüli — 28,7%-os CAGR mellett. Magyarország ebből töredéket ad, de a relatív növekedés itt is hasonló nagyságrendű lehet.

Hazai voice AI szereplők — VoiceGenie, WebOrigo VoiceBot, Stratify — eddig azzal versenyeztek, hogy magyarul jól működnek és helyi integrációkat (pl. NAV, KSH, hazai CRM-ek) támogatnak. Az OpenAI nyersereje most arra kényszeríti őket, hogy vagy a lokalizációs előnyre koncentráljanak, vagy közvetlenül az OpenAI API-ra építsenek és inkább integrátorként pozícionálódjanak.

SocialPro perspektívából egyértelmű a kép: 2026 második felében már nincs technológiai oka annak, hogy egy magyar KKV ne tegye fel az AI-t a telefonjára. A kérdés nem az, hogy „működik-e" — a Zillow 95%-os benchmark megválaszolta. A kérdés most az, hogy melyik folyamattal érdemes kezdeni, hogyan számítható ki a megtérülés, és hogyan hangolható úgy a rendszer, hogy az ügyfél ne érezze idegennek.

Ha foglalkoztatja, hogy a saját cégénél melyik folyamatba illeszthető be értelmesen voice agent — például az ügyfélszolgálatba, foglalásba vagy lead-kvalifikációba —, kezdje a gondolkodást a konkrét fájdalompontnál: hol veszít a cég ügyfelet, csak azért, mert nem ér rá emberrel felvenni a telefont? Az új modell pontosan ezt a rést tölti be.

Ha szeretne voice AI bevezetést, telefonos AI ügyfélszolgálat tervezést vagy magyar nyelvű hangbot fejlesztést, vegye fel a kapcsolatot a SocialPro csapatával — magyar KKV környezetre szabott voice agent integrációt készítünk.

Krasznai Gábor, a SocialPro alapítója

Szerző

Krasznai Gábor

A KG Creative Media Group Kft. alapítója, AI stratégiai tanácsadó. Több mint fél évtizedes tapasztalat a digitális transzformáció és vállalati AI megoldások területén.

#Voice AI #OpenAI #GPT-Realtime #Hangalapú AI #AI ügyfélszolgálat #AI Agent #Voice Agent

Kapcsolódó cikkek

SpaceX × Anthropic megállapodás: 220 000 GPU a Colossus 1-ből, Musk 180° fordulat
Stratégia

SpaceX × Anthropic megállapodás: 220 000 GPU a Colossus 1-ből, Musk 180° fordulat

2026. május 6-án a SpaceX 300 MW új kapacitást és 220 000+ NVIDIA GPU-t ad bérbe az Anthropicnek a Colossus 1 adatközpontból — három hónappal azután, hogy Musk „misanthropic" jelzővel illette a céget. Mit jelent ez a magyar KKV-knak Claude API rate limit és multi-cloud stratégia szempontjából?

12 perc olvasas

Készen áll a következő lépésre?

Foglaljon egy 30 perces ingyenes konzultációt, és mutassuk meg, hogyan segíthetünk.

Nincs elkötelezettség. 30 perces ingyenes konzultáció.