AI Agent

Egyetlen prompt és kész a voice agent — így működik az ElevenLabs Speech Engine

Az ElevenLabs új Speech Engine pipeline-ja egyetlen prompttal voice agentté alakít bármely chat agentet — Eleven v3 TTS-szel, Scribe v2 beszédfelismeréssel, magyar nyelvtámogatással és perc alapú $0.08-os árazással. Megnéztük, mit ér ez a magyar KKV-knak.

Krasznai Gábor Krasznai Gábor
12 perc olvasás
ElevenLabs Speech Engine voice agent vizualizáció magyar prompt példával

Gyors válasz: Az ElevenLabs Speech Engine egy 2026 elején bejelentett voice-réteg, ami egyetlen prompttal voice agentté konvertál bármely meglévő chat agentet — LLM-függetlenül, Eleven v3 TTS modellel, Scribe v2 beszédfelismeréssel, turn- és interrupt-detekcióval. Magyarul is működik (Turbo v2.5 modell óta), 70+ nyelvet támogat, és $0.08/perc kezdő árazástól indul — egy átlagos magyar KKV-nak kb. 540 000 Ft/hó egy 24/7 hangalapú AI ügynök.

  • Bejelentés: 2026 eleje — ElevenLabs Conversational AI platform új komponense
  • USP: egyetlen prompttal voice agentté alakít meglévő chat agentet (LLM-független)
  • Komponensek: Scribe v2 STT + Turn detection + Interrupt detection + Eleven v3 TTS + Audio orchestration
  • Nyelvek: 70+ TTS, 90+ STT — magyar mindkettőben
  • Latencia: 75 ms (Flash V2) — 300 ms (v3 full)
  • Árazás: $0.10/perc (Creator), $0.08/perc + $990/hó (Business), egyedi (Enterprise)

Frissítve: 2026. május 22. — az ElevenLabs Speech Engine 2026 első negyedévében jelent meg a Conversational AI platform új komponenseként.

Az AI-ipar 2026-ban átment egy csendes paradigmaváltáson, amit a sajtó nem nagyon emelt ki: a chat agentek voice módra konvertálása már nem egy 3 hónapos projekt, hanem egy API-hívás. Az ElevenLabs új Speech Engine pipeline-ja pontosan azt csinálja, amit a marketing ígér: egyetlen prompttal voice agentté alakít egy meglévő szöveges agentet — és itt a magyar piac számára is van pár fontos részlet.

Mielőtt belemennénk a részletekbe, egy gyakori félreértést tisztázzunk: a Speech Engine nem az Anthropic terméke, hanem az ElevenLabs Conversational AI platform új komponense. Az Anthropic Claude 2026 májusában még csak szöveges interakciókat támogat, voice mode nincs napirenden — ami pont azt magyarázza, miért építenek ilyen pipeline-t pont az ElevenLabsék: hogy bárkinek a chat agentjét (igen, akár Claude-alapút is) voice agentté lehessen alakítani egyetlen extra réteggel.

Mi az a Speech Engine — és miért „egyetlen prompt"?

A Speech Engine technikai értelemben egy kompozit audio pipeline, ami öt komponenst rétegez egymásra:

  • Scribe v2 (STT): beszédfelismerés 90+ nyelven, entitásfelismeréssel (bankkártya-szám, név, orvosi adat automatikus elválasztása)
  • Turn detection: mikor fejezte be a felhasználó a mondatát
  • Interrupt detection: mit csinál a bot, ha közbevágnak
  • Eleven v3 (TTS): 70+ nyelv, érzelmi árnyalatok, inline audio tagek ([pause], [whispered])
  • Audio orchestration: teljes hangfolyam-kezelés feedback loop-pal

A „one prompt" megfogalmazás nem reklámszöveg — szó szerint annyit jelent, hogy a meglévő LLM-prompt (legyen az GPT-4o, Claude Sonnet 4.6, Gemini 2.5 vagy bármilyen open-source modell) érintetlenül marad, és a Speech Engine csak az audio-réteget illeszti rá. A RAG, az eszközhasználat, a tool calling, a memória — minden marad a helyén. Ez az igazi újdonság: nem kell architektúrát újraírni.

Speech Engine pipeline diagram — Scribe v2, Turn detection, LLM, Eleven v3 TTS, Audio orchestration komponensek
A Speech Engine öt komponensből álló kompozit audio pipeline — a teljes hangfolyam egy rétegben.

Miért most? A voice agent piac üteme

A globális voice AI agent piac 2,4 milliárd dollárról várhatóan 47,5 milliárd dollárra nő 2034-re — ez 34,8%-os éves növekedési ráta (Grand View Research / Jesty CRM 2026 Voice Technology Report).

A beszéd- és hangfelismerés szegmens önállóan is 8,5-ről 23,1 milliárd dollárra nő 2030-ig. Az ElevenLabs saját pozíciója is változott: a cég 2026 februárjában 11 milliárd dolláros értékelést kapott a Sequoia által vezetett 500 millió dolláros Series D kör után. Az ARR (éves visszatérő bevétel) átlépte a 330 millió dolláros szintet — egy év alatt potenciálisan duplázódhat.

A fogyasztók 88-90%-a azt mondja, „inkább emberrel beszélnék", DE 61%-uk kifejezetten előnyben részesíti a gyors AI-választ a várakozással szemben (Jesty CRM Voice Technology Report, 2026) — ez a „speed-trust paradoxon": ha a bot azonnal érdemben válaszol, az emberek elfogadják.

Sebesség kritikus: 500 ms az ideális, 800 ms felett már „uncanny valley" zóna.

Hogyan néz ki ez egy magyar KKV szemszögéből?

A Speech Engine elméleti előnyei egy dolog, a magyar piaci realitás más. Nézzük konkrétan, mit kapsz, ha ma elindítanál egy voice agentet egy magyar AI agent fejlesztési projektben:

1. Magyar nyelvi támogatás (igen, már működik)

Az ElevenLabs a Turbo v2.5 modell óta hivatalosan támogatja a magyart, és van dedikált magyar TTS landing oldal is. A platform kiemeli, hogy a modell képes megragadni a magyar magánhangzó-harmóniát, ami az európai nyelvek közül elég ritka kihívás. Ez nem azt jelenti, hogy tökéletes — de azt igen, hogy ma már lehet vele lényegében hibátlan magyar ügyfélszolgálati hangot építeni.

Összehasonlításként: az OpenAI gpt-realtime-2 voice modell jelenleg 32 nyelvet támogat, a Google Gemini Live API 70-et, de mindegyik más-más erősséggel a magyar tartományban.

2. Latencia — a kritikus pont

Latencia idővonal — 75 ms Flash V2, 300 ms Eleven v3, 500 ms emberi határ, 800 ms uncanny valley zóna
A latencia tartomány: a Flash V2 75 ms-os válaszideje a természetes beszélgetés szintjén van.

A pipeline két TTS-modellel dolgozik:

  • Eleven Flash V2: ~75 ms inference rövid inputokra (ez kvázi azonnali)
  • Eleven v3 (full): 300 ms körüli, cserébe sokkal expresszívebb

Az 500 ms az „ideális" határ az emberi beszélgetésnél — fölötte a hívó kínosnak érzi, alatta természetesnek. A Speech Engine ezt egy magyar ügyfélszolgálati hangnál is tartja, ha a teljes pipeline (LLM válasz + TTS) jól van konfigurálva. Lassú LLM-mel ez könnyen kicsúszik — itt jön be a „soft timeout" funkció, ami filler szavakat („Hmm…", „Megnézem egy pillanat…") generál, amíg az LLM gondolkodik.

3. Árazás — végre számolható

CsomagÁrMit kapsz
Creator / Pro$0.10 / percBelépő szint, alap voice agent
Business (éves)$0.08 / perc + $990/hóLow-latency TTS, 10 pro hangklón, 10 workspace
EnterpriseegyediSLA, on-premise opciók, dedikált support
Magyar KKV költségkalkuláció — 50 hívás napi, 4 perc átlag, 542 000 Ft havi voice agent költség
Konkrét magyar KKV költség: napi 50 ügyfélhívás × 4 perc × 30 nap = 6000 perc, Business csomagon ~542 000 Ft havonta.

Egy átlagos magyar KKV-számítás: napi 50 hívás × 4 perc × 30 nap = 6000 perc. Business csomagon 6000 × $0.08 = $480/hó, plusz a $990 fix díj. Vagyis kb. 540 000 Ft havonta egy teljes hangalapú AI ügyfélszolgálati szolgáltatás, ami 24/7 beszél magyarul.

Egy fél ember havi munkabére alatt — és nem alszik, nem megy szabira, nem mond fel. Megjegyzés: az LLM költséget jelenleg az ElevenLabs nyeli el, de a tervek szerint ezt áthárítják majd a felhasználókra — a végleges TCO becsléshez érdemes számolni egy 10-20%-os ráhagyással.

Versenytárs-mátrix: kit szorít ki a Speech Engine?

A voice agent piac 2026-ban már nem üres — pont ezért érdekes a pozicionálás:

PlatformFő erősségLatenciaNyelvekTelefonos integráció
ElevenLabs Speech EngineTermészetes hangzás, LLM-agnosztikus, hangklónozás75 ms (Flash V2)70+ (magyar ✓)3rd party (Twilio)
OpenAI gpt-realtimeSpeech-to-speech, kép input, komplex utasításokNem publikus32SIP új
Google Gemini LiveMultimodális, Search integráció, barge-inNem publikus70WebSocket API
VapiHIPAA, PCI, SOC 2, adatrezidencian/an/aSIP, direkt szám ✓
Retell AITelephony-fókusz, multilingvális in-call váltásn/a32 (magyar ✓)SIP, direkt szám ✓
Cartesia Sonic 2Ultra-low latency, érzelem-moduláció90 ms15n/a
Voice agent platformok 2026 — ElevenLabs, OpenAI, Google Gemini, Vapi, Retell, Cartesia összehasonlító mátrix
A Speech Engine erőssége a hangminőség és a fejlesztői workflow, nem a közvetlen telefonos integráció — ott a Vapi és a Retell vezet.

A Speech Engine pozíciója nem a telefonos integrációban erős — hanem a hangminőségben és a fejlesztői workflow-ban. Ha egy meglévő chat agentet akarsz hanggal kiegészíteni úgy, hogy a hangkiadás professzionálisan szóljon (podcast-szintű, érzelmes), akkor a Speech Engine a logikus választás. Ha pure call center automatizációt akarsz közvetlen SIP-pel, akkor a Vapi vagy a Retell.

Konkrét felhasználási esetek — magyar valóság

Az AI agent és chatbot különbsége itt válik élesebbé: a voice agent nem szöveges asszisztens, hanem teljes ügyfélinterakciót lebonyolító rendszer.

Ügyfélszolgálati hangbot 24/7

A Klarna OpenAI-alapú AI-asszisztense (más technológia, de jó referencia) az első hónapban 2,3 millió beszélgetést kezelt, ami a Klarna ügyfélszolgálati chatjeinek kétharmada volt. 23 piacon, 35+ nyelven, 24/7. A magyar megfelelője ennek nem feltétlenül 2 millió hívás — de havi 500-1000 visszatérő kérdés („mikor szállítják ki?", „hol az ÁFA-s számlám?", „hogyan mondom le?") nyugodtan automatizálható.

Telesales és lead minősítés

A kimenő hívások 60-70%-a olyan ismétlődő feladat (időpontfoglalás, termékajánlás, FAQ-kezelés), amit egy voice agent ugyanolyan jól csinál, mint egy ember — sőt, nem fárad ki, nincs „hétfő reggel" effektje. Az emberi ügynökök így a komplex, érzelmileg terhelt vagy nagyértékű hívásokra koncentrálhatnak.

IVR-modernizáció

A klasszikus IVR („nyomj 1-est, ha …") halálra unt mindenkit. A voice agent annyiban más, hogy természetes nyelven értelmezi a kérést, és intelligensen továbbít a megfelelő osztályhoz vagy emberi ügynökhöz. Ha a kérdés rutin (pl. számlaegyenleg lekérdezése), egyáltalán nem kell embert bevonni.

Magyar fejlesztés referenciaként: Alrite

Érdemes megemlíteni, hogy magyar oldalról is van komoly játékos a térben: az Alrite magyar beszédfelismerő motor, ami diktálásra, leiratozásra, videó-feliratozásra optimalizált. 50 000+ regisztrált felhasználó, és prime csomagjuk nettó 45 Ft/perc. Ez nem közvetlen versenytárs (más célra való), de jó referenciapont arra, hogy magyar nyelvi terepen mit ér el ma egy specializált eszköz.

Mit mondanak a szakértők?

Mati Staniszewski, az ElevenLabs CEO-ja a cég küldetését így foglalja össze: „ElevenLabs is a research and product company building foundational voice and audio models, and creating a platform for businesses to transform how they communicate with their customers and employees." Magyarul: „Az ElevenLabs egy kutatás- és termékfejlesztő vállalat, amely alapvető hang- és beszédmodelleket épít, és platformot hoz létre a vállalkozások számára, hogy átalakítsák, hogyan kommunikálnak ügyfeleikkel és alkalmazottaikkal."

A Gartner 2024-es Voice AI elemzése szerint: „Voice AI agents are transforming customer service, telesales, and multimedia content creation, with the market expected to grow from $4.4 billion in 2024 to $55.5 billion by 2034 at a 34.8% CAGR." („A voice AI ügynökök átalakítják az ügyfélszolgálatot, a telesalest és a multimédia-tartalom létrehozást; a piac 4,4 milliárd dollárról 55,5 milliárd dollárra nő 2034-re, 34,8%-os éves növekedés mellett.")

Ami ebből magyar KKV-szempontból fontos: ez nem „majd 2030-ban" történet. A 34,8%-os CAGR azt jelenti, hogy 2-3 év múlva ugyanazok a versenytársak, akiknek ma még call centeresük van, hangbottal fognak válaszolni a hívásokra. Aki most kezd, az 6-12 hónappal előbb tanulja meg, hol a határa az automatizálásnak.

EU AI Act — amit muszáj tudnod 2026-ban

Az EU AI Act 50. cikke kötelező transzparenciát ír elő minden olyan AI-rendszerre, amely természetes személyekkel közvetlenül kommunikál. Voice agentek esetében ez azt jelenti, hogy:

  • A bot köteles tájékoztatni a hívót, hogy AI-val beszél (nem ember)
  • Az AI által generált tartalmat géppel olvasható formátumban meg kell jelölni
  • A hangfelvételek (mert személyes adatnak minősülnek a GDPR alapján) speciális adatkezelési tájékoztatást igényelnek
EU AI Act 50. cikk — voice agent transzparencia, AI-tartalom jelölés, GDPR hangfelvétel követelmények
Az EU AI Act 50. cikkének három fő kötelezettsége voice agentekre — hatályos 2026. augusztus 2-tól.

Konkrétan: ne csak annyit mondjon a bot a hívás elején, hogy „Szia, Anna vagyok" — mondjon valami olyat, hogy „Üdv, az AI-asszisztens beszél, kérdezhetsz tőlem rendelésekkel kapcsolatban". Ezt nemcsak az EU AI Act 2026-os életbe lépése írja elő, hanem a fogyasztói bizalom is.

Mikor NE használj voice agentet?

A hype-cikkek erről nem szoktak írni, pedig fontos. Pár szituáció, ahol a voice agent rossz választás:

  1. Magas érzelmi tartalmú panaszok. Ha valakinek 3 napos a megrendelése és üvölt — adj neki embert. A bot itt csak ront a helyzeten.
  2. Komplex, többlépcsős döntések. Új biztosítási termék kiválasztása, nagyobb beruházás tanácsadása — itt az emberi szakértelem nem helyettesíthető.
  3. Jogi és pénzügyi nyilatkozatok. YMYL területeken (Your Money or Your Life) az AI hibázhat, és az dokumentált felelősséget vonhat maga után.
  4. Ha a hívás volumene túl alacsony. Havi 50 hívás alatt a fix költség (Business csomag $990/hó) nem éri meg — egyszerűbb egy ember.

Hogyan kezdj hozzá — gyakorlati lépések

Ha most olvasod ezt és úgy érzed, „ezt kellene nekem is", itt egy konkrét roadmap:

  1. Mérd fel a hívás-típusaidat. Mennyi az ismétlődő FAQ-kérdés? Mennyi a komplex eset? A 70/30-as arány a tipikus target — a 70% automatizálható, a 30% emberhez kerül.
  2. Készíts prompt-prototípust szöveggel. Először építsd meg a chat agentet (lehet GPT-4, Claude, Gemini alapon), validáld szöveges interakcióval. Ne ugorj egyből hangra.
  3. Adj rá Speech Engine réteget. Ezen a ponton az „egyetlen prompt" ígéret valós — minimális kód-változtatás, leginkább csak az audio-konfiguráció (turn eagerness, interrupt handling, soft timeout filler szavak).
  4. Próbáld magyarul, valós beszélőkkel. A demo nem elég — 10-20 valós felhasználóval futtass béta-tesztet, és nézd a feedback-et.
  5. Iterálj a metrikák alapján. Mérd: containment rate (hány hívás zárul AI-val), átlagos hívásidő, ügyfél-elégedettség (CSAT), kézi átirányítások aránya.

Ha nem akarod nulláról építeni, érdemes először tisztában lenni az AI agent alapfogalmaival, majd megérteni a pontos KKV-szintű működési modellt.

Összegzés — kinek jó ez most?

A Speech Engine nem a forradalom, hanem egy kényelmi réteg a már létező voice-stack-en. Konkrétan akkor van értelme, ha:

  • Van már működő chat agented (LLM-alapú), és hanggal akarod kiegészíteni
  • A hangminőség és a természetesség kritikus (ügyfélszolgálat, brand-image)
  • Magyar nyelven kell kommunikálni 24/7
  • Heti 100+ rutin hívásod van, ami automatizálható
  • Hajlandó vagy 540 000-700 000 Ft/hó nagyságrendű költséget vállalni

Nem jó választás, ha:

  • Nincs még chat agented — akkor előbb azt építsd
  • SIP-alapú közvetlen telefonintegráció kell — akkor a Vapi vagy a Retell jobb
  • Heti 10-20 hívásod van — akkor egyszerűbb egy ember
  • YMYL területen működsz (jog, egészség, pénzügy) szakértői felügyelet nélkül

A piaci kontextus egyértelmű: 2-3 év múlva ez nem opció lesz, hanem alapelvárás. Aki most kezd, annak idő lesz tanulni a hibákból. Aki 2028-ban kapcsolódik be, az már egy érett, optimalizált versennyel találkozik — és valószínűleg drágábban.

Gyakori kérdések — Speech Engine voice agent

Mi az a Speech Engine pontosan?

A Speech Engine az ElevenLabs Conversational AI platform új komponense, ami egyetlen prompttal voice agentté konvertál bármely meglévő chat agentet. Öt komponensből áll: Scribe v2 beszédfelismerés (90+ nyelv), turn detection, interrupt detection, Eleven v3 TTS (70+ nyelv) és audio orchestration. Az alap LLM-prompt (GPT-4o, Claude, Gemini, vagy bármi más) érintetlenül marad, csak a hang-réteget illeszti rá.

Mennyibe kerül az ElevenLabs Speech Engine voice agent?

A Speech Engine perc alapú árazással működik: Creator/Pro csomagon $0.10/perc, Business csomagon (éves szerződés) $0.08/perc + $990/hó fix díj, Enterprise egyedi árazás. Egy átlagos magyar KKV (napi 50 hívás × 4 perc × 30 nap = 6000 perc) Business csomagon hozzávetőlegesen 540 000 Ft havi költséggel üzemeltet egy 24/7 magyar hangalapú AI ügyfélszolgálatot.

Támogat magyarul az ElevenLabs Speech Engine?

Igen, az ElevenLabs a Turbo v2.5 modell óta hivatalosan támogatja a magyar nyelvet, és a platform képes megragadni a magyar magánhangzó-harmóniát. A Speech Engine pipeline Scribe v2 beszédfelismerője 90+ nyelvet támogat, az Eleven v3 TTS modell pedig 70+ nyelven generál érzelmi árnyalatokkal kísért hangot — a magyar mindkettőben benne van.

Hogyan alakítsak chat agentet voice agentté?

Öt lépésben: (1) mérd fel a hívás-típusaidat 70/30 arány alapján, (2) készíts prompt-prototípust szöveggel, (3) adj rá Speech Engine réteget (a meglévő LLM-prompt érintetlen marad), (4) próbáld magyarul valós beszélőkkel, (5) iterálj metrikák alapján (containment rate, CSAT). A RAG, tool calling, memória és eszközhasználat a chat agent oldalán marad — ez az „egyetlen prompt" lényege.

Mi a különbség a Speech Engine és az OpenAI gpt-realtime között?

Az OpenAI gpt-realtime 32 nyelvet támogat és integrált speech-to-speech modellt használ, míg a Speech Engine 70+ nyelvet támogat (Eleven v3 TTS révén), LLM-független (bármilyen chat agent köré illeszthető) és kompozit pipeline-ként működik (Scribe v2 + turn/interrupt detection + Eleven v3 + orchestration). A Speech Engine ereje a hangminőség és fejlesztői workflow, az OpenAI gpt-realtime erőssége az integrált, alacsony latencia.

Mekkora a Speech Engine latenciája?

Két modell-opció érhető el: az Eleven Flash V2 körülbelül 75 ms inference latenciával dolgozik rövid inputokon, az Eleven v3 (full) viszont ~300 ms körüli válaszidővel működik, cserébe lényegesen expresszívebb (érzelmi árnyalatok, inline audio tagek). A „speed-trust paradoxon" szerint 800 ms feletti válaszidőnél a felhasználók „uncanny valley" zónába érzik a botot.

Mikor NE használj voice agentet?

Négy esetben kerülendő: (1) magas érzelmi tartalmú panaszok kezelése, (2) komplex, többlépcsős döntéseket igénylő helyzetek, (3) jogi és pénzügyi nyilatkozatok (YMYL terület, ahol szakértői felügyelet kötelező), (4) havi 50 hívás alatti volumen, ahol a fix $990/hó Business költség nem térül meg. Az EU AI Act 50. cikke szerint a botnak kötelező tájékoztatnia a hívót, hogy AI-val beszél.

Beszéljünk arról, hogyan néz ki ez konkrétan a te üzletedben? Egy 30 perces ingyenes konzultáción megnézzük, hol és hogyan tudna voice agent értéket adni — és hol biztos, hogy nem éri meg. Foglalj időpontot itt.


Források: ElevenLabs Conversational AI, ElevenLabs Hungarian TTS, Grand View Research Voice AI Agents Market Report 2024, Gartner Voice AI Market Forecast 2024, Jesty CRM Voice Technology Report 2026, EU AI Act Official Journal Article 50, Klarna AI Assistant case study (OpenAI), Alrite, Cartesia Sonic 2 dokumentáció.

Krasznai Gábor, a SocialPro alapítója

Szerző

Krasznai Gábor

A KG Creative Media Group Kft. alapítója, AI stratégiai tanácsadó. Több mint fél évtizedes tapasztalat a digitális transzformáció és vállalati AI megoldások területén.

#Speech Engine #ElevenLabs #Voice Agent #Conversational AI #AI Ügyfélszolgálat #TTS

Kapcsolódó cikkek

OpenAI GPT-Realtime-2: a hangalapú AI ügynök, ami most már érvel és telefonál helyetted
AI Agent

OpenAI GPT-Realtime-2: a hangalapú AI ügynök, ami most már érvel és telefonál helyetted

Az OpenAI 2026. május 7-én bemutatta a GPT-Realtime-2 voice modellt, ami GPT-5 szintű érveléssel hozza el a valódi hangalapú AI ügynököket. Mellé érkezett a GPT-Realtime-Translate (élő fordítás, $0,034/perc) és a GPT-Realtime-Whisper (streaming transzkripció, $0,017/perc). Mit jelent ez a magyar KKV-knak ügyfélszolgálatban, telefonos értékesítésben és többnyelvű kommunikációban?

11 perc olvasas

Készen áll a következő lépésre?

Foglaljon egy 30 perces ingyenes konzultációt, és mutassuk meg, hogyan segíthetünk.

Nincs elkötelezettség. 30 perces ingyenes konzultáció.