Google nitqin tərcüməsi üçün yeni modeli təqdim edib

Google nitqin tərcüməsi üçün yeni modeli

Süni intellekt texnologiyaları sahəsində rəqabət sürətləndi qərarına gələn Google, nitqin real vaxt rejimində tərcüməsi üçün xüsusi olaraq hazırlanmış Gemini 3.5 Live Translate audio modelini rəsmi olaraq elan edib. Bu yeni model, ənənəvi "dinlə, gözlə və tərcümə et" prinsipini tamamilə ortadan qaldıraraq, insan interpretatorlar (sinxron tərcüməçilər) kimi eyni vaxtda axınlı tərcümə həyata keçirir.

Mövcud tərcümə sistemlərindən fərqli olaraq, Gemini 3.5 Live Translate cümlənin bitməsini gözləmir. O, nitqi saniyəlik fərqlərlə, fasiləsiz bir audio axını şəklində emal edir. Model sadəcə sözləri tərcümə etmir; danışan şəxsin səs tonunu, emosional intonasiyasını, vurğularını və danışıq tempini (pacing) maksimum dərəcədə qoruyub saxlayır. Sonda qarşı tərəf robot deyil, sanki həmin şəxsin öz səsinin fərqli dildəki versiyasını eşidir.

stifadəçilərin parametrlərdən dilləri əllə seçməsinə ehtiyac yoxdur. Sistem 70-dən çox dili avtomatik tanıyır və dərhal çarpaz tərcüməyə başlayır. Sistem küçə, nəqliyyat və ya izdihamlı mühitlərdəki kənar küyü filtrasiya edərək yalnız əsas nitqə fokuslanmaq qabiliyyətinə malikdir.

Yeni texnologiya sayəsində Google Meet-də dəstəklənən dillərin sayı 5-dən 70-dən çoxa yüksələcək. Bu isə bir görüş çərçivəsində 2 000-dən artıq dil kombinasiyası üzrə ünsiyyət qurmağa imkan verəcək.

Cənub-Şərqi Asiyanın ən böyük taksi və çatdırılma xidməti olan Grab, platformasında hər ay baş tutan 10 milyondan çox zəngdə xarici turistlərlə yerli sürücülərin maneəsiz danışması üçün bu modeli artıq sınaqdan keçirir. Bundan əlavə, Agora, Fishjam, LiveKit, Pipecat və Vision Agents kimi multimedia və yayım infrastrukturu təminatçıları da Gemini Live API-ni öz sistemlərinə inteqrasiya edirlər.

Süni intellektlə yaradılan səslərin dezinformasiya və ya fırıldaqçılıq məqsədilə istifadə edilməsinin qarşısını almaq üçün Google modelə ciddi qoruma mexanizmi inteqrasiya edib. Gemini 3.5 Live Translate tərəfindən sintez olunan hər bir audio materiala SynthID texnologiyası tətbiq olunur. Bu, insan qulağının eşitmədiyi, lakin xüsusi proqramların dərhal tanıya bildiyi görünməz rəqəmsal su nişanıdır (watermark). Bu nişan səs faylı kəsilsə və ya keyfiyyəti dəyişdirilsə belə, pozulmur.

MONETAR.AZ