Слушалки с изкуствен интелект осигуряват групов превод с клониране на глас и 3D пространствен звук

Учени от Вашингтонския университет разработиха революционна система за пространствен превод на реч, която използва слушалки с изкуствен интелект (ИИ), за да превежда разговори между няколко говорителя в реално време, като запазва индивидуалните гласове и посоката на звука.

Решение за шумни обществени пространства

Туочао Чен, докторант в Училището по компютърни науки и инженерство „Пол Г. Алън“, се вдъхновява да разработи системата по време на посещение в музей в Мексико. Опитът му с традиционни приложения за превод се оказва неуспешен – шумът от околната среда пречи на точния превод.

Как работи системата?

Иновативната система, наречена Spatial Speech Translation, използва готови за продажба слушалки с шумопотискане и вградени микрофони, комбинирани с напреднали ИИ алгоритми, за да постигне три ключови резултата:

Автоматично открива броя на говорителите в помещението (подобно на радар) и следи движението им в 360°.
Превежда речта в реално време със закъснение от 2 до 4 секунди, като запазва гласа и изразителността на всеки човек.
Възпроизвежда преведената реч в пространствен 3D звук, така че потребителят да може да различава кой говори и от коя посока.

„В реалния свят не може да има един роботизиран глас, който да говори от името на всички“, казва проф. Шиам Голакота. „За първи път запазихме посоката и тембъра на гласовете, което носи по-естествено и интуитивно изживяване.“

Без използване на облачни услуги

Системата работи локално на устройства с Apple M2 чип, като лаптопи и Apple Vision Pro, без да изпраща данни в облак. Това гарантира повишена защита на личните данни при клониране и възпроизвеждане на гласове.

Тестване и резултати

Тествана е в 10 различни среди – както на закрито, така и на открито.
В потребителски тест с 29 участници, системата е предпочетена пред традиционни решения, които не проследяват пространствено говорителите.
По-голямата част от потребителите намират закъснение от 3-4 секунди за най-удобно, поради по-високата точност на превода.

Системата поддържа разговорен испански, немски и френски, като моделите за превод са съвместими с над 100 езика – обещаващо начало за бъдещо мащабиране.

Езиков превод в реална среда – бъдещето започва днес

„Целта ни е да направим комуникацията между култури естествена и интуитивна,“ казва Чен. „С тази технология вече мога да вървя по улиците на Мексико и да разбирам околните, без да говоря езика.“

Съавтори на изследването са Цируи Уанг (HydroX AI), студент в УАСГ, и Рунлин Хе, докторант в Училището „Ален“.

DOI: 10.1145/3706598.3713745

Източник: TechXplore