Слушалки с изкуствен интелект осигуряват групов превод с клониране на глас и 3D пространствен звук
Учени от Вашингтонския университет разработиха революционна система за пространствен превод на реч, която използва слушалки с изкуствен интелект (ИИ), за да превежда разговори между няколко говорителя в реално време, като запазва индивидуалните гласове и посоката на звука.
Решение за шумни обществени пространства
Туочао Чен, докторант в Училището по компютърни науки и инженерство „Пол Г. Алън“, се вдъхновява да разработи системата по време на посещение в музей в Мексико. Опитът му с традиционни приложения за превод се оказва неуспешен – шумът от околната среда пречи на точния превод.
Как работи системата?
Иновативната система, наречена Spatial Speech Translation, използва готови за продажба слушалки с шумопотискане и вградени микрофони, комбинирани с напреднали ИИ алгоритми, за да постигне три ключови резултата:
-
Автоматично открива броя на говорителите в помещението (подобно на радар) и следи движението им в 360°.
-
Превежда речта в реално време със закъснение от 2 до 4 секунди, като запазва гласа и изразителността на всеки човек.
-
Възпроизвежда преведената реч в пространствен 3D звук, така че потребителят да може да различава кой говори и от коя посока.
„В реалния свят не може да има един роботизиран глас, който да говори от името на всички“, казва проф. Шиам Голакота. „За първи път запазихме посоката и тембъра на гласовете, което носи по-естествено и интуитивно изживяване.“
Без използване на облачни услуги
Системата работи локално на устройства с Apple M2 чип, като лаптопи и Apple Vision Pro, без да изпраща данни в облак. Това гарантира повишена защита на личните данни при клониране и възпроизвеждане на гласове.
Тестване и резултати
-
Тествана е в 10 различни среди – както на закрито, така и на открито.
-
В потребителски тест с 29 участници, системата е предпочетена пред традиционни решения, които не проследяват пространствено говорителите.
-
По-голямата част от потребителите намират закъснение от 3-4 секунди за най-удобно, поради по-високата точност на превода.
Системата поддържа разговорен испански, немски и френски, като моделите за превод са съвместими с над 100 езика – обещаващо начало за бъдещо мащабиране.
Езиков превод в реална среда – бъдещето започва днес
„Целта ни е да направим комуникацията между култури естествена и интуитивна,“ казва Чен. „С тази технология вече мога да вървя по улиците на Мексико и да разбирам околните, без да говоря езика.“
Съавтори на изследването са Цируи Уанг (HydroX AI), студент в УАСГ, и Рунлин Хе, докторант в Училището „Ален“.
Източник: TechXplore