Исследователи из Соединенных Штатов установили, что интерфейс Realtime API от OpenAI для голосовой связи может быть использован для недорогой автоматизации телефонных мошеннических схем.
Об этом сообщается в SecurityLab.
Представление о возможных злоупотреблениях с использованием голосовых ИИ-моделей возникло еще в июне, когда OpenAI отложила запуск голосовой функции в ChatGPT из-за вопросов, связанных с безопасностью. Ранее компания демонстрировала голосовую модель, имитирующую голос известной личности, однако позже сняла инструмент с публичного доступа после негативной реакции общества.
Тем не менее, новый Realtime API, выпущенный в начале октября, предоставляет сторонним разработчикам аналогичные функции. Он дает возможность передавать текстовые или аудио данные модели GPT-4o и получать ответы в текстовом формате, аудио или их смеси.
Несмотря на внедренные меры безопасности, уровень потенциальных злоупотреблений оказался высоким, что было подтверждено исследованиями ученых из Университета Иллинойс в Урбана-Шампейн (UIUC).
Исследователи создали ИИ-агентов, которые были предназначены для телефонного мошенничества. Каждый успешный звонок приносил около $0,75. Для разработки агентов потребовалось порядка тысячи строк кода, значительная часть которого была сосредоточена на взаимодействии с голосовым API.
Агенты на основе ИИ применяли модель GPT-4o, инструмент автоматизации браузеров Playwright и детальные инструкции для реализации мошеннических схем. Сценарии включали взлом аккаунтов в банках и криптовалютах, кражу подарочных карт и учетных данных. Уточняется, что для успешного перевода средств с банковского счета агенту понадобилось проделать 26 этапов.
Эффективность различных схем варьировалась. Взлом учетных записей Gmail показал 60% успешности, заняв 122 секунды и стоил $0,28. Переводы с банковских счетов оказались более сложными — среднее время выполнения составило 183 секунды, успешность — 20%, а стоимость — $2,51.
Общий средний показатель успеха всех схем составил 36%, а средняя стоимость — $0,75. Главные причины неудач связаны с ошибками в распознавании голоса и трудностями при навигации по сайтам банков.
Исследователи подчеркивают, что для борьбы с автоматизированным телефонным мошенничеством необходимо применять комплексный подход, подобный тому, что используется в кибербезопасности, который включает в себя сотрудничество операторов мобильной связи, разработчиов ИИ и органов регулирования.