Google AI научат ставить диагнозы по звукам кашля

опубликовано 23 марта ‘24 09:05

Ученые из Google разработали инструмент машинного обучения, который может помочь в выявлении заболеваний посредством анализа кашля и дыхания.

Искусственный интеллект (ИИ) системы, обученный на миллионах аудиофрагментов с человеческими звуками, в будущем может быть использован врачами для диагностирования болезней, включая COVID-19 и туберкулез, а также для оценки функции легких человека, пишет Nature.

Применение звука в качестве биомаркера для диагностирования заболеваний изучается не в первый раз. Интерес к этой идее значительно усилился во время пандемии COVID-19, когда ученые выяснили, что возможно обнаружить респираторное заболевание по кашлю человека.

Особенность системы Google, названной Health Acoustic Representations (HeAR), заключается в огромном объеме данных, на котором она была обучена, и в том, что систему можно настроить для выполнения множества задач.

Исследователи, представив предварительные результаты своей работы в начале марта, заявляют, что пока слишком рано говорить о том, станет ли HeAR коммерческим продуктом. На данный момент планируется предоставить заинтересованным исследователям доступ к модели, чтобы они могли использовать ее в своих исследованиях. "Наша цель как подразделения Google исследований - стимулировать инновации в этой начинающейся области", - говорит продукт-менеджер Google из Нью-Йорка Суджей Какармат.

Большинство инструментов ИИ в этой области обучают на аудиозаписях - например, кашля - которые сопоставляются с информацией о здоровье человека, издавшего эти звуки. Например, фрагменты могут быть помечены, чтобы указать, что у человека был бронхит в момент записи. Инструмент начинает связывать особенности звуков с данными, в процессе контролируемого обучения.

"В медицине традиционно мы много используем контролируемое обучение, что хорошо, потому что у вас есть клиническая валидация, - рассказал ларинголог из Южной Флориды Яэль Бенсуссан, - Недостаток в том, что это действительно ограничивает наборы данных, которые вы можете использовать, из-за недостатка аннотированных данных".

Вместо этого исследователи Google использовали самостоятельное обучение, основанное на неаннотированных данных. С помощью автоматизированного процесса они извлекли более 300 миллионов коротких звуковых фрагментов кашля, дыхания и других человеческих гортанных звуков из общедоступных видео на YouTube.

Каждый фрагмент был преобразован в визуальное представление звука, называемое спектрограммой. Затем исследователи блокировали сегменты спектрограмм, чтобы помочь модели научиться предсказывать отсутствующие части. Это похоже на то, как обучалась большая языковая модель, лежащая в основе чат-бота ChatGPT, которую обучали предсказывать следующее слово в предложении после тренировки на множестве примеров человеческого текста. Используя этот метод, исследователи создали то, что они называют базовой моделью, которую, по их словам, можно адаптировать для многих задач.

В случае с HeAR команда Google адаптировала его для обнаружения COVID-19, туберкулеза и последствий длительного курения. Поскольку модель была обучена на таком широком спектре человеческих звуков, чтобы настроить ее, исследователям достаточно было подать ей лишь ограниченные наборы данных, помеченные этими заболеваниями и характеристиками.

На шкале, где 0.5 означает модель, работающую не лучше случайного выбора, а 1 - модель, делающую точные прогнозы каждый раз, HeAR набрала 0.645 и 0.710 при обнаружении COVID-19 в зависимости от набора данных, на котором она была протестирована - лучший результат, чем у существующих моделей, обученных на данных речи или общего аудио. Для туберкулеза результат составил 0.739.

Тот факт, что исходные тренировочные данные были такими разнообразными, с различным качеством звука означает, что результаты являются обобщаемыми, говорит Какармат.

Инженер из Оклахомского университета в Талсе Али Имран говорит, что огромный объем данных, использованных Google, придает значимость исследованию. "Это дает нам уверенность в том, что это надежный инструмент", - заявил он.

Область акустического здоровья, или «аудиомики», представляется перспективной говорит Бенсуссан. "Акустическая наука существует уже десятилетия. Разница теперь в том, что мы имеем средства для сбора и анализа большого объема данных одновременно благодаря ИИ и машинному обучению".