ИСТОРИЯ МЕДИЦИНЫ

Проект кафедры истории медицины Российского университета медицины
Киберпсихологи ННГУ разработают систему анализа стресса в речи человека
Специалисты кафедры киберпсихологии факультета социальных наук ННГУ им. Н.И. Лобачевского (Нижний Новгород) разрабатывают модели машинного обучения для выявления тревоги по акустическим признакам. Определение уровня стресса и тревоги в речи имеет важное применение в образовании, области психического здоровья и во взаимодействии человек-компьютер, сообщили ТАСС в пресс-службе вуза.
"Автоматическое определение стресса по голосу дает инструмент для раннего выявления перегрузок - помогает своевременно обнаруживать уязвимые состояния у операторов, диспетчеров и медперсонала, снижая риск ошибок и выгорания. Также это и фиксация состояния клиента, что, к примеру, может быть полезно для выявления мошенничества - когда клиент введен в заблуждение и просит банк выполнить подозрительную операцию", - рассказала кандидат психологических наук, заведующая кафедрой киберпсихологии факультета социальных наук Университета Лобачевского Валерия Демарева.
Ученые отмечают, что стресс активно проявляется в речи: вегетативная нервная система вызывает увеличение мышечного тонуса и частоты дыхания, что может приводить к более жесткому или дрожащему голосу, а также к изменению ритма и тембра речи. В результате меняются высота тона, громкость (интенсивность) и скорость речи.
Для исследования использовался конвейер машинного обучения на основе мел-частотных кепстральных коэффициентов (MFCC). MFCC выбраны потому, что компактно и точно описывают спектральную оболочку речи, устойчивы к шуму после нормализации, показывают хорошую различающую способность для стилей речи и эмоциональных состояний и хорошо работают на небольших выборках, то есть они являются надежным и интерпретируемым базисом для пилотного исследования. Считается, что именно эти коэффициенты способны давать устойчивую классификацию стресса, а слияние с другими спектральными признаками улучшает точность работы.
Суть эксперимента
Для изучения голосовых изменений, связанных со стрессом в академической речи, 10 студентов, специализирующихся на кафедре киберпсихологии, подготовили отрывок своей научной презентации и проговорили этот текст в двух ситуациях: публично, выступая перед комиссией и коллегами в аудитории, и приватно - в тихом кабинете без публики. Каждая четырехминутная запись была разбита на несоприкасающиеся пятисекундные отрезки, что в итоге позволило получить 565 сегментов для приватного и 569 сегментов для публичного выступления. После тщательной очистки сигнала и извлечения MFCC машинный классификатор Gradient Boosting оказался способен различить тревогу в речи с точностью 91,9 %, основываясь на этих признаках. Из 110 приватных сегментов корректно было классифицировано 102, из 111 публичных - 101. Ошибки равномерно распределены без систематического смещения в сторону одного класса.
Валерия Демарева отмечает, что точность приблизительно 92% в контролируемых условиях обнадеживает, но во многом связана с тщательной предобработкой и однородностью выборки. "Это не гарантирует такую же устойчивость в реальных разнородных данных. В нашем исследовании мы планируем расширение выборки, валидацию, добавление динамических и просодических признаков, внедрение последовательных архитектур и методов адаптации домена", - добавила Демарева.
По материалам сайта ТАСС