Tez Arşivi

Tez aramanızı kolaylaştıracak arama motoru. Yazar, danışman, başlık ve özete göre tezleri arayabilirsiniz.


Orta Doğu Teknik Üniversitesi / Enformatik Enstitüsü / Bilişsel Bilim Anabilim Dalı

A novel approach to emotion recognition in voice: A convolutional neural network approach and grad-cam generation

Seste duygu tanımlaması üstüne yeni bir yaklaşım: Konvolusyonel sinir ağları ve grad-cam oluşturulması

Teze Git (tez.yok.gov.tr)

Bu tezin tam metni bu sitede bulunmamaktadır. Teze erişmek için tıklayın. Eğer tez bulunamazsa, YÖK Tez Merkezi tarama bölümünde 570089 tez numarasıyla arayabilirsiniz.

Özet:

Emotion is one of the essential components in human and human-machine interaction. One of the most common communication channels is the sound. Understanding the underlying mechanisms of emotion recognition in the sound signal is an essential step in improving both types of interaction. For this purpose, we developed an emotion recognition model, and a Turkish-specific database, referred to as the Turkish Emotion-Voice (TurEV) database. The database contains one-word-vocalizations of four emotion types; angry, calm, happy, and sad in three different frequency bands. The model was trained using TurEV, and human validation studies were conducted. The results indicate that the model is feasible for emotion recognition tasks. The comparison of the humans with the computational model indicate that the model achieves better results using feature-rich frequency bands, the humans use all other aspects of the sound signal.

Summary:

Duygu, insan ve insan-makine etkileşiminin temel bileşenlerinden biridir. İnsan ve insan-makine etkileşiminde sık kullanılan iletişim kanallarından biri de sestir. Ses sinyalinde duygu tanımayı sağlayan temel yapıları anlamak iki tip etkileşimi de geliştirmek için önemli bir basamaktır. Bu amaçla, bu çalışma kapsamında, yeni bir duygu tanıma modeli ve Türkçeye özgü olan, Türk Ses-Duygu (TurEV) veritabanı geliştirildi. Veritabanı, dört duygu tipinin (kızgın, sakin, mutlu ve üzgün) üç farklı frekans bandında bir kelimelik seslendirmelerinden oluşmaktadır. Model, TurEV kullanılarak eğitildi ve insan doğrulama çalışmaları yapıldı. Sonuçlar, modelin duygu tanımada kullanılabilir bir yapıya sahip olduğuna işaret etmektedir. Karşılaştırmalı analizler, bilgisayarlı modellerin özellik bakımından zengin frekans bantlarını kullanarak daha iyi sonuç almasına karşın, insan zihninin ses sinyalinin diğer tüm özelliklerini kullandığını göstermektedir.