Gelişmiş Arama

Basit öğe kaydını göster

dc.contributor.authorÖztürk, Ömer Faruk
dc.contributor.authorPashaei, Elham
dc.date.accessioned2023-11-02T13:41:03Z
dc.date.available2023-11-02T13:41:03Z
dc.date.issued2021en_US
dc.identifier.issn1309-8640
dc.identifier.issn2146-4391
dc.identifier.urihttps://hdl.handle.net/11363/6190
dc.description.abstractKonuşmada duygu tanıma İngilizce adıyla Speech emotion recognition (SER), duyguların konuşma sinyalleri aracılığıyla tanınması işlemidir. İnsanlar, iletişiminin doğal bir parçası olarak bu işlemi verimli bir şekilde yerine getirebilse de programlanabilir cihazlar kullanarak duygu tanıma işlemi hali hazırda devam eden bir çalışma alanıdır. Makinelerin de duyguları algılaması, onların insan gibi görünmesini ve davranmasını sağlayacağından dolayı, konuşmada duygu tanıma, insan-bilgisayar etkileşiminin gelişmesinde önemli bir rol oynar. Geçtiğimiz on yıl içerisinde çeşitli SER teknikleri geliştirilmiştir, ancak sorun henüz tam olarak çözülmemiştir. Bu makale, Evrişimsel Sinir Ağı (Convolutional neural networks -CNN) ve Uzun-Kısa Süreli Bellek (Long Short Term Memory-LSTM) olmak üzere iki derin öğrenme mimarisinin birleşimine dayanan bir konuşmada duygu tanıma tekniği önermektedir. CNN lokal öznitelik seçiminde etkinliğini gösterirken, LSTM büyük metinlerin sıralı işlenmesinde büyük başarı göstermiştir. Önerilen Evrişimsel LSTM (Convolutional LSTM – Co-LSTM) yaklaşımı, insan-makine iletişiminde etkili bir otomatik duygu algılama yöntemi oluşturmayı amaçlamaktadır. İlk olarak, Mel Frekansı Kepstrum Katsayıları (Mel Frequency Cepstral Coefficient- MFCC) kullanılarak önerilen yöntemde konuşma sinyalinden bir görüntüsel öznitelikler matrisi çıkarılır ve ardından bu matris bir boyuta indigenir. Sonrasında modelin eğitimi için öznitelik seçme ve sınıflandırma yöntemi olarak Co-LSTM kullanılır. Deneysel analizler, konuşmanın sekiz duygusunun tamamının RAVDESS (Ryerson Audio-Visual Database of Emotional Speech and Song) ve TESS (Toronto Emotional Speech Set) veri tabanlarından sınıflandırılması üzerine yapılmıştır. MFCC Spektrogram öznitelikleri kullanılarak Co-LSTM ile %86,7 doğruluk oranı elde edilmiştir. Elde edilen sonuçlar, önceki çalışmalar ve diğer iyi bilinen sınıflandırıcılarla karşılaştırıldığında önerilen algoritmanın etkinliğini ikna edici bir şekilde kanıtlamaktadır.en_US
dc.description.abstractSpeech emotion recognition (SER) is the task of recognizing emotions from speech signals. While people are capable of performing this task efficiently as a natural aspect of speech communication, it is still a work in progress to automate it using programmable devices. Speech emotion recognition plays an important role in the development of human-computer interaction since adding emotions to machines makes them appear and act in a human-like manner. Various SER techniques have been developed over the last few decades, but the problem has not yet been completely solved. This paper proposes a speech emotion recognition technique based on the hybrid of two deep learning architectures namely Convolutional Neural Network (CNN) and Long Short Term Memory (LSTM). Deep CNN has demonstrated its effectiveness in local feature selection, whereas LSTM has shown great success in the sequential processing of large texts. The proposed Convolutional LSTM (Co-LSTM) approach aims to create an efficient automatic method of emotion detection in human-machine communication. In the suggested method, Mel Frequency Cepstral Coefficient (MFCC) is used to extract a matrix of spectral features from the speech signal and afterward is converted to 1-dimensional (1D) array. Then, Co-LSTM is employed as a feature selection and classification method to learn the model for emotion recognition. The experimental analyses were carried out on the classification of all the eight emotions of the speech from RAVDESS (Ryerson Audio-Visual Database of Emotional Speech and Song) and TESS (Toronto Emotional Speech Set) databases. An accuracy of 86.7% was achieved with Co-LSTM using MFCC Spectrogram features. The obtained results convincingly prove the effectiveness of the proposed algorithm when compared to the previous works and other well-known classifiers.en_US
dc.language.isoturen_US
dc.publisherDÜ Mühendislik Fakültesi / Dicle Üniversitesien_US
dc.relation.isversionof10.24012/dumf.1001914en_US
dc.rightsinfo:eu-repo/semantics/openAccessen_US
dc.rightsAttribution-NonCommercial-NoDerivs 3.0 United States*
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/us/*
dc.subjectKonuşmada Duygu Tanıma (SER)en_US
dc.subjectUzun-Kısa Süreli Bellek (LSTM)en_US
dc.subjectTekrarlayan Sinir Ağı (RNN)en_US
dc.subjectEvrişimli Sinir Ağı (CNN)en_US
dc.subjectRAVDESS veri seti MFCC özniteliklerien_US
dc.subjectSpeech Emotion Recognition (SER)en_US
dc.subjectLong Short-Term Memory (LSTM)en_US
dc.subjectRecurrent Neural Network (RNN)en_US
dc.subjectRAVDESS dataset, MFCC featuresen_US
dc.titleKonuşmalardaki duygunun evrişimsel LSTM modeli ile tespitien_US
dc.title.alternativeConvolutional LSTM model for speech emotion recognitionen_US
dc.typearticleen_US
dc.relation.ispartofDicle Üniversitesi Mühendislik Fakültesi Mühendislik Dergisien_US
dc.departmentMühendislik ve Mimarlık Fakültesien_US
dc.authoridhttps://orcid.org/0000-0003-1780-3152en_US
dc.authoridhttps://orcid.org/0000-0001-7401-4964en_US
dc.identifier.volume12en_US
dc.identifier.issue4en_US
dc.identifier.startpage581en_US
dc.identifier.endpage589en_US
dc.relation.publicationcategoryMakale - Ulusal Hakemli Dergi - Kurum Öğretim Elemanıen_US
dc.institutionauthorÖztürk, Ömer Faruk
dc.institutionauthorPashaei, Elham


Bu öğenin dosyaları:

Thumbnail

Bu öğe aşağıdaki koleksiyon(lar)da görünmektedir.

Basit öğe kaydını göster

info:eu-repo/semantics/openAccess
Aksi belirtilmediği sürece bu öğenin lisansı: info:eu-repo/semantics/openAccess