Tez Arşivi

Tez aramanızı kolaylaştıracak arama motoru. Yazar, danışman, başlık ve özete göre tezleri arayabilirsiniz.


Orta Doğu Teknik Üniversitesi / Fen Bilimleri Enstitüsü / Bilgisayar Mühendisliği Bölümü

A study on language modeling for Turkish large vocabulary continuous speech recognition

Türkçe geniş dağarcıklı sürekli konuşma tanıma için dil modelleme üzerine bir çalışma

Teze Git (tez.yok.gov.tr)

Bu tezin tam metni bu sitede bulunmamaktadır. Teze erişmek için tıklayın. Eğer tez bulunamazsa, YÖK Tez Merkezi tarama bölümünde 166835 tez numarasıyla arayabilirsiniz.

Özet:

ABSTRACT A STUDY ON LANGUAGE MODELING FOR TURKISH LARGE VOCABULARY CONTINUOUS SPEECH RECOGNITION Bayer, Ali Orkan M.S., Department of Computer Engineering Supervisor : Dr. Meltem Turhan Yöndem Co-Supervisor : Assoc. Prof. Dr. Tolga Çiloğlu September 2005, 54 pages This study focuses on large vocabulary Turkish continuous speech recognition. Con tinuous speech recognition for Turkish cannot be performed accurately because of the agglutinative nature of the language. The agglutinative nature decreases the performance of the classical language models that are used in the area. In this thesis firstly, acoustic models using different parameters are constructed and tested. Then, three types of n-gram language models are built. These involve class-based models, stem-based models, and stem-end-based models. Two pass recognition is performed using the Hidden Markov Model Toolkit (HTK) for testing the system first with the bigram models and then with the trigram models. At the end of the study, it is found that trigram models over stems and endings give better results, since their coverage of the vocabulary is better. Keywords: Large Vocabulary Continuous Speech Recognition, Agglutinative Lan guages, Language Modeling, Two-pass Recognition IV

Summary:

oz TÜRKÇE GENİŞ DAĞ ARCIKLI SÜREKLİ KONUŞMA TANIMA İÇİN DİL MODELLEME ÜZERİNE BİR ÇALIŞMA Bayer, Ali Orkan Yüksek Lisans, Bilgisayar Mühendisliği Bölümü Tez Yöneticisi : Dr. Meltem Turhan Yöndem Ortak Tez Yöneticisi : Doç. Dr. Tolga Çiloğlu Eylül 2005, 54 sayfa Bu çalışma Türkçe için geniş dağarcıklı sürekli konuşma tanıma problemine yönelmektedir. Türkçe için sürekli konuşma tanıma, dilin eklemeli yapısı nedeniyle iyi yapılamamaktadır. Dilin eklemeli doğası bu alanda kullanılan klasik dil modellerinin performansını düşürmektedir. Bu tez çalışmasında öncelikle değişik parametreler kullanılarak akustik modeller oluşturulmuştur ve test edilmiştir. Sonra üç tip n-gram dil modeli eğitilmiştir. Bu modeller sınıf tabanlı modelleri, gövde tabanlı modelleri ve gövde-ek-dizisi tabanlı modelleri kapsamaktadır. Hidden Markov Model Toolkit (HTK) kullanılarak sistemi önce bi-gram ve sonra da tri-gram modellerle test etmek için iki aşamalı tanıma yapılmıştır. Bu çalışmanın sonunda kelime dağarcığını kapsamaları nedeniyle, gövde ve ek dizileri üzerinden eğitilen modellerin daha iyi sonuç verdiği bulunmuştur. Anahtar Kelimeler: Geniş Dağarcıklı Konuşma Tanıma, Eklemeli Diller, Dil Modelleri, İki Aşamalı Tanıma