Abstract:
Bu tezde, konuşmacıya bağımlı hece tabanlı Türkçe konuşma tanıma sistemi uygulamaları gerçekleştirilmiştir. Bu sistemlerde, konuşma tanıma yöntemlerinden Doğrusal Zaman Hizalama (DZH), Dinamik Zaman Bükmesi (DZB), yapay sinir ağlarından Çok Katmanlı Algılayıcı (ÇKA), Saklı Markov Modeli (SMM) ve Vektör Destek Makineleri (VDM) kullanılmıştır. Ayrık sözcük tanıma sistemi genel olarak önişleme, öznitelik çıkarılması, hecelerin eğitimi, tanıma ve önişleme süreçlerinden oluşmaktadır. Önişlemede, dijital sinyallerin düzleştirilmesi, pencereleme ve hece sınırların tespiti işlemleri yapılır. Hecelerin mfcc, lpc, parcor, cepstrum ve rasta öznitelikleri elde edildikten sonra ÇKA, VDM ve SMM kullanılarak eğitilir. Her yöntem için hece modelleri oluşturulur. Sözcük tanıma safhasında, tanınması istenen sözcüğün heceleri hece modelleri ile karşılaştırılır. En çok benzeyen heceler tespit edilip sıralandırılır. En çok benzeyen heceler birbirine eklenerek tanınan sözcük bulunur. Artişlemede ise bu tanınan sözcüğün Türkçe olup olmadığına bakılır. Eğer bu sözcük Türkçe ise tanıma işlemi biter. Fakat Türkçe değilse bir sonraki heceler eklenerek yeni sözcük oluşturulur. Bu işlemlere Türkçe sözcük bulunana kadar devam edilir. Bir sözcüğün Türkçe olup olmadığının tespiti için hece n-gram frekansları kullanılmıştır. Orta dağarcıklı konuşma tanıma sisteminin sözlüğünde 200 Türkçe sözcük bulunmaktadır. Her bir sözcük 10 defa kaydedilerek 2000 sözcüklü test veritabanı oluşturuldu ve test işlemi yapıldı. Sistemin başarımını ölçmek için sözcük hata oranı (word error rate) kullanıldı. Sözcük hata oranı, DZB için %5,8, ÇKA için %12, SMM için 17,4, DZH için %8,8 ve DVM için %9,2 olarak bulunmuştur. Artişleme, sistemin başarımını yaklaşık olarak %14 oranında artırmıştır. In this thesis, we have designed and implemented syllable based Turkish speech recognition systems based on Linear Time Alignment (LTA), Dynamic Time Warping (DTW), Artificial Neural Network (ANN), Hidden Markov Model (HMM) and Support Vector Machine (SVM). These speaker dependent and isolated word recognition systems consist of five main parts: Preprocessing, feature extraction, training, recognition and postprocessing. Preprocessing includes some operations such as speech signal smoothing, windowing and syllable end-point detection. In feature extraction, we have used speech features as mel frequency cepstral coefficients, linear predictive coefficients, parcor, cepstrum and rasta coefficients. In training stage for HMM, SVM and ANN, every syllable of the words in the dictionary is trained, and the syllable models are generated. In recognition stage, every syllable in the word utterence is compared with the syllable models. So, the recognized syllables are determined and ordered. Then, the recognized syllables are concatenated with each other. In postprocessing operation, we have developed the system which is based on Turkish syllable n-gram frequencies. The system decides whether the recognized word is Turkish or not. If the word is Turkish, then it is new recognized word. The system is middle scaled speech recognition because the system dictionary has 200 different Turkish words. After the system is tested on 2000 spoken words, we have seen that the word error rate of the system is about 5.8% for DTW, 12% for ANN, 8.8% for LTA, 17.4% for HMM and 9.2% for SVM with postprocessing. System recognition rate increased approximately 14% using postprocessing.