DSpace Repository

Rule-based natural language processing methods for Turkish

Show simple item record

dc.contributor.author AKTAŞ, ÖZLEM
dc.date.accessioned 2015-11-20T15:36:22Z NULL
dc.date.available 2015-11-20T15:36:22Z NULL
dc.date.issued 2010
dc.identifier.uri http://hdl.handle.net/20.500.12397/9255 NULL
dc.description.abstract Dillerin biçimbilimsel özelliklerinin belirlenmesi için, dilin özelliklerini temsil edebilecek bir derlem gereklidir. İngilizce, Almanca, Çekçe gibi birçok dil için büyük ölçekli derlemler geliştirilmekte ve Doğal Dil İşleme (DDİ) alanlarında kullanılmaktadır, ancak, büyük ölçekli bir Türkçe derlem henüz geliştirilmemiştir. Bu çalışmada kural-tabanlı bir yaklaşım kullanılarak Türkçe için Doğal Dil İşleme yöntemleri geliştirilmiş ve yöntemleri gerçekleştirmek için Kural-Tabanlı Otomatik Derlem Oluşturma (en.: Rule-Based Automatically Corpus Generation (RB-CorGen)) adında bir altyapı oluşturulmuştur. RB-CorGen uygulamasını Türkçe üzerinde test etmek amacıyla, elektronik ortamda bulunan gazetelerden yaklaşık 95 milyon kelimelik köşe yazıları derlenmiş, Türkçe kökler, gövdeler ve ekler, Türk Dil Kurumu (TDK) ve Dokuz Eylül Üniversitesi Edebiyat Fakültesi Dilbilim Bölümü'nden temin edilmiş, etiketler ve dilbilgisi kuralları da dilbilimi uzmanları tarafından oluşturularak XML yapısında kaydedilmiştir. Kural-Tabanlı Cümle Sonu Belirleme (RB-SBDT) ve Kural-Tabanlı Kelime Türü Belirleme (RB-POST) yöntemlerinin başarı oranları sırasıyla %99,66 ve %92 olarak belirlenmiştir. Oluşturulan kural sayısı arttıkça başarı oranlarının da arttığı gözlenmiştir. In order to determine morphological properties of a language, a corpus which represents that language should be created. Many large scale corpora generated and have been used for Natural Language Processing (NLP) applications on many languages, such as English, German, Czech, etc, but any large scale Turkish corpora have not be generated yet. In this study, natural language processing methods for Turkish were developed by using rule-based approach, and also an infrastructure, Rule-Based Automatical Corpus Generation (RB-CorGen), to use the new developed methods was implemented. For testing RB-CorGen on Turkish, the roots, stems and suffixes were obtained from Turkish Linguistic Association (Türk Dil Kurumu, TDK) and Dokuz Eylul University, College of Literature Linguistic Department, the defined tags and grammatical rules were stored in XML formatted file, and documents, include nearly 95 million wordforms, were collected from five Turkish newspapers in electronic environment. The average success rates of Rule-Based Sentence Boundary Detection (RB-SBD) and Rule-Based POS Tagging (RB-POST) methods were determined as 99.66% and 92% respectively. It was seen that the success rate of RB-CorGen increases with the increasing number of rules. en_US
dc.language.iso en en_US
dc.publisher DEÜ Fen Bilimleri Enstitüsü en_US
dc.subject Turkish, Corpus, Rule-based, Sentence Boundary Detection,Morphological Analyzer, Part of Speech Tagger.Türkçe, Derlem, Kural-Tabanlı, Cümle Sonu Belirleme,biçimbilimsel Çözümleyici, Kelime Türü Etiketleyici. en_US
dc.title Rule-based natural language processing methods for Turkish en_US
dc.title.alternative Türkçe için kural-tabanlı doğal dil işleme yöntemleri en_US
dc.type Thesis en_US


Files in this item

This item appears in the following Collection(s)

Show simple item record

Search DSpace


Advanced Search

Browse

My Account