DSpace Repository

Turkish language characteristics and author identification

Show simple item record

dc.contributor.author Örücü, Feriştah
dc.date.accessioned 2015-11-20T13:15:16Z NULL
dc.date.available 2015-11-20T13:15:16Z NULL
dc.date.issued 2009
dc.identifier.uri http://hdl.handle.net/20.500.12397/8200 NULL
dc.description.abstract Doğal dil modelleri ve dil karakteristikleri, bilgisayar bilimleri alanında veri güvenliği, dil teşhisi, imla denetimi, veri sıkıştırma, yazar tanıma ve ses tanıma gibi bir çok alanda sıklıkla kullanılmaktadır. Bu çalışma kapsamında, büyük ölçekli bir Türkçe külliyat oluşturularak, Türk diline ait karakteristiklerin keşfedilmesi amacı ile bir uygulama geliştirilmiştir. Çeşitli NLP çalışmalarına zemin hazırlamak amacıyla, külliyat üzerinde kelime ve harf bazlı bir çok analiz gerçekleştirilmiştir. Çalışmanın bir sonraki adımında, yazarı bilinmeyen bir makalenin yazarını tahminlemek amacı ile, kelime n-gramları tabanlı iki farklı yöntem kullanılmıştır. 16 yazar için, çalışma ve test grubu makaleleri derlenmiş ve bahsi geçen iki yöntem bu makaleler üzerinde denenmiştir. Son olarak iki yöntemden elde edilen sonuçlar karşılaştırılarak, en verimli yöntem saptanmıştır. Models of natural languages and language characteristics are widely used in many computer science applications such as data security, language identification, spell checking, data compression, authorship attribution and speech recognition. In the scope of this study, a large scale corpus is created and used to discover language characteristics of Turkish. Word and letter based analyses are made on this corpus to build a base for several NLP studies. In the next step of the study, we used two different methods based on word n-grams to identify author of an anonymous text. For 16 authors, training and test set articles are collected, and mentioned two methods are applied on these article sets. Finally, obtained results are compared and most successful method is determined. en_US
dc.language.iso en en_US
dc.publisher DEÜ Fen Bilimleri Enstitüsü en_US
dc.subject Türkçe=Turkish en_US
dc.title Turkish language characteristics and author identification en_US
dc.title.alternative Türk dilinin karakteristikleri ve yazar tanıma en_US
dc.type Thesis en_US


Files in this item

This item appears in the following Collection(s)

Show simple item record

Search DSpace


Advanced Search

Browse

My Account