DSpace Repository

Dictionary-based effective and efficient Turkish lemmatizer

Show simple item record

dc.contributor.author CİVRİZ, Mert
dc.date.accessioned 2015-11-20T12:59:27Z NULL
dc.date.available 2015-11-20T12:59:27Z NULL
dc.date.issued 2011
dc.identifier.uri http://hdl.handle.net/20.500.12397/7935 NULL
dc.description.abstract Bu çalışmada, GPU üzerinde çalışan bir Türkçe gövdeleyici algoritması geliştirdik ve daha sonra bu algoritmanın performansını ve verimliliğini araştırdık. Türkçe sondan eklemeli ve zengin morfolojik yapıya sahip bir dil olarak eşsesli ve yapısal değişkinliğe uğrayabilen kelimeleri içerdiği için sözlük kullanmadan sadece kurallar tanımlanarak gövdeleme yapılması zahmetli ve verimsiz olacaktır. Bu yüzden Türkçe bilgi getirim sistemlerinde, Türkçe kelimelerin etkin ve verimli bir şekilde sözlük tabanlı gövdelenmesi önemlidir. Bu çalışmamız Türkçe dökümanların indekslenmesi ve aranması amacıyla sözlük tabanlı hızlı bir gövdeleyici geliştirmeyi amaçlıyor._x000B_Yüksek performanslı programlama amacıyla Nvidia tarafından tanıtılmış, grafik programlama üniteleri üzerinde çalışan ve hala geliştirilmekte olan CUDA kütüphanesi grafik programlama ünitelerinin, grafik programlamanın dışında genel amaçlı performans ortamı olarak kullanılması eğilimini arttırdı. Bugünlerde, araştırmacılar hesaplama kaynaklarının yoğun olarak kullanılmasını gerektiren moleküler dinamikler, akışkan dinamikleri, kriptoloji, görüntü işleme, astrofizik ve genetik gibi bir çok alanda CUDA ile grafik programlama ünitlerinin yüksek hesaplama kabiliyetinden yararlanmaya başladı.(Manavski ve Valle, 2008 gibi) CUDA bilgi getirim işlemlerinin doğasında olan büyük iş yükleri için de kullanılabilir. Bizim programımız GPU üzerinde (NVIDIA GeForce GT240M) ?Radix Trie? veri yapısı mantığıyla geliştirilen gövdeleyici algoritmasının paralel çalışırılması ile CPU üzerinde çalışan seri versiyonuna göre, 90 kata kadar performans artışı sağladı. Bu tezde, kelime gövdeleyici algoritmalarımızın test kelime seti üzerinde çalıştırarak elde ettiğimiz sonuçları gösteriyoruz. GPU üzerinde çalışan gövdeleyici algoritmamızı CPU üzerinde çalışan versiyonuyla karşılaştırdık ve GPU kaynaklarını nasıl daha verimli kullanılabileceğimizi sekiz farklı algoritmayla araştırdık. In this thesis, we present a new Turkish lemmatizer that runs on the GPU and investigate its accuracy and performance. Turkish is an agglutinative language, with a rich morphological structure, contains homographic and inflectional word forms which are lowering the accuracy of stemmers. Thus, in Turkish information retrieval systems, the ability to lemmatize Turkish words efficiently and effectively is important. Our study aims at developing a fast dictionary based lemmatizing approach for indexing and searching documents in Turkish._x000B_Recent introduction of CUDA (Compute Unified Device Architecture) libraries for high performance computing on graphic processing units (GPUs) by NVIDIA has increased the trend to use GPUs as general purpose performance environment (GPGPU). Today researchers started to exploit GPU?s high computational capability through CUDA in many applicative contexts requiring intensive use of computational resources such as molecular dynamics, fluid dynamics, cryptology, computer vision, astrophysics and genetics.(e.g. Manavski and Valle, 2008 ) CUDA can be used also in the information retrieval because of its massively workload. Our program, achieves a speedup of as much as 90 times on a recent GPU (NVIDIA GeForce GT240M) over the equivalent CPU-bound version, ultimately with the use of parallelized execution of lemmatization algorithm using a data structure inspired from ?Radix Trie?. Here, we present evaluation results of our string lemmatizing kernels for use in CUDA, which executes parallelized lemmatizing for a test set of query strings. We compared our lemmatization algorithm running on GPU with the serial CPU bound version, and explored issues associated with efficient use of GPU resources with eight different algorithms. en_US
dc.language.iso en en_US
dc.publisher DEÜ Fen Bilimleri Enstitüsü en_US
dc.subject Bilgi erişim = Information retrieval ; Paralel programlama = Parallel programs en_US
dc.title Dictionary-based effective and efficient Turkish lemmatizer en_US
dc.title.alternative Sözlük tabanlı etkin ve verimli Türkçe gövdeleyici en_US
dc.type Thesis en_US


Files in this item

This item appears in the following Collection(s)

Show simple item record

Search DSpace


Advanced Search

Browse

My Account