An infrastructure model for collecting electronic data to develop large scale corpus

KIZILAY, Fatma

DSpace Home
→
Enstitüler
→
Fen Bilimleri Enstitüsü
→
Fen Bilimleri Enstitü Tezleri
→
Fen Bilimleri Enstitüsü Yüksek Lisans Tezleri
→
View Item

dc.contributor.author	KIZILAY, Fatma
dc.date.accessioned	2015-11-20T13:20:56Z	NULL
dc.date.available	2015-11-20T13:20:56Z	NULL
dc.date.issued	2009
dc.identifier.uri	http://hdl.handle.net/20.500.12397/8292	NULL
dc.description.abstract	Dokuz Eylül Üniversitesi Bilgisayar Mühendisliği Bölümünde, Doğal Dil İşleme alanında farklı çalışmalar yürütülmektedir. Doğal Dil İşleme çalışmalarında dilin dilbilgisi kuralları belirlenmeli ve derlem olarak adlandırılan metin örnekleri hazırlanmalıdır. Bu örnekler dilin dilbilgisi kurallarını karşılamak zorundadır._x000B_Bu çalışmada, büyük ölçekli derlem için altyapı tasarlanmış ve gerçekleştirilmiştir. Gazete, rapor dergi, kitap, meclis tutanağı ve resmi gazete gibi 6 farklı doküman tipini destekleyen bir veri tabanı modeli tasarlanmıştır._x000B_Veri tabanı modeline bağlı olarak gerçekleştirilen uygulama ile 5 gazeteden 195256 makale indirilmiştir ve bu dokümanların üst verileri daha sonar yapılacak çalışmalar için depolanmıştır. In the Dokuz Eylül University Computer Engineering Department, different studies on Natural Language Processing (NLP) have been carried out. For NLP research grammatical rules of the language must be determined and a text sample of that language, which is called as corpus, must be prepared. These sample texts should satisfy the grammar rules of language._x000B_In this study, an infrastructure for a large scale corpus is designed and implemented. A database model, which supports 6 different document type such as newspaper, report, magazine, book, parliamentary report and official gazette, is designed._x000B_By implementing the developed application depending on the database model, 195256 articles were downloaded from 5 newspapers, and their metadata was stored for future use.	en_US
dc.language.iso	en	en_US
dc.publisher	DEÜ Fen Bilimleri Enstitüsü	en_US
dc.subject	Natural Language Processing, Corpus, Database Source, Sample Text.Doğal Dil Äşleme, Derlem, Veritabanı Kaynağı, Örnek Metin.	en_US
dc.title	An infrastructure model for collecting electronic data to develop large scale corpus	en_US
dc.title.alternative	Büyük ölçekli derlem geliştirmek amacıyla elektronik veri toplamak için bir altyapı modeli	en_US
dc.type	Thesis	en_US