Abstract:
Web sayfalarında bulunan sayılamayacak derecede verilerin çokluğu, interneti `Dünya' gezegeninin en büyük veritabanı haline getirmiştir. Bu kadar verideki problem bu verilen düzenli bir veri yapısı içermemesidir. Bu verinin düzenli hale getirilip çeşitli amaçlar için kullanılması amacıyla web madenciliği metotları ortaya çıkmıştır. Web madenciliği veri madenciliği tekniklerinin web sayfaları üzerinde örüntü keşfi amacıyla kullanılması için kullanılan bir tekniktir. Web madenciliği web sayfalarından ve web servislerinden veri toplamak ve veriyi incelemek için güçlü bir araştırma alanıdır. Web madenciliğinin web sayfalarından ve servislerinden veriyi elde etme, elde edilen veri üzerindeki yapıyı analiz etme gibi metotları vardır. Bunların dışında, web madenciliği web sunucu kayıtlarını ve kullanıcı oturumlarından yararlanarak kullanıcılar ve web sayfasının yapısı hakkında veri elde etme özelliğine sahiptir._x000B_Her ne kadar web madenciliği teknikleriyle ile web sayfalarında veri elde etmek mümkün olsa da bu verileri tam manada anlamlı hale getirmek için makine öğrenme teknikleriyle kullanmak gerekmektedir. Bu verileri anlamlı hale getirmek için birçok teknik vardır. Makine öğrenme teknikleri arasında sınıflandırma, metin tabanlı verileri içeriklerine göre sınıfını belirlemek için kullanılan en popular metotlardan biridir._x000B_Bu tez web madenciliği teknikleriyle makine öğrenme tekniklerini birlikte kullanarak hibrit bir yapıyı amaçlamaktadır. Uygulama çeşitli web sayfalarından ve servislerinden Türkçe yazılmış verileri elde edip, bu verileri düzenleyerek servis halinde sunmaktadır. Bu çalışma temelde, web içerik madenciliği, web yapı madenciliği tekniklerini kullanarak web sayfalarından veri elde edip bu verileri yapısal olarak incelemektedir. Bunun dışında, yazı dili tanıma, Türkçe kelime doğrulama, Türkçe ek kök ayırma gibi metin işlemleri için çeşitli iç ve dış web servislerini kullanmaktadır. Dahası Naïve Bayes ve `Destek Vektör Makine'lerini TF-TDF (Terim Frekansı ? Ters Doküman Frekansı) ağırlıklandırma yöntemi ile kullanarak web sayfalarından elde edilen veriler üzerinde sezgisel sınıflandırma yapmaktadır._x000B_Çalışmada öncelikle, verinin nasıl ve nerden elde edildiği hakkında bilgi verilmekte, ikincil olarak bu veriler üzerinde yapılan metin operasyonları detaylı bir şekilde doğruluk oranları hesaplanarak açıklanmaktadır. Son olarak ise, elde edilen metin dokümanlar üzerinde birçok açıdan sezgisel sınıflandırma yapılmakta ve doğruluk değerleri verilmektedir. The uncountable size of the data in the World Wide Web (WWW) nowadays makes it the largest cloud database that ever existed on Earth. The problem with data is that it is not a structured database, which makes it meaningless. To make the data usable, web mining methods are created. Web mining is the application of data mining techniques to discover patterns from the World Wide Web (WWW). Web mining is a powerful research area to gather and examine content from web pages or web services. It has methods for information retrieval from web pages and analyses the structure of gathered documents. Moreover, web mining gathers data related to the structure of a website and its users using the web-server logs and session logs._x000B_However, although reaching data from the WWW is possible with web mining techniques, the reached data might not be sensible or meaningful without machine learning techniques. To make the data sensitive and meaningful, there exist a lot of methods depending on one?s aims. Classification, which can classify web data according to its content, is one of most popular data mining methods in machine learning._x000B_This thesis proposes the hybrid combination of web mining techniques and machine learning techniques. The developed approach can gather Turkish text data from various web pages and web services and serve it in a structured data format. The study in this thesis basically covers web content mining, web structure mining for gathering data and analyzing the structure of web pages and services. It also uses various internal and external web services for language detection, Turkish spell-checking, Turkish `Part of Speech Tagging? (pos-tagging) and stemming operations. Moreover, the study uses two machine learning techniques, which are Naïve Bayes and `Support Vector Machines? with weighting method of TF-IDF (Term Frequency ? Inverse Document Frequency)?, to sentimentally classify the data gathered from web pages._x000B_In this work, firstly, how and where the data is gathered is given. Secondly, the operations over the text data are explained in detail. Then, finally, sentimental classification with accuracy values over the gathered data with multiple perspectives is given