dc.description.abstract |
Veri madenciliği, büyük ölçekli veri setlerinden anlamlı bilgiler elde etme işlemidir. Çeşitli yöntemler ve teknikler yardımı ile verilerin analizi yapılarak, bu verilerden anlamlı sonuçlar elde edilmeye çalışılır. Veri madenciliği; bilgilerin analiz ve yorumlanması için makine öğrenmesi, örüntü tanıma, istatistik ve tıp gibi birçok alanda kullanılmaktadır._x000B_Bu çalışmanın amacı, veri madenciliğinde bir kümeleme tekniği olan DBSCAN algoritmasını incelemek ve bu algoritmayı kullanarak geliştirilen bir yazılım aracılığıyla kanserli hücrelere sahip hastalara ait mamografi görüntülerinin analizini yaparak verileri en uygun sayıda kümelere ayırmaktır._x000B_Çalışmada, mamografi verileri DBSCAN algoritması ile optimum sayıda kümeye ayrıldı. Hiçbir kümede yer almayan gürültülü veriler ise K-NN sınıflandırma algoritması ile en uygun kümelere dahil edildi. Böylece, mamografi verilerinin daha kolay analiz edilmesi hedeflendi._x000B_Sonuç olarak, mamografi verilerini kümelere ayıran parametre (Eps, Minpts) değerleri incelenerek en uygun sonucu veren parametre değeri belirlendi. Bu parametre değeri ile oluşturulan kümelerin özellikleri tanımlandı. Gürültülü veriler için ise k-en yakın komşu parametre değerleri incelenerek, hangi parametre değeri için K-NN algoritmasının en iyi sonuç ürettiği tespit edildi. Data mining is the process of obtaining meaningful information from large-scale datasets. It attempts to obtain meaningful results from these data by analyzing the data with the help of a variety of methods and techniques. Data mining is used in many areas such as machine learning, pattern recognition, statistics and medicine in order to analyze and interpret the information._x000B_The purpose of this study is to examine DBSCAN clustering algorithm which is a data mining technique and to allocate appropriate number of clusters by analysing mammography data with a software developed using this algorithm._x000B_In the study, mammography data were divided into optimal number of clusters with DBSCAN algorithm. The noisy data that not included in any cluster were added in the appropriate clusters with the K-NN classification algorithm. Thus, it is aimed to be analysing mammography data?s easier._x000B_In a conclusion, parameter values (Eps, MinPts) which give optimal result on MIAS database were determined by examining the values of these parameters. The specifications of clusters which created by this parameter value were defined. For noisy data, k parameter value that produces the best result for the K-NN, was detected by examining all k nearest-neighbors parameter values. |
en_US |