Abstract:
İnsan genom çalışmaları çok fazla sayıda biyosekans verileri ortaya çıkarttığı için, bu verilerin işletim sürecinde maliyet ve zaman kaybını önleyen hesapsal teknikler geliştirilmektedir. Bu tezde, biyosekans analizinde ?protein, enzim sekansları- kümeleme ve sınıflama üzerine yeni yaklaşımlar çalışılmıştır. Sınıflandırma, bir uzman görüşü altında desen kümesine sınıf etiketleri atama ya da sınıflandırma yapmayı amaçlayan öğreticili bir öğrenme algoritmasıdır. Bu tezde, proteinlerin hücre içi yer tahmin etme problemi en uygun ağırlıklandırılmış bulanık k-NN (OWFKNN) kullanılarak çözülmüştür. Kümeleme, verilen elemanlar kümesini benzerlikleri temel alınarak kümelere ayırmayı amaçlayan denetimsiz öğrenme tekniğidir. Bu noktada, protein sekanslarının evrimsel ilişkilere sahip olmaları nedeniyle, bütün protein sekansları sekans benzerlikleri bakımından düzenlenebilmektedir. Filogenetik ağaç olarak adlandırılan grafiksel gösterim protein sekansları arasındaki ilişkiyi özetlemektedir. Filogenetik ağaç oluşturulması, bağlantı yöntemi olarak çok kriterli karar verme probleminde sıkça kullanılan Sıralı Ağırlıklı Ortalama (OWA) kullanılması önerilmiştir. OWA tabanlı hiyerarşik kümelemenin performansı ortalama karekök standart sapma (RMSSTD) ve R-kare (RS) küme geçerlilik indisleriyle incelenmiştir. Since human genome studies have brought out a huge number of biosequence data, computational techniques have been developed preventing the vast of cost and time in the management process of these data. In this thesis, new approaches on clustering and classification methods in biosequence ?protein, enzyme sequences? analysis are studied. Classification is a supervised learning algorithm that aims at categorizing or assigning class labels to a pattern set under the supervision of an expert. Therefore, the problem of subcellular location prediction of proteins has been solved by using Optimally Weighted Fuzzy k-NN (OWFKNN). In addition, enzymes have been classified by novel approaches based on minimum-distance classifiers. Clustering is an unsupervised learning technique that aims at decomposing a given set of elements into clusters based on similarity. In this point of view, due to the fact that protein sequences have evolutionary relationship, all protein sequences can be organized in terms of their sequence similarity. A graphical illustration called phylogenetic tree can summarize the relationship between the protein sequences. The construction of phylogenetic tree is based on hierarchical clustering. Thus, we have proposed Ordered Weighted Averaging (OWA) that is most commonly used in multicriteria decision-making, as a linkage method in construction phylogenetic tree. Performance of the OWA-based hierarchical clustering is analyzed by cluster validity indices Root-Mean-Square Standard Deviation (RMSSDT) and R-Squared (RS)