Abstract:
Aykırı değer, normal olmayan veya alışılmadık gözlem, bir dağılımın genel modeli dışında kalan gözlem olarak tanımlanabilir. Doğrusal regresyon modelinde, tek bir aykırı değeri veya etkili gözlemi belirleme yöntemleri analitik ve sayısal açıdan nispeten daha basittir. Bununla birlikte, birçok veri setinde karşılaşılan ve veri setinin birden fazla aykırı değer içermesi durumlarında, bu tür gözlemlerin belirlenmesi maskeleme ve batırma, sürükleme etkisinden dolayı oldukça güçleşmektedir. Bu tezde, bilgi kriterleri kullanarak Genetik Algoritma (GA) tabanlı çoklu regresyon modellerinde aykırı değerlerin belirlenmesi çalışılmıştır. GA, veri kümelerinden eş zamanlı olarak aykırı değerlerin tespit edilmesini sağlar. Böylelikle, bu yöntem maskeleme ve batırma, sürükleme etkilerinin oluşturmuş olduğu sorunların üstesinden de gelmektedir. Çalışmada Akaike Bilgi Kriteri (AIC) ve Bilgi Karmaşıklığı Kriteri (ICOMP) için ek cezalandırma değeri türetilmiş ve bu bilgi kriterleri AIC' ve ICOMP' olarak adlandırılmıştır. Bu kriterler, çoklu regresyonda aykırı değerlerin tespiti için genetik algoritmanın uygunluk fonksiyonu olarak kullanılmıştır. AIC' ve ICOMP' bilgi kriterlerinin tutarlılık ve sağlamlılık özelliklerinin, tutarlı Bayes Bilgi Kriterine (BIC') karşı karşılaştırmak için benzetim çalışması gerçekleştirilmiştir. AIC', BIC' ve ICOMP'ın benzetim çalışması sonuçları, farklı sayıda örneklem büyüklükleri, farklı cezalandırma değeri, farklı sayıda açıklayıcı değişken ve bağımlı değişkenin farklı miktarda aykırı değer içermesi durumlarında elde edilmiştir. Çeşitli örnekler ve benzetim çalışması sonuçları açıkça göstermiştir ki önerilen yaklaşımlardan özellikle ICOMP' yaklaşımı aykırı değerleri doğru bir şekilde tespit etmektedir. Outlier, abnormal or unusual observation can be defined as an observation that lies outside the overall pattern of a distribution. Diagnostic methods for identifying a single outlier or influential observation in a linear regression model are relatively simple from both analytical and computational points of view. However, if the data set contains more than one outlier, which is likely to be the case in most data sets, the problem of identifying such observations becomes more difficult because of the masking and swamping effects. In this thesis, Genetic Algorithm (GA) based outlier detection using information criteria in multiple regression models has been studied. A GA was allowed simultaneous detection of outliers in data sets. Thus, this method is to overcome the problems of masking and swamping effects. It is derived additional penalized value of information criteria for Akaike Information Criterion (AIC) and Information Complexity Criterion (ICOMP) and named as AIC' and ICOMP' respectively in this study. They have been used as the fitness function of genetic algorithms to detect outliers in multiple regression. The simulation study has been performed to compare consistency and robustness properties of AIC' and ICOMP' against corrected Bayesian Information Criterion (BIC'). Simulation results of AIC', BIC' and ICOMP' obtained from different number of sample sizes, different penalized Kappa values of information criterion and different number of explanatory variables for different percentage of outlier in dependent variables. The numerical example and simulation results clearly show a much improved performance of the proposed approach in comparison to existing method especially followed by applying the ICOMP' approach in order to accurately (robustly) detect the outliers.