Abstract:
Çok sayıda açıklayıcı değişkene veya gözlem sayısından daha fazla sayıda açıklayıcı değişkene sahip olmak regresyon analizinde ciddi bir problemdir. Veri seti birçok açıklayıcı değişken içerdiğinde çoklu doğrusal bağlantıdan söz edilebilir. Çoklu doğrusal bağlantı açıklayıcı değişkenlerin aynı kavramı ölçmelerinde veya açıklayıcı değişkenler arasında doğrusal bir bağıntı olması durumunda ortaya çıkmaktadır. Her iki durum da Sıradan En Küçük Kareler analizinin varsayımlarından sapmaya neden olmakta ve regresyon analizinde zayıf parametre tahminlerine yol açmaktadır. İstatistiksel bir yöntem olan Kısmi En Küçük Kareler Regresyonu, çoklu doğrusal bağlantı probleminin çözüm yollarından birisi olup, Çoklu Doğrusal Regresyon analizinin çalışmadığı bir çok durumda çalışma imkanı sağlamaktadır. Bu tezde, gizli değişken denilen yeni açıklayıcı değişkenlerin sayısının saptanmasında Kısmi En Küçük Kareler Regresyon analizi çalışılmıştır. Gizli değişkenlerin saptanmasından sonra, bu değişkenlerden kaç tanesinin hem açıklayıcı hem de bağımlı değişkendeki değişimi açıklamada en ilgili olduğunun saptanması ise bu tezin amacını oluşturmaktadır. Gizli değişkenlerin optimum sayısının saptanmasında model seçme yöntemlerinden olan Bozdoğan ve Bedrick tarafından çalışılan iki çoklu Akaike Bilgi Kriteri, k blok çapraz geçerlilik ve PRESS değerleri ve Wold's R kriteri kullanılmıştır. Bu kriterlerin performansının karşılaştırılmasında bir simulasyon çalışması yapılmıştır. Simülasyon sonuçları her bir kriter için farklı sayıda gözlem genişliği ve farklı sayıda açıklayıcı değişken için verilmiştir. Sonuçlar, dizayn matrislerinden en küçüğü için kriterlerin gizli değişken sayısı için doğru sayıyı bulduğunu fakat diğer dizayn matrisleri için farklı sonuçlar verdiğini göstermektedir. Simulasyon ve analizler MATLAB istatistik paket programında yapılmıştır. Having large numbers of predictor variables or having more predictor variables than the number of observations is a serious problem in regression analysis. When a data set contains many predictor variables, multicollinearity can become an issue. Multicollinearity arises when predictor variables measure the same concept or when there is a linear relationship among them. These problems can cause high degrees of correlation and violate the assumption of Ordinary Least Square Analysis. As a result, it causes poor estimates of parameter estimation in regression analysis. A possible solution to this problem is a statistical method called `Partial Least Squares Regression?. PLSR allows for the study of regression in many situations that Multiple Linear Regression does not. In this thesis, PLSR has been studied in the analysis of obtaining the number of new predictor variables called `latent variables?. After obtaining the latent variables, this thesis is concerned with analyzing how many of these latent variables are the most relevant for describing the variability of predictor and response variables. Some model selection methods, such as two of the Multivariate Akaike Information Criterion which are studied by Bozdogan and Bedrick respectively, use PRESS values obtained from k-fold cross validation and Wold?s R criterion to obtain the optimum number of latent variables. The simulation study presented in this thesis has been performed to compare the performance of these criteria. The simulation results of MAIC, PRESS and Wold?s R were obtained from different number of observations and different numbers of predictor variables. These results show that for small-sized design matrices, all criteria achieved the true number of latent variables. However, the results for the other-sized design matrices varied greatly and they consistently showed different numbers of latent variables. The whole analysis, including all simulations and calculations, were done using MATLAB statistical program.