DSpace Repository

Model selection methods for multivariate linear partial least squares regression

Show simple item record

dc.contributor.author BULUT, Elif
dc.date.accessioned 2015-11-20T15:35:22Z NULL
dc.date.available 2015-11-20T15:35:22Z NULL
dc.date.issued 2010
dc.identifier.uri http://hdl.handle.net/20.500.12397/9238 NULL
dc.description.abstract Çok sayıda açıklayıcı değişkene veya gözlem sayısından daha fazla sayıda açıklayıcı değişkene sahip olmak regresyon analizinde ciddi bir problemdir. Veri seti birçok açıklayıcı değişken içerdiğinde çoklu doğrusal bağlantıdan söz edilebilir. Çoklu doğrusal bağlantı açıklayıcı değişkenlerin aynı kavramı ölçmelerinde veya açıklayıcı değişkenler arasında doğrusal bir bağıntı olması durumunda ortaya çıkmaktadır. Her iki durum da Sıradan En Küçük Kareler analizinin varsayımlarından sapmaya neden olmakta ve regresyon analizinde zayıf parametre tahminlerine yol açmaktadır. İstatistiksel bir yöntem olan Kısmi En Küçük Kareler Regresyonu, çoklu doğrusal bağlantı probleminin çözüm yollarından birisi olup, Çoklu Doğrusal Regresyon analizinin çalışmadığı bir çok durumda çalışma imkanı sağlamaktadır. Bu tezde, gizli değişken denilen yeni açıklayıcı değişkenlerin sayısının saptanmasında Kısmi En Küçük Kareler Regresyon analizi çalışılmıştır. Gizli değişkenlerin saptanmasından sonra, bu değişkenlerden kaç tanesinin hem açıklayıcı hem de bağımlı değişkendeki değişimi açıklamada en ilgili olduğunun saptanması ise bu tezin amacını oluşturmaktadır. Gizli değişkenlerin optimum sayısının saptanmasında model seçme yöntemlerinden olan Bozdoğan ve Bedrick tarafından çalışılan iki çoklu Akaike Bilgi Kriteri, k blok çapraz geçerlilik ve PRESS değerleri ve Wold's R kriteri kullanılmıştır. Bu kriterlerin performansının karşılaştırılmasında bir simulasyon çalışması yapılmıştır. Simülasyon sonuçları her bir kriter için farklı sayıda gözlem genişliği ve farklı sayıda açıklayıcı değişken için verilmiştir. Sonuçlar, dizayn matrislerinden en küçüğü için kriterlerin gizli değişken sayısı için doğru sayıyı bulduğunu fakat diğer dizayn matrisleri için farklı sonuçlar verdiğini göstermektedir. Simulasyon ve analizler MATLAB istatistik paket programında yapılmıştır. Having large numbers of predictor variables or having more predictor variables than the number of observations is a serious problem in regression analysis. When a data set contains many predictor variables, multicollinearity can become an issue. Multicollinearity arises when predictor variables measure the same concept or when there is a linear relationship among them. These problems can cause high degrees of correlation and violate the assumption of Ordinary Least Square Analysis. As a result, it causes poor estimates of parameter estimation in regression analysis. A possible solution to this problem is a statistical method called `Partial Least Squares Regression?. PLSR allows for the study of regression in many situations that Multiple Linear Regression does not. In this thesis, PLSR has been studied in the analysis of obtaining the number of new predictor variables called `latent variables?. After obtaining the latent variables, this thesis is concerned with analyzing how many of these latent variables are the most relevant for describing the variability of predictor and response variables. Some model selection methods, such as two of the Multivariate Akaike Information Criterion which are studied by Bozdogan and Bedrick respectively, use PRESS values obtained from k-fold cross validation and Wold?s R criterion to obtain the optimum number of latent variables. The simulation study presented in this thesis has been performed to compare the performance of these criteria. The simulation results of MAIC, PRESS and Wold?s R were obtained from different number of observations and different numbers of predictor variables. These results show that for small-sized design matrices, all criteria achieved the true number of latent variables. However, the results for the other-sized design matrices varied greatly and they consistently showed different numbers of latent variables. The whole analysis, including all simulations and calculations, were done using MATLAB statistical program. en_US
dc.language.iso en en_US
dc.publisher DEÜ Fen Bilimleri Enstitüsü en_US
dc.subject Partial Least Squares, Partial Least Squares Regression (PLSR), Model Selection Methods, Multivariate Akaike Information Criterion (MAIC), Predicted Residual Sum of Squares (PRESS), Cross-validation.Kısmi En Küçük Kareler, Kısmi En Küçük Kareler Regresyonu, Model Seçme Yöntemleri, Çok Değişkenli Akaike Bilgi Kriteri,Çapraz-Geçerlilik. en_US
dc.title Model selection methods for multivariate linear partial least squares regression en_US
dc.title.alternative Çok değişkenli doğrusal kısmi en küçük kareler regresyonu için model seçme yöntemleri en_US
dc.type Thesis en_US


Files in this item

This item appears in the following Collection(s)

Show simple item record

Search DSpace


Advanced Search

Browse

My Account