Abstract:
Bugünlerde her bir birey ve organizasyon ”“ iş, aile, kurum ”“ kendisi ve çevresi hakkında ciddi miktarda veriye ve bilgiye ulaşabilir. Bilgiler, birbirine bağlanamayan farklı arşiv sistemlerinde, dağınık şekilde yer almaktadır. Bu da verinin verimsiz şekilde biraya getirilmesine sebep olmaktadır. Bu problemlerin üstesinden gelebilecek iki gelişme vardır: Birincisi; yazılım ve donanımlar, sürekli olarak, daha düşük maliyetlerle, organizasyonların veri giriş ve transferini kolaylaştıran yapılar sunarak, veri toplanması ve organizasyonunu daha işlevsel hale getirmektedir. İkincisi; özellikle hesaplama ve istatistik alanlarındaki metodik araştırmalar, son dönemlerde, büyük veri depolarını analiz edebilen esnek ve ölçeklendirilebilir süreçlerin geliştirilmesine sebep olmuştur. Bu gelişmelerle birlikte tıbbi veri madenciliği yöntemleri kullanımı da yaygınlaşmıştır. Bu tezde veri madenciliği kapsamında verilerin içerisindeki desenler, ilişkiler, değişimler ve istatistiksel olarak önemli olan yapılar incelenmiştir. Veri madenciliği sürecini destekleyen bazı istatistiksel yöntemler kullanılmıştır. İncelen konulardaki tıbbi verilerde karşılaşılan bazı problemler ele alınmış ve bu problemlerin çözüm yöntemleri araştırılmıştır. Veri madenciliği yöntemlerinden kümeleme ve lojistik regresyon yöntemleri uygulanmıştır. Kümeleme uygulaması Dokuz Eylül Üniversitesi Biyofizik Anabilim Dalı laboratuarından alınan Elektroensefalografi(EEG) verileri üzerinde yapılmıştır. Lojistik regresyon uygulaması için özel bir hastanenin IVF bölümündeki hastalardan alınan verilere bir model kurulmuştur. Yapılan ilk araştırma da EEG verileri farklı özellikleri ile kümelenmiştir. İkinci uygulamada kullanılan etken maddenin gebelik durumuna etkisi incelemiştir. Bunun sonucunda veri madenciliği yöntemleri ile tıbbi veriler bilgiye dönüştürülmüştür. Nowadays each individual and organization - business, family or institution can access a large quantity of data and information about itself and its environ¬ment. Information is scattered within different archive systems that are not connected with one another, producing an inefficient organ¬ization of the data. Two developments could help to overcome these problems. First, software and hardware continually, offer more power at lower cost, allowing organizations to collect and organize data in structures that give easier access and transfer. Second, methodological research, particularly in the field of computing and statistics, has recently led to the development of flexible and scalable procedures that can be used to analyze large data stores. These two developments have meant that data mining is rapidly spreading through many businesses as an important intelligence tool for backing up decisions. In this thesis data mining process has been expressed. Subjects obtained as how to process the data, which stages to migrate, which model would be available for the data. Statistical issues supporting data mining process has been analyzed. Then issue of how data mining in medical area which is one of the usage areas of data mining is obtained. Similarity between normal data mining process and medical data mining process has been analyzed. Problems faced in medical data mining process are obtained and methods to solve these problems are searched. Appliance is done on clustering and logistics regression, one of the statistical methods that support data mining. Clustering appliance is held on EEG data derived from the biophysics Program University of Dokuz Eylül. Appliance on logistics regressions has been made by data derived from patients of IVF department of the a private hospital. These appliances have been resulted as data mining is incredibly important in medical area and that is so beneficial in solution of the huge amounts.