Turkiye Klinikleri Journal of Biostatistics

Miyeloproliferatif Hastalık Ön Tanılı Hastalarda Makine Öğrenmesi Yöntemi ile Genetik Test Seçimine İlişkin Metodolojik Bir Modelleme Çalışması
A Methodological Modeling Study on the Selection of Genetic Testing with Machine Learning Method in Patients with Pre-Diagnosis of Myeloproliferative Disease
Gözde KUBATa,b, Feride İffet ŞAHİNc, Bülent ÇELİKd
aBaşkent Üniversitesi Kahramankazan Meslek Yüksekokulu, Yönetim ve Organizasyon Bölümü, Ankara, Türkiye
bGazi Üniversitesi Fen Fakültesi, İstatistik Bölümü, Ankara, Türkiye
cBaşkent Üniversitesi Tıp Fakültesi, Tıbbi Genetik ABD, Ankara, Türkiye dGazi Üniversitesi Fen Fakültesi, İstatistik Bölümü, Ankara, Türkiye
Turkiye Klinikleri J Biostat. 2022;14(1):45-54
doi: 10.5336/biostatic.2021-86989
Article Language: TR
Full Text
Amaç: Miyeloproliferatif hastalıkların tanısının konulabilmesi için Dünya Sağlık Örgütünün belirlediği hastalık tanı şeması doğrultusunda, klinisyen tarafından genetik mutasyonların varlığı incelenmektedir. Bu çalışmada; kliniğe başvuru yapmış hastaların kemik iliği ve tam kan sayımı bulgularından yola çıkılarak oluşturulabilecek model ile uygun tanı testinin tahmin edilebilmesi hedeflenmiştir. Bu doğrultuda, kliniğe başvuran hastaların zaman ve maddi açıdan tasarruf etmesi amaçlanmaktadır. Gereç ve Yöntemler: Başkent Üniversitesi Ankara Hastanesi Tıbbi Genetik Ana Bilim Dalı Genetik Hastalıklar Değerlendirme Merkezine yönlendirilmiş hastaların bulguları ele alınarak, makine öğrenmesi algoritmaları kullanılarak tahminleme yapılmıştır. Çalışma verilerine ait tanımlayıcı istatistikler medyan olarak verilmiş olup, Kruskal-Wallis test istatistiği kullanılarak istatistiksel olarak anlamlı farklılıklar araştırılmıştır. Tahminlemede Naive Bayes, K-En Yakın Komşuluk, Doğrusal Diskriminant Analizi, Destek Vektör Makineleri, Entropi Tabanlı Sınıflandırma ve Karar Ağacı gibi sınıflandırma algoritmaları kullanılmıştır. Algoritmalar ile doğruluk, özgüllük, duyarlılık gibi belirleyici değerler elde edilmiştir. Yapılan tahminlemeler elde edilen doğruluk oranlarına göre incelenmiş ve en iyi model seçilmeye çalışılmıştır. Bulgular: İncelenen tam kan sayım değerleri ile mutasyon varlığı arasında istatistiksel olarak anlamlı farklılıklar tespit edilmiştir. Ele alınan Naive Bayes, K-En Yakın Komşuluk, Doğrusal Diskriminant Analizi, Destek Vektör Makineleri, Entropi Tabanlı Sınıflandırma ve Karar Ağacı Algoritmaları ile oluşturulan modellemelerde doğruluk oranları %60 olarak saptanmıştır. Sonuç: Kullanılan makine öğrenmesi algoritmalarından elde edilen doğruluk oranı orta seviyede olmasına rağmen benzer çalışmaların literatürde yer almamış olması sebebiyle çalışma sonuçlarının alana önemli katkısının olacağı sonucuna varılmıştır.

Anahtar Kelimeler: Miyeloproliferatif hastalık; makine öğrenmesi; karar ağacı; K-en yakın komşuluk; doğrusal diskriminant analizi
Objective: In order to diagnose myeloproliferative diseases, the presence of genetic mutations is examined by the clinician in line with the disease diagnosis scheme determined by the World Health Organization. In this study, it is aimed to predict the appropriate diagnostic screening test with the model created based on bone marrow and complete blood count findings of patients who applied to the clinic. Accordingly, it is aimed to save time and financial for patients who apply to the clinic. Material and Methods: Prediction was made using the machine learning algorithms by considering the findings of patients referred to the Başkent University Ankara Hospital, Department of Medical Genetics Genetic Diseases Diagnosis Center. Descriptive statistics of the study data were given as median, and statistically significant differences were investigated using the Kruskal-Wallis test statistic. Classification algorithms such as Naive Bayes, K-Nearest Neighbor, Linear Discriminant Analysis, Support Vector Machines, Entropy Based Classification and Decision Tree were used in the estimation. With the algorithms, determinative values such as accuracy, specificity and sensitivity were obtained. The estimations made were examined according to the accuracy rates obtained and the best model was tried to be selected. Results: Statistically significant differences were found between the examined complete blood count values and the presence of mutation. The accuracy rates were found to be around 60% in the models created with Naive Bayes, K-Nearest Neighbor, Linear Discriminant Analysis, Support Vector Machines, Entropy Based Classification and Decision Tree Algorithms. Conclusion: Although the accuracy rate obtained from the machine learning algorithms used is at a moderate level, it was concluded that the results of the study would make a significant contribution to the field, since similar studies have not been included in the literature.

Keywords: Myeloproliferative disease; machine learning; decision tree; K-nearest neighbor; linear discriminant analysis
