SAĞLIK EĞİTİMİSağlık Enformasyon Sistemleri

TIPTA VERİ AMBARLARI OLUŞTURMA VE VERİ MADENCİLİĞİ UYGULAMALARI

Bu bildiride veri madenciliğini ve tıp alanındaki uygulamalarını inceleyeceğiz. Verilerin dijital ortamda saklanmaya başlanması ile birlikte, yeryüzündeki bilgi miktarının her 20 ayda bir iki katına çıktığı günümüzde, veri tabanlarının sayısı da benzer, hatta daha yüksek bir oranda artmaktadır . Akıllı veri işleme metodu olan veri madenciliği, dünya üzerinde artan veri miktarının etkili bir biçimde kullanılmasının neredeyse tek çözümü olarak görünmektedir. Bu gelişme diğer alanlarda olduğu gibi tıp alanında da ilgi odağı haline gelmiştir. Özellikle tıp alanındaki verinin büyüklüğü ve hayati önem taşıması bu alandaki uygulamaları daha da önemli kılmaktadır.

Anahtar Kelimeler: Data Mining (Veri Madenciliği), Data Warehouse (Veri Ambarı, Tıp Bilişimi (Medical Informatics), Tıpta Data Mining

1.GİRİŞ

Dünya üzerinde uydu verileri, tıbbi veriler, alışveriş verileri, otomasyon verileri v.b. alanlarda hızla artan veri miktarları bu verilerin toplanması ve saklanması gibi problemleri gündeme getirmiştir. Bu problemlere veri tabanları ve dosya sistemlerindeki gelişmelerle çözüm aranmıştır. Özellikle donanımların ucuzlaması ile veri tabanları alanındaki büyük gelişmeler insanlık için bu bilgilerden yararlanmayı kolaylaştırmıştır. Toplanan veriler kısa bir zamanda büyük miktarlara ulaşmış ve her geçen gün de olağanüstü bir hızla artmaya devam etmektedir.

Veri tabanlarındaki bu veriler üzerinde analiz yapmak ve karar destek aşamasında faydalanmak, her hangi bir araç kullanmaksızın imkansız hale gelmiştir. Çoğu zaman iyi kullanılmamaları durumunda veri tabanlarında tutulan veri insanlar için külfet haline de gelebilmektedir. Bu noktada karşımıza “Veri Madenciliği” (Data Mining) bir çözüm olarak çıkmaktadır. Fakat madenciliği yapılacak olan verinin de bazı vasıflara sahip olması gerekmektedir. Bu vasıflar veri ambarı (Data Warehouse) ile sağlanmaktadır. Veri ambarları basit olarak veri madenciliği işleminin yapılacağı verilerin oluşturulduğu özel veri tabanlarıdır. Veri ambarlarının oluşturulması işlemi verinin çeşitli kaynaklardan toplanarak, veriler içerisindeki uyuşmazlıklar ve hatalardan arındırılmasından ibarettir.

Veri madenciliği belirli bir alanda ve belirli bir amaç için toplanan veriler arasındaki gizli kalmış ilişkilerin ortaya konulmasıdır. Bunun yanında, geleceğe dönük kararlar almamızda bize fikir de verir. Veri madenciliği, disiplinler arası doğasından dolayı istatistik, veri tabanları, makine öğrenmesi, bilgi toplama, görselleştirme, paralel ve dağıtık hesaplama gibi birçok disiplinden yardım alır. Aynı zamanda veri madenciliği birçok farklı alanda da kullanılmaktadır.

Bu bildiride sunulacak çalışma ise tıp alanında veri madenciliği ve bunun uygulanabilmesi için tıbbi verilerden veri ambarları oluşturma konusunda bir derleme olacaktır. Burada karşımıza “Müşteri İlişkileri Yönetimi”, “Hastane Yönetiminde Karar Destek”, “Görüntüsel Bilgilerin Temsili” gibi birçok kullanım alanı çıkabilir. Ancak bizim araştırmamız bu yönlerde olmayıp, tıbbi kullanım yönünde olacaktır.

Yukarda belirttiğimiz birçok alanda aşırı veri birikmesinin en yoğun yaşandığı alanlardan birisi de tıbbi verilerdir. Özellikle günümüzde artık neredeyse tüm tıbbi cihazların dijital hale gelmesi bu sonucu doğal hale getirmiştir. Kağıt üzerinde veri toplanan klasik hastane bilgi sistemlerinden farklı olarak buradaki verilerden yararlanmak her ne kadar çok daha kolay gibi görünse de, aslında diğer alanlardaki veriler gibi bunların da bireysel çalışmalarla işlenmesi ve yorumlanması imkansız hale gelmiştir.

Bu aşamada yardımımıza veri madenciliği teknikleri yetişmektedir. Bu sayede aşırı miktardaki verinin zekî olarak işlenip yorumlanması mümkün hale gelmiştir. Sadece bunun mümkün olması değil belki de klasik yöntemlerle bulunması çok zor veya imkansız olan bazı ilişkilerin de bu sayede ortaya çıkartılması imkanı oluşmuştur. Bu nedenle tıbbi araştırmaların neredeyse vazgeçilmez bir araçlarından biri haline gelmiştir. Tıpta veri madenciliği; tıp alanında uzmanlar, veri madenciliği uzmanları ve data işleyicilerinin sıkı birşekilde birleştiği bir olgudur .

Tıp alanında veri madenciliği uygulamalarına örnek olarak; antipsikotik ilaçların kalp kası hastalıkları üzerine etkisi , solunum fonksiyon testlerinin analizi , genetik bozuklukların tespiti , ilaç yan etkilerinin tanımlanması gibi çeşitli çalışmaları sayabiliriz.

2. VERİ MADENCİLİĞİ

Veri madenciliği nedir? Öncelikle bu soruyu cevaplamaya çalışalım. Veri madenciliği, büyük veri yığınları arasında gizli kalmış anlamlı kuralların zekî olarak ortaya çıkarılmasıdır. Bu çıkarım işlemi tek başına basit bir işlem değildir. Çok yoğun işleyen alt işlemlerden oluşmaktadır. Şekil-1’de gösterilen bu alt işlemlerşunlardır:

• Uygulama Alanın Ortaya Konulması
• Veri Ambarının Oluşturulması
• Modelin Kurulması ve Değerlendirilmesi
• Şablonların ve İlişkilerin Yorumlanması

Bir veri madenciliği sisteminde yukarıdaki adımlar titizlikle işlenmelidir. Bu adımları daha ayrıntılı birşekilde açıklayalım.

2.1 Uygulama Alanının Ortaya Konulması

Bu adım veri madenciliğinin hangi yönde ve hangi amaçlar için yapılacağının belirlendiği adımdır. Bu aşamada belirlenen alan ile ilgili uzmanlar ile görüşmeler yapılarak bundan sonraki aşamalar için stratejilerin ortaya konulması gerekir. Örneğin kullanılacak olan model için bu aşamadan faydalanılmaktadır.

2.2 Veri Ambarının Oluşturulması

Veri ambarı aşaması veri madenciliği sürecinde önemli bir aşamadır. Bu süreç toplam maliyet ve zamanın önemli bir kısmını almaktadır. Madenciliğini yapacağımız veri tek bir yapı içerisinde bulunmayabilir. Bu nedenle bilginin tek bir çatı altında toplanması gerekir. Fakat veri ambarı oluşturma aşamasında sadece verinin tek bir çatı altında toplanması değildir. Aynı zamanda toplanan veriler içerisinde var olan hataların ve belirsizliklerinde temizlenmesi aşamasıdır. Bu aşamada veri bazı alt işlemlere tabi tutulmaktadır. Bu işlemler Veri Toplama, Uyumlandırma, Birleştirme ve Temizlenme, Seçme ve Dönüştürmedir.

2.2.1 Toplama : Bilginin keşfi için gerekli veriler faklı kaynaklarda olabilir. Toplama işlemi; verinin farklı kaynaklardan alınarak bir kaynakta birleştirilmesidir. Hastanın tıbbi verileri yanında yaşadığı yer veya gelir düzeyi gibi bilgilere de ihtiyaç duyulabilir. Bu bilgilerin farklı kaynaklarda bulunması durumunda toplama işlemi gerekmektedir.

2.2.2 Uyumlandırma : Veri ambarındaki verilerin farklı kaynaklardan toplanabileceğini söylemiştik. Fakat bu durumda karşımıza uyumsuz veri tipleri çıkacaktır. Bunun en yaygın örneği cinsiyette görülmektedir. Çok fazla tipte tutulabilen bir veri olup, bir veri tabanında 0/1 olarak tutulurken diğer veri tabanında E/K veya Erkek/Kadınşeklinde tutulabilir. Bilginin keşfinde başarı verinin uyumuna da bağlı olmaktadır. Özellikle tıp alanında ki verilerin çeşitliliği oldukça fazladır. Bu nedenle uyumlandırma aşaması tıbbi verilerde daha da önem kazanmaktadır.

2.2.3 Birleştirme ve Temizleme : Yukarıda bahsedilen Uyumlandırma işlemi sırasında, farklı veri kaynaklarından gelen verilerin birleştirilmesi veya fazlalıkların temizlenmesi de gerekmektedir.

2.2.4 Seçme : Bu adım bizim ilerde kuracağımız model için uygun verinin seçilmesi işlemidir. Bir sınıflandırma işleminde öznitelikleri içine alan bir verinin seçilmesi anlamını taşımaktadır. Veri tabanlarındaki işlem hızları artmasına rağmen büyük veritabanları üzerinde birden fazla modellin denenmesi oldukça zaman ve maliyet gerektirmektedir. Bunun yerine verinin bütününü temsil edecekşekilde bir parça üzerinde işlemler yapılabilir. Fakat seçilecek parçanın verinin tamamını temsil etmesi açısından önemi büyüktür.

2.2.5 Dönüştürme : Verinin kullanılacak modele göre içeriğini koruyarakşeklinin dönüştürülmesi işlemidir. Dönüştürme işlemi kullanılacak modele uygun biçimde yapılmalıdır. Çünkü verinin gösterilmesinde kullanılacak model ve algoritma önemli bir rol oynamaktadır.

Yukarıdaki bilgiler ışığında veri tabanları ile veri ambarları arasındaki bazı farklar göze çarpmaktadır. İçerik olarak veri tabanları bütün detayları kapsamakta, veri ambarlarında ise daha çok özet ve ilgili bilgileri tutulmaktadır. Veri tabanı işlemleri, bir kısım veri üzerinde yapılırken veri ambarları, daha fazla veri üzerinde işlem yapmaktadır. Veri tabanlarında veriler iki boyutlu tutulurken veri ambarları çok boyutlu veri saklama imkanı sunmaktadır. Bu sebeple verinin analizi kolaylaşmaktadır. Veri tabanları sürekli güncellenirken veri ambarları belirli periyotlar ile güncellenirler.

2.4 Modelin Kurulması ve Değerlendirilmesi

Bilginin keşfi sürecinde hazırlanan verilerin ortaya konulan probleme uygun modelin ortaya konulması ve bu modele ait algoritmanın seçilmesidir. Genel olarak Sınıflama ve Tahmin (Classification and Prediction), Küme Analizi (Cluster Analysis), Birliktelik Kuralları (Associaton Rules)şeklinde modelleri sınıflandırabiliriz.

Sınıflama ve Tahmin : Bu iki model aslında birbirlerinden farklı amaçları olsa da aynı tekniklerle kullanıldığı için tek başlık içerisinde alabiliriz. Bu iki model arasındaki bağlantı tahmin edilen değerlerin sınıflanmış bir yapıya sahip olmasıdır. Sınıflanma modeli iki adımdan oluşmaktadır. İlk adımda gözlenmiş veriler sınıflandırma algoritması kullanılarak sınıflandırma kuralları oluşturulur. İkinci adımda ise oluşturulan sınıflandırma kuralları kullanılarak veriler sınıflandırılır. Tahmin modelinde sürekli veriler alınarak oluşturulan kurallara göre sonuçlandırılır. Bu modellerde kullanılan algoritmalar dan bazıları Karar Ağaçları (Decision Tree), Hatayı Geri Yayma (Backpropagation), Bayes Sınıflandırması (Bayesian Classification) dır.

Küme Analizi : Kümeleme işlemi birbirine benzeyen nesnelerin aynı grupta toplanmasıdır. Bu modelde en büyük etken hangi kriterlere göre kümeleme yapılacağıdır. Bu işlem konu ile ilgili uzman tarafından tahmin edilir. Veriler kümeleme işleminde aynı sınıfta yer almalarına rağmen farklı gruplarda da yer alabilir. Nüfus bilimi ve astronomi alanında kullanımları yaygındır.

Birliktelik Kuralları : Bu model veri nesneleri arasındaki ilginç ilişkileri araştırır. Bu gerek birbirini izleyen gerekse eş zamanlı durumlarda araştırma yapar. Bu model yaygın olarak Market Sepet Analizi uygulamalarında kullanılmaktadır. Bunun yanında finans ve tıp alanında da kullanılmaktadır.

Bilgi keşfi için modelin kurulması çok zahmetli bir işlemdir. Çünkü hangi model ve algoritmanın bize daha iyi performans vereceğini önceden kestirmemiz imkansız olmasa da çok zordur. Bu nedenle mevcut olan bütün modelleri kurarak bunlar arasında mukayese edilmelidir. Modelin öğrenmesi Deneticili (Supervised) ve Deneticisiz (Unsupervised) olmak üzere ikiye ayrılır. Deneticili yöntemde verini bir kısmı seçilen algoritmanın eğitimi için diğer kısmı da eğitimin testi için kullanılmaktadır. Test işlemindeki başarı o modelin kalitesini ortaya koymaktadır. Öğreticisiz yöntemde ise ilgili özellikler arasındaki benzerlikten ortaya çıkarak eğitim yapılmaktadır. Veri tabanı işlemlerindeki hızlanmaya rağmen verilerin çok fazla olması eğitim ve test süresini olumsuz yönde etkilemektedir. Bu nedenle verinin tamamı yerine onu en iyişekilde temsil edecek daha küçük bir veri topluluğu üzerinde modelin seçilmesi ve sonra tüm veriye uygulanması iyi bir çözüm olmaktadır.

2.4 Şablonların ve İlişkilerin Yorumlanması

Yapılan çalışmalar sonuçunda elde edilen ilişkilerin ve kuralların uzman tarafından incelenerek yorumlanması aşamasıdır. Bu aşamada modelin bize sunduğu ilişkiler incelenmektedir. Biz model üzerinde verinin bir kısmını kullandığımız için karşımıza gelen bütün ilişkiler anlamlı olmaya bilir. Bu nedenle uzmanların bu aşamada yaptığı inceleme ve yorumlar ışığında model üzerinde değişiklikler yapılarak işlemlere faydalı yeni boyutlar kazandırılabilir.

3. TIBBİ VERİ ve TIPTA VERİ MADENCİLİĞİ

Tıp alanında bilginin kullanımşeklinde meydana gelen değişiklikler sağlık bakım hizmetini verenleri etkilemiştir, sağlık bakım hizmetinin verilmesinde bilgisayar kullanımı, bilginin paylaşım-ekip yaklaşımını, veri ve bilgi temelli uygulama gibi kavramlar yaygınlaşmaya başlamıştır. Bilgisayarlar hasta bakım hizmetlerinin destekleme, sağlık bakım hizmetlerinin kalitesinin değerlendirilmesi gibi doğrudan sağlık bakım hizmetlerinin sunulmasında kullanılmasının yanı sıra, karar verme, yönetim, planlama ve tıbbi araştırmalar gibi yönetsel ve akademik fonksiyonların yerine getirilmesinde daha fazla kullanılmaya başlanılmıştır.

Tıp alanında bulunan mevcut veri oldukça fazla ve hayati öneme sahiptir. Hastane bilgi sistemleri sayesinde bu veriler düzenli olarak tutulmaktadır. Hayati öneme sahip olan bu verilerden daha fazla yaralanmak mümkündür. Hastane Bilgi sistemlerinden veya diğer tıbbi veri toplayan sistemlerden alınan veriler üzerinde yapılan veri madenciliği çalışmaları hem uzmanlar için hem hastane yönetimi için hem de hastaların daha kaliteli bir hizmet almalarında etkin rol alabilir.

3.1 Tıbbi Verinin ve Veri Ambarının Oluşturulması

Tıbbi veriler üzerinde çalışma yapmak bu verileri iyi tanımakla mümkündür. Tıbbi verilerin yorumlanmasında uzmanların önemli bir rolü vardır. Bu nedenle uzman görüşleri ile işlemler arasındaki bağlantı iyi kurulmalıdır. Tıp alanında belirli bir standardın olmayışı ve varolan standartlar arasında tam bir uyumun olmaması nedeniyle, bu alanında bir veri ambarının oluşturulması oldukça zor bir işlemdir. Tablo-1 de görüldüğü üzerine çeşitli standartlar arasında faklı kodlama sistemleri mevcut olmaktadır. Bu nedenle veri ambarı oluştururken farklı kaynaklardan toplanan veriler arasındaki standart uyumu da göz önüne alınmalıdır.

Level Term RCC ICD-9-CM

1 Infectious/parasitic diseases A 001-139
2 Viral disease with exanthem A5 050-057
3 Rubella A56 056
4 Rubella + neurological complications A560 0560
5 Rubella + encephalomyelitis A5601 056.01

Tablo-1 : RCC ve ICD-9-CM standartları arasındaki ilişki.

Bunu yanı sıra tıp alanındaki terimlerin hem karışık hem de birbirine yaklaşık olması da veri ambarı oluşumunu negatif yönde etkilemektedir. Tıp alanındaki veri genellikle farklı kaynaklarda toplanmaktadır. Örneğin hastanın laboratuar ile ilgili verileri ile hastanın teşhis bilgileri farklı kaynaklarda ve farklışekillerde tutulmaktadır.

3.2 Tıpta Veri Madenciliği Uygulama Alanları

Tıp alanında veri madenciliği uygulamaları çeşitli konularda yapılmıştır. Bunlardan bir kaçını açıklayalım.

A.Kusiak ve arkadaşları tarafından akciğer deki tümörün iyi huylu olup olmadığına dair, karar destek amaçlı bir çalışma yapılmıştır. İstatistiklere göre Amerika da 160.000 den fazla akciğer kanseri vakasının olduğu ve bunların %90’ının öldüğü belirlenmiştir. Bu bağlamda bu tümörün erken ve doğru olarak teşhisi önem kazanmaktadır. Noninvaziv testler ile elde edilen bilgi sayesinde %40-60 oranında doğru teşhis konabilmektedir. İnsanlar kanser olup olmadıklarından emin olmak için biyopsi yaptırmayı tercih etmektedirler. Biyopsi gibi invaziv testler hem maliyeti yüksek hem çeşitli riskler taşımaktadır. Faklı yerlerde ve farklı zamanlarda kliniklerde toplanan invaziv test verileri arasında yapılan veri madenciliği çalışmaları teşhiste %100 oranında doğruluk sağlamıştır.

Başka bir çalışma ise Kore Tıbbi Sigorta Kurumu ( The Korea Medical Insurance Corporatition) tarafından hazırlanan bir veri tabanı üzerinde yapılan yüksek tansiyon ile ilgili bir çalışmadır. Bu çalışma 1998 yılına ait 127,886 kayıt üzerinde yapılmıştır. İlk aşamada yüksek tansiyona sahip 9,103 kayıt üzerinde, daha sonra aynı sayıda yüksek tansiyonu olmayan kayıtlar üzerinde çalışılmıştır. Bu örnek 13,689 kayıttan oluşan ögrenme ve 4,588 kayıttan oluşan test setine bölünerek modelin eğitimi yapılmıştır. Öğrenim algoritmasında karar ağaçları algoritmalarından CHAD, C4.5, C5.0 kullanılmıştır. Bu çalışmalar sonuçunda yüksek tansiyon tahmininde etkili değerler BMI, idrar proteini (urinary protein), kan glikozu, kolestrol değerleridir. Yaşam koşullarının (diyet, alınan tuz miktarı, alkol, tütün gibi) hiçbirinin tahminde etkili olmadığı ayrıca grafiksel değerlerde de yalnızca yaşın etkili olduğu saptanmıştır.

Sonuç

Bilişim Teknolojilerin birçok alanda kullanımı ve uygulamaları her geçen yıl artmaktadır. Bu alanlar içinde en önemlilerinden biriside Tıp olup bilişim teknolojileri ile Tıp alanlarının kesişim noktasında “Tıp Bilişimi (Medical Informatics)” adlı bir disiplinin de oluşmasını sağlamıştır. “Veri Madenciliği”nin de özellikle ticari alanlarda yoğun kullanımından sonra, tıbbi kullanımı da gündeme gelmiştir. “Veri Madenciliği” tıbbi kullanımı ile daha önce belki de birçok klinik araştırma gerektiren, hem ekonomik hem de insan (veya deney hayvanları) sağlığı açısından sakıncaları olan tıbbi araştırmaların yerini kısmen de olsa doldurarak tıbbi araştırmalar için yeni bir ufuk sağlayacaktır.

Bizim çalışmamızda da tıbbi kullanımı ile ilgili özel veya genel çalışma ve araştırmalar gözden geçirilerek, bu alanda yapılabilecek çalışmalar için bir vizyon sağlamak amaçlanmıştır. Bu sayede belki de hem bizim hem de bu çalışmayı inceleme fırsatı bulanların uygulamalı yeni çalışmalar yapması için bir açılım sağlayacaktır.

Son olarakşunu söyleyebiliriz; “Veri Madenciliği” özellikle insan sağlığı ile ilgili olduğu için tıbbi kullanımı ile oldukça önemli bir uygulama alanı bulacaktır. Bu konuda önemini son yıllarda giderek artan çalışmalar ile de ortaya koymaya başlamıştır.

Kaynaklar:

• A.Kusiak, K.H. Kernstine, J.A.Kern, K.A.McLaughlin and T.L.Tseng: Medical and Engineering Case Studies May, 2000
• Alper Vahaplar, Dr. Mustafa Murat İnceoğlu : Veri Madenciliği ve Elektronik Ticaret, VII. Türkiye’de İnternet Konferansı, 1-3 Kasım 2001
• Benjamin Honigman, Partice Light, Russel M. Pulling, Dawid W. Bates, A computerized method for identifying incidents associated with adverse drug events in outpatients, International Journal of Medical Informatics, 61(2001), s. 21-32
• David M Coulter, Andrew Bate, Ronald H B Meyboom, Marie Lindquist, I Ralph Edwards, Antipsychotic drugs and heart muscle disorder in international pharmacovigilance: data mining study, BMJ, 322, 19 MAY 2001, p:1207-1209
• Doron Shalvi and NicholasDeClaris : An Supervised Neural Network Approach to Medical Data Mining Techniques
• http://www.mihandbook.stanford.edu/tables/tables.htm
• Julia Ponomarenko, Tatyana Merkulova, Galina Orlova, Oleg Fokin, Elena Gorshkov, Mikhail Ponomarenko, Mining DNA sequences to predict sites which mutations cause genetic diseases, Knowledge-Based Systems, 15(2002) 225-233
• Steven Ganzert, Josef Guttmann, Kristian Kersting, Ralf Kuhlen, Christian Putensen, Michael Sydow, Stefan Kramer, Analysis of Respiratory Pressure-Volume Curves in Intensive Care Medicine Using Inductive Machine Learning, Artificial Intelligence in Medicine, 26(2002), s.69-86
• Wolf Stühlinger, Oliver Hogl, Herbert Stoyan and Michel Müller : Intelligent Data Mining for Medical Quality Management
• Young Moon Chae, Seung Hee Ho, Kyoung Won Cho, Dong Ha Lee, Sun Ha Ji : Data Minig approach to policy analysis in a healt insurance domain
• Zhi-Hua Zhou, Three Perspectives of Data Mining, Artificial Intelligence, 143(2003), p:139-146

Ersin Kaya ([email protected] )*
Mustafa Bulun ([email protected]) **
Ahmet Arslan ([email protected]) *

* Selçuk Üniversitesi, Bilgisayar Mühendisliği Bölümü
** Selçuk Üniversitesi, Selçuklu Tıp Fakültesi