Veri madenciliğinin K-ortalamalar kümeleme yönteminde başlangıç ağırlık merkezi noktalarının yörünge iterasyonu ile belirlenmesi
Citation
Yücelen, A. M. (2021). Veri madenciliğinin K-ortalamalar kümeleme yönteminde başlangıç ağırlık merkezi noktalarının yörünge iterasyonu ile belirlenmesi. Yayımlanmamış doktora tezi, Dicle Üniversitesi, Diyarbakır.Abstract
Veri madenciliğinin en temel düşüncesi, veri kümesindeki her bir nesnenin sahip olduğu
alt bilgileri ortaya çıkararak, veri kümesi hakkında istenilen bilgiye ulaşmaktır. Bu alt bilgi, veri
madenciliğinde çeşitli matematiksel ve istatistiksel yöntemler ile ortaya çıkarılır.
Veri madenciliğinin çalışma alanlarından biri de kümelemedir ve literatürde gözetimsiz öğrenme olarak da bilinir. Kümeleme tekniklerinin temel amacı, veri kümelerini istenilen sayıda küme veya gruplara ayırmaktır. K-Ortalamalar, kümeleme tekniklerinde en sık kullanılan bir yöntemdir. Her yöntemde olduğu gibi bu yönteminde eksiklikleri bulunmaktadır. K-Ortalamalar yönteminin en bilinen eksikliği, başlangıçta rasgele veri noktaları seçimiyle çalışmasıdır. Bu durumun, kümeleme başarısını da olumsuz bir şekilde etkilediği bilinen bir gerçektir. Çünkü her çalıştırıldığında birbirinden farklı sonuçlar üretir. Ayrıca yöntemi belirlenimci bir yöntem olmaktan çıkarmaktadır.
Bu tez çalışmasında, K-Ortalamalar metotunun, belirlenimci olmayan yapısının ortadan kaldırılması ve kümeleme başarısının arttırılması hedeflenmiştir. Bu amaçla ilk olarak kümeleme
metotlarına ait çalışmalar incelenmiştir. Ardından kümelemede kullanılan başlangıç ağırlık merkezi bulmaya yönelik çalışmalar araştırılmıştır. Bu bilgiler yardımıyla, veri noktalarının
yörünge iterasyonuna dayanan yeni bir başlangıç ağırlık merkezi yöntemi tasarlanmıştır. Ayrıca bu yeni yöntem, Python programlama dilinde kodlanmış olup, suni ve gerçek veriler kümeleri üzerinde test edilmiştir. Yöntemde elde edilen sonuçlar, literatürde bulunan diğer çalışmaların
sonuçları ile karşılaştırılmıştır. Elde edilen bulgulara göre tasarlanan yöntemin başarılı olduğu görülmüştür. The most basic idea of data mining is to reach the desired information about the data set
by revealing the sub-information of each object in the data set. This sub-info is revealed by various mathematical and statistical methods in data mining
One of the study areas of data mining is clustering and it is known as unsupervised learning in the published literature. The main purpose of clustering techniques is to divide datasets
into any number of clusters or groups. K-Means is the most commonly used method in clustering techniques. As with any method, this method has its shortcomings too. The most well-known
shortcoming of the K-Means method is that it works with the selection of random initial centroids.
It is a known fact that this situation negatively affects clustering success. Because it produces different results each time it is run. Moreover it makes the method not a deterministic one.
In this Ph.D. dissertation, it is aimed to remove the non-deterministic nature of the K- Means method and to increase the clustering success. For this purpose, firstly, the literature on clustering methods were analyzed. Then, studies to find the initial center of gravity used in
clustering were figured out. With the help of this information, a new initial centroid method based on orbit iterations of data points is designed. In addition, this new method has been coded in the
Python programming language and has been tested on artificial and real datasets. The results obtained from the method were compared with the results of other studies in the literature. According to the findings, the designed method was found to be successful.