Veri madenciliğinin K-ortalamalar kümeleme yönteminde başlangıç ağırlık merkezi noktalarının yörünge iterasyonu ile belirlenmesi

[ X ]

Tarih

2021

Dergi Başlığı

Dergi ISSN

Cilt Başlığı

Yayıncı

Dicle Üniversitesi, Fen Bilimleri Enstitüsü

Erişim Hakkı

info:eu-repo/semantics/openAccess

Özet

Veri madenciliğinin en temel düşüncesi, veri kümesindeki her bir nesnenin sahip olduğu alt bilgileri ortaya çıkararak, veri kümesi hakkında istenilen bilgiye ulaşmaktır. Bu alt bilgi, veri madenciliğinde çeşitli matematiksel ve istatistiksel yöntemler ile ortaya çıkarılır. Veri madenciliğinin çalışma alanlarından biri de kümelemedir ve literatürde gözetimsiz öğrenme olarak da bilinir. Kümeleme tekniklerinin temel amacı, veri kümelerini istenilen sayıda küme veya gruplara ayırmaktır. K-Ortalamalar, kümeleme tekniklerinde en sık kullanılan bir yöntemdir. Her yöntemde olduğu gibi bu yönteminde eksiklikleri bulunmaktadır. K-Ortalamalar yönteminin en bilinen eksikliği, başlangıçta rasgele veri noktaları seçimiyle çalışmasıdır. Bu durumun, kümeleme başarısını da olumsuz bir şekilde etkilediği bilinen bir gerçektir. Çünkü her çalıştırıldığında birbirinden farklı sonuçlar üretir. Ayrıca yöntemi belirlenimci bir yöntem olmaktan çıkarmaktadır. Bu tez çalışmasında, K-Ortalamalar metotunun, belirlenimci olmayan yapısının ortadan kaldırılması ve kümeleme başarısının arttırılması hedeflenmiştir. Bu amaçla ilk olarak kümeleme metotlarına ait çalışmalar incelenmiştir. Ardından kümelemede kullanılan başlangıç ağırlık merkezi bulmaya yönelik çalışmalar araştırılmıştır. Bu bilgiler yardımıyla, veri noktalarının yörünge iterasyonuna dayanan yeni bir başlangıç ağırlık merkezi yöntemi tasarlanmıştır. Ayrıca bu yeni yöntem, Python programlama dilinde kodlanmış olup, suni ve gerçek veriler kümeleri üzerinde test edilmiştir. Yöntemde elde edilen sonuçlar, literatürde bulunan diğer çalışmaların sonuçları ile karşılaştırılmıştır. Elde edilen bulgulara göre tasarlanan yöntemin başarılı olduğu görülmüştür.

The most basic idea of data mining is to reach the desired information about the data set by revealing the sub-information of each object in the data set. This sub-info is revealed by various mathematical and statistical methods in data mining One of the study areas of data mining is clustering and it is known as unsupervised learning in the published literature. The main purpose of clustering techniques is to divide datasets into any number of clusters or groups. K-Means is the most commonly used method in clustering techniques. As with any method, this method has its shortcomings too. The most well-known shortcoming of the K-Means method is that it works with the selection of random initial centroids. It is a known fact that this situation negatively affects clustering success. Because it produces different results each time it is run. Moreover it makes the method not a deterministic one. In this Ph.D. dissertation, it is aimed to remove the non-deterministic nature of the K- Means method and to increase the clustering success. For this purpose, firstly, the literature on clustering methods were analyzed. Then, studies to find the initial center of gravity used in clustering were figured out. With the help of this information, a new initial centroid method based on orbit iterations of data points is designed. In addition, this new method has been coded in the Python programming language and has been tested on artificial and real datasets. The results obtained from the method were compared with the results of other studies in the literature. According to the findings, the designed method was found to be successful.

Açıklama

Anahtar Kelimeler

Veri madenciliği, Kümeleme, K-ortalamalar, Başlangıç ağırlık merkezleri, Data mining, Clustering, K-means, Initial centroids

Kaynak

WoS Q Değeri

Scopus Q Değeri

Cilt

Sayı

Künye

Yücelen, A. M. (2021). Veri madenciliğinin K-ortalamalar kümeleme yönteminde başlangıç ağırlık merkezi noktalarının yörünge iterasyonu ile belirlenmesi. Yayımlanmamış doktora tezi, Dicle Üniversitesi, Diyarbakır.