Yazan : Şadi Evren ŞEKER
Sınıflandırmada (clustering) kullanılan algoritmalardan birisidir. Amaç özellik çıkarımı (Feature extraction) yapılmış bir grup verinin birden fazla sınıfa göre doğru sınıflandırılmasıdır.
Kullanılan matematiksel yöntem her sınıf için merkez belirlenen noktaya uzaklığa (aynı zamanda bu hata miktarıdır) göre yeni sınıfların yerleştirilmesidir.
Algoritma temel olarak 4 aşamadan oluşur:
- Sınıf merkezlerinin belirlenmesi
- Merkez dışındaki örneklerin mesafelerine göre sınıflandırılması
- Yapılan sınıflandırmaya göre yeni merkezlerin belirlenmesi (veya eski merkezlerin yeni merkeze kaydırılması)
- Kararlı hale (stable state) gelinene kadar 2. ve 3. adımların tekrarlanması
Çalışmayı daha net anlamak için aşağıdaki örnek uzaya dağılmış olan örnekleri inceleyelim:

Yukarıda verilen ve uzayda koordinatları kodlanmış olan örnekler için iki adet hedef küme tanımlıyoruz. (iki sınıf ve bu sınıfların karakterlerini tanımlıyoruz)

Bu sınıf tanımlarına uzaklıklarına göre (örneğin öklit mesafesi (euclid distance) ) bütün örneklerimizi sınıflandırıyoruz. (hangi renge daha yakınsa)

Oluşan sınıfları ayıran bir hat aşağıdaki şekilde çizilebilir:

Daha önceden sınıflandırdığımız örneklerin merkezlerini buluyoruz. (yuvarlak ile gösterilen ve sınıf karakteristiğini temsil eden ilk örneklerin yerini değiştirmek olarak da düşünülebilir)

Merkezleri hareket ettirdikten sonra örneklerden bazıları yeni merkezlere daha yakın olabilir. Buna göre örnek kümelerimizin sınıflandırılmasını güncelliyoruz.
Yukarıda son hali gösterilen k-means algoritmasında yeni merkezler ve her örneğin hangi sınıfa girdiği bulunmuştur.
