Skip to main content

Data Perlombongan Dengan K-Means Clustering

K- Medoid Clustering (April 2025)

K- Medoid Clustering (April 2025)
Anonim

The k- ertinya algoritma clustering adalah perlombongan data dan alat pembelajaran mesin yang digunakan untuk pemerhatian cluster ke dalam kumpulan pemerhatian yang berkaitan tanpa pengetahuan terlebih dahulu tentang hubungan tersebut. Dengan pensampelan, algoritma cuba untuk menunjukkan di mana kategori, atau kumpulan, data itu dimiliki, dengan bilangan kluster yang ditakrifkan oleh nilai k.

The k- ertinya algoritma adalah salah satu teknik kluster paling mudah dan biasanya digunakan dalam pengimejan perubatan, biometrik, dan bidang yang berkaitan. Kelebihan k- ertinya clustering ialah ia menceritakan tentang data anda (menggunakan bentuk yang tidak diselia) daripada anda harus mengarahkan algoritma mengenai data pada permulaan (menggunakan bentuk yang diawasi algoritma).

Ia kadang-kadang dirujuk sebagai Algoritma Lloyd, terutamanya dalam kalangan sains komputer kerana algoritma standard dicadangkan oleh Stuart Lloyd pada tahun 1957. Istilah "k-means" dicipta pada tahun 1967 oleh James McQueen.

Bagaimana Fungsi Algoritma K-Means

The k- ertinya algoritma adalah algoritma evolusi yang mendapat nama dari kaedah pengoperasiannya. Pemerhatian kluster algoritma ke dalam k kumpulan, di mana k disediakan sebagai parameter input. Ia kemudian menyerahkan setiap pemerhatian kepada kluster berdasarkan jarak dekat pemerhatian dengan purata kluster. Maksud kluster kemudiannya dikitar semula dan proses bermula semula. Inilah cara algoritma berfungsi:

  1. Algoritma memilih sewenang-wenangnya k mata sebagai pusat kluster awal (cara).
  2. Setiap titik dalam dataset ditugaskan ke cluster tertutup, berdasarkan jarak Euclidean antara setiap titik dan setiap pusat cluster.
  3. Setiap pusat kluster dikira semula sebagai purata mata dalam kelompok itu.
  4. Langkah 2 dan 3 ulangi sehingga kumpulan berkumpul. Konvergensi boleh ditakrifkan dengan berlainan bergantung kepada pelaksanaannya, tetapi biasanya bererti bahawa tidak ada pengamatan mengubah kluster apabila langkah 2 dan 3 diulang, atau perubahan tidak membuat perbedaan material dalam definisi klaster.

Memilih Bilangan Kluster

Salah satu kelemahan utama k- ertinya clustering adalah hakikat bahawa anda mesti menentukan bilangan kluster sebagai input kepada algoritma. Seperti yang direka, algoritma tidak dapat menentukan bilangan kluster yang sesuai dan bergantung kepada pengguna untuk mengenal pasti ini terlebih dahulu.

Sebagai contoh, jika anda mempunyai sekumpulan orang yang akan dikelompokkan berdasarkan identiti jantina binari sebagai lelaki atau perempuan, memanggil k- ertinya algoritma yang menggunakan input k = 3 akan memaksa orang menjadi tiga kelompok apabila hanya dua, atau satu input k = 2, akan memberikan yang lebih semula jadi.

Begitu juga, jika sekumpulan individu mudah dikelompokkan berdasarkan negeri asal dan anda memanggilnya k- ertinya algoritma dengan input k = 20, keputusan mungkin terlalu umum untuk menjadi berkesan.

Atas sebab ini, sering kali idea yang baik untuk bereksperimen dengan nilai yang berbeza k untuk mengenal pasti nilai yang paling sesuai dengan data anda. Anda juga mungkin ingin meneroka penggunaan algoritma perlombongan data lain dalam pencarian anda untuk pengetahuan mesin yang dipelajari.