Metode Clustering Dokumen

Clustering didefinisikan sebagai upaya pengelompokan data ke dalam cluster sehingga data-data didalam cluster yang sama memiliki kesamaan lebih dibandingkan dengan data-data pada cluster yang berbeda [1]. Clustering adalah salah satu teknik unsupervised machine learning dimana metode tersebut tidak perlu dilatih atau tidak ada fase learning.
Lima kriteria utama yang harus dipenuhi oleh algoritma clustering yaitu:
1. Dimensionalitas tinggi
Banyaknya term-term relevan di himpunan dokumen umumnya mencapai ribuan hingga puluhan ribu. Tiap-tiap term ini merupakan sudatu dimensi di dalam vektor dokumen. Kebanyakan algoritma clustering dapat bekerja baik pada data dengan dimensi rendah dan gagal menghasilkan cluster di ruang yang memiliki dimensi tinggi. Algoritma yang baik seharusnya dapat bekerja di ruang dengan dimensi rendah dan tidak mengalami penurunan drastis ketika digunakan pada ruang berdimensi tinggi.
2. Skalabilitas
Dalam pengambilan informasi, himpunan data bisa berisi ratusan hingga ribuan dokumen. Beberapa algoritma clustering tidak mampu menangani hinpunan data yang berisi lebih dari sepuluh ribu objek data. Permasalahan ini biasanya diselesaikan dengan melakukan clustering pada subset himpunan data, tetapi hal ini dapat mengakibatkan hasil clustering tidak seimbang. Oleh karena itu algoritma clustering seharusnya dapat menangani himpunan data baik dalam jumlah kecil maupun besar.
3. Akurasi
Solusi clustering yang baik seharusnya memiliki kemiripan inter-cluster tinggi dan kemiripan intra-cluster rendah. Artinya dokumen-dokumen didalam cluster yang sama harus mirip, dan sangat berbeda dengan dokumen-dokumen di cluster lainnya.
4. Kemudahan browsing
Hasil clustering harus mampu menyediakan struktur yang masuk akal dan dengan deskripsi cluster yang memiliki arti, sehingga pengguna dapat melakukan aktivitas browsing dengan mudah.
5. Prior domain knowledge
Banyak algoritma clustering yang memerlukan intervensi pengguna untuk menetapkan beberapa parameter masukan. Pada kenyataannya, untuk menentuka nilai-nilai parameter ini sering diperlukan prior domain knowledge. Apabila suatu algoritma clustering sensitif terhadap kondisi ini, tingkat keakuratannya dapat menurun secara drastis. Dampak lain yang bisa timbul adalah kualitas clustering yang akan sulit dikendalikan.

Tujuan utama dari metode clustering adalah mengelompokkan sejumlah data atau obyek kedalam cluster sehingga dalam setiap cluster akan berisi data dengan kemiripan yang sangat tinggi. Dalam clustering, diusahakan untuk menempatkan obyek yang mirip (jaraknya dekat) dalam satu cluster dan membuat jarak antar cluster sejauh mungkin. Ini berarti obyek dalam satu cluster sangat mirip satu sama lain dan berbeda dengan obyek dalam cluster-cluster yang lain. Teknik clustering tidak membutuhkan label maupun keluaran dari setiap data yang diinvestigasi. Dalam teknik clustering tidak diketahui sebelumya jumlah cluster dan bagaimana cara amengelompokkannya. Terdapat dua pendekatan dalam teknik clustering, yaitu: hirarchical cluster dan partitioning cluster [2].

Reference:
[1] Gao, J. and J. Zhang, Clustered SVD Strategies in Latent Semantic Indexing, Technical Report No. 382–03, Department of Computer Science, University of Kentucky, Lexington, KY,2003
[2] Sander, J, (2003), Course homepage for principles of knowledge discovery in data. Available from: .

One response to “Metode Clustering Dokumen

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s