Senin, 11 Januari 2010

Teknik Boosting

Teknik Boosting adalah salah satu ensemblemethod, yaitu suatu teknik klasifikasi dengan mengkombinasikan hasil dari beberapa Classifier yang berbeda. Pada teknik boosting dilakukan beberapa iterasi secara serial. Pada setiap iterasi, digunakan base classifier untuk menghasilkan sebuah model yang berbeda-beda dan dilakukan pembobotan terhadap data training. Boosting mempunyai arti “sebuah prosedur iterative yang secara adaptif merubah distribusi dari data latih dengan memfokuskan pada data latih yang salah diklasifikasikan pada iterasi sebelumnya”. Algoritma boosting biasa digunakan untuk memperbaiki akurasi secara umum pada permasalahan imbalance class. Kelemahan dari boosting adalah terlalu menekankan pada hard examples di kelas minor, hal ini menyebabkan akurasi dari kelas mayor cenderung turun walaupun akurasi kelas minor meningkat semua itu dikarenakan “Pengetahuan yang diperoleh dari hard examples yaitu record yang susah diklasifikasikan tidak cukup untuk memperbaiki overall accuracy dari ensemble classifier secara umum”


IMBALANCE CLASS

”Definisi dari Kelas Imbalance adalah sebuah keadaan yang menggambarkan tidak seimbangnya porsi data latih antara sebuah kelas dengan kelas yang lain”. Biasanya kelas imbalance ini terjadi dikarenakan jarang terjadinya salah satu kelas ıisbanding kelas yang lainnya. Hal ini berpengaruh pada kecenderungan machine learning yang menghasilkan akurasi prediksi yang baik pada kelas data yang mayoritas tetapi akan menghasilkan akurasi prediksi yang sebalikanya terhadap data yang minoritas. Semua diakibatkan algoritma data mining murni cenderung akan mengabaikan kondisi data yang jarang sehingga pola yang terkandung pada kelas minoritas tidak dapat terekstrak secara baik. Atau dengan kata lain “Algoritma klasifikasi biasa cenderung menyimpangkan prediksi dari record yang aktualnya adalah kelas minor di prediksikan ke dalam kelas mayor”. Permasalahan seperti ini menjadi penting dikarenakan pada beberapa aplikasi data mining, akurasi model prediksi terhadap kelas minor lebih menarik / lebih penting daripada akurasi model prediksi terhadap kelas mayor. Pada referensi juga disebutkan beberapa pendekatan yang dapat dilakukan untuk menangani masalah class imbalance, antara lain:

1. Class-based ordering yaitu rule untuk kelas minor mempunyai prioritas yang lebih tinggi bila dibandingkan dengan rule untuk kelas mayor. Contoh algoritma berdasar Class-based ordering adalah RIPPER.

2. Cost-sensitive classification yaitu memberikan cost yang berbeda terhadap misclassification untuk kelas minor dan kelas mayor. Misclassification cost untuk kelas minor lebih tinggi daripada kelas mayor. “Misclassification cost sendiri dapat berupa kerugian keuangan, jumlah waktu yang terbuang, atau kadar kerusakan”.

3. Sampling-based approaches yaitu memodifikasi distribusi dari data latih sehingga kedua kelas data (mayor maupun minor) direpresentasikan dengan baik didalam training set. Sampling sendiri di bedakan menjadi 2 yaitu : undersampling dan oversampling. Teknik sampling ini sangat cocok untuk penangan kelas yang imbalance.

Tidak ada komentar:

Posting Komentar