Mengenal metode klasifikasi, secara sederhana algoritma klasifikasi pada data mining merupakan sebuah catatan record data hendak diklasifikasikan
kedalam salah satu dari sekian klasifikasi data yang tersedia pada variabel
tujuan berdasarkan nilai-nilai “variabel
prediktor”.
Cara KerjaAlgoritma klasifikasi
Klasifikasi dalam data mining bekerja pada data historis atau data sejarah. Data historis disebut data latihan atau training data. histori data digunakan sebagai cara mendapatkan pengetahuan dan disebut data pengalaman.
Mengetahui Proses pembentukan Klasifikasi data mining
Cara KerjaAlgoritma klasifikasi
Klasifikasi dalam data mining bekerja pada data historis atau data sejarah. Data historis disebut data latihan atau training data. histori data digunakan sebagai cara mendapatkan pengetahuan dan disebut data pengalaman.
Mengetahui Proses pembentukan Klasifikasi data mining
Secara sederhana ada
3 proses pemecahan masalah klasifikasi diantaranya:
- Data historis atau data pengalaman
- Data historis akan diproses menggunakan algoritma klasifikasi
- Klassifikasi menghasilkan pengetahuan yang dipresentasikan dalam bentuk diagram pohon keputusan”decission tree”
Untuk memecahkan masalah klasifikasi data mining sedikitnya
ada 6
algoritma klasifikasi data data mining diantaranya:
- Algoritma CART (Classification and Regreesion Trees)
- Algoritma mean vektor
- Algoritma k-nearest neighbor
- Algoritma ID3
- Algoritma C4.5
- Algoritma C5.0
Contoh Masalah Klasifikasi Data Mining
Sebagai contoh fiktif ada 8 data nasabah yang telah
memperoleh kredit mikro dari bank mikroba. Data tersebut meliputi besarnya
tabungan dengan jenis kategori(rendah, sedang dan tinggi), besar aset nasabah
dengan kategori(rendah, sedang, tinggi), besarnya pendapatan nasabah per tahun
dan resiko kredit dengan kategori (baik dan buruk) dari ilustrasi data nasabah
ini dapat menghasilkan suatu pengetahuan untuk menggolongkan resiko kredit
seorang nasabah pada masa mendatang berdasarkan tabungan , aset dan pendapatan
apabila ada pengajuan kredit nasabah kesembilan, kesepuluh dan seterusnya. Data
tabungan, aset dan pendapatan merupakan
dasar untuk menentukan resiko kredit
disebut sebagai variabel
prediktor. Resiko kredit berdasarkan variabel prediktor disebut variabel
tujuan”target variabel”
Contoh pohon keputusan masalah klasifikasi data nasabah kredit
Pada gambar diatas terdapat 2 jenis bentuk noktah. Pertama
berbentuk elips disebut noktah keputusan noktah ini masih akan bercabang noktah
ini merupakan suatu catatan misalnya “nasabah” belum dapat ditentukan
klasifikasinya apakah nasabah ini mempunyai resiko kredit baik atau buruk.
Noktah keputusan pertama disebut noktah
dasar. Kedua noktah berbentuk persegi panjang disebut noktah terminasi yang tidak akan bercabang lagi karena pada noktah
ini nasabah sudah ditentukan klasifikasinya.
Bagaimana cara membaca gambar pohon keputusan yang dihasilkan oleh algoritma klasifikasi
diatas? Pertama pada noktah dasar nasabah(A, B, C, D, E, F, G, H) pertama
dilihat dari seberapa besar aset nasabah? Jika klasifikasi aset tergolong
rendah, maka dapat diklasifikasikan sebagai
nasabah dengan resiko kredit buruk. Namun, bila aset termasuk sedang atau
tinggi, resiko kredit belum bisa
dikatakan baik atau buruk noktah ini disebut noktah keputusan A sebab merupakan
noktah keputusan yang pertama dihasilkan dengan catatan(A,C,D,E,F,H). Noktah
keputusan A dilakukan percabangan dilihat dari besarnya tabungan nasabah bila,
tabungan termasuk sedang atau sedang
dapat diklasifikasikan nasabah dengan resiko kredit baik (A,D,E,H). Bila tabungan tinggi, maka belum bisa
diklasifikasikan apakah baik atau
buruk termasuk noktah keputusan. Noktah
ini disebut Noktah B sebab merupakan
noktah keputusan kedua yang dihasilkan.
Noktah B dilakukan percabangan lagi berdasarkan seberapa besar aset nasabah?
Bila, aset termasuk tinggi nasabah (F), maka
termasuk nasabah dengan resiko kredit baik jika nilai aset termasuk sedang,
maka diklasifikasikan sebagai nasabah dengan resiko kredit buruk.
Dari
contoh kasus klasifikasi data nasabah diatas maka dapat diperoleh pengetahuan
yang dapat diaplikasikan kepada mereka yang berpotensi menjadi nasabah
kesembilan, keseuluh danseterusnya. Data ini akan dijadikan sebagai input basgi
suatu algoritma yang sekarang ini belum diketahui jenis algoritmanya. Sebagai
keluaran dari algoritma yang saat ini belum diketahui jenisnya secara sederhana
dapat direpresentasikan dalam bentuk pohon keputusan diatas pada tulisan
berikutnya akan membahas secara detail algoritma yang dapat menghasilkan pohon
keputusan seperti diatas. Sebagai bocoran saja algoritma ini disebut Classification
and regression tree (CART).
No comments:
Post a Comment