Pengertian Dan Model Serta Metode Data
Mining – Tugas data
mining sebenarnya adalah analisis otomatis atau semi-otomatis jumlah besar data
untuk mengekstrak pola yang menarik yang sebelumnya tidak diketahui seperti
kelompok catatan data (analisis cluster), catatan yang tidak biasa (deteksi
anomali) dan dependensi (aturan asosiasi pertambangan). Hal ini biasanya
melibatkan menggunakan teknik database seperti indeks spasial.
Pola ini kemudian dapat dilihat sebagai semacam ringkasan dari
input data, dan dapat digunakan dalam analisis lebih lanjut atau, misalnya,
dalam pembelajaran mesin dan analisis prediktif. Misalnya, langkah data mining
mungkin mengidentifikasi beberapa kelompok dalam data, yang kemudian dapat
digunakan untuk memperoleh hasil prediksi yang lebih akurat oleh sistem
pendukung keputusan. Baik pengumpulan data, penyusunan data, atau interpretasi
hasil dan pelaporan merupakan bagian dari langkah data mining, tetapi milik
proses KDD secara keseluruhan sebagai langkah-langkah tambahan.
FUNGSI-FUNGSI UTAMA DATA MINING
REGRESI
- Fungsi pembelajaran yang memetakan sebuah
unsur data ke sebuah variable prediksi bernilai nyata.
Contoh :
- Prediksi volume biomasa dihutan dengan didasari
pada pengukuran gelombang mikro penginderaan jarak jauh (remotely-sensed).
- Prediksi kebutuhan kustomer terhadap sebuah
produk baru sebagai fungsi dari pembiayaan advertensi.
CLUSTERING
- Merupakan tugas deskripsi yang banyak
digunakan dalam mengidentifikasi sebuah himpunan terbatas pada kategori
atau cluster untuk mendeskripsikan data yang ditelaah.
PENGELOMPOKAN METODE DATA
MINING
Predictive Modeling
- Tujuan
metode ini adalah membangun model untuk memprediksi suatu nilai yang
mempunyai ciri-ciri tertentu.
Klasifikasi
- Digunakan
untuk memprediksi nilai dari variable diskrit (seperti memprediksi on line
user yang akan membeli pada sebuah website)
Regresi
- Digunakan untuk memprediksi nilai variable
yang kontinue ( meramal harga saham dimasa depan).
Association Analysis
- Tujuan
metode ini adalah menghasilkan sejumlah role yang menjelaskan sejumlah
data yang terhubung kuat satu dengan yang lainnya.
- Contoh
: Association Analysis digunakan untuk menentukan produk yang sering
dibeli secara bersamaan oleh banyak pelanggan (market basket analysis).
Clustering
- Tujuan
metode ini adalah mengelompokkan data yang homogen/sejenis sehingga data
yang berada di cluster yang sama mempunyai banyak kesamaan dibanding
dengan data yang ada di cluster yang berbeda.
Contoh :
- Pengelompokan
dokumen berdasarkan topiknya.
Anomaly Detection
- Tujuan metode ini adalah untuk menemukan
anomali atau outlier yaitu data yang sangat berbeda dengan data-data yang
lainnya.
Contoh :
- Menentukan sebuah serangan terhadap jaringan
komputer.
Metode Data Mining
Classification
Classification adalah metode yang paling umum pada data mining.
Persoalan bisnis sperti Churn Analysis, dan Risk Management biasanya melibatkan
metode Classification.Classification adalah tindakan untuk memberikan kelompok pada
setiap keadaan. Setiap keadaan berisi sekelompok atribut, salah satunya adalah
class attribute. Metode ini butuh untuk menemukan sebuah model yang dapat
menjelaskan class attribute itu sebagai fungsi dari input attribute.
Keuntungan Model Klasifikasi
- Predictive accuracy
- Hit rate
- Speed
- Model building; predicting
- Robustness
- Scalability
- Interpretability
- Transparency, explainability
Keuntungan Model Klasifikasi
Clustering
Clustering juga disebut sebagai segmentation. Metode ini digunakan
untuk mengidentifikasi kelompok alami dari sebuah kasus yang di dasarkan pada
sebuah kelompok atribut, mengelompokkan data yang memiliki kemiripan atribut.
Clustering adalah metode data mining yang Unsupervised, karena
tidak ada satu atributpun yang digunakan untuk memandu proses pembelajaran,
jadi seluruh atribut input diperlakukan sama. Kebanyakan Algoritma Clustering
membangun sebuah model melalui serangkaian pengulangan dan berhenti ketika
model tersebut telah memusat atau berkumpul (batasan dari segmentasi ini telah
stabil).
Association
Association juga disebut sebagai Market Basket Analysis. Sebuah
problem bisnis yang khas adalah menganalisa tabel transaksi penjualan dang
mengidentifikasi produk-produk yang seringkali dibeli bersamaan oleh customer.
Metode association memiliki dua tujuan:
- Untuk mencari produk apa yang biasanya terjual
bersamaan
- Untuk mencari tahu apa aturan yang menyebabkan
kesamaan tersebut.
Model Tree (Pohon Keputusan)
- Manusia selalu dihadapkan oleh berbagai macam
masalah dari berbagai bidang.
- Kompleksitas masalah yang dihadapi sangat
bervariasi dan saling berkaitan.
- Para Pengambilan Keputusan Perlu model-model
Solusi yang dapat mendukung suatu keputusan.
- Kompetisi perusahaan dan pelaku bisnis semakin tajam mendorong membuat keputusan yang cepat dan akurat.
Pengertian Pohon Keputusan
- Pohon yang dalam analisis pemecahan masalah
pengambilan keputusan adalah pemetaan mengenai alternatif-alternatif
pemecahan masalah yang dapat diambil dari masalah tersebut.
- Pohon tersebut juga memperlihatkan
faktor-faktor kemungkinan/probablitas yang akan mempengaruhi
alternatif-alternatif keputusan tersebut, disertai dengan estimasi hasil
akhir yang akan didapat bila kita mengambil alternatif keputusan tersebut.
Manfaat Pohon Keputusan
- Mem-break down proses pengambilan keputusan
yang kompleks menjadi lebih simpel sehingga pengambil keputusan akan lebih
menginterpretasikan solusi dari permasalahan.
- Pohon Keputusan juga berguna untuk
mengeksplorasi data, menemukan hubungan tersembunyi antara sejumlah calon
variabel input dengan sebuah variabel target.
- Pohon keputusan memadukan antara eksplorasi
data dan pemodelan, sehingga sangat bagus sebagai langkah awal dalam
proses pemodelan bahkan ketika dijadikan sebagai model akhir dari beberapa
teknik lain.