Istilah-Istilah Dalam Machine Learning Dan Data Mining
Sebelum membahas tentang machine learning lebih dalam,
maka pada sub bab ini akan disebutkan
dan diterangkan terminologi atau istilah- istilah yang umum digunakan.
Dataset, Instance & Feature
Dengan menggunakan pendekatan data-driven maka pembelajaran dapat dilakukan jika telah dimiliki
data atau sering disebut sebagai
dataset. Di bawah ini ditampilkan dataset iris
yang terdiri atas 150 baris atau record yang akan lebih dikenal dengan istilah instance.
Gambar 2. Dataset iris.
Pada dataset di atas dapat dilihat 5 kolom yaitu:
1. Sepal.Length.
2. Sepal.Width.
3. Petal.Length.
4. Petal.Width.
5. Species.
Istilah yang digunakan untuk kolom adalah feature, artinya dataset di atas memiliki 5 feature. Pada beberapa algoritma, feature dapat dibedakan
menjadi dua yaitu: feature dan target
variable (target feature). Sebagai contoh jika
dataset di atas diproses dengan algoritma klasifikasi maka target variable (target feature) adalah Species sedangkan sisanya adalah feature.
Training Set & Test Set
Dataset akan digunakan pada proses pembelajaran algoritma paling tidak terdapat dua tahap yang harus
dilakukan, yaitu tahap training dan pengujian (test).
Jika dimiliki 150 instance pada dataset maka harus dibagi menjadi dua. Data yang digunakan pada tahap training
akan disebut dengan istilah training
set. Sedangkan yang digunakan pada tahap pengujian
disebut test set.
Untuk teknik pembagian dataset menjadi training dan test
set akan diterangkan pada bab yang lain.
Tipe
Machine learning dapat dibedakan menjadi
dua tipe. Tipe yang dimaksudkan di sini adalah tipe algoritma
yaitu:
1. Supervised learning.
2. Unsupervised learning.
Supervised Learning
Pembelajaran pada tipe ini telah diketahui apa yang akan
diprediksi atau target variablenya. Sehingga tujuan membangun algoritma sudah jelas hal apa yang akan diprediksi. Oleh karena itu model yang dihasilkan dari tipe ini adalah model prediksi.
Model prediksi
digunakan untuk melakukan
proses prediksi target variable (target feature) berdasarkan feature-feature
lain pada suatu dataset. Algoritma
pembelajaran yang dibangun
mencoba untuk menemukan dan memodelkan hubungan antara target variable (target feature)
tersebut dengan feature-feature lainnya.
Klasifikasi adalah contoh task mechine learning tipe
supervised untuk melakukan prediksi. Beberapa contoh penerapan klasifikasi
adalah sebagai berikut:
1. Penentuan email adalah
email spam.
2. Penentuan seseorang mengidap kanker.
3.
Penentuan kemenangan suatu tim sepakbola.
Pada klasifikasi, target feature yang akan diprediksi adalah feature terkategori yang dikenal dengan istilah
kelas (class) dan dapat dibagi menjadi kategori
yang disebut dengan istilah level.
Kasus klasifikasi dapat dibedakan berdasarkan tipe masalah yang umumnya ditemui,
yaitu:
1. Klasifikasi 1 class.
2. Klasifikasi 2 class (binary).
3. Klasifikasi multiclass, terdapat
lebih dari 2 class.
Saat ini telah banyak teknik/metode klasifikasi yang
dikembangkan untuk menyelesaikan masalah klasifikasi 2 class. Sehingga
untuk menyelesaikan masalah
klasifikasi multiclass dapat digunakan kombinasi teknik/metode yang biasa
digunakan untuk menyelesaikan klasifikasi 2 class
Supervised learning
juga dapat digunakan untuk memprediksi data numerik. Task seperti ini dikenal dengan istilah regresi.
Berikut ini adalah beberapa nama algoritma tipe supervised
leaning yaitu:
1. K-Nearest Neighbors.
2. Naïve Bayes.
3. Suport Vector Machine.
4. Decision Trees.
5. Linear Regression.
6. Neural Network.
Unsupervised Learning
Unsupervised learning merupakan
kebalikan dari tipe sebelumnya dimana tidak terdapat target variable
(target feature) pada dataset. Model yang dihasilkan dari tipe ini adalah descriptive model.
Salah satu task descriptive model untuk menemukan pola
yang bisa mengidentifikasi asosiasi pada
dataset. Contoh implementasinya dapat
dilakukan pada menemukan pola pada proses
analisis barang yang
dibeli oleh pembeli pada suatu super market atau mini
market. Tujuan dari analisis ini
adalah untuk mengetahui barang-barang yang sering dibeli bersama-sama. Sebagai
contoh jika pembeli membeli roti maka otomatis
juga membeli keju dan susu kental manis. Atau
jika pembeli membeli sabun cuci maka
juga membeli pengharum pakaian. Dengan informasi
pola tersebut maka pemilik super market dapat menggunakannya untuk membuat iklan diskon untuk kelompok barang
tersebut, atau pemilik
juga dapat membuat
agar tata letak barang- barang tersebut dibuat berdekatan.
Task descriptive model yang lain adalah mengelompokkan
dataset ke dalam kelompok-kelompok
yang homogen yang disebut dengan istilah clustering. Kelompok-kelompok homogen yang dihasilkan dari clustering
perlu bantuan manusia untuk melakukan intepretasi hasil tersebut untuk menentukan atau mendeskripsikan apa isi dari kelompok-kelompok tersebut.
Contoh unsupervised learning adalah:
1.
Association rule.
2.
K-Mean clustering.
Langkah-Langkah Implementasi
Berikut ini adalah langkah-langkah yang digunakan untuk
melakukan implementasi machine
learning untuk menyelesaikan kasus yang dihadapi.
Terdapat 5 tahap yang dapat diterapkan pada pada setiap algoritma
machine learning, yaitu:
1.
Pengumpulan
data.
2.
Eksplorasi dan persiapan
data, langkah eksplorasi data bertujuan untuk lebih mengenal
data yang digunakan. Sedangkan langkah persiapan
data bertujuan untuk meningkatkan
kualitas data seperti menghilangkan data yang
tidak diperlukan. Karena kualitas model yang dihasilkan sangat bergantung pada data yang digunakan.
3.
Training/pelatihan model, langkah pembangunan
model. Pada langkah ini digunakan
training set sebagai input
data.
4.
Evaluasi model, langkah evaluasi dilakukan
untuk mengetahui performansi dari model yang dihasilkan maka model yang dihasilkan pada tahap sebelumnya akan diuji dengan menggunakan test set sebagai input data.
5.
Perbaikan model, langkah
ini diperlukan jika diinginkan performansi yang lebih baik. Ada beberapa cara yang dapat dilakukan untuk itu mendapatkan
performansi yang lebih baik, diantaranya adalah
mengganti tipe learning
atau algoritma yang digunakan. Atau dengan cara melakukan perbaikan pada
data yang digunakan baik dengan cara
menambah data, mengurangi feature pada dataset dan lain-lain.
Post a Comment for "Istilah-Istilah Dalam Machine Learning Dan Data Mining"