Mengenal Model Selection dalam Machine Learning


Sebuah model machine learning memiliki parameter yang dapat di tuning. Pada modul 2 dan 3, kamu sudah melihat contoh menggunakan parameter pada sebuah model machine learning. Contohnya ketika kamu memasukkan parameter “n_cluster” pada model K-Means.
202004301732466d6c95f7b7df543d9b49b6605663c731.png
Ketika mengembangkan model K-Means seperti di atas, mengubah parameter - dalam hal ini memilih jumlah n_cluster - merupakan bentuk dari tuning parameter.
Tuning Parameter adalah istilah yang digunakan untuk meningkatkan performa model machine learning. Proses ini mirip dengan proses tweak. Misalnya pada komputer di mana kita mengganti komponen komputer sehingga peranti tersebut memiliki performa lebih tinggi demi kinerja efisien.

Pada model K-means di atas, jumlah cluster yang kurang atau terlalu banyak akan menyebabkan hasil pengklasteran kurang optimal. Tuning parameter dalam hal ini adalah bereksperimen mencari parameter terbaik untuk model K-Means tersebut.
Tujuan melakukan tuning pada model yaitu agar model memiliki tingkat eror yang lebih kecil atau akurasi yang lebih baik.

Sebuah contoh dari tuning parameter adalah pada kasus spam filter, di mana model spam filter yang telah di-tuning akan lebih akurat dalam mendeteksi email spam, dan melakukan lebih sedikit kesalahan dalam memprediksi email spam yang bukan spam.
Berbagai model machine learning dari library SKLearn memiliki parameter-parameter yang bisa kita ubah untuk meningkatkan performa dari sebuah model tersebut.

Contohnya pada decision tree terdapat beberapa parameter seperti di bawah. Kalau Anda tertarik mengetahui berbagai jenis model machine learning dan parameter setiap model tersebut, kunjungi tautan berikut yah.
2020043017315919187a186828fe71570a1bcc95e1e5ac.png
Ada salah satu teknik untuk menguji beberapa parameter sekaligus. Teknik ini disebut dengan Grid Search.

Grid Search

Grid search memungkinkan kita menguji beberapa parameter sekaligus pada sebuah model. Contohnya kita bisa menguji beberapa jumlah cluster untuk sebuah model K-Means dan melihat bagaimana performa model K-Means terhadap nilai K yang berbeda.

Untuk lebih memahami grid search, kita akan mencoba grid search menggunakan SKLearn

Komentar