Belajar Machine Learning untuk Pemula

Belajar Machine Learning untuk Pemula

Prasyarat Kemampuan

Materi dalam kelas ini dirancang untuk seorang developer machine learning yang ingin mempelajari machine learning dari konsep dasar hingga implementasi menggunakan pendekatan supervised dan unsupervised learning pada data tabular sebagai langkah awal. Oleh karena itu, ada beberapa prasyarat kemampuan yang perlu Anda miliki sebelum mengikuti kelas ini.

Kemampuan Penggunaan Komputer

Keterampilan dasar dalam mengoperasikan sistem operasi, seperti Windows, macOS, atau Linux.
Kemampuan menavigasi website untuk mencari dan mengunduh materi serta alat yang diperlukan.
Keterampilan dalam mengidentifikasi, menganalisis, dan menyelesaikan masalah teknis yang mungkin muncul selama proses belajar atau pengembangan.
Kemampuan untuk belajar secara mandiri dengan memanfaatkan sumber daya online, dokumentasi, dan tutorial untuk mendalami materi yang diperlukan.

Pengetahuan Dasar Python

Pemahaman dasar tentang sintaks dan struktur bahasa Python.
Kemampuan untuk menulis, membaca, dan men-debug kode Python sederhana.
Pengetahuan tentang tipe data dasar, variabel, dan kontrol alur (seperti loop dan kondisional).
Kemampuan untuk menginstal dan mengonfigurasi perangkat lunak yang diperlukan, termasuk IDE (Integrated Development Environment) dan pustaka Python.
Pengalaman menggunakan pustaka dasar Python, seperti Pandas dan NumPy untuk manipulasi data.

Pengetahuan Dasar Notebook

Kemampuan menggunakan notebook interaktif, seperti Google Colaboratory atau Jupyter Notebook.
Berpengalaman dalam membuat, menyimpan, dan berbagi notebook untuk dokumentasi dan eksperimen.
Familiaritas dengan penggunaan sel kode dan sel markdown untuk menulis dan menjalankan kode serta dokumentasi dalam notebook.
Kemampuan mengimpor dan mengekspor file data serta bekerja dengan lingkungan notebook berbasis cloud atau lokal.

Kelas Penunjang

Belajar Dasar Visualisasi Data
Memulai Pemrograman dengan Python (Machine Learning Engineer)
Belajar Analisis Data dengan Python (Data Scientist)

Nah, bagaimana menurut Anda? Apakah Anda merasa sudah cukup siap untuk mengikuti kelas ini dengan bekal yang ada? Jika Anda merasa ada beberapa area yang perlu diperkuat, kami sangat merekomendasikan untuk mengikuti kelas-kelas tambahan yang telah disebutkan sebelumnya.

Meskipun demikian, tidak perlu khawatir jika Anda belum menyelesaikan kelas-kelas tersebut. Anda tetap dapat mengikuti seluruh materi kelas ini dengan baik karena kami telah merancangnya agar sesuai untuk berbagai tingkat pengetahuan dan pengalaman. Kami berkomitmen untuk mendukung Anda dalam proses pembelajaran dan memastikan bahwa Anda memperoleh manfaat maksimal dari kelas ini. Selamat dan semangat belajar, ya!

Prasyarat Tools

Sebelum memulai materi kelas ini, ada beberapa alat yang perlu Anda siapkan. Berikut adalah daftar alat yang wajib Anda miliki.

Komputer/Laptop
Komputer atau laptop adalah perangkat utama yang diperlukan untuk mengikuti kelas ini. Anda dapat menggunakan sistem operasi apa pun, termasuk Windows, Linux, atau macOS. Pastikan perangkat Anda terhubung ke internet.

Spesifikasi Minimum:
- Prosesor: Intel Core i3 atau setara
- RAM: 4 GB (disarankan 8 GB)
- Resolusi Layar: 1366 x 768 (disarankan Full HD 1920 x 1080)

Web Browser
- Web browser diperlukan untuk mengakses berbagai situs dan platform yang akan digunakan dalam kelas, yaitu GitHub, Google Colab, dan sumber lainnya. Anda dapat menggunakan browser, yakni Google Chrome, Mozilla Firefox, Microsoft Edge, atau browser lain yang Anda pilih.
- Pastikan browser yang Anda gunakan selalu diperbarui dan perangkat Anda terhubung ke internet untuk akses yang lancar ke semua situs yang dibutuhkan.

IDE (Integrated Development Environment)
Untuk menulis dan menjalankan kode selama kelas, Anda akan membutuhkan IDE yang mendukung Python, seperti Google Colab atau Jupyter Notebook.
- Google Colab: IDE berbasis cloud yang dapat diakses melalui web browser tanpa perlu instalasi. Sangat direkomendasikan untuk pengguna yang menginginkan kemudahan akses dan integrasi langsung dengan Google Drive.
- Jupyter Notebook: IDE populer untuk Python yang dapat diinstal dalam komputer Anda. Cocok untuk pengguna yang lebih memilih bekerja secara lokal.

Pastikan Anda sudah familier dengan salah satu IDE ini untuk kelancaran dalam mengikuti kelas.

Dengan memastikan bahwa Anda memiliki alat-alat ini dengan spesifikasi yang sesuai, Anda akan dapat mengikuti materi kelas secara lebih lancar dan efektif.

Glosarium

Di bawah ini adalah glosarium berisi istilah-istilah umum yang sering digunakan dalam kelas ini. Bacalah daftar berikut untuk mengenal istilah-istilah yang akan Anda temui dalam modul kelas. Jika menemukan istilah yang belum dimengerti, Anda bisa kembali ke halaman glosarium ini untuk mencari makna atau definisinya.

Cara Menggunakan Glosarium:

Membaca Sekilas: Periksa glosarium ini sebelum memulai kelas untuk memahami istilah-istilah yang mungkin Anda temui.
Pencarian Istilah: Jika Anda menemukan istilah yang tidak familier selama proses belajar, kunjungi halaman ini untuk mencari definisinya.
Saran Istilah: Jika ada kosakata yang belum tercantum dalam glosarium dan Anda merasa itu diperlukan, gunakan fitur Laporan Materi untuk memberikan saran penambahan istilah.

Dengan memahami istilah-istilah ini, Anda akan lebih mudah mengikuti materi dan berpartisipasi dalam diskusi kelas. Semoga membantu dan selamat belajar, ya, Coders!

A

Achievable (Dapat Dicapai)
Tujuan yang realistis dan mungkin dicapai dengan sumber daya yang ada.

Akurasi
Persentase prediksi yang benar dari model dibandingkan dengan total prediksi.

Analisis Pola
Teknik yang digunakan dalam machine learning untuk mengenali dan mengidentifikasi pola dalam kumpulan data.

Artificial Intelligence (AI)
Konsep yang mendasari seluruh bidang kecerdasan buatan, mencakup penggunaan komputer atau mesin untuk melakukan tugas yang membutuhkan kecerdasan manusia, seperti pengambilan keputusan dan pemecahan masalah.

B

Bagging
Teknik ensemble yang menggabungkan beberapa model dengan cara melatih setiap model pada subset data yang berbeda untuk meningkatkan stabilitas dan akurasi.

Bias
Kesalahan sistematis dalam prediksi model yang disebabkan oleh asumsi yang terlalu sederhana.

Business Goals (Tujuan Bisnis)
Sasaran yang ingin dicapai oleh organisasi atau proyek, sering kali berhubungan dengan peningkatan efisiensi, pendapatan, atau pengalaman pelanggan.

C

Chatbot
Program yang menggunakan machine learning untuk berinteraksi dengan pengguna melalui teks atau suara, memberikan jawaban atas pertanyaan atau membantu menyelesaikan masalah.

Clustering
Tipe masalah machine learning di mana data dikelompokkan berdasarkan kesamaan karakteristik tanpa label yang sudah ditentukan.

Confusion Matrix
Tabel yang digunakan untuk mengevaluasi kinerja model klasifikasi dengan membandingkan prediksi dan label yang sebenarnya.

Criterion
Metode untuk mengukur kualitas pemisahan (misalnya, Gini impurity, entropy).

D

Data
Informasi yang digunakan dalam machine learning, terdiri dari fitur (atribut atau variabel input) dan label (hasil yang ingin diprediksi).

Data Latih
Dataset yang digunakan untuk melatih model dalam supervised learning, di mana setiap contoh memiliki input dan output yang dikenal.

Data Berlabel
Data yang telah ditandai dengan informasi tertentu, yang digunakan dalam supervised learning untuk melatih model machine learning.

Data Transaksi
Informasi yang dihasilkan dari kegiatan keuangan, sering digunakan dalam deteksi penipuan untuk menganalisis pola transaksi yang normal dan mencurigakan.

Data Uji
Dataset yang digunakan untuk mengevaluasi kinerja model setelah pelatihan, yang tidak digunakan selama proses pelatihan.

Deep Learning (DL)
Sub-bidang dari machine learning yang menggunakan neural networks dengan banyak lapisan untuk memahami representasi data yang kompleks dan abstrak.

Deteksi Penipuan
Algoritma machine learning yang digunakan oleh bank untuk mendeteksi transaksi mencurigakan dengan menganalisis pola transaksi yang normal dan menyimpang.

Deployment
Tahap akhir di mana model klasifikasi diterapkan untuk memprediksi kelas dari data baru dalam aplikasi nyata.

Distance Metric
Metode untuk menghitung jarak (misalnya, Euclidean, Manhattan).

Decision Tree
Algoritma pembelajaran mesin yang menggunakan struktur pohon untuk membuat keputusan berdasarkan fitur input.

E

Evaluation
Proses menilai kinerja model menggunakan data uji, yang tidak digunakan selama pelatihan, dengan metrik evaluasi seperti akurasi dan precision.

Etika dan Privasi
Pertimbangan moral dan hukum terkait penggunaan data pribadi dalam machine learning.

Eksplorasi Data
Proses memahami pola dan hubungan dalam data melalui analisis statistik dan visualisasi.

F

Feature Engineering
Proses mengubah data mentah menjadi fitur yang lebih relevan dan informatif untuk model, termasuk pemilihan, transformasi, dan pembuatan fitur baru.

F1-Score
Harmonik rata-rata antara precision dan recall, digunakan untuk menilai kinerja model.

Fitur
Atribut atau variabel input dalam data yang digunakan untuk membuat prediksi.

H

Hyperparameter Tuning
Proses mengoptimalkan parameter yang tidak dipelajari selama pelatihan tetapi memengaruhi kinerja model.

I

Inventarisasi Data
Proses mengidentifikasi dan mendokumentasikan semua sumber data yang tersedia untuk analisis.

K

Klasifikasi
Tipe masalah machine learning di mana data dikelompokkan ke dalam kategori yang sudah ditentukan.

Klasifikasi Biner
Tipe klasifikasi yang mengelompokkan data ke dalam dua kategori atau label yang berbeda. Contohnya termasuk deteksi spam pada email.

Klasifikasi Multikelas
Teknik klasifikasi yang mengelompokkan data ke dalam lebih dari dua kategori. Setiap data hanya bisa dimasukkan ke salah satu kategori dari beberapa opsi.

Klasifikasi Multilabel
Metode klasifikasi yang memungkinkan satu data dikategorikan ke dalam lebih dari satu label atau kategori sekaligus.

K-Nearest Neighbors (KNN)
Algoritma klasifikasi yang mengklasifikasikan data berdasarkan kedekatannya dengan data lain, mengidentifikasi 'K' tetangga terdekat.

Kualitas Data
Ukuran dari kelengkapan, konsistensi, keakuratan, dan relevansi data yang digunakan.

M

Machine Learning (ML)
Cabang dari kecerdasan buatan (AI) yang memungkinkan komputer belajar dari data tanpa perlu diprogram secara eksplisit.

Mean Squared Error (MSE)
Rata-rata dari kuadrat perbedaan antara nilai yang diprediksi dan nilai sebenarnya, digunakan dalam regresi.

Metode SMART
Kerangka kerja untuk menetapkan tujuan yang spesifik, terukur, dapat dicapai, relevan, dan terikat waktu.

Model
Representasi matematis atau statistik dari pola dalam data yang dilatih untuk membuat prediksi atau klasifikasi.

Max Depth
Kedalaman maksimum pohon.

Min Samples Split
Jumlah minimum sampel yang dibutuhkan untuk membagi node.

Max Features
Jumlah fitur maksimum yang dipertimbangkan untuk pemisahan terbaik.

Min Samples Leaf
Jumlah minimum sampel yang harus ada di daun terakhir pada decision tree.

N

N_estimators
Jumlah pohon yang digunakan dalam random forest.

P

Pernyataan Masalah
Pernyataan yang merangkum masalah yang ingin diselesaikan dengan jelas dan spesifik.

Precision
Ukuran dari seberapa banyak prediksi positif yang benar dibandingkan dengan total prediksi positif.

Prediksi
Proses di mana model machine learning menggunakan data historis untuk membuat asumsi atau keputusan tentang data baru yang belum pernah dilihat sebelumnya.

Pembersihan Data
Proses mengatasi masalah seperti nilai yang hilang, duplikasi, dan inkonsistensi dalam data.

Pilih Fitur
Proses memilih fitur-fitur paling relevan dari dataset untuk digunakan dalam pelatihan model.

Pra-pemrosesan Data
Langkah untuk membersihkan dan mempersiapkan data sebelum digunakan oleh model machine learning. Ini termasuk penanganan data yang hilang, penghapusan duplikasi, konversi format, dan normalisasi fitur.

R

Recall
Ukuran dari seberapa banyak prediksi positif yang benar dibandingkan dengan total data positif yang sebenarnya.

Regresi
Tipe masalah machine learning yang digunakan untuk memprediksi nilai numerik kontinu.

Regulasi
Aturan atau hukum yang mengatur pengumpulan, penyimpanan, dan penggunaan data.

Relevan (Relevant)
Tujuan yang sesuai dengan strategi bisnis secara keseluruhan.

Random Forest
Algoritma ensemble dari banyak pohon keputusan yang digunakan untuk meningkatkan akurasi prediksi.

S

Silhouette Score
Ukuran dari seberapa baik data dikelompokkan dalam cluster yang benar, digunakan dalam evaluasi clustering.

Specific (Spesifik)
Tujuan yang jelas dan terperinci yang menggambarkan apa yang ingin dicapai.

Supervised Learning
Jenis machine learning yang melibatkan pelatihan model menggunakan data yang sudah diberi label.

Sistem Rekomendasi
Algoritma yang digunakan oleh platform seperti Netflix dan Amazon untuk merekomendasikan konten kepada pengguna berdasarkan preferensi yang dipelajari dari perilaku sebelumnya.

Support Vector Machine (SVM)
Algoritma klasifikasi yang mencari hyperplane optimal untuk memisahkan kelas-kelas data.

T

Time-bound (Terikat Waktu)
Tujuan yang memiliki batas waktu yang jelas untuk pencapaiannya.

Training
Proses di mana model belajar dari data dengan memproses informasi dan memperbarui parameter untuk meningkatkan akurasi.

Transformasi Data
Proses mengubah data ke dalam format yang tepat agar dapat digunakan oleh algoritma machine learning, termasuk normalisasi dan encoding.

U

Unsupervised Learning
Metode pembelajaran di mana model dilatih menggunakan data tanpa label, sehingga algoritma harus menemukan pola atau struktur yang mendasari dalam data.

V

Variabel Target
Variabel yang ingin diprediksi atau diklasifikasikan dalam model machine learning.

W

Weights
Menentukan apakah semua tetangga memiliki bobot yang sama atau berdasarkan jarak.

Daftar Referensi

[1] L. Moroney dalam “Course: Introduction to Tensorflow for Artificial Intelligence”. Diakses pada: 20 November 2020. [Online Video]. Tersedia di : tautan

[2] S. Campbell, et all., “Deep Learning vs. Traditional Computer Vision”. Tersedia di : tautan.

[3] Andreas C. Muller and Sarah Guido, “Introduction to Machine Learning with Python”. O’Reilly Media, 2016, Chapter 1.

[4] Aurelien Geron, “Hands-On Machine Learning with Scikit-Learn & Tensorflow”, O'Reilly, 2017.

[5] Phil Winder, “Reinforcement Learning”, O’Reilly Media, Inc, 2020, chapter 1.

[6] S. K. Srivatsava, et al., “Statistical Data Classification Using Instance Based Learning Algorithm”. 2019. International Journal of Scientiic & Technology Research Volume 8. ISSN 2277-8616. Tersedia di : tautan.

[7] Maxima Lapan, “Deep Reinforcement Learning Hands-On 2nd Edition”, Packt Publishing, 2020, chapter 2.

[8] A. Burkov. “The Hundred Page Machine Learning Book”. 2019.

[9] Bayesian and Probabilistic PCA: Examples. An Applied Statistic. Course by Susan Holmes. Tersedia di: tautan

[10] V.N.Vapnik, I.M, Guyon, and B.E. Boser., “A Training Algorithm for Optimal margin Classifier”, dalam COLT ‘92: Proceedings of the fifth annual workshop on Computational learning theory. Tersedia di : tautan

[11] M. Hachimi, et all., “Multi-stage Jamming Attacks Detection using Deep Learning Combined with Kernelized Support Vector Machine in 5G Cloud Radio Access Networks”, dalam IEEE ISNCC’20. Tersedia di : tautan

[12] Udiprod. “SVM with Polynomial Kernel Visualization”. Feb 5, 2007. Diakses pada 24 Nov 2020. [Online Video]. Tersedia : tautan.

[13] H. Marius. “Multiclass Classification with Support Vector Machine (SVM), Dual Problem, and Kernel Function”. Towards Data Science. tautan (Diakses pada 22 Nov 2020)

[14] M. Awad dan R. Khanna, “Efficient Learning Machines”, Barkley, CA, USA: Apress, 2015, hlm. 68.

[15] Jui-Yang Hsia & Chih-Jen Lin, “Paremeter Selection for Linear Support Vector Regression”. Tersedia di : link.

[16] K. P. Murphy, “Machine Learning: a Probabilistic Perspective. 2012, page 22

[17] J. Ding, et al., “Model Selection Technique-An Overview”

[18] Brain Basic: The Life and Death of a Neuron.

[19] F. Rosenblatt,” The Perceptron: A Probabilistic Model for Information Storage and Organization in the Brain”. 1958. Psychological Review, Vol 65. No 6, Tersedia di : tautan.

[20] J. Yang and G. Yang, “Modified Convolutional Neural Network Based on Dropout and the Stochastic Gradient Descent”. 2018. MDPI. Tersedia di : tautan

[21] David Rumelhart et al. “Learning Internal Representations by Error Propagation”, 1985, Defense Technical Information Center technical report. Tersedia di : tautan.

[22] Y. LeCun, et. al, “Gradient Based Learning Applied to Document Recognition”. 1998. Proc of the IEEE. Tersedia di : tautan

[23] A. Krizhevsky, at all., “Image Classification with Deep Convolutional Neural Networks”, 2012, NIPS. Tersedia di : tautan

[24] S. Gass and A.Assad. “Profiles in Operations Research: Pioneers and Innovators”. 2011. New York. Springer: 363-386.

[25] Alberto Boschetti, Luca Massaron. “Python Data Science Essentials Second Edition”. Packt Publishing. 2016, 87-88.

[26] S. Raschka and V. Mirjalili. “Python Machine Learning 3rd Edition”. Packt Publishing. 2019. Chapter 4.

[27] Google Developers, “Introduction to Machine Learning”. Tersedia di : tautan.

[28] https://doi.org/10.1080/20964471.2019.1572452.

Bersambung ke:

Pertama, Mari Kita Sapa-menyapa!

Search This Blog

Aplikasi/Koding NKHM NUSANTARA