Abstrak
Menurut buku “An Introduction to Statistical Learning” oleh Gareth James, Daniela Witten, Trevor Hastie, dan Robert Tibshirani (2013), “Machine learning adalah proses membuat komputer belajar dari data tanpa diberikan instruksi yang jelas.” Ini berarti bahwa sistem Machine Learning mempelajari dari data dan membuat generalisasi sendiri tentang bagaimana mengatasi masalah, tanpa diberikan instruksi yang spesifik oleh pemrogram.
Machine learning merupakan sistem yang mampu belajar sendiri untuk memutuskan sesuatu tanpa harus berulangkali diprogram oleh manusia sehingga komputer menjadi semakin cerdas berlajar dari pengalaman data yang dimiliki.
Berdasarkan teknik pembelajarannya, dapat dibedakan supervised learning menggunakan dataset (data training) yang sudah berlabel, unsupervised learning menarik kesimpulan berdasarkan dataset, supervised maupun unsupervised learning digunakan secara bersamaan (semi-supervised), atau algoritma reinforcement learning diterapkan untuk pembelajaran melalui percobaan dan error.
Input berupa dataset digunakan pembelajaran mesin untuk menghasilkan analisis yang benar. Penyelesaian digunakan Python yang menyediakan algoritma dan library yang digunakan membuat machine learning. Secara keseluruhan,
Machine Learning dapat digunakan dalam berbagai bidang dan aplikasi untuk membuat keputusan yang lebih akurat dan efektif berdasarkan data yang tersedia. Dalam beberapa tahun ke depan, Machine Learning diharapkan dapat terus berkembang dan membantu dalam penyelesaian masalah-masalah yang lebih kompleks dan bermanfaat bagi masyarakat
Pendahuluan
Pembelajaran mesin adalah cabang kecerdasan buatan yang memungkinkan komputer “belajar mandiri” dari data pelatihan dan meningkat seiring waktu, tanpa diprogram secara eksplisit. Algoritme pembelajaran mesin mampu mendeteksi pola dalam data dan mempelajarinya, untuk membuat prediksi sendiri. Singkatnya, algoritme dan model pembelajaran mesin belajar melalui pengalaman.
Machine learning merupakan bagian dari kecerdasan buatan yang menginstruksikan komputer untuk mempelajari informasi dari data dan mengeluarkan prediksi atau tindakan berdasarkan interpretasi terhadap data tersebut.
Dengan machine learning, komputer dapat mengambil keputusan atau melakukan tindakan berdasarkan analisis data tanpa memerlukan pemrograman eksplisit (Gregorius N. Elwirehardja; Teddy Suparyanto; Bens Pardamean, 2023).
Machine Learning adalah suatu metode komputasi di mana sistem komputer memiliki kemampuan untuk belajar dari data yang diberikan, tanpa harus secara eksplisit diprogram. Dengan kata lain, komputer dapat mengidentifikasi pola-pola dalam data dan menghasilkan prediksi atau keputusan berdasarkan pola-pola tersebut.
Machine learning didefinisikan sebagai seperangkat teknik dan alat yang memungkinkan komputer berpikir dengan menciptakan algoritma matematis berdasarkan akumulasi data (Landau, 2016). Machine learning memungkinkan komputer memiliki kemampuan untuk belajar tanpa perlu diprogram secara eksplisit (Samuel, 1959).
Dengan kemampuan untuk belajar dari data, machine learning mengkaji berbagai algoritma yang dapat membuat keputusan atau prediksi berdasarkan proses learning yang telah dilakukan. Algoritma-algoritma tersebut diklasifikasikan berdasarkan hasil yang diinginkan dan dikelompokkan menjadi tipe-tipe algoritma umum yaitu supervised, unsupervised, semisupervised dan reinforcement learning (Ayodele, 2010).
Baca juga: Mengenal Teknologi Machine Learning
Teori
1. Definisi Machine Learning
Machine Learning merupakan teknik pendekatan dari Artificial Intelligent (AI) yang digunakan untuk menirukan hingga menggantikan peran manusia dalam melakukan aktivitas hingga memecahkan masalah. Secara singkat Machine Learning adalah mesin yang dibuat supaya dapat belajar dan melakukan pekerjaan tanpa arahan dari penggunanya.
Secara umum, machine learning dapat didefinisikan sebagai suatu bidang studi yang memberikan kemampuan kepada sistem komputer untuk belajar dan meningkatkan kinerjanya dari pengalaman tanpa harus diprogram secara eksplisit untuk tugas tertentu (goodfellow, bengio and courbille, 2016).
Arthur Samuel, seorang pionir dibidang ini, mendefinisikan machine learning sebagai “bidang studi yang memberi computer kemampuan untuk belajar tanpa diprogram secara eksplisit”. Definisi ini menggambarkan esensi dari machine learning, yaitu kemampuan adaptif system dalam meningkatkan performa berdasarkan data yang terus berkembang.
Menurut buku “An Introduction to Statistical Learning” oleh Gareth James, Daniela Witten, Trevor Hastie, dan Robert Tibshirani (2013), “Machine learning adalah proses membuat komputer belajar dari data tanpa diberikan instruksi yang jelas.” Ini berarti bahwa sistem Machine Learning mempelajari dari data dan membuat generalisasi sendiri tentang bagaimana mengatasi masalah, tanpa diberikan instruksi yang spesifik oleh pemrogram.
Sejak pertama istilah Machine Learning dikenal, hanya yang mengembangkannya, salah satu yang paling terkenal ialah Deep Blue pada tahun 1996 dinuat oleh IBM yakni sebuah Perusahaan Amerika Serikat yang memproduksi dan menjual perangkat keras dan perankat lunak computer. Penggunaan Deep Blue yang paling ternama ialah kemampuan bermain catur. Deep Blue sangat popular dengan mengalahkan juara catur professional.
Sedangkan Tom M. Mitchell membuat definisi bahwa “Sebuah program computer yang belajar dari pengalaman (experience) E dari tugas yang dibebankan (Taks) T dengan kinerjanya (performance) P yang terukur. Contohnya yaitu sebuah program computer yang belajar menggunakan catur, dapat mengembangkan kemampuannya P, yang diukur sebagai kemampuan supaya menang dalam tugas T bermain catur berdasarkan pengalaman E yang diperoleh dari bermain catur melawab dirinya sendiri”.
Kelebihan utama dari Machine Learning adalah kemampuannya untuk mengatasi tugas yang sangat kompleks dan memproses jumlah Machine Learning digunakan untuk menganalisis data dan mengidentifikasi ancaman keamanan yang mungkin terjadi.
Secara keseluruhan, Machine Learning dapat digunakan dalam berbagai bidang dan aplikasi untuk membuat keputusan yang lebih akurat dan efektif berdasarkan data yang tersedia. Dalam beberapa tahun ke depan, Machine Learning diharapkan dapat terus berkembang dan membantu dalam penyelesaian masalah-masalah yang lebih kompleks dan bermanfaat bagi masyarakat.
2. Kategori Machine Learning
Machine learning dapat dibagi menjadi beberapa kategori utama: Supervised Learning, Unsupervised Learning, Semi-Supervised Learning, dan Reinforcement Learning. Masing-masing kategori ini memiliki karakteristik, metode, dan aplikasi yang berbeda.
a. Supervised Learning
Supervised learning adalah salah satu metode paling umum dalam machine learning. Dalam pendekatan ini, model dilatih menggunakan data yang telah diberi label, yang berarti bahwa setiap contoh data pelatihan disertai dengan output atau hasil yang benar (russell and norvig, 2020).
Proses: Model belajar dengan mencocokkan input dengan output yang sesuai. Ini dilakukan dengan meminimalkan kesalahan antara prediksi model dan output yang benar melalui teknik optimasi. Selama proses pelatihan, model menyesuaikan parameternya untuk meminimalkan perbedaan antara prediksi dan nilai sebenarnya.
Contoh Algoritma:
- Regresi Linear: Digunakan untuk memprediksi nilai numerik yang kontinu, seperti harga rumah atau suhu.
- Decision Tree: Digunakan untuk klasifikasi atau regresi, dengan membagi dataset menjadi subset yang lebih kecil berdasarkan fitur yang paling informatif.
- Support Vector Machine (SVM): Digunakan untuk klasifikasi dengan memisahkan data menggunakan hyperplane yang memaksimalkan margin antara dua kelas.
- Neural Networks: Digunakan untuk berbagai aplikasi, dari klasifikasi gambar hingga pengenalan suara, terutama dalam bentuk deep learning.
Aplikasi:
- Klasifikasi: Seperti pengenalan tulisan tangan (digit recognition) atau deteksi spam pada email.
- Regresi: Seperti prediksi harga saham atau penjualan.
Supervised learning sangat efektif ketika data pelatihan yang berlabel tersedia dalam jumlah yang cukup dan representatif terhadap masalah yang ingin diselesaikan.
b. Unsupervised Learning
Unsupervised learning digunakan ketika data yang tersedia tidak memiliki label, yang berarti tidak ada output yang benar atau hasil yang diketahui. Tujuan dari unsupervised learning adalah untuk menemukan pola atau struktur tersembunyi dalam data.
Proses: Model belajar untuk mengidentifikasi pola atau kelompok dalam data tanpa pengawasan atau bimbingan dari output yang diketahui. Ini sering melibatkan teknik-teknik seperti clustering atau reduksi dimensi.
Contoh Algoritma:
- K-Means Clustering: Digunakan untuk membagi data ke dalam kelompok-kelompok (clusters) berdasar kan kemiripan fitur.
- Hierarchical Clustering: Membuat pohon hierarki dari cluster yang dapat digunakan untuk memahami hubungan antar kelompok data.
- Principal Component Analysis (PCA): Digunakan untuk mengurangi dimensi data dengan meng identifikasi komponen-komponen utama yang menjelaskan sebagian besar variasi dalam data.
- Autoencoders: Neural networks yang digunakan untuk belajar representasi data yang efisien, biasanya dalam bentuk fitur yang lebih relevan.
Aplikasi:
- Segmentasi Pelanggan: Membagi pelanggan men jadi kelompok berdasarkan perilaku pembelian mereka untuk pemasaran yang lebih efektif.
- Deteksi Anomali: Mendeteksi data yang berbeda secara signifikan dari data lainnya, seperti mendeteksi transaksi keuangan yang mencurigakan.
Unsupervised learning sangat berguna ketika kita ingin mengeksplorasi data, menemukan pola baru, atau ketika data berlabel tidak tersedia.
3. Semi-Supervised Learning
Semi-supervised learning adalah pendekatan yang menggabungkan elemen-elemen dari supervised dan unsupervised learning. Pendekatan ini digunakan ketika sebagian kecil data pelatihan memiliki label, sedangkan sebagian besar lainnya tidak.
Proses: Model dilatih dengan menggunakan data berlabel dan tidak berlabel secara bersamaan. Data berlabel membantu memberikan bimbingan awal kepada model, sementara data tidak berlabel membantu model untuk mempelajari pola yang lebih umum dari data.
Contoh Algoritma:
- Label Propagation: Teknik di mana label dari data berlabel disebarkan ke data yang tidak berlabel berdasarkan kemiripan fitur.
- Co-Training: Teknik di mana dua model dilatih pada subset fitur yang berbeda, dan kemudian hasil mereka digunakan untuk melabeli data tidak berlabel.
- Self-Training: Proses di mana model pertama kali dilatih pada data berlabel, kemudian digunakan untuk memprediksi data tidak berlabel, yang kemudian digunakan kembali untuk melatih model.
Aplikasi:
- Pengenalan Wajah: Dalam dataset besar yang mungkin hanya memiliki beberapa gambar yang diberi label.
- Klasifikasi Dokumen: Ketika hanya sebagian kecil dokumen telah dikategorikan oleh manusia.
Semi-supervised learning sangat bermanfaat ketika pengumpulan data berlabel mahal atau memakan waktu, tetapi data tidak berlabel tersedia dalam jumlah besar.
4. Reinforcement Learning
Reinforcement Learning (RL) adalah kategori yang berbeda dari supervised dan unsupervised learning. Dalam pendekatan ini, agen belajar untuk mengambil tindakan dalam suatu lingkungan untuk memaksimalkan beberapa bentuk reward atau penghargaan.
Proses: Agen mengambil tindakan berdasarkan keadaan saat ini dan menerima umpan balik dari lingkungan dalam bentuk reward atau punishment. Tujuan agen adalah untuk belajar strategi (policy) yang memaksimalkan reward kumulatif dalam jangka panjang.
Contoh Algoritma:
- Q-Learning: Algoritma yang belajar nilai dari tindak an dalam keadaan tertentu untuk mengembangkan kebijakan optimal.
- Deep Q-Networks (DQN): Menggabungkan Q learning dengan deep learning untuk menangani situasi dengan ruang keadaan yang besar.
- Policy Gradients: Algoritma yang belajar kebijakan langsung, tanpa mengharuskan penilaian terhadap setiap tindakan secara eksplisit.
Aplikasi:
- Permainan Video: Agen RL digunakan untuk mengalahkan pemain manusia dalam permainan seperti catur atau Go.
- Kendaraan Otonom: Digunakan untuk mengambil keputusan real-time dalam mengemudi.
- Robotics: Mengajar robot untuk berinteraksi dengan lingkungan fisik secara efektif.
Reinforcement learning sangat kuat dalam situasi di mana keputusan harus dibuat secara berurutan, dan hasilnya tidak langsung diketahui. Bagian ini mem berikan penjelasan yang jelas tentang berbagai kategori machine learning, menjelaskan konsep, proses, contoh algoritma, dan aplikasi nyata dari setiap kategori.
Dengan memahami perbedaan antara supervised, unsupervised, semi-supervised, dan reinforcement learning, pembaca dapat lebih tepat memilih pendekatan yang sesuai untuk berbagai jenis masalah yang dihadapi.
3. Proses Pengembangan Model Machine Learning
Pengembangan model Machine Learning (ML) adalah sebuah proses iteratif yang melibatkan beberapa tahap penting, mulai dari pengumpulan data hingga evaluasi dan penyempurnaan model. Setiap tahap memiliki peran yang krusial dalam memastikan bahwa model yang dibangun mampu memberikan prediksi atau keputusan yang akurat dan dapat diandalkan. Berikut ini adalah langkah-langkah utama dalam proses pengembangan model ML:
a. Pengumpulan Data
Tahap pertama dalam pengembangan model ML adalah pengumpulan data. Data adalah bahan bakar dari machine learning, dan kualitas data yang dikumpulkan akan sangat mempengaruhi kinerja model (mitchell, 1997).
- Identifikasi Sumber Data: Langkah awal adalah menentukan sumber data yang relevan dengan masalah yang ingin diselesaikan. Data dapat berasal dari berbagai sumber, seperti basis data internal, API eksternal, file log, sensor IoT, atau bahkan data publik.
- Mengumpulkan Data yang Cukup: Penting untuk mengumpulkan data dalam jumlah yang memadai, karena lebih banyak data biasanya membantu model untuk belajar lebih baik. Namun, jumlah data yang diperlukan dapat bervariasi tergantung pada kompleksitas masalah dan jenis algoritma yang digunakan.
- Pertimbangan Etika Privasi: Saat mengumpulkan data, penting untuk memperhatikan aspek etika dan privasi, terutama jika data tersebut mengandung informasi pribadi. Kepatuhan terhadap regulasi seperti GDPR (General Data Protection Regulation) harus dijaga.
b. Pemrosesan dan Pembersihan Data
- Pembersihan Data: Ini termasuk mengatasi data yang hilang (missing values), memperbaiki kesalahan dalam data, menghapus duplikat, dan menyelaraskan format data.
- Normalisasi dan Standarisasi: Beberapa algoritma ML lebih sensitif terhadap skala data, sehingga penting untuk menormalkan atau menstandarisasi fitur numerik agar berada dalam rentang yang sama.
- Transformasi Data: terkadang, data perlu ditransfor masikan ke dalam bentuk yang lebih sesuai untuk analisis. Ini bisa termasuk encoding variabel kategori, ekstraksi fitur, atau penggunaan teknik seperti Principal Component Analysis(PCA) untuk mengurangi dimensi data.
- Data Augmentation: Untuk jenis data tertentu, seperti gambar atau teks, teknik augmentasi dapat digunakan untuk meningkatkan variasi data pelatihan tanpa harus mengumpulkan lebih banyak data baru. Misalnya, dalam pengenalan gambar, augmentasi bisa berupa rotasi, flipping, atau penambahan noise.
c. Pembagian Data
- Training Set: Bagian data yang digunakan untuk melatih model. Model belajar dari pola dan hubungan dalam data ini.
- Testing Set: Bagian data yang digunakan untuk menguji kinerja model setelah pelatihan. Data ini tidak digunakan selama pelatihan, sehingga memberikan gambaran yang lebih realistis tentang bagaimana model akan berkinerja pada data baru yang belum pernah dilihat sebelumnya.
- Validation Set: Kadang-kadang, data juga dibagi menjadi validation set, yang digunakan untuk memilih dan menyetel model selama pelatihan, terutama ketika melakukan hyperparameter tuning.
d. Pemilihan dan Penggunaan Algoritma
Pemilihan algoritma bergantung pada beberapa faktor, termasuk jenis data, masalah yang akan diselesaikan, dan sumber daya komputasi yang tersedia.
- Supervised Learning: Jika data memiliki label (output yang diketahui), algoritma seperti regresi linear, decision tree, atau random forestdapat digunakan. Supervised learning cocok untuk masalah seperti klasifikasi dan regresi.
- Unsupervised Learning: Jika data tidak memiliki label, algoritma seperti K-means clusteringatau PCA dapat digunakan untuk menemukan struktur atau pola dalam data. Unsupervised learning sering digunakan untuk clustering, pengelompokan, atau pengurangan dimensi.
- Semi-Superviseddan Reinforcement Learning: Dalam beberapa kasus, baik supervised maupun unsupervised learning digunakan secara bersamaan (semi-supervised), atau algoritma reinforcement learning diterapkan untuk pembelajaran melalui percobaan dan error.
- Ensemble Methods: Dalam beberapa situasi, mengga bungkan beberapa model (misalnya, menggunakan boosting, bagging,atau stacking) dapat memberikan kinerja yang lebih baik daripada menggunakan satu model saja.
Baca juga: Artifical Intelligence Machine Learning di Aplikasi TikTok
Simpulan
Menurut buku “An Introduction to Statistical Learning” oleh Gareth James, Daniela Witten, Trevor Hastie, dan Robert Tibshirani (2013), “Machine learning adalah proses membuat komputer belajar dari data tanpa diberikan instruksi yang jelas.” Ini berarti bahwa sistem Machine Learning mempelajari dari data dan membuat generalisasi sendiri tentang bagaimana mengatasi masalah, tanpa diberikan instruksi yang spesifik oleh pemrogram.
Machine Learning merupakan suatu motode untuk memecahkan permasalahan dengan membangun suatu model dari sekumpulan data yang berjumlah besar. Secara garis besar metode dalam machine learning dibagi menjadi 4 yaitu Supervised learning, Unsupervised learning, Semi-supervised dan Reinforcement Learning (RL).
Metode Supervised learning cocok untuk masalah seperti klasifikasi dan regresi. Metode Unsupervised learning sering digunakan untuk clustering, pengelompokan, atau pengurangan dimensi. Metode supervised maupun unsupervised learning digunakan secara bersamaan (semi-supervised), atau algoritma reinforcement learning diterapkan untuk pembelajaran melalui percobaan dan error.
Proses pengembangan model pembelajaran mesin (ML) adalah serangkaian langkah sistematis yang ditujukan untuk membuat model yang dapat membuat prediksi dan keputusan yang efektif. Dimulai dengan pengumpulan data, penting untuk mengidentifikasi sumber-sumber yang relevan dan memastikan bahwa data yang dikumpulkan memadai dan berkualitas tinggi, dengan tetap mempertimbangkan aspek etika dan perlindungan data.
Setelah data dikumpulkan, fase pemrosesan dan pembersihan diperlukan untuk memperbaiki kesalahan dan menormalkan serta mengubah data sehingga dapat digunakan. Data kemudian dibagi menjadi training set, testing set, dan validation set untuk melatih dan mengevaluasi model secara efektif.
Secara keseluruhan, Machine Learning dapat digunakan dalam berbagai bidang dan aplikasi untuk membuat keputusan yang lebih akurat dan efektif berdasarkan data yang tersedia. Dalam beberapa tahun ke depan Machine Learning diharapkan dapat terus berkembang dan membantu dalam penyelesaian masalah-masalah yang lebih kompleks dan bermanfaat bagi masyarakat.
Penulis: Nur Fazryah Amaliska Rahmi
Mahasiswa Matematika, Universitas Pamulang
Referensi
D. K. (20 april 2022). Pengantar Machine Learning. Pengenalan Machine Learning Dengan Python, 1-29.
Muhammad, A. C., Gde Agung Ariana, A. A., & I. I. (2023). Pengantar Machine Learning. Dasar-Dasar Pembelajaran Mesin (Fundations Of Machine Learning), 2-50.
Pratama, R. r. (2020). Pengantar Machine Learning. Analisis Model Machine Learning Terhadap Pengenalan Aktifitas Manusia, 2-50.
R. C. (30 april 2024). Pengantar Machine Learning. Pengantar Machine Learning Definisi Dan Konsep Dasar, 1-Terakhir.
Syuhada, A. S., Simanullang, A. M., Lewa, D. S., & Marthin, S. j. (2021). Pengantar Machine learning. Makalah Pembelajaran Mesin (Machine Learning), 5-8.
Editor: Salwa Alifah Yusrina
Bahasa: Rahmat Al Kafi
Ikuti berita terbaru Media Mahasiswa Indonesia di Google News