ANALISIS PERBANDINGAN RANDOM FOREST DAN KNN PADA KLASIFIKASI PENERIMA MANFAAT PROGRAM MAKAN BERGIZI GRATIS
DOI:
https://doi.org/10.54314/jssr.v9i1.5753Abstrak
Abstract: The Free Nutritional Meal Program (PMBG) is a government initiative to improve students' nutrition and school attendance. This study evaluates and compares the performance of Random Forest (RF) and K-Nearest Neighbors (KNN) algorithms in classifying students most eligible for PMBG based on socio-economic criteria. The dataset comprises 205 public elementary school students in Medan City, collected via questionnaires. Features include parental income, number of dependents, housing status, asset ownership, and participation in other social aid programs. The data was clustered into three priority groups using K-Means. To address class imbalance, the Synthetic Minority Over-sampling Technique (SMOTE) was applied. Modeling used three data split scenarios (70:30, 80:20, 90:10) and was evaluated with accuracy, precision, recall, F1-score, and cross-validation. Results show that RF consistently outperformed KNN across all scenarios. After SMOTE, both models improved, with Balanced-RF achieving the highest accuracy and F1-score (94%) in the 70:30 split. The combination of RF and SMOTE proves effective for building an objective and accurate priority classification system for PMBG beneficiaries. Keyword: Free Nutritious Meal Program; Random Forest; K-Nearest Neighbors; SMOTE. Abstrak: Program Makan Bergizi Gratis (PMBG) merupakan inisiatif pemerintah yang bertujuan meningkatkan asupan gizi dan mendorong kehadiran siswa di sekolah. Penelitian ini bertujuan untuk mengevaluasi dan membandingkan kinerja dua algoritma machine learning, yaitu Random Forest dan K-Nearest Neighbors, dalam mengklasifikasikan siswa yang paling berhak menerima manfaat PMBG berdasarkan kriteria sosial-ekonomi. Dataset yang digunakan terdiri dari 205 siswa Sekolah Dasar Negeri di Kota Medan yang dikumpulkan melalui kuesioner. Fitur yang digunakan meliputi pendapatan orang tua, jumlah tanggungan, status tempat tinggal, kepemilikan aset, dan partisipasi dalam program bantuan sosial lainnya. Dataset yang telah dikumpulkan kemudian dikelompokkan menggunakan algoritma K-Means menjadi tiga klaster prioritas. Untuk mengatasi ketidakseimbangan distribusi data, digunakan metode Synthetic Minority Over-sampling Technique (SMOTE). Pemodelan dilakukan dalam tiga skenario pembagian data (70:30, 80:20, 90:10) dan dievaluasi menggunakan metrik akurasi, presisi, recall, f1-score, dan cross-validation. Hasil penelitian menunjukkan bahwa algoritma Random Forest secara konsisten memberikan kinerja yang lebih unggul dibandingkan KNN pada semua skenario. Setelah penerapan SMOTE, kedua algoritma mengalami peningkatan performa, dengan Random Forest-Balanced mencatat akurasi dan f1-score tertinggi sebesar 94% pada skenario 70:30. Temuan ini menunjukkan bahwa kombinasi Random Forest dan SMOTE merupakan pendekatan yang efektif dan efisien untuk membangun sistem klasifikasi prioritas penerima manfaat PMBG yang objektif dan akurat. Kata kunci: Program Makan Bergizi Gratis; Random Forest; K-Nearest Neighbors; SMOTEUnduhan
Referensi
Anisa, S., Komarudin, A., & Ramadhan, E. (2024). Sistem klasifikasi untuk menentukan tingkat stres mahasiswa secara online menggunakan metode K-Nearest Neighbors. Jurnal Informatika Teknologi dan Sains (JINTEKS), *6*(3), 568–578.
Astari, D. F., Chrisandro, Y. H., & Melina. (2023). Klasifikasi tingkat stres saat tidur menggunakan algoritma Random Forest. Jurnal Mahasiswa Teknik Informatika, *7*(5), 3676–3684.
Batista, G. E. A. P. A., Prati, R. C., & Monard, M. C. (2004). A study of the behavior of several methods for balancing machine learning training data. ACM SIGKDD Explorations Newsletter, *6*(1), 20–29.
Breiman, L. (2001). Random forests. Machine Learning, *45*(1), 5–32.
Budiarto, M. (2023). Pengaruh ketidakseimbangan data pada kinerja algoritma klasifikasi. Jurnal Sistem Informasi, *8*(2), 77–85.
Chawla, N. V., Bowyer, K. W., Hall, L. O., & Kegelmeyer, W. P. (2002). SMOTE: Synthetic minority over-sampling technique. Journal of Artificial Intelligence Research, *16*, 321–357.
Cover, T., & Hart, P. (1967). Nearest neighbor pattern classification. IEEE Transactions on Information Theory, *13*(1), 21–27.
Cutler, A., Cutler, D. R., & Stevens, J. R. (2012). Random forests. Dalam Ensemble machine learning (hlm. 157–176). Springer.
Dinas Pendidikan Kota Medan. (2024). Data jumlah Sekolah Dasar Negeri per kecamatan. Medan.
Febrianto, A., & Sari, L. (2023). Tantangan penyaluran bantuan sosial pendidikan di daerah perkotaan. Seminar Nasional Administrasi Pendidikan.
Firdaus, M. A., & Wibowo, S. K. (2023). Klasifikasi penerima bantuan sosial menggunakan algoritma Naïve Bayes Classifier. Jurnal Ilmiah Teknologi Informasi, *12*(3), 145–156.
Firmansyach, W. A., Hayati, U., & Wijaya, Y. A. (2023). Analisa terjadinya overfitting dan underfitting pada algoritma Naive Bayes dan Decision Tree dengan teknik cross validation. Jurnal Mahasiswa Teknik Informatika, *7*(1), 262–269.
Goutte, C., & Gaussier, E. (2005). A probabilistic interpretation of precision, recall and F-score, with implication for evaluation. Dalam European Conference on Information Retrieval (hlm. 345–359).
Hardi, S., & Prasetyo, T. W. (2024). Analisis ketercapaian program bantuan sosial di Indonesia. Jurnal Kebijakan Publik, *15*(2), 112–125.
Hastie, T., Tibshirani, R., & Friedman, J. (2009). The elements of statistical learning: Data mining, inference, and prediction (2nd ed.). Springer.
He, H., & Garcia, E. A. (2009). Learning from imbalanced data. IEEE Transactions on Knowledge and Data Engineering, *21*(9), 1263–1284.
Kementerian Pendidikan, Kebudayaan, Riset, dan Teknologi Republik Indonesia. (2023). Panduan pelaksanaan Program Makan Bergizi Gratis. Jakarta.
Kohavi, R. (1995). A study of cross-validation and bootstrap for accuracy estimation and model selection. Dalam Proceedings of the 14th International Joint Conference on Artificial Intelligence (Vol. 2, hlm. 1137–1143).
Powers, D. M. W. (2011). Evaluation: From precision, recall and F-measure to ROC, informedness, markedness & correlation. Journal of Machine Learning Technologies, *2*(1), 37
Putra, D. R., & Ningrum, E. S. (2022). Identifikasi keluarga miskin dengan Random Forest berbasis data sensus. Seminar Nasional Teknologi Informasi dan Komunikasi, 89–95.
Rahmasari, F., Rifany, M., Piharyanto, T., & Kurniawan, R. (2024). Perbandingan algoritma machine learning dalam klasifikasi status banjir di Sumatera Utara. Seminar Nasional Sains Data, *4*(1), 307–318.
Refaelizadeh, P., Tang, L., & Liu, H. (2009). Cross-validation. Dalam Encyclopedia of database systems (hlm. 532–538). Springer.
RodrÃguez, J. D., Pérez, A., & Lozano, J. A. (2010). Sensitivity analysis of k-fold cross validation in prediction error estimation. IEEE Transactions on Pattern Analysis and Machine Intelligence, *32*(3), 569–575.
Rofi, M. M., Setiawan, F. A., & Riana, F. (2024). Perbandingan metode K-NN dan Random Forest pada klasifikasi mahasiswa berpotensi dropout. INFOTECH Journal, *10*(1), 84–89.
Santoso, B., & Nurjanah, A. (2024). Komparasi algoritma klasifikasi untuk menentukan penerima bantuan pangan. Building of Informatics, Technology and Science (BITS), *6*(4), 1501–1510.
Tangkelobo, E., Mayaut, W., Listanto, H., Binanto, I., & Sianipar, N. F. (2023). Perbandingan algoritma klasifikasi Random Forest, Gaussian Naive Bayes, dan K-Nearest untuk data tidak seimbang. Seminar Nasional Teknik Elektro, Informatika dan Sistem Informasi (SINTaKS).
Wijaya, R., & Puspita, D. (2024). Penerapan algoritma Decision Tree C4.5 untuk klasifikasi penerima bantuan tunai. Jurnal Teknologi Informasi, *10*(1), 45–56.
Wijiyano, W., Pradana, A. I., Sopingi, S., & Atina, V. (2024). Teknik K-Fold cross validation untuk mengevaluasi kinerja mahasiswa. Jurnal Algoritma, *21*(1).
Witten, I. H., Frank, E., & Hall, M. A. (2011). Data mining: Practical machine learning tools and techniques (3rd ed.). Morgan Kaufmann.
World Bank. (2022). Global report on food security and nutrition. Washington, D.C




