KOMPARASI RANDOM FOREST DAN LOGISTIC REGRESSION DALAM KLASIFIKASI PENDERITA COVID-19 BERDASARKAN GEJALANYA

Penulis

  • Ichsan Firmansyah
  • Jaka Tirta Samudra
  • Doughlas Pardede
  • Zakarias Situmorang

DOI:

https://doi.org/10.54314/jssr.v5i3.994

Abstrak

Abstract: In data mining, we can use symptoms suffered by patients for a reference in classifying positive and negative Covid-19 patients using data mining. Random Forest and logistic regression are two data mining algorithms with high accuracy, precision, and sensitivity in data classification. This study compares the random forest and the logistic regression algorithm - where we use the lasso and ridge regulations - on classifying positive and negative Covid-19 patients based on their symptoms. From 5434 data used in the data set, the evaluation results show that the random forest algorithm is the best in terms of accuracy, precision, and sensitivity compared to other algorithms, while the logistic regression algorithm with ridge regulation is the worst. The random forest algorithm is the most reliable in classifying patients with positive Covid-19, while the logistic regression algorithm with ridge regulation is the least reliable. Also, the random forest algorithm is the most reliable in classifying patients with negative Covid-19, while the logistic regression algorithm with lasso regulation is the least reliable.

 

Keywords: classification;covid-19;data mining;logistic regression;random forest.

 

Abstrak: Dalam data mining, kita dapat menggunakan gejala yang diderita pasien sebagai acuan dalam mengklasifikasikan pasien positif dan negatif Covid-19 menggunakan data mining. Random forest dan logistic regression adalah dua algoritma data mining yang memiliki akurasi (accuracy), presisi (precision), dan sensitivitas (recall) tinggi dalam klasifikasi data. Penelitian ini membandingkan algoritma random forest dan logistic regression - di mana kami menggunakan regulasi lasso dan ridge - dalam mengklasifikasikan pasien positif dan negatif Covid-19 berdasarkan gejalanya. Dari 5434 data yang digunakan dalam data set, hasil evaluasi menunjukkan bahwa algoritma random forest adalah yang terbaik dalam hal akurasi, presisi, dan sensitivitas dibandingkan dengan algoritma lainnya, sedangkan algoritma logistic regression dengan regulasi ridge adalah yang terburuk. Algoritma random forest paling andal dalam mengklasifikasikan pasien positif Covid-19, sedangkan algoritma logistic regression dengan regulasi ridge merupakan algoritma yang paling tidak tidak dapat diandalkan. Selain itu, algoritma random forest paling andal dalam mengklasifikasikan pasien dengan Covid-19 negatif, sedangkan algoritma logistic regresssion dengan regulasi lasso merupakan yang paling tidak dapat diandalkan.

 

Kata kunci: covid-19;data mining;klasifikasi;logistic regression;random forest.

Unduhan

Data unduhan tidak tersedia.

Referensi

Nurjannah, Dar, M. H., Bangun, B. (2021) Sistem Pelacakan Kontak Covid-19 Menggunakan Teknologi QR Code Berbasis Web. JURTEKSI (Jurnal Teknologi dan Sistem Informasi). 7(3): 283-292.

Susilo, A., Rumende, C. M., Pitoyo, C. W., Santoso, W. D., Yulianti, M., Herikurniawan, Sinto, R., Singh, G., Nainggolan, L., Nelwan, E. J., Chen, L. K., Widhani, A., Wijaya, E., Wicaksana, B., Maksum, M., Annisa, F., Jasirwan, C. O. M., Yunihastuti, E. (2020) Coronavirus Disease 2019: Tinjauan Literatur Terkini. Jurnal Penyakit Dalam Indonesia. 7(1): 45-67.

Erwansyah, K. Purwadi, Saniman, Syahputra, T. (2021) Penerapan Data Mining Untuk Mendapatkan Paket Promo Perlengkapan Pesta Menggunakan Algoritma Apriori Di Celebration Peak. Journal of Science and Social Research. 4(2): 96-105.

Boy, A. F. (2020) Implementasi Data Mining Dalam Memprediksi Harga Crude Palm Oil (CPO) Pasar Domestik Menggunakan Algoritma Regresi Linier Berganda (Studi Kasus Dinas Perkebunan Provinsi Sumatera Utara). Journal of Science and Social Research. 3(2): 78-85.

Rianto, M. & Yunis, R. (2021). Analisis Runtun Waktu Untuk Memprediksi Jumlah Mahasiswa Baru Dengan Model Random Forest. Cyberspace: Paradigma. 23(1): 70-74.

Triscowati, D. W., Sartono, B., Kurnia, A., Dirgahayu, D. & Wijayanto, A. W. (2019). Classification Of Rice-Plant Growth Phase Using Supervised Random Forest Method Based On Landsat-8 Multitemporal Data. International Journal of Remote Sensing and Earth Sciences. 16(2): 187-196.

Yusuf, B., Qalbi, M., Basrul, Dwitawati, I., Malahayati & Ellyadi, M. (2020). Implementasi Algoritma Naive Bayes Dan Random Forest Dalam Memprediksi Prestasi Akademik Mahasiswa Universitas Islam Negeri Ar-Raniry Banda Aceh. Cyberspace: Jurnal Pendidikan Teknologi Informasi. 4(1): 50-58.

Kurniadi, F. I., Putri, V. K. (2018). Perbandingan Regresi Linear dengan Heaviside Activation Function dengan Logistic Regression untuk Klasifikasi Diabetes. ULTIMATICS. 10(1): 7-10.

Purwa, T. (2019). Perbandingan Metode Regresi Logistik dan Random Forest untuk Klasifikasi Data Imbalanced (Studi Kasus: Klasifikasi Rumah Tangga Miskin di Kabupaten Karangasem, Bali Tahun 2017). Jurnal Matematika, Statistika Dan Komputasi (Jmsk). 16(1): 58-73.

Markoulidakis, I., Rallis, I., Georgoulas, I., Kopsiaftis, G., Doulamis, A., Doulamis, N. (2021). Multiclass Confusion Matrix Reduction Method and Its Application on Net Promoter Score Classification Problem. Technologies. 9(81): 58-73.

Diterbitkan

2022-10-18

Terbitan

Bagian

Artikel

Cara Mengutip

KOMPARASI RANDOM FOREST DAN LOGISTIC REGRESSION DALAM KLASIFIKASI PENDERITA COVID-19 BERDASARKAN GEJALANYA. (2022). JOURNAL OF SCIENCE AND SOCIAL RESEARCH, 5(3), 595-601. https://doi.org/10.54314/jssr.v5i3.994

Artikel paling banyak dibaca berdasarkan penulis yang sama