Hasil Pencarian

Ditemukan 16 dokumen yang sesuai dengan query

M. Rasyid Rabbani

Interpretasi dan Analisis Akurasi Model Imbalance-XGBoost untuk Prediksi Fraud Asuransi = Interpretation and Analysis Accuracy of Imbalance-XGBoost Model for Insurance Fraud Prediction

Abstrak :
Fraud atau kecurangan merupakan salah satu permasalahan yang masih dihadapi oleh industri asuransi dan masih memberikan kerugian yang sangat besar bagi industri ini. Biaya yang dikeluarkan pun untuk mengatasi permasalahan ini masih cukup besar, untuk itu dikembangkanlah sebuah model machine learning untuk membantu pencegahan terjadinya fraud pada asuransi. Salah satu model yang sedang sangat berkembang adalah model Imbalance-XGBoost, penelitian ini dilakukan untuk meninjau kemampuan model Imbalance-XGBoost dalam mendeteksi fraud sebagai langkah pencegahan fraud pada asuransi. Penelitian ini berhasil mendapati bahwa Imbalance-XGBoost memiliki performa yang lebih baik jika dibandingkan dengan model dasarnya yaitu XGBoost tanpa penanganan kelas tidak seimbang. ...... Fraud or dishonesty is one of the persistent challenges faced by the insurance industry and continues to result in significant losses for the industry. The costs incurred to address this issue are also quite substantial. Therefore, a machine learning model has been developed to assist in preventing insurance fraud. One of the models that is currently gaining traction is the Imbalance-XGBoost model. This research was conducted to assess the ability of the Imbalance-XGBoost model in detecting fraud as a preventive measure in insurance. The study found that Imbalance-XGBoost performs better compared to its base model, XGBoost, which does not handle imbalanced classes.

Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2023

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

Assyifa Ulhusna

Implementasi Metode Binary Logistic Regression dan Gradient Boosting dalam Pemodelan Credit Scoring = Implementation of Binary Logistic Regression and Gradient Boosting Methods for Credit Scoring Model

Abstrak :
Credit scoring adalah sebuah sistem yang digunakan kreditor seperti bank dan perusahaan asuransi untuk menentukan apakah pemohon kredit termasuk dalam grup good credit yakni grup yang kemungkinan besar akan membayar utangnya tepat waktu atau bad credit yang merupakan grup dengan kemungkinan besar tidak membayar utangnya tepat waktu. Salah satu metode yang paling sering digunakan dalam pembuatan model credit scoring adalah binary logistic regression. Namun, seiring dengan kemajuan komputasi, banyak metode lain yang berkembang saat ini untuk dipakai dalam pembuatan model credit scoring yakni, metode gradient boosting. Pada skripsi ini dilakukan implementasi metode binary logistic regression dan gradient boosting dalam pemodelan credit scoring. Hasil yang didapatkan dengan menggunakan data 537.667 debitur dengan rincian 535.705 good credits dan 1.962 bad credits adalah pada data train penggunaan gradient boosting memberikan nilai tingkat akurasi 79,65%, uji KS 0,5389 dan AUROC/AUC 0,8393. Sementara pada data test penggunaan gradient boosting memberikan nilai tingkat akurasi 79,92%, uji KS 0,5345 dan AUROC/AUC 0,8313. Nilai-nilai tersebut lebih tinggi dibandingkan dengan penggunaan binary logistic regression baik pada data train maupun data test. Berdasarkan nilai uji AUC, metode gradient boosting tergolong klasifikasi yang baik, sedangkan metode binary logistic regression> tergolong klasifikasi yang cukup. Hasil simulasi ini menunjukkan untuk data yang digunakan, metode gradient boosting memberikan hasil yang lebih baik dari sisi akurasi, uji KS, dan AUROC/AUC daripada binary logistic regression. Dengan kata lain, metode gradient boosting dapat meningkatkan discriminant power, yakni kemampuan untuk membandingkan target yang lebih baik dibandingkan dengan metode binary logistic regression. ......Credit scoring is a system used by creditors such as banks and insurance companies to determine whether credit applicants are included in the good credit group, namely the group that is most likely to pay its debts on time or the bad credit group which is the group that is most likely to not pay its debts on time. One of the most frequently used methods in making credit scoring models is binary logistic regression. However, along with the progress of computation, many other methods are currently being developed to be used in making credit scoring models, namely, the gradient boosting method. In this thesis, we will compare the binary logistic regression and gradient boosting methods in credit scoring model. The results obtained using data from 537,667 debtors with details of 535,705 good credits and 1,962 bad credits are the train data using gradient boosting gives an accuracy rate of 79.65%, KS test 0.5389 and AUROC/AUC 0.8393. Meanwhile, the test data using gradient boosting gives an accuracy rate of 79.92%, KS test 0.5345, and AUROC/AUC 0.8313. These values ââare higher than the use of binary logistic regression in both the train and test data. Based on the AUC test value, the gradient boosting method is a good classifier, while the binary logistic regression method is an acceptable classifier. The results of this simulation show that for the data used, the gradient boosting method gives better results in terms of accuracy, KS test, and AUROC/AUC than binary logistic regression. In other words, the gradient boosting method can increase discriminant power or the ability to compare targets better than the binary logistic regression method.

Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2021

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

Naufal Alfarisi

Perbandingan Kinerja Convolutional Neural Network dan Extreme Gradient Boosting dalam Memprediksi Insiden Deman Berdarah Dengue di DKI Jakarta dengan Mempertimbangkan Faktor Iklim = Comparison of Convolutional Neural Network and Extreme Gradient Boosting Performance in Predicting Dengue Hemorrhagic Fever Incidence in DKI Jakarta by Considering Climate Factors

Abstrak :
Demam Berdarah Dengue (DBD) masih menjadi masalah kesehatan yang utama di Indonesia. Berdasarkan data dari Kemenkes RI, pada tahun 2022 jumlah insiden DBD dicatat sebanyak 131.265 yang mana sekitar 40% adalah anak-anak usia 0 sampai 14 tahun dengan jumlah kasus kematian mencapai 1.135 jiwa dengan 73% terjadi pada anak-anak usia 0 sampai 14 tahun. DBD disebabkan oleh virus dengue yang disebarkan melalui gigitan nyamuk Aedes aegypti dan Aedes albopictus.. Selain faktor kebersihan lingkungan dan kebiasaan masyarakat, tingginya insiden DBD di Indonesia juga dipengaruhi oleh beberapa faktor iklim seperti curah hujan, temperatur, dan kelembapan. Memaksimalkan proses pencegahan DBD oleh pemerintah dan masyarakat dapat menekan tingginya kasus DBD di Indonesia. Salah satu cara untuk memaksimalkan proses pencegahan DBD adalah dengan melakukan prediksi jumlah insiden DBD yang akan terjadi kedepannya. Dengan mengetahui hasil prediksi jumlah insiden DBD, diharapkan masyarakat dan pemerintah dapat memaksimalkan proses pencegahan DBD. Pada tugas akhir ini, dilakukan prediksi jumlah insiden DBD menggunakan convolutional neural network dan extreme gradient boosting, dengan jumlah insiden sebelumnya dan faktor cuaca sebelumnya yang terdiri dari temperatur, curah hujan, dan kelembapan relatif sebagai variabel prediktor. Variabel prediktor yang digunakan ditentukan berdasarkan time lag dari masing-masing variabel prediktor terhadap jumlah insiden DBD menggunakan korelasi silang. Model convolutinal neural network dan extreme gradient boosting yang dibentuk dievaluasi dan dibandingkan berdasarkan nilai Root Mean Square Error (RMSE), Mean Absolute Error (MAE), dan waktu simulasi. Pada tugas akhir ini, convolutional neural network memberikan performa yang lebih baik dibandingkan dengan extreme gradient boosting berdasarkan nilai RMSE dan MAE dengan rata-rata 13,3586 untuk RMSE dan 9,2249 untuk MAE. Berdasarkan waktu simulasi, extreme gradient boosting memberikan performa yang lebih cepat dibandingkan convolutional neural network. ......Dengue Hemorrhagic Fever (DHF) remains a major health problem in Indonesia. Based on data from the Ministry of Health of Indonesia, in 2022, the number of DHF incidents recorded was 131,265, of which approximately 40% were children aged 0 to 14 years, with a total of 1,135 deaths, 73% of which occurred in children aged 0 to 14 years. DHF is caused by the dengue virus, which is transmitted through the bites of Aedes aegypti and Aedes albopictus mosquitoes. In addition to environmental cleanliness and societal habits, the high incidence of DHF in Indonesia is also influenced by several climate factors such as rainfall, temperature, and humidity. Maximizing the DHF prevention process by the government and the community can help reduce the number of DHF cases in Indonesia. One way to maximize the DHF prevention process is by predicting the future number of DHF incidents. By knowing the predicted number of DHF incidents, it is hoped that the community and the government can maximize the DHF prevention process. In this final project, the prediction of the number of DHF incidents is carried out using convolutional neural network and extreme gradient boosting, with the previous incident counts and previous weather factors consisting of temperature, rainfall, and relative humidity as predictor variables. The predictor variables used are determined based on the time lag of each predictor variable on the number of DHF incidents using cross-correlation. In this final project, the convolutional neural network outperforms extreme gradient boosting based on the RMSE and MAE values, with an average of 13.3586 for RMSE and 9.2249 for MAE. However, in terms of simulation time, extreme gradient boosting demonstrates faster performance compared to the convolutional neural network.

Depok: Fakultas Matematika Dan Ilmu Pengetahuan Alam Universitas Indonesia, 2023

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

Rashifa Khairani Setianegara

Studi Komparasi Estimasi Curah Hujan Berbasis Radar Cuaca Menggunakan Machine Learning dan Persamaan Z-R = Comparative Study of Weather Radar-Based Rainfall Estimation Using Machine Learning and the Z-R Equation

Abstrak :
Curah hujan mempunyai dampak yang signifikan terhadap berbagai sektor kehidupan dan lingkungan. Misalnya, curah hujan membantu meningkatkan produktivitas pertanian, menjamin cadangan pangan dan air. Selain itu, curah hujan juga mempengaruhi kekeringan dan siklus air tanah. Oleh karena itu, mengetahui cara memperkirakan curah hujan di suatu daerah secara akurat sangat penting. Salah satu cara memperkirakan curah hujan adalah dengan menggunakan radar cuaca yang mengukur nilai reflektivitas, kemudian menggunakan persamaan Z-R untuk menghitung curah hujan yang terjadi. Namun, beberapa penelitian sebelumnya telah menggunakan model estimasi curah hujan kuantitatif dengan machine learning dari data radar hujan karena dapat memberikan prediksi yang lebih akurat dibandingkan persamaan Z-R. penelitian lain menyatakan bahwa gradient boosting menghasilkan estimasi curah hujan yang lebih akurat dibandingkan beberapa algoritma lainnya. Pada penelitian ini, estimasi curah hujan dilakukan pada satu wilayah dengan tipe curah hujan lokal di Kota Gorontalo. Estimasi ini dilakukan dengan membandingkan keakuratan dua metode: persamaan Z-R dan algoritma machine learning. Persamaan Z-R yang digunakan adalah persamaan Z-R oleh Marshall-Palmer (ð´ = 200, ð = 1.6) dan Rosenfeld (ð´ = 250, ð = 1.2), sedangkan algoritma machine learning yang digunakan adalah gradient boosting. Hasil perbandingan menunjukkan bahwa gradient boosting memberikan estimasi yang lebih akurat dibandingkan dengan kedua persamaan Z-R tersebut. Hasil estimasi algoritma gradient boosting memberikan nilai RMSE, MAE, dan R 2 masing-masing sebesar 0,61, 0,17, dan 0,86. Persamaan Marshall-Palmer Z-R menghasilkan nilai RMSE, MAE, dan R 2 sebesar 8,14, 3,66, dan -0,19. Estimasi persamaan Z-R Rosenfeld menghasilkan nilai RMSE, MAE, dan R 2 sebesar 8,18, 3,71, dan -0,20. Dari ketiga metrik tersebut, dapat disimpulkan bahwa gradient boosting memberikan estimasi yang paling akurat untuk curah hujan di wilayah dengan tipe hujan lokal di Kota Gorontalo. ......Rainfall has a significant impact on various sectors of life and the environment. For example, rainfall helps increase productivity in agriculture, ensuring food reserves and water. In addition, rainfall also affects drought and the soil water cycle. Therefore, knowing how to estimate rainfall in an area accurately is essential. One way to estimate rainfall is to use a weather radar that measures reflectivity values, then use the Z-R equation to calculate the rainfall that occurs. However, Several previous studies have used machine learning quantitative rainfall estimation models from rain radar data because it can provide more accurate predictions than the Z-R equation. Another study state that gradient boosting provides more accurate rainfall estimation than several other algorithms. In this study, rainfall estimation was carried out in an area with local rainfall types in Gorontalo City. This estimation is done by comparing the accuracy of two methods: the Z-R equation and machine learning algorithms. The Z-R equation used is the Z-R Equation by Marshall-Palmer (ð´ = 200, ð = 1.6) and Rosenfeld (ð´ = 250, ð = 1.2), while the machine learning algorithm used is gradient boosting. The comparison results show that gradient boosting provides a more accurate estimation than the two ZR equations. The gradient boosting algorithm estimation results provide RMSE, MAE, and R 2 values of 0.61, 0.17 and 0.86, respectively. The Marshall-Palmer Z-R equation obtained RMSE, MAE, and R 2 values of 8.14, 3.66, and -0.19. The estimation of Rosenfeld's Z-R equation resulted in RMSE, MAE, and R 2 values of 8.18, 3.71, and - 0.20. From these three metrics, it is concluded that gradient boosting provides the most accurate estimate for rainfall in areas with localized rainfall types in Gorontalo City.

Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2023

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

Ghifari Gagah Dahana

Model Prediksi Valuasi Rumah di DKI Jakarta dengan Penerapan Stacked Generalization = House Valuation Prediction Model in DKI Jakarta Using Stacked Generalization

Abstrak :
Sampai sekarang, sebagian besar orang masih menganggap kepemilikan rumah sebagai kebutuhan primer yang belum bisa ditandingi oleh pilihan hunian lain. Harga rumah biasanya ditentukan oleh berbagai faktor seperti lokasi, kondisi makro ekonomi, serta kondisi fisik rumah. Banyaknya faktor tersebut membuat penentuan valuasi rumah secara objektif menjadi sulit. Dalam beberapa tahun terakhir, penelitian mengenai estimasi harga rumah telah berkembang pesat, dengan metode machine learning menjadi yang paling sering digunakan. Oleh karena itu, penelitian ini menggunakan salah satu algoritma machine learning yang sudah terbukti dapat mendapatkan akurasi tinggi, yaitu stacked generalization. Penelitian ini menggabungkan beberapa variabel yang digunakan oleh penelitian-penelitian sebelumnya untuk memprediksi valuasi rumah. Model stacked generalization yang dibangun akan dibandingkan dengan algoritma lain yang juga sering digunakan dalam memprediksi valuasi rumah, diantaranya adalah regresi linear, random forest, gradient boosting machine, dan extreme gradient boosting. Hasil penelitian menunjukkan bahwa algoritma stacked generalization memiliki kemampuan prediksi yang lebih baik dibandingkan metode lainnya dengan hasil R2 sebesar 0,881, dan MAPE sebesar 0,21%. Selanjutnya dilakukan analisis terhadap faktor yang paling berpengaruh terhadap perubahan valuasi rumah menggunakan teknik permutation feature importance. Faktor-faktor yang paling berpengaruh adalah luas tanah, luas bangunan, jarak menuju pusat perbelanjaan, kapasitas listrik, dan Indeks Harga Perumahan Residensial. ......In recent years, homeownership remains a primary need that other housing options have yet to match. House prices are typically determined by various factors such as location, macroeconomic conditions, and the physical state of the house. These numerous factors make objective house valuation challenging. Recently, research on house price estimation has advanced significantly, with machine learning methods being the most commonly used. Therefore, this study employs one proven machine learning algorithm with high accuracy, stacked generalization. This research incorporates several variables used by previous studies to predict house valuations. The stacked generalization model developed is compared with other frequently used algorithms for predicting house valuations, including linear regression, random forest, gradient boosting machine, and extreme gradient boosting. The results show that the stacked generalization algorithm has superior predictive ability compared to other methods, with an R2 of 0.881 and MAPE of 0.21%. Subsequently, an analysis of the factors most influencing changes in house valuation was conducted using permutation feature importance techniques. The most influential factors are land area, building area, distance to shopping centers, electricity capacity, and the Residential Property Price Index.

Depok: Fakultas Teknik Universitas Indonesia, 2024

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

Bernadeta Nafirsta Ayu Nareswari

Estimasi Curah Hujan Konvektif Berdasarkan Pengukuran Radar Cuaca Menggunakan Pendekatan Tree-Based Machine Learning = Convective Rainfall Estimation From Weather Radar Measurement using Tree-Based Machine Learning

Abstrak :
Curah hujan merupakan unsur iklim yang memiliki keragaman dan fluktuasi yang tinggi di Indonesia. Hal ini membuat curah hujan merupakan unsur iklim yang paling dominan untuk mencirikan iklim di Indonesia. Berdasarkan gerakan udara naik untuk membentuk awan, terdapat tiga tipe hujan yaitu konvektif, orografik, dan gangguan. Pengukuran terhadap curah hujan dapat dilakukan dalam berbagai metode, salah satunya dengan menggunakan pengukuran jarak jauh yaitu radar (Radio Detecting and Ranging). Pada studi ini dilakukan perhitungan radar cuaca dengan menggunakan machine learninguntuk mengkaji keakuratan perhitungan data radar cuaca terhadap estimasi curah hujan di Pulau Biak, Indonesia. Produk dari radar cuaca merupakan data reflektifitas (Z). Penggunaan machine learning ini diterapkan pada data reflektifitas radar cuaca dimana data yang digunakan adalah C-MAX atau Column Maximum. Data curah hujan pada periode Desember 2021 sampai Februari 2022 di Kabupaten Biak diolah menggunakan algoritma yang berbeda, yaitu Decision Tree, Random Forest, Adaptive Boosting, Gradient Boosting Extreme Gradient Boosting. Hasil dari studi ini akan menunjukkan algoritma terbaik yang dapat digunakan untuk memprediksi estimasi curah hujan konvektif di Pulau Biak, Indonesia. Berdasarkan penelitian yang sudah dilakukan, didapatkan hasil R2 pada algoritma Decision Tree sebesar 0,70; Random Forest 0,60; Adaptive Boosting sebesar 0,42; Gradient Boosting sebesar 0,71 dan Extreme Gradient Boosting sebesar 0,73. Hasil analisis menunjukkan bahwa algoritma Extreme Gradient Boosting dapat memberikan estimasi curah hujan paling baik di Pulau Biak, Indonesia. ......Rainfall is an element of climate with high diversity and fluctuation in Indonesia. This makes rainfall the most dominant climate element to characterize the climate in Indonesia. Based on the movement of rising air to form clouds, there are three types of rain: convective, orographic, and disturbance. Rainfall can be measured in various methods, one of which is by using remote measurement, namely radar (Radio Detecting and Ranging). In this study, weather radar calculations were carried out using machine learning to assess the accuracy of weather radar data calculations on the estimated rainfall value on Biak Island, Indonesia. The product of weather radar is reflectivity (Z) data. The use of machine learning is applied to weather radar reflectivity data where the data used is C-MAX or Column Maximum. Rainfall data from December 2021 to February 2022 in Biak Regency is processed using five different algorithms: Decision Tree, Random Forest, Adaptive Boosting, Gradient Boosting, and Extreme Gradient Boosting. The result of this study will show the best algorithm that can be used to predict convective rainfall estimation in Biak Island, Indonesia. Based on the research that has been done, the R2 results obtained on the Decision Tree algorithm of 0.70; Random Forest 0.60; Adaptive Boosting of 0.42; Gradient Boosting of 0.71 and Extreme Gradient Boosting of 0.73. The analysis shows that the Extreme Gradient Boosting algorithm can estimate the best rainfall in Biak Island, Indonesia.

Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia;Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia;Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia;Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia;Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2023

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

Darian Texanditama

Optimalisasi Kinerja Pemelajaran Mesin di Bidang Pendidikan dengan Contoh Kasus Prediksi Mahasiswa Putus Studi di Beberapa Perguruan Tinggi Indonesia = Optimizing Machine Learning Performance in the Field of Education with Case Example of Predicting Student Drop-out at Several Indonesian Universities

Abstrak :
Pemelajaran mesin dikenal sangat berguna dalam menyelesaikan permasalahan prediksi dan klasifikasi melalui pembelajaran pola dan perilaku data yang tersedia. Oleh karena itu, pemelajaran mesin dapat dimanfaatkan di berbagai bidang kehidupan dan industri modern. Namun, kinerja pemelajaran mesin sangat tergantung dari model pemelajaran mesin yang digunakan maupun dari kualitas data yang digunakan untuk pemelajaran. Data yang tidak bersih, tidak representatif, dan ketersediaannya terbatas akan mengurangi kualitas hasil prediksinya. Penelitian ini bertujuan untuk menguji kombinasi beberapa metode pemrosesan data (yaitu MissForest, GAIN, ENN, dan TabGAN oversampling) dengan model pembelajaran mesin (yaitu model CatBoost dan model klasifikasi biner berbasis neural network) untuk memprediksi kasus mahasiswa putus studi di beberapa universitas di Indonesia menggunakan data dari PDDikti. Penambahan fitur dilakukan untuk memberi label bidang studi terhadap dataset tersebut. Selain penambahan fitur seleksi fitur relevan menggunakan korelasi Pearson serta feature importances juga dilakukan setelah pelatihan model awal. Google Colab dengan bahasa pemrograman Python digunakan untuk menjalankan algoritma pemrosesan data dan pelatihan model. Hasil penelitian menunjukkan bahwa model CatBoost dengan kombinasi metode imputasi GAIN, undersampling ENN, dan tanpa fitur kelompok bidang studi memberikan F1-score tertinggi yaitu 66,38% dengan nilai precision 71,75% dan nilai recall 61,76%. Apabila digunakan model klasifikasi biner pemelajaran dalam akan didapatkan metrik terbaik F1-score 62,32%. Hasil terbaik penelitian ini menunjukkan peningkatan F1-score sebesar 2,15% dibandingkan dengan F1-score pada penelitian sebelumnya yang menggunakan model CatBoost bersama kombinasi Missforest dan ENN tanpa fitur kelompok bidang studi. Penelitian ini menunjukkan bahwa oversampling dan undersampling memberikan dampak yang berlawanan terhadap metrik precision dan recall. Penelitian juga menemukan seleksi fitur dapat meningkatkan kinerja model namun tidak berdampak besar dibandingkan teknik-teknik lain misalnya balancing dan optimisasi hyperparameter. ......Machine learning is known to be very useful in solving prediction and classification problems by learning the patterns and behavior of available data. Therefore, machine learning can be utilized in various areas of modern life and industry. However, the performance of machine learning is highly dependent on the machine learning model used as well as on the quality of the data used for learning. Data that is not clean, not representative, and scarce will reduce the quality of the prediction results. This study aims to test the combination of several data processing methods (namely MissForest, GAIN, ENN, and TabGAN oversampling) with machine learning models (CatBoost and binary classification models based on neural networks) to predict dropout cases at several Indonesian universities using data from PDDikti. The addition of features is done to label data with their respective fields of study. Other than adding features, selection of relevant features using Pearson’s correlation as well as feature importances is also carried out after initial model training. Google Colab with the Python programming language is used to run data processing algorithms and train models. This study shows that CatBoost with the combination of GAIN imputation, ENN undersampling, and no field of study feature results in the highest F1-score of 66.38%, which are composed of 71.75% in precision and 61.76% in recall. If a deep learning binary classification model is used instead, the best F1-score result is 62.32%. The best result from this study shows an increase in F1-score of 2.15% compared to the F1-score of the previous study (64.23%) which used CatBoost along with a combination of Missforest, ENN and no field of study features. This research shows oversampling and undersampling produce opposite effects on precision and recall scores. Research has also found that feature selection can improve model performance but does not have a large impact compared to other techniques such as balancing and hyperparameter optimization

Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2022

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

Bagus Nurhuda

Rancang Bangun Sistem Deteksi Pencurian Tenaga Listrik Menggunakan Algoritma Klasifikasi Extreme Gradient Boosting (XGBoost) pada Data Pemakaian Listrik Pelanggan Pascabayar = Design and Development of an Electricity Theft Detection System Using Extreme Gradient Boosting (XGBoost) Classification Algorithm on Postpaid Customer Electricity Consumption Data.

Abstrak :
Seiring bertambahnya jumlah pelanggan listrik di Indonesia menjadikan persentase kerugian dari susut non-teknis pada Perusahaan Listrik Negara (PLN) semakin besar tiap tahunnya yang menyebabkan berkurangnya keuntungan. Berbagai upaya telah dilakukan oleh PLN dengan membentuk tim Penertiban Pemakaian Tenaga Listrik (P2TL) berdasarkan informasi indikasi pencurian dan kelainan maupun pemilihan manual pada pelanggan pascabayar. Namun upaya yang dilakukan PLN sejauh ini masih belum efektif dalam penentuan Target Operasi (TO) karena membutuhkan waktu yang lama dengan hasil akurasi yang kecil. Tujuan dari penelitian ini adalah untuk menganalisis efektivitas dari data pemakaian listrik (kWh) pelanggan dalam pemodelan machine learning menggunakan algoritma Extreme Gradient Boosting (XGBoost) menggunakan metode feature engineering dan hyperparameter tuning. Hasil dari penelitian ini membuktikan bahwa penggunaan riwayat pemakaian listrik efektif dalam pemodelan hingga tingkat akurasi mencapai 80% pada penggunaan data jam nyala dan 82% pada penggunaan data gabungan jam nyala dengan metode statistik dan bantuan hyperparameter tuning. Dengan hasil ini dapat membantu PLN untuk menentukan TO pada pelanggan pascabayar dengan lebih mudah dan efisien menggunakan teknologi machine learning. ......As the number of electricity customers in Indonesia increases, the percentage of non-technical losses in PLN (Perusahaan Listrik Negara) has been growing every year, leading to a decrease in profits. Various efforts have been made by PLN through the establishment of the Penertiban Pemakaian Tenaga Listrik (P2TL) team based on indications of theft or abnormalities and manual selection of postpaid customers. However, PLN's efforts so far have been ineffective in determining the Operational Target (TO) due to the long time required and low accuracy. The aim of this research is to analyze the effectiveness of customer electricity usage data (kWh) in machine learning modeling using the Extreme Gradient Boosting (XGBoost) algorithm with feature engineering and hyperparameter tuning methods. The results of this study demonstrate that the use of electricity usage history is effective in modeling, achieving an accuracy rate of 80% when using on/off hours data and 82% when using a combination of on/off hours data with statistical methods and the assistance of hyperparameter tuning. These findings can assist PLN in determining the TO for postpaid customers more easily and efficiently using machine learning technology.

Depok: Fakultas Teknik Universitas Indonesia, 2022

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

Ananda Fauzia Sabban

Analisis Estimasi Property Value Rumah dengan Mempertimbangkan Lokasi Menggunakan Machine Learning = Analysis of Property Value Estimation for Houses Considering Location Using Machine Learning

Abstrak :
Rumah menjadi tempat tinggal yang memiliki fungsi untuk memberikan rasa aman dan nyaman bagi penghuninya. Oleh sebab itu, pemilihan lokasi tempat tinggal menjadi penting, terutama bagi penduduk Jakarta, dimana Jakarta termasuk daerah rawan terhadap banjir. Banjir di Jakarta berdampak pada keamanan dan keselamatan hingga memberikan kerugian secara materil. Oleh karena itu, penelitian ini mengestimasikan property value harga rumah dengan mempertimbangkan lokasi tempat tinggal. Namun, penelitian ini juga akan menggunakan faktor penentu lokasi dalam pemilihan rumah lainnya, seperti atribut aksesibilitas dan atribut struktutal. Dalam pembuatan model estimasi ini akan menggunakan machine learning (ML) sebagai metodenya, yaitu Gradient Boosting Decision Trees (GBDT) dan Random Forest (RF), dengan optimasi Genetic Algorithm (GA) untuk meningkatkan kinerja model. Hasil penelitian ini menunjukkan GBDT dan RF memiliki performa sama baiknya dalam mengestimasi model property value rumah. Serta, penggunaan GA untuk meningkatkan kinerja model berhasil dengan meningkatnya nilai R², serta menurunnya nilai MAPE dan RMSE. Penelitian ini juga melihat faktor – faktor yang berpengaruh terhadap model, dengan luas tanah dan luas bangunan menjadi faktor paling berpengaruh, yang diikuti oleh MRT, rumah sakit, pusat perbelanjaan, tol, SMP, dan lokasi rawan. ......A home serves as a place of residence that provides a sense of safety and comfort for its occupants. Therefore, the selection of the location for a residence is crucial, especially for residents of Jakarta, as Jakarta is prone to flooding. Flooding in Jakarta impacts security, safety, and even material losses. Hence, this research aims to estimate the property value of houses by considering the location of the residence. Additionally, the research will incorporate other factors that influence housing selection, such as accessibility attributes and structural attributes. The estimation model will utilize machine learning (ML) techniques, specifically Gradient Boosting Decision Trees (GBDT) and Random Forest (RF), with Genetic Algorithm (GA) optimization to enhance the model's performance. The research findings indicate that both GBDT and RF perform equally well in estimating the property value model. Moreover, the use of GA to improve the model's performance is successful, as evidenced by an increase in the R2 value and a decrease in the MAPE and RMSE values. The research also examines the factors that influence the model, with land area and building area being the most influential factors, followed by proximity to the MRT, hospitals, shopping centres, toll roads, junior high schools, and flood-prone areas.

Depok: Fakultas Teknik Universitas Indonesia, 2023

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

Adhitya Dwi Nugraha

Komparasi Kinerja Model Grey Wolf Optimization Support Vector Machine (GWO-SVM) dan Extreme Gradient Boosting (XGBoost) dalam Klasifikasi Intensitas Ledakan Batu pada Tambang Bawah Tanah = Model Performance Comparison of Grey Wolf Optimization Support Vector Machine (GWO-SVM) and Extreme Gradient Boosting (XGBoost) in Rockburst Intensity Classification in Underground Mines

Abstrak :
Ledakan batu merupakan kecelakaan destruktif yang cukup sering terjadi pada tambang bawah tanah. Seiring dengan berkembangnya teknologi, machine learning hadir sebagai alternatif solusi yang dapat dimanfaatkan dalam langkah preventif atas kasus ledakan batu. Penelitian ini menggunakan GWO-SVM dan XGBoost sebagai model machine learning dalam klasifikasi ledakan batu dan intensitasnya pada tambang bawah tanah. Grey Wolf Optimization (GWO) digunakan sebagai optimizer dari parameter SVM. Intensitas ledakan batu dibedakan atas tidak ada ledakan batu, lemah, sedang dan kuat. Dalam implementasi model, digunakan 467 kasus ledakan batu yang dikumpulkan dari berbagai sumber. Fitur yang digunakan pada penelitian ini meliputi tegangan maksimal tangensial, kekuatan tekan uniaksial, kekuatan tarik uniaksial, koefisien tegangan, koefisien kerapuhan batuan, dan indeks regangan elastis. Sebelum implementasi model dilakukan data preprocessing yang meliputi imputasi missing values, menghapus outlier, normalisasi fitur dan resampling data. Kinerja model dievaluasi berdasarkan nilai metrik accuracy, precision, recall, dan f1-score dengan memerhatikan running time dan proporsi data training berkisar dari 50% hingga 90%. Hasil penelitian menunjukkan bahwa GWO-SVM mengungguli XGBoost baik dalam klasifikasi ledakan batu dengan accuracy 98.0392%, precision 97.8495%, recall 98.2609%, dan f1-score 98.0161% serta klasifikasi intensitas ledakannya dengan accuracy 75.8242%, precision 75.1473%, recall 75.3115%, dan f1-score 75.2150%. ...... Rockburst is a destructive accident that frequently occurs in underground mines. With the advancement of technology, machine learning has emerged as an alternative solution that can be utilized to measures against rockbursts. This research employs GWO-SVM and XGBoost as machine learning models for the classification of rockburst and its intensity in underground mines. Grey Wolf Optimization (GWO) is used as an optimizer for SVM parameters. The intensity of a rockburst is classified into four categories: no rockburst, weak, moderate, and strong. The implementation of the model utilizes 476 cases of rockburst collected from various sources. The features used in this study include maximum tangential stress, uniaxial compressive strength, uniaxial tensile strength, stress coefficient, rock brittleness coefficient, and elastic strain index. Before implementing the model, data preprocessing is conducted, which includes imputing missing values, removing outliers, feature normalization, and data resampling. The performance of the model is evaluated based on metrics such as accuracy, precision, recall, and f1-score with various training data proportions ranging from 50% to 90%. The research results indicate that GWO-SVM outperforms XGBoost in both the classification of rockburst with 98.0392% accuracy, 97.8495% precision, 98.2609% recall, and 98.0161% f1-score as well as intensity with 75.8242% accuracy, 75.1473% precision, 75.3115% recall, and 75.2150% f1-score.

Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2023

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

<< 1 2 >>

Hasil Pencarian :: Simpan CSV :: Kembali

Hasil Pencarian