Hasil Pencarian  ::  Simpan CSV :: Kembali

Hasil Pencarian

Ditemukan 4 dokumen yang sesuai dengan query
cover
Ruth Intan Davina
"Ketidakseimbangan data merupakan tantangan umum dalam klasifikasi, di mana salah satu kelas memiliki ukuran sampel yang jauh lebih sedikit dibandingkan kelas lainnya dalam suatu dataset. Kondisi ini dapat menghasilkan klasifikasi yang memiliki akurasi prediksi yang tinggi untuk kelas mayoritas, tetapi cenderung rendah untuk kelas minoritas yang memiliki kontribusi kecil terhadap kesalahan total. Dalam aplikasi dunia nyata, kesalahan klasifikasi pada kelas minoritas sering kali memiliki konsekuensi yang lebih serius, seperti pada kasus deteksi serangan siber pada sistem keamanan jaringan. Kegagalan dalam mendeteksi serangan siber (false negative) dapat membuka celah keamanan yang berakibat fatal. Untuk menangani masalah ketidakseimbangan data, berbagai metode telah dikembangkan, termasuk pendekatan ensemble seperti SMOTEBoost (Synthetic Minority Oversampling Technique and Boosting) dan RUSBoost (Random Undersampling and Boosting). Pada penelitian skripsi ini dilakukan studi empiris pada data serangan malware dari dataset AWID3 menggunakan metode SMOTEBoost dan RUSBoost dan dibandingkan performanya dengan algoritma dasarnya, AdaBoost. Simulasi dilakukan dengan berbagai kombinasi hyperparameter dan variasi proporsi data training dan testing untuk mengevaluasi kinerja model secara komprehensif. Hasil penelitian menunjukkan bahwa metode SMOTEBoost dan RUSBoost memiliki kinerja yang sebanding dalam mendeteksi kelas minoritas, di mana nilai recall mencapai 0,99, dan lebih unggul dari metode AdaBoost dengan nilai recall 0,87-0,88. Penelitian tambahan yang dilakukan untuk mengevaluasi kinerja masing-masing metode pada berbagai jenis ketidakseimbangan menunjukkan bahwa kinerja metode AdaBoost menurun seiring dengan meningkatnya ketidakseimbangan relatif, sedangkan metode SMOTEBoost dan RUSBoost tetap stabil dengan kinerja yang baik. Namun, ukuran sampel minoritas yang terbatas atau absolute rarity memiliki dampak pada penurunan kinerja metode SMOTEBoost dan RUSBoost.

Imbalanced data is a common challenge in classification tasks, where one class has significantly fewer instances compared to others within a dataset. This condition can result in classification models with high predictive accuracy for the majority class but tend to perform poorly on the minority class, which contributes little to the overall error rate. In real-world applications, misclassifications errors on the minority class often bear more severe consequences, such as in the case of detecting cyber attacks in network security systems. Failure to detect cyber attacks (false negatives) can lead to security breaches with fatal consequences. To address the imbalanced data problem, various methods have been developed, including ensemble approaches such as SMOTEBoost (Synthetic Minority Oversampling Technique and Boosting) and RUSBoost (Random Undersampling and Boosting). In this thesis research, an empirical study was conducted on malware attack data from the AWID3 dataset using the SMOTEBoost and RUSBoost, and their performance was compared with their base algorithm, AdaBoost. Simulations were carried out with various combinations of hyperparameter and different train-test split to comprehensively evaluate the model’s performance. The research results showed that SMOTEBoost and RUSBoost methods had comparable performance in detecting the minority class, achieving remarkable recall values of 0.99, outperformed the AdaBoost method, which had recall values ranging from 0.87 to 0.88. Additional research conducted to evaluate the performance of each method on various types of imbalance showed that the performance of the AdaBoost method decreased as the relative imbalance increased, while the SMOTEBoost and RUSBoost methods maintained a stable and robust performance. However, a limited number of minority instances or absolute rarity had a negative effect on the performance of the SMOTEBoost and RUSBoost methods."
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2024
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Dewa Ferrouzi Diaz Zhah Pahlevi
"Pasar modal berkembang pesat di Indonesia dengan peningkatan 79 jumlah emiten saham baru dan peningkatan 17,9% jumlah investor baru. Perkembangan ini dipacu oleh Otoritas Jasa Keuangan yang meyakinkan bahwa setiap perusahaan terbuka selalu diawasi dengan cara mewajibkan perusahaan terbuka untuk menyampaikan laporan keuangan secara berkala. Akan tetapi pada kenyataannya, tindakan kecurangan laporan keuangan bukan menjadi hal yang langka. Association of Certified Fraud Examiner melaporkan bahwa 9,2% kecurangan di Indonesia merupakan kecurangan laporan keuangan dengan total kerugian hingga Rp242.260.000.000. Sementara, proses audit konvensional serta laporan yang menjadi 72% dari media deteksi saat ini membutuhkan 12 bulan untuk mendeteksi kasus kecurangan. Penelitian ini akan menggunakan metode ensemble learning berbasis optimasi metaheuristik untuk mengembangkan model deteksi kecurangan pada laporan keuangan. Beberapa metode klasifikasi digunakan untuk mengembangkan model, yaitu Random Forest dan XGBoost. Optimasi metaheuristik dengan metode Genetic Algorithm kemudian digunakan sebagai dasar dari proses hyperparameter tuning pada model tersebut. Hasil deteksi terbaik pada penelitian ini adalah model XGBoost dengan parameter teroptimasi yang menghasilkan akurasi sebesar 98,04% dan sensitivitas 99.02%.

The capital market is growing rapidly in Indonesia, gaining 79 new stock issuers and a 17.9% increase in the number of new investors in 2023. This development is driven by Otoritas Jasa Keuangan, which ensures that every public company is always monitored by requiring them to submit financial statements regularly. However, financial statement fraud is not uncommon. The Association of Certified Fraud Examiners reports that 9.2% of fraud cases in Indonesia involve financial statement fraud, with total losses amounting to Rp242,260,000,000. Meanwhile, conventional audit processes and reports, which account for 72% of current detection methods, take 12 months to detect fraud cases. This study will use an ensemble learning method based on metaheuristic optimization to develop a fraud detection model for financial statements. Several classification methods, namely Random Forest and XGBoost, are used to develop the model. Metaheuristic optimization using the Genetic Algorithm method is then applied as the basis for hyperparameter tuning in this model. The best detection result in this study is achieved by the XGBoost model with optimized parameters, yielding an accuracy of 98.04% and a sensitivity of 99.02%."
Depok: Fakultas Teknik Universitas Indonesia, 2024
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Watulingas, Benedicto Matthew
"Indonesia, sebagai salah satu negara pengekspor ikan terbesar di dunia, menghadapi tantangan serius dalam sektor perikanan akibat illegal, unreported, unregulated (IUU) fishing. Meskipun telah ada pengawas yang ditugaskan, namun praktik ini masih ditemukan, sehingga perlu teknologi pengawasan di atas kapal. Telah dikembangkan model yang dapat mengklasifikasikan jenis ikan di kapal melalui video CCTV namun masih perlu dilengkapi dengan kemampuan memprediksi berat ikan. Dengan metode ensemble learning yang dipilih karena memiliki kinerja yang lebih baik dibanding model individual, penelitian ini bertujuan untuk membangun model prediksi berat melalui citra dari sistem CCTV. Kemampuan untuk memprediksi berat ikan akan memberikan metode bagi pemerintah untuk melakukan pengecekan apakah hasil tangkapan yang dilaporkan sesuai dengan tangkapan yang terjadi di lapangan. Dari pengujian yang dilakukan, algoritma Catboost Regression menunjukkan kinerja terbaik di antara semua model yang diuji. Pada dataset gabungan, dengan rasio data split 90:10, CatBoost mencapai  score 0.986, MAE 9.794, MSE 293.493, dan RMSE 17.132. Untuk dataset cumi dengan rasio 90:10, nilai metrik yang diperoleh adalah  0.025, MAE 18.451, MSE 660.629, dan RMSE 25.702. Sementara pada dataset ikan dengan rasio 90:10, CatBoost menunjukkan kinerja sangat baik dengan  0.980, MAE 5.825, MSE 146.713, dan RMSE 10.129. Model yang dipilih dengan kinerja yang paling baik adalah model dengan dataset ikan dengan MAE 5.825, yang berarti nilai error dari rata-rata berat ikan yang ditimbang adalah 1.29%. Hasil ini menunjukkan bahwa Catboost Regression mampu memprediksi berat ikan dengan akurasi yang tinggi dibandingkan model regresi lainnya pada dataset yang digunakan, dengan pemilihan rasio data split yang optimal.

Indonesia, as one of the largest fish-exporting countries in the world, faces serious challenges in its fisheries sector due to illegal, unreported, and unregulated (IUU) fishing. Despite having monitoring officers assigned, these practices are still found, necessitating the use of surveillance technology on vessels. A model has been developed that can classify fish species on ships using CCTV footage, but it still needs to be enhanced with the ability to predict the weight of the fish. Ensemble learning methods, chosen for their superior performance compared to individual models, are being used in this research to build a weight prediction model using images from the CCTV system. The ability to predict fish weight will provide the government with a method to verify whether the reported catches match what is caught at sea. From the tests conducted, the Catboost Regression algorithm demonstrated the best performance among all tested models. On the combined dataset with a 90:10 train-test split ratio, CatBoost achieved an  score of 0.986, MAE of 9.794, MSE of 293.493, and RMSE of 17.132. For the squid dataset with a 90:10 ratio, the metrics obtained were an  of 0.025, MAE of 18.451, MSE of 660.629, and RMSE of 25.702. Meanwhile, for the fish dataset with the same ratio, CatBoost showed excellent performance with an  of 0.980, MAE of 5.825, MSE of 146.713, and RMSE of 10.129. The best-performing model is the one with the fish dataset, achieving an MAE of 5.825, which translates to an error rate of 1.29% in the average weight of the fish weighed. These results indicate that Catboost Regression can predict fish weight with high accuracy compared to other regression models used on the dataset, with optimal data split ratio."
Depok: Fakultas Teknik Universitas Indonesia, 2024
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Angelica Octavia Kunardi
"Kualitas air Sungai Bengawan Solo saat ini tidak memenuhi baku mutu yang berlaku sehingga berpotensi menimbulkan dampak kesehatan dan ekonomi bagi masyarakat. Untuk mengantisipasi hal tersebut, penelitian ini bertujuan membangun model prediksi terhadap delapan parameter utama kualitas air, yaitu total fosfat, pH, DO, COD, BOD, TSS, nitrat, dan bakteri koli tinja. Dua metode yang digunakan adalah Random Forest dan XGBoost, dengan dua skenario: skenario awal menggunakan seluruh parameter sebagai input, dan skenario kedua menggunakan parameter terpilih berdasarkan analisis interpretabilitas SHAP. Hasil evaluasi menunjukkan bahwa model dengan parameter terpilih menghasilkan prediksi yang lebih akurat. Secara umum, Random Forest menunjukkan performa lebih baik dibandingkan XGBoost, kecuali pada parameter total fosfat dan bakteri koli tinja. XGBoost lebih mampu menangkap pola interaksi kompleks, namun Random Forest memberikan hasil yang lebih stabil dan akurat secara keseluruhan. Temuan ini mendukung literatur sebelumnya yang menekankan pentingnya pemilihan fitur dalam meningkatkan kinerja model prediksi kualitas air secara jangka panjang. Selain itu, analisis SHAP juga mengungkap bahwa total fosfat merupakan parameter kunci yang memengaruhi banyak parameter lainnya sehingga perlu mendapat perhatian lebih dalam pengelolaan kualitas air sungai.

The water quality of the Bengawan Solo River currently does not meet established quality standards, potentially leading to adverse health and economic impacts for local communities. To address this issue, this study aims to develop a predictive model for eight key water quality parameters: total phosphate, pH, DO, COD, BOD, TSS, nitrate, and fecal coliform bacteria. Two methods are employed: Random Forest and XGBoost, under two scenarios. The first utilizing all parameters as input, and the second using selected parameters based on SHAP interpretability analysis. The evaluation results indicate that the model using selected parameters yields more accurate predictions. Overall, Random Forest outperforms XGBoost, except in predicting total phosphate and fecal coliform, where XGBoost shows better results. While XGBoost is more effective in capturing complex interaction patterns, Random Forest delivers more stable and accurate predictions overall. These findings reinforce previous literature emphasizing the importance of feature selection in enhancing the long-term performance of water quality prediction models. Furthermore, the SHAP analysis highlights total phosphate as a key parameter influencing several others, underscoring the need for greater attention to its management in river water quality monitoring.
"
Depok: Fakultas Teknik Universitas Indonesia, 2025
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library