Hasil Pencarian  ::  Simpan CSV :: Kembali

Hasil Pencarian

Ditemukan 208409 dokumen yang sesuai dengan query
cover
Valery Ongso Putri
"Ketidakseimbangan data merupakan masalah umum yang terjadi dalam bidang analisis data. Data menjadi tidak seimbang karena terdapat perbedaan antara jumlah sampel pada setiap kelasnya. Masalah ketidakseimbangan ini menyebabkan model klasifikasi menjadi bias, dimana model akan cenderung memprediksi kelas mayoritas secara efektif dibandingkan dengan kelas minoritas dan dapat menyebabkan kesalahan interpretasi dalam pengambilan suatu keputusan. Terdapat beberapa cara dalam menangani data yang tidak seimbang, yaitu random undersampling dan random oversampling. Salah satu metode dari random oversampling yang populer adalah Synthetic Minority Oversampling Technique (SMOTE). SMOTE dapat digabungkan dengan metode random undersampling, yaitu Edited Nearest Neighbors (ENN) dan Tomek link. Pada metode gabungan SMOTE-ENN dan SMOTE-Tomek link, SMOTE bekerja terlebih dahulu dengan membuat sampel sintetis pada kelas minoritas. ENN dan Tomek link berperan sebagai cleaning untuk menghapus data yang tidak relevan dan dianggap sebagai noise. Untuk melihat pengaruh ketiga metode resampling tersebut, yaitu SMOTE, SMOTEENN, dan SMOTE-Tomek Link, dilakukan simulasi data. Simulasi data dapat melihat pengaruh ukuran sampel, ukuran proporsi kelas, dan metode resampling terhadap model klasifikasi decision tree, random forest, dan XGBoost pada data yang tidak seimbang. Simulasi data juga dijalankan sebanyak 100 iterasi yang menunjukkan bahwa iterasi pertama cukup untuk mewakili hasil dari 100 iterasi. Hasil menunjukkan bahwa ketiga metode cenderung mampu memberikan hasil yang baik dengan adanya peningkatan nilai metrik precision, recall, ROC-AUC, dan G-Mean. Metode SMOTE dengan XGBoost bekerja dengan baik pada ukuran sampel kecil dengan adanya peningkatan nilai metrik yang cukup signifikan. Pada SMOTE-ENN, nilai recall cenderung meningkat yang diikuti oleh menurunnya nilai precision pada proporsi 1:9, 2:8, dan 3:7 dengan sampel yang relatif kecil. SMOTE-Tomek Link juga meningkatkan nilai metrik pada sampel yang relatif kecil dengan proporsi memberikan nilai metrik tertinggi.

Data imbalance is a common problem that occurs in the field of data analysis. The data becomes unbalanced because there is a difference between the number of samples in each class. This imbalance problem causes the classification model to be biased, where the model will tend to predict the majority class effectively compared to the minority class and can cause misinterpretation in making a decision. There are several ways to handle imbalanced data, namely random undersampling and random oversampling. One of the popular random oversampling methods is Synthetic Minority Over-sampling Technique (SMOTE). SMOTE can be combined with random undersampling methods, namely Edited Nearest Neighbors (ENN) and Tomek link. In the combined SMOTE-ENN and SMOTE-Tomek link method, SMOTE works first by creating a synthetic sample in the minority class. ENN and Tomek link act as cleaning to remove irrelevant data and are considered as noise. To see the effect of the three resampling methods, namely SMOTE, SMOTE-ENN, and SMOTE-Tomek Link, data simulation was conducted. Data simulation can see the effect of sample size, class proportion size, and resampling method on decision tree, random forest, and XGBoost classification models on imbalanced data. The data simulation was also run for 100 iterations which shows that the first iteration is sufficient to represent the results of 100 iterations. The results show that the three methods tend to be able to provide good results with an increase in the precision, recall, ROC-AUC, and G-Mean metric values. The SMOTE method with XGBoost works well on small sample sizes with a significant increase in metric values. In SMOTE-ENN, the recall value tends to increase followed by a decrease in precision value at proportions 1:9, 2:8, and 3:7 with relatively small samples. SMOTE-Tomek Link also increases the metric value on relatively small samples with proportions of 1:9 and 2:8. In addition, the resampling method was also used on data available on Kaggle.com, namely Pima Indian Diabetes and Give Me Some Credit:: 2011 Competition. In the Pima Indian Diabetes data, it can be seen that the recall, ROC-AUC, and G-Mean values are the highest using SMOTE-ENN with the XGBoost model. On the Give Me Some Credit:: 2011 Competition also shows that the SMOTE-ENN method with the XGBoost model provides the highest metric value."
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2023
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Kesia Gabriele
"Support Vector Machine (SVM) merupakan model klasifikasi yang dikenal dengan keakuratan klasifikasi yang tinggi. Namun, Support Vector Machine (SVM) menghasilkan hasil klasifikasi yang kurang optimal jika data yang digunakan tidak seimbang (imbalanced data). Terdapat beberapa cara dalam menangani data yang tidak seimbang, salah satunya dengan metode resampling. Metode resampling sendiri terbagi dalam dua pendekatan yaitu over-sampling dan under-sampling. Salah satu pendekatan over-sampling yang popular adalah Synthetic Minority Over-sampling Technique (SMOTE). SMOTE bekerja dengan membangkitkan sampel sintetis pada kelas minoritas. Untuk meningkatkan kinerja model, SMOTE dapat digabungkan dengan pendekatan under-sampling seperti Edited Nearest Neighbors (ENN) dan Cluster-based Undersampling Technique (CUT). Dalam kombinasinya dengan SMOTE, ENN berperan sebagai cleaning untuk menghapus data sintetis dari penerapan SMOTE yang tidak relevan dan dianggap sebagai noise. Sementara, CUT beperan dalam mengidentifikasi sub-kelas dari kelas mayoritas untuk menekan angka over-sampling sekaligus meminimalisir hilangnya informasi penting pada kelas mayoritas selama proses undersampling. Kombinasi over-sampling dan under-sampling ini saling melengkapi dan mengatasi kekurangan dari masing-masing metode. Penelitian ini memfokuskan perbandingan performa metode resampling SMOTE beserta variasinya, yaitu SMOTEENN dan SMOTE-CUT dalam mengklasifikasikan data multi-kelas yang tidak seimbang menggunakan Support Vector Machine. Dari analisis yang dilakukan, diperoleh kesimpulan bahwa SMOTE-CUT cenderung menghasilkan performa klasifikasi yang lebih baik dibandingkan dengan SMOTE ataupun SMOTE-ENN. Walaupun demikian, keseluruhan metode resampling (SMOTE, SMOTE-ENN, dan SMOTE-CUT) mampu meningkatkan kinerja dari model klasifikasi Support Vector Machine (SVM).

Support Vector Machine (SVM) is popular classfier that is known for its high accuracy value. However, Support Vector Machine (SVM) may not perform well on imbalanced datasets. There are several ways to handle imbalanced data, one of them is through resampling methods. Resampling methods itself divided into two approaches, oversampling and under-sampling. One of the popular over-sampling methods is Synthetic Minority Over-sampling Technique (SMOTE). SMOTE works by generating synthetic samples for the minority class. SMOTE can be combined with under-sampling methods such as Edited Nearest Neighbors (ENN) or Cluster-based Under-sampling Technique (CUT). In combination with SMOTE, ENN acts as a cleaning role to remove synthetic data generated from SMOTE application that is not relevant and considered as noise. Meanwhile, CUT plays a role in identifying sub-class form the majority class to reduce over-sampling while minimizing the loss of important information in the majority class during the under-sampling process. The combination of over-sampling and undersampling is needed to complement and overcome the weakness of each method. This research mainly focuses on comparing the performance of the resampling method SMOTE and its variations, SMOTE-ENN and SMOTE-CUT, in classifying multi-class imbalanced data using Support Vector Machine. From the analysis conducted, it was concluded that data with resampling SMOTE-CUT shows better classification performance compare to data with resampling SMOTE or SMOTE-ENN. However, any resampling method (SMOTE, SMOTE-ENN, and SMOTE-CUT) can handle imbalanced data and improve Support Vector Machine performance."
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2024
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Devina Christianti
"Klasifikasi adalah proses menugaskan satu set data ke dalam kelas yang ada berdasarkan nilai setiap atribut. Pengklasifikasi pohon keputusan diklaim lebih cepat dan berproduksi akurasi yang lebih baik. Namun, ia memiliki beberapa kelemahan di mana pengklasifikasi rentan untuk overfitting. Overfitting adalah suatu kondisi di mana model tidak mampu menarik kesimpulan data baru dengan cara yang benar. Overfitting di pohon keputusan dapat dihindari dengan memotong subtree pengaruh kecil dalam melakukan klasifikasi ketika pohon ditanam, disebut post-pruning, yang bertujuan untuk meningkatkan kinerja model dalam memprediksi data.
Tesis ini mengusulkan metode pasca pemangkasan dengan menerapkan Risiko Bayes, di mana estimasi risiko setiap simpul induk dibandingkan dengan simpul daunnya. Sebagai perbandingan, pemangkasan pasca lainnya Metode yang diterapkan, yaitu Reduced Error Pruning (REP). Kedua metode tersebut diterapkan untuk tiga dataset klasifikasi churn pelanggan dari situs Kaggle dan IBM Datasets. Untuk hasilnya, Bayes Risk Post-Pruning dapat meningkatkan kinerja Decision Tree lebih baik dari Reduced Error Pruning dengan meningkatkan nilai akurasi, presisi, dan daya ingat. Kedua metode juga diterapkan pada tiga proporsi berbeda untuk data pelatihan (60%, 70% dan 80%). Hasilnya menunjukkan bahwa semakin besar ukuran dataset pelatihan dikaitkan akurasi, presisi, dan daya ingat model yang lebih tinggi.

Classification is the process of assigning a set of data to an existing class based on the value of each attribute. Decision tree classifiers are claimed to be faster and produce better accuracy. However, it has several disadvantages where the classifier is prone to overfitting. Overfitting is a condition in which the model is unable to draw new data conclusions in the right way. Overfitting in the decision tree can be avoided by cutting the subtree of small influence in classifying when the tree is planted, called post-pruning, which aims to improve the performance of the model in predicting data.
This thesis propose a post-pruning method by applying Bayes Risk, where the estimated risk of each parent node is compared to the leaf node. As a comparison, other post pruning methods are applied, namely Reduced Error Pruning (REP). Both methods are applied for three customer churn classification datasets from the Kaggle site and IBM Datasets. For the results, Bayes Risk Post-Pruning can improve Decision Tree performance better than Reduced Error Pruning by increasing the value of accuracy, precision, and memory. Both methods are also applied to three different proportions for training data (60%, 70% and 80%). The results show that the greater the size of the training dataset is associated with higher model accuracy, precision, and recall.
"
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2019
S-Pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Astria Kurniawan Sumantri
"Resolusi koreferensi merupakan suatu proses yang dilakukan untuk mengetahui hubungan antara suatu entitas bernama atau kata ganti dengan entitas bernama lainnya dalam suatu teks. Hubungan tersebut dapat diketahui berdasarkan informasi kelas kata, kelas nama, kesamaan karakter penyusun kata, dan letak entitas bernama atau kata ganti tersebut dalam suatu teks. Penelitian ini membandingkan penerapan resolusi koreferensi menggunakan pendekatan machine learning dengan metode decision tree, maximum entropy, dan association rules. Penelitian dilakukan untuk mengetahui metode mana yang lebih baik untuk diaplikasikan pada tugas resolusi koreferensi untuk Bahasa Indonesia. Selain itu penelitian ini dilaksanakan untuk mengetahui efektifitas penggunaan fitur pada resolusi koreferensi untuk Bahasa Indonesia. Tujuan lainnya adalah mengetahui berapakah jumlah dokumen pelatihan yang diperlukan untuk masing-masing metode sehingga sistem memberikan hasil yang optimal. Uji coba dilakukan menggunakan 500 dokumen yang dikumpulkan dari Kompas Online (www.kompas.com). Secara umum, nilai recall metode decision tree lebih tinggi dari metode yang lain. Hasil uji coba memperlihatkan bahwa association rules menghasilkan kinerja yang paling baik dengan F-measure sebesar 81,36% yang diamati pada jumlah dokumen pelatihan 300 dan menggunakan semua fitur. Metode decision tree mencapai kestabilan pada jumlah dokumen 50. Metode maximum entropy mencapai kestabilan pada jumlah dokumen 70, sedangkan metode association rules mencapai kestabilan saat jumlah dokumen 90. Pada metode decision tree dan maximum entropy, kombinasi fitur minimum yang memberikan hasil terbaik adalah kombinasi fitur yang berhubungan dengan kesamaan karakter penyusun frase. Sedangkan untuk metode association rules, kombinasi fitur yang berhubungan dengan kesamaan karakter penyusun frase dan kombinasi fitur kelas nama merupakan kombinasi yang memberikan hasil terbaik."
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2007
S-Pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Gregorius Vidy Prasetyo
"ABSTRAK
Pada permasalahan seperti kesehatan atau dunia retail banyak dijumpai data-data yang memiliki kategori yang tidak seimbang. Sebagai contoh jumlah penderita penyakit tertentu relatif langka pada suatu studi atau jumlah transaksi yang terkadang merupakan transaksi palsu (fraud) jumlahnya secara signifikan lebih sedikit ketimbang transaksi normal. Kondisi ini biasa disebut sebagai kondisi data tidak seimbang dan menyebabkan permasalahan pada performa model, terutama pada kelas minoritas. Beberapa metode telah dikembangkan untuk mengatasi permasalahan data tidak seimbang, salah satu metode terkini untuk menanganinya adalah Easy Ensemble. Easy Ensemble diklaim dapat mengatasi efek negatif dari pendekatan konvensional seperti random-under sampling dan mampu meningkatkan performa model dalam memprediksi kelas minoritas. Skripsi ini membahas metode Easy Ensemble dan penerapannya dengan model Random Forest dalam mengatasi masalah data tidak seimbang. Dua buah studi empiris dilakukan berdasarkan kasus nyata dari situs kompetisi hacks.id dan kaggle.com. Proporsi kategori antara kelas mayoritas dan minoritas pada dua data di kasus ini adalah 70:30 dan 94:6. Hasil penelitian menunjukkan bahwa metode Easy Ensemble, dapat meningkatkan performa model klasifikasi Random Forest terhadap kelas minoritas dengan signifikan. Sebelum dilakukan resampling pada data (nhacks.id), nilairecall minority hanya sebesar 0.47, sedangkan setelah dilakukan resampling, nilainya naik menjadi 0.82. Begitu pula pada data kedua (kaggle.com), sebelum resampling nilai recall minority hanya sebesar 0.14, sedangkan setelah dilakukan resampling, nilai naik secara signifikan menjadi 0.71.

ABSTRACT
In the real world problem, there is a lot case of imbalanced data. As an example in medical case, total patients who suffering from cancer is much less than healthy patients. These condition might cause some issues in problem definition level, algorithm level, and data level. Some of the methods have been developed to overcome this issues, one of state-of-the-art method is Easy Ensemble. Easy Ensemble was claimed can improve model performance to classify minority class moreover can overcome the deï¬?ciency of random under-sampling. In this thesis discussed the implementation of Easy Ensemble with Random Forest Classifers to handle imbalance problem in a credit scoring case. This combination method is implemented in two datasets which taken from data science competition website, nhacks.id and kaggle.com with class proportion within majority and minority is 70:30 and 94:6. The results show that resampling with Easy Ensemble can improve Random Forest classifier performance upon minority class. This been shown by value of recall on minority before and after resampling which increasing significantly. Before resampling on the first dataset (nhacks.id), value of recall on minority is just 0.49, but then after resampling, the value of recall on minority is increasing to 0.82. Same with the second dataset (kaggle.com), before the resampling, value of recall on minority is just 0.14, but then after resampling, the value of recall on minority is increasing significantly to 0.71."
2019
S-Pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Irfan Muhammad Al-Farisy
"Machine learning atau pembelajaran mesin merupakan sebuah metode yang sudah tidak asing lagi didengar. Akhir-akhir ini pembelajaran mesin sering digunakan untuk menyelesaikan masalah kebencanaan, khususnya pada pembuatan peta likuefaksi. Pembelajaran mesin akan memprediksi daerah-daerah yang memiliki potensi likuefaksi dari rendah hingga ke tinggi. Pada penelitian ini, metode pembelajaran mesin yang akan digunakan adalah Decision Tree dan Random Forest, dan beberapa algoritma lain sebagai pembanding dari 2 algoritma sebelumnya. Likuefaksi dipengaruhi oleh seismisitas atau magnitudo terjadinya gempa pada suatu wilayah. Pada penelitian ini digunakan 2 magnitudo sebagai pembanding yaitu magnitudo 6 dan magnitudo 7.5. Selain itu di penelitian ini digunakan 4 peta prediktor sebagai fitur-fitur input yaitu PGA (Peak Ground Acceleration), MAT (muka air tanah), Slope (kemiringan lereng) dan Vs30 (kecepatan gelombang geser). Penelitian ini mengambil 33 titik pengambilan sampel untuk melatih model pembelajaran mesin ini. Untuk nilai akurasi dari masing-masing algoritma yaitu menggunakan confusion matrix untuk membandingkan performa dari model DT dan RF.

Machine learning is a method that is already familiar to hear. Lately, machine learning is often used to solve disaster problems, especially in making liquefaction maps. Machine learning will predict areas that have the potential for liquefaction from low to high. In this study, the machine learning methods that will be used are Decision Tree and Random Forest, and several other algorithms as a comparison of the previous 2 algorithms. Liquefaction is influenced by the seismicity or magnitude of the earthquake in an area. In this study, 2 magnitudes were used as comparison, namely magnitude 6 and magnitude 7.5. In addition, this study uses 4 predictor maps as input features, namely PGA (Peak Ground Acceleration), MAT (ground water level), Slope (slope) and Vs30 (shear wave velocity). This study took 33 sampling points to train this machine learning model. For the accuracy value of each algorithm, it uses a confusion matrix to compare the performance of the DT and RF models.
"
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2021
S-Pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Risfania Nurdinda Sari
"COVID-19 adalah penyakit yang disebabkan oleh virus SARS-CoV-2 dan menyerang sistem pernapasan manusia. Selain menganggu kesehatan fisik, pandemi COVID-19 juga memberikan dampak psikologis, salah satunya adalah tingkat stres yang meningkat pada masyarakat. Penelitian ini bertujuan untuk mengidentifikasi faktor-faktor yang berasosiasi dengan tingkat stres pada pandemi COVID-19. Dalam mencapai tujuan tersebut, penelitian ini menggunakan metode classification tree dan regresi logistik multinomial. Sebelum melakukan proses identifikasi faktor menggunakan classification tree, dilakukan penanganan masalah imbalance data menggunakan metode SMOTE. Selanjutnya, dilakukan kuantifikasi risiko faktor-faktor yang teridentifikasi pada classification tree menggunakan analisis regresi logistik multinomial. Kinerja model diukur menggunakan nilai precision, recall, F1-Score, dan AUC. Hasil yang diperoleh adalah model classification tree dengan penanganan imbalance data menggunakan SMOTE dapat meningkatkan kinerja model dengan nilai precision 0,5980, nilai recall 0,8653, nilai F1-Score 0,7072, dan AUC 0,702. Dengan model tersebut, didapatkan faktor-faktor yang teridentifikasi berasosiasi dengan tingkat stres pada pandemi COVID-19 adalah Total_OECDInsititutions, Total_CoronaConcerns, dan Age. Peningkatan nilai Corona Concerns cenderung memberikan risiko peningkatan tingkat stres, sedangkan peningkatan nilai OECDInsititutions dan Age cenderung memberikan risiko penurunan tingkat stres.

COVID-19 is a disease caused by the SARS-CoV-2 virus that attacks the human respiratory system. In addition to disrupting physical health, the COVID-19 pandemic also has psychological impacts, one of which is an increased level of stress. This study aims to identify factors associated with the level of stress during the COVID-19 pandemic. The study employs the classification tree method and multinomial logistic regression. Prior to the factor identification process using the classification tree, the issue of imbalanced data is addressed using the SMOTE method. Subsequently, the quantification of risk factors identified in the classification tree is conducted using multinomial logistic regression analysis. The model's performance is measured using precision, recall, F1-score, and AUC values. The results obtained indicate that the classification tree model with the handling of imbalanced data using SMOTE can improve model performance, with a precision value of 0,5980, recall value of 0,8653, F1-score value of 0,7072, and AUC value of 0,702. With this model, the identified factors associated with the level of stress during the COVID-19 pandemic are Total_OECDInstitutions, Total_CoronaConcerns, and Age. An increase in Corona Concerns tends to pose a risk of increased stress levels, while an increase in OECD Institutions and Age tends to pose a risk of decreased stress levels."
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2023
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Indah Nursanti
"Karya ilmiah ini membahas perhitungan kelayakan dalam menjalani suatu proyek, pemilihan proyek serta pengaruh perubahan nilai komponen-komponen dalam perhitungan kelayakan dari sepuluh proyek yang dimiliki oleh PT Infomedia Nusantara pada bulan Maret 2014.Sebagai pedoman untuk PT Infomedia Nusantara dalam menjalankan usahanya pada tahun-tahun mendatang, sehingga perusahaan dapat memaksimalkan nilai perusahaan. Metode yang digunakan untuk perhitungan kelayakan proyek dan pemilihan proyek adalah dengan menggunakan discounted cash flow yang menghasilkan perhitungan NPV, IRR, PI serta PP. Sedangkanmetode yang digunakan untuk perubahan nilai komponen- komponen dalam perhitungan kelayakan menggunakan scenario analisis. Dan penggunaan optimasi portofolio untuk melihat proyek-proyek yang optimum. Hasil perhitungan penelitian ini menyimpulkan bahwa hany aterdapat tujuh projek yang sesuai dengan klasifikasi perusahaan.Sedangkan untuk perubahan nilai komponen, sebaiknya perusahaan memperhatikan komponen biaya sumber daya manusia.

This thesis explores the feasibility in carrying a project, the selection of projects and the effects of changes in the components of the calculation for the feasibility from ten projects are owned by PT Infomedia Nusantara on March 2014, as a guideline for PT Infomedia Nusantara business in the coming years, so that the company can maximize its value. The method use for the calculation of project feasibility and project selection is to use a discounted cash flow calculation that generates NPV, IRR, PI and PP.The calculation for feasibility uses scenario analysis. Portfolio Optimization uses for analyzing the optimum projects. The results of this study conclude that there are only seven projects in accordance with the classification of the company. While the change in the feasibility studies component, companies should pay attention to human resource cost components.
"
Depok: Fakultas Ekonomi dan Bisnis Universitas Indonesia, 2014
T-Pdf
UI - Tesis Membership  Universitas Indonesia Library
cover
Aryo Hastungkoro Harimurti Mukarta
"Dalam melakukan klaim subrogasi, perusahaan penjaminan kredit sering mengalami kendala di mana pihak yang dijamin tidak melunasi pinjamannya sesuai kesepakatan. Hal ini membuat perusahaan penjaminan kredit mengklasifikasikan pihak terjamin yang berpotensi untuk melunasi pinjaman kreditnya, dan pihak terjamin yang tidak berpotensi untuk melunasi pinjaman kreditnya. Penelitian ini mengevaluasi prediksi potensi klaim subrogasi pada penjaminan kredit menggunakan berbagai model pembelajaran mesin berdasarkan data dunia nyata dari perusahaan penjaminan kredit besar di Indonesia. Eksperimen menggunakan Logistic Regression, sebuah metode prediksi berbasis persamaan linier, Penalized Logistic Regression, bentuk dari Logistic Regression yang koefisien-koefisiennya diberikan penalti, dan Random Forest Classifier, sebuah metode berbasis ensemble learning. Model diuji menggunakan Hold-out Validation dan data prediksi dibandingkan dengan data uji untuk false positive dan false negative. Hasil penelitian menunjukkan bahwa Random Forest Classifier memberikan hasil yang lebih baik, menunjukkan kinerja rata-rata yang lebih baik dibandingkan dengan Logistic Regression dan Penalized Logistic Regression . Temuan studi ini dapat digunakan oleh analis klaim dan subrogasi baik dari perusahaan penjaminan kredit maupun peneliti independen dalam menilai kekuatan dan kelemahan masing-masing model dan untuk menyusun aturan keputusan yang efektif secara empiris untuk mengevaluasi kebijakan subrogasi.

In making subrogation claims, credit guarantee companies often encounter problems where the guaranteed party does not pay off their loan according to the agreement. This makes credit guarantee companies classify those who have the potential to pay off their credit loans, or those that are not potential to pay off their credit loans. This study evaluates the prediction of potential subrogation claims in credit guarantees using various machine learning models based on real-world data from a large credit guarantee company in Indonesia. The experiment used Logistic Regression, a linear equation-based prediction method, Penalized Logistic Regression, a form of Logistic Regression whose coefficients are penalized, and the Random Forest Classifier, an ensemble learning-based method. The model was tested using Hold-out Validation and prediction dataset were compared to test dataset for false positives and false negatives. The results showed that the Random Forest Classifier gave better results, indicating a better average performance compared to Logistic Regression and Penalized Logistic Regression. The findings of this study can be used by claims and subrogation analysts from both credit guarantee companies and independent researchers in assessing the strengths and weaknesses of each model and to construct empirically effective decision rules for evaluating subrogation policies."
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2022
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Esti Latifah
"ABSTRAK
Klasifikasi merupakan proses pengelompokan suatu himpunan data ke kelas-kelas yang sudah ada sebelumnya. Pada umumnya, himpunan data dibagi menjadi dua bagian, yaitu training data dan testing data. Dibutuhkan suatu metode klasifikasi yang dapat mengelompokkan training data dan testing data ke dalam suatu kelas dengan tepat. Sering kali metode klasifikasi hanya dapat mengelompokkan training data dengan tepat saja, namun tidak demikian untuk testing data. Artinya, model yang terbentuk tidak cukup stabil atau model tersebut mengalami overfitting. Secara umum, overfitting merupakan kondisi saat akurasi yang dihasilkan pada training data cukup tinggi, namun cenderung tidak mampu memprediksi testing data. Penentuan metode klasifikasi yang rentan terhadap overfitting perlu dipertimbangkan. Random forest merupakan salah satu metode klasifikasi yang rentan terhadap masalah overfitting. Hal tersebut sekaligus menjadi salah satu kelebihan dari metode random forest. Oleh karena itu, pada tugas akhir ini akan dibahas metode random forest serta mengaplikasikannya pada data penderita penyakit Parkinson yang dibagi berdasarkan 2 sub-tipe, yaitu tremor dominant TD dan postural instability gait difficulty PIGD dominant. Selanjutnya, dari data tersebut diperoleh hasil akurasi model yang dihasilkan dalam mengklasifikasi training data, yaitu sekitar 94,25 . Sementara itu, akurasi metode ini dalam melakukan klasifikasi pada data yang tidak terkandung dalam membentuk model sebesar 94,26.

ABSTRACT
Classification is the process of grouping a set of data into pre existing classes. In general, the data set is divided into two parts. There are training data and testing data. It takes a classification method that can classify both training data and testing data of its class appropriately. However, some of the classification methods only fit in training data, but it can not apply in testing data. It means that the model is unstable or the model occurs overfitting. In general, overfitting is a condition when the model too fit in training, but unable to predict testing data. In other words, the accuracy of predicting the testing data is decreasing. Therefore, the determination of classification methods that are vulnerable to overfitting need to be considered. Random forest is one of the classification methods that is vulnerable to overfitting. It is also one of the advantages of the random forest method. Therefore, in this final project will be discussed random forest method and applying it to the data of Parkinson 39 s disease patients that is divided by 2 sub types. There are dominant tremor TD and postural instability gait difficulty PIGD dominant. Furthermore, from the data obtained the results of model accuracy in classifying the training data is about 94.25 . Meanwhile, the accuracy of this method in classifying the data not contained in forming a model is about 94.26."
2018
S-Pdf
UI - Skripsi Membership  Universitas Indonesia Library
<<   1 2 3 4 5 6 7 8 9 10   >>