Hasil Pencarian  ::  Simpan CSV :: Kembali

Hasil Pencarian

Ditemukan 8 dokumen yang sesuai dengan query
cover
Finkan Danitasari
Abstrak :
Bidirectional Long-Short Term Memory (BiLSTM) yang merupakan perpanjangan dari LSTM dimana dapat meningkatkan efisiensi model dan akurasi pada skenario klasifikasi berdasarkan time series data atau data deret waktu yang lebih panjang secara berulang. Penelitian ini menggunakan algoritma BiLSTM untuk membangun model prakiraan cuaca harian di Bandar Udara Internasional Soekarno-Hatta. Set data yang digunakan adalah data parameter cuaca udara permukan (synoptic) per jam Stasiun Meteorologi Kelas 1 Soekarno-Hatta periode Januari 2018 – Desember 2022. Terjadi ketidakseimbangan pada set data maka digunakan teknik SMOTE dan ADASYN untuk menangani masalah tersebut. Output penelitian ini adalah kondisi cuaca yang dikategorikan menjadi cerah, cerah berawan, berawan, hujan ringan, hujan sedang, hujan lebat, dan hujan petir. Hasil yang diperoleh akan melalui verifikasi dan evaluasi model dengan mencari nilai akurasi dengan membandingkan prakiraan cuaca hasil output model dengan data cuaca aktual menggunakan tabel kontingensi multikategori. Setelah mendapatkan hasil perbandingan akurasi masing-masing model, diperoleh Model BiLSTM – ADASYN mendapatkan nilai akurasi rata-rata tertinggi dibandingkan model lainnya, yaitu sebesar 83,2%. Penelitian ini diharapkan dapat diimplementasikan dan mampu menaikan nilai verifikasi prakiraan cuaca Bandar Udara Soekarno-Hatta demi mendukung keselamatan penerbangan di Indonesia. ......Bidirectional Long-Short Term Memory (BiLSTM) which is an extension of LSTM which can improve model efficiency and accuracy in classification scenarios based on time series data or longer time series data repeatedly. This study uses the BiLSTM algorithm to build a daily weather forecast model at Soekarno-Hatta International Airport. The data set used is hourly synoptic weather parameter data for Class 1 Soekarno-Hatta Meteorological Station for the period January 2018 – December 2022. There was an imbalance in the data set, so the SMOTE and ADASYN techniques were used to deal with the problem. The output of this research is weather conditions which are categorized into sunny, sunny, cloudy, cloudy, light rain, moderate rain, heavy rain, and thunderstorms. The results obtained will go through model verification and evaluation by looking for accuracy values ​​by comparing the weather forecast output model results with actual weather data using multi-category contingency tables. After getting the results of comparing the accuracy of each model, it was obtained that the BiLSTM – ADASYN model had the highest average accuracy value compared to other models, which was 83.2%. This research is expected to be implemented and able to increase the value of weather forecast verification at Soekarno-Hatta Airport in order to support flight safety in Indonesia.
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2023
T-pdf
UI - Tesis Membership  Universitas Indonesia Library
cover
Doni Pradana
Abstrak :
Customer churn merupakan masalah serius di banyak sektor, termasuk sektor telekomunikasi. Pengertian costumer churn adalah berhentinya penggunaan suatu layanan dan beralih ke penyedia lain atau tidak memperbarui kontrak. Untuk mengatasi risiko churn, perusahaan telekomunikasi perlu menggunakan model prediksi dengan bantuan metode machine learning. Terdapat beberapa model prediksi churn yang telah diajukan oleh para peneliti, termasuk pemilihan algoritma yang sesuai dan dataset untuk studi kasus. Pada tesis ini menggunakan dataset IBM Telco Customer Churn sebagai data pelatihan dan pengujian. Tantangan umum dalam klasifikasi adalah ketidakseimbangan data, yang dapat menyebabkan kegagalan dalam memprediksi kelas minoritas. Oleh karena itu, tesis ini menggunakan beberapa teknik augmentasi data seperti SMOTE, HAT, dan CVAE, sebagai teknik dalam menyeimbangkan data. Pembelajaran ensembel khususnya metode CART (Classification and Regression Tree) sering digunakan untuk menyelesaikan permasalahan klasifikasi dan regresi. Model Adaboost adalah algoritma pembelajaran ensemble yang menggunakan pohon keputusan sebagai dasar pembelajaran. Dalam pelatihan model Adaboost, Bayesian Optimization (BO) digunakan sebagai metode pencarian hyperparameter terbaik. Dari hasil percobaan dan pengujian yang diajukan, model Adaboost dapat memberikan nilai testing f1-score dan recall sebesar 0,661 dan 0,653 pada pelatihan dengan dataset tidak seimbang. Model Adaboost-SMOTE mempunyai nilai testing f1-score dan recall sebesar 0,646 dan 0,826. Penggunaan optimasi Bayesian Optimization pada model Adaboost-SMOTE dapat menaikkan testing f1-score dan recall menjadi 0,649 dan 0,849. Tes ANOVA dan Tukey HSD mengungkapkan variasi yang signifikan dalam hasil pelatihan dari model machine learning, dan menyoroti dampak penggunaan data seimbang dalam pelatihan model yang signifikan. ......Customer churn is a severe problem in various sectors, including telecommunications. Customer churn refers to discontinuing the service, switching to another provider, or not renewing the contract. To deal with churn risk, telecommunication companies need to use predictive models with the help of machine learning methods. Several churn prediction models have been proposed by researchers, including the selection of suitable algorithms and data sets for case studies. In this thesis, research is conducted using the IBM Telco Customer Churn dataset. A common challenge in classification is data imbalance, which can lead to failure in predicting minority classes. Therefore, this thesis using several data augmentation techniques, such as SMOTE, HAT, and CVAE, for balancing data technique. Ensemble learning, especially the CART (Classification and Regression Tree) method, is often used to solve classification and regression problems. Adaboost is an ensemble learning algorithm that uses decision trees as the basis for learning. In the Adaboost model training, Bayesian Optimization (BO) is used to find the best hyperparameters. From the trials and tests carried out, Adaboost achieved an f1-score and recall test of 0.661 and 0.653, respectively, in training with an unbalanced dataset. The Adaboost SMOTE model achieved f1 and memory test scores of 0.646 and 0.826, respectively. Using Bayesian Optimization in the Adaboost SMOTE model increased the testing f1-score and recall scores to 0.649 and 0.849, respectively. ANOVA and Tukey HSD tests reveal significant variation in machine learning model training results and highlight the considerable impact of using balanced data in model training.
Depok: Fakultas Teknik Universitas Indonesia, 2023
T-pdf
UI - Tesis Membership  Universitas Indonesia Library
cover
Nedia Fia Indriana
Abstrak :
Penyakit Parkinson adalah penyakit neurodegeneratif kedua yang paling umum dan menyerang sekitar 2-3% populasi di atas 65 tahun di seluruh dunia. Salah satu gejala yang sering muncul pada penderita Parkinson adalah depresi. Depresi terjadi pada sekitar 40 - 50% penderita Parkinson dan sangat umum terjadi pada tahap awal perkembangan Penyakit Parkinson. Terdapat berbagai perbedaan dalam mengidentifikasi faktor-faktor risiko depresi dalam berbagai studi yang telah dilakukan dan belum diketahui mekanisme depresi secara rinci pada Penyakit Parkinson. Oleh karena itu, akan dilakukan identifikasi faktor-faktor risiko depresi dengan metode klasifikasi, yaitu metode Decision Tree dan regresi logistik. Namun, depresi sangat umum terjadi pada Penyakit Parkinson stadium awal sehingga dapat menimbulkan masalah data yang tidak seimbang, yaitu proporsi kelas tidak depresi yang terlalu kecil dibandingkan dengan proporsi kelas depresi. Hal ini mengakibatkan model klasifikasi yang dihasilkan memiliki tingkat kepekaan yang minimum terhadap kelas minoritas. Salah satu strategi rebalancing untuk mengatasi masalah kelas data tidak seimbang adalah SMOTE (Synthetic Minority Over-sampling TEchnique). Pada tugas akhir ini, akan dilakukan analisis data mengenai depresi pada penderita Parkinson stadium awal dengan metode decision tree, dimana data tidak seimbang akan diatasi dengan metode SMOTE. Kuantifikasi risiko untuk setiap faktor teridentifikasi akan dilakukan dengan regresi logistik. Performa model diukur dari nilai precision, recall, AUC, dan F1-score . Data sejumlah 257 penderita Parkinson stadium awal pada database Parkinson’s Progression Markers Initiative (PPMI) digunakan pada tugas akhir ini. Berdasarkan analisis, diperoleh secara keseluruhan faktor-faktor risiko penting yang berasosiasi dengan depresi pada penderita Parkinson stadium awal adalah kadar alpha synuclein (α-syn), jenis kelamin, skor SEADL (Schwab & England – Activities on Daily Living), skor STAI-State, binding ratio putamen pada bagian kiri otak, skor RBDSQ (REM Sleep Behavior Disorder-Questionnaire), dan umur saat terdiagnosis Parkinson. Model classification tree dengan rebalancing menggunakan SMOTE memberikan nilai akurasi, precision, recall, AUC dan F1-score masing – masing sebesar 95.18%, 0.9215, 0.9412, 0.949, dan 0.9312. Peningkatan kadar alpha synuclein (α-syn), perempuan, penurunan skor SEADL, penurunan skor STAI-State, penurunan binding ratio putamen pada bagian kiri otak, peningkatan skor RBDSQ, dan usia lebih tua saat terdiagnosis Parkinson secara rata-rata memiliki risiko lebih tinggi untuk terdiagnosis depresi pada Penderita Parkinson ......Parkinson's disease is the second-most common neurodegenerative disease and affects about 2-3% of the population over 65 years worldwide. One of the symptoms that often occurs in patients with Parkinson's is depression. Depression occurs in about 40-50% of Parkinson's sufferers and is very common in early stages of the development of Parkinson's Disease. Various difference in identifying risk factors for depression in various studies that have been conducted and the mechanism of depression is not yet known in detail in Parkinson's Disease. This study identifies risk factors for depression using decision tree and logistic regression methods. However, depression is common in early-stage Parkinson's disease causing unbalanced data problems, that is the proportion of non-depressed classes is too small compared to the proportion of depressed classes. This resulted in classification model having a minimum level of sensitivity to the minority class. One of rebalancing strategy to overcome the problem of unbalanced data classes is SMOTE (Synthetic Minority Over-sampling TEchnique). In this final project, data analysis on depression in patients with early stage Parkinson's was conducted using decision tree method, with SMOTE to handle imbalanced data. Risk quantification for each of the identified factors was carried out using logistic regression. Model performance is measured by the values of precision, recall, AUC, and F1-score. Data on 257 patients with early stage Parkinson's in the Parkinson's Progression Markers Initiative (PPMI) database were used in this final project. Based on the analysis, the overall important risk factors associated with depression in patients with early-stage Parkinson's are alpha synuclein (α-syn) levels, gender, SEADL (Schwab & England - Activities on Daily Living) scores, STAI-State scores , putamen binding ratio on the left side of the brain, RBDSQ (REM Sleep Behavior Disorder-Questionnaire) score, and age at diagnosis of Parkinson's. Classification tree model with rebalancing using SMOTE produced the accuracy, precision, recall, AUC and F1-score of 95.18%, 0.9215, 0.9412, 0.949, and 0.9312, respectively. Increased levels of alpha synuclein (α-syn), women, decreased SEADL scores, decreased STAI-State scores, decreased putamen binding ratio on the left side of the brain, increased RBDSQ score, and older age when diagnosed with Parkinson's on average have a higher risk for being diagnosed with depression in Parkinson's sufferers
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2020
S-Pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Adib Muhammad Prawirahutama
Abstrak :
Air merupakan sumber daya yang paling penting bagi kehidupan, oleh karena itu perlu diperhatikan dan dijaga kualitasnya. Dalam studi air, ML menawarkan banyak peluang untuk mengklasifikasikan kualitas air. Hasil akurasi klasifikasi kualitas air bergantung pada model yang digunakan, ukuran kumpulan data, dan parameter air yang digunakan untuk melatih model pembelajaran. Dalam makalah ini, model SVM, NB, DT, RF, dan CATBoost digunakan untuk memodelkan proses klasifikasi kualitas air. Metode feature selection: filter, wrapped, dan embeded akan dibandingkan, bersama dengan model dengan pemilihan parameter manual yang dipilih berdasarkan kemudahan pengukurannya. Menggunakan embedded feature selection dan DT classifier dengan SMOTE sebagai metode penyeimbangan kelas, model ini dapat mencapai akurasi 99,33%, presisi 99,43%, daya ingat 99,33%, dan skor F1 99,34%. Model untuk indikasi kualitas air secara realtime juga diperoleh dengan classifier CatBoost, dengan akurasi 92,31%, presisi 91,72%, recall 92,31%, dan skor F1 91,75%. ......Water is the most important resource for life, hence it’s quality needs to be checked and maintained. In water studies, ML offers numerous opportunities for classifying Water Quality (WQ) indicators. Results of WQ classification accuracy depend on the model used, the size of the data set, and the water parameters used to train the learning models. In this paper, SVM, NB, DT, RF, and CATBoost models are used to model a WQ classification. Filter, wrapped, and embedded feature selection methods will be compared, along with a model with a manual selection of parameters that are selected based on their ease of measurement. Using embedded feature selection and DT classifier with SMOTE as class balancing method, the model can achieve 99.33% accuracy, 99.43% precision, 99.33% recall, and 99.34% F1-score. Model for realtime water quality indication is also obtained with CatBoost classifier, it achieve 92.31% accuracy, 91.72% precision, 92.31% recall, and 91.75% F1-score.
Depok: Fakultas Teknik Universitas Indonesia, 2022
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Suci Fitriyani
Abstrak :
Analisis sentimen merupakan studi komputasi untuk menganalisis opini seseorang terhadap suatu entitas yang diekspresikan dalam sebuah teks. Tersedia cukup banyak model machine learning terutama deep learning yang dapat digunakan untuk melakukan analisis sentimen seperti Convolutional Neural Network (CNN) dan Bidirectional Long Short-Term Memory (BiLSTM). Pada dasarnya, model deep learning tidak dapat memproses langsung sebuah data dalam bentuk teks sehingga diperlukan metode untuk mentransformasi teks menjadi tensor numerik seperti word embedding. Pada penelitian ini, diajukan model gabungan CNN-BiLSTM dengan word embedding fastText untuk melakukan analisis sentimen. Model tersebut dilatih menggunakan data tweet berbahasa Indonesia tentang opini masyarakat mengenai rencana subsidi pembelian kendaraan listrik di Indonesia. Data tersebut diklasifikasikan menjadi sentimen positif, negatif, dan netral dan ditemukan bahwa komposisi dari ketiga sentimen tersebut tidaklah seimbang (imbalanced dataset) dimana kelas positif memiliki lebih sedikit data dibanding kelaskelas lainnya. Untuk mengatasi masalah tersebut, digunakan metode resampling SMOTE agar jumlah data pada kelas positif dapat mengimbangi kelas lainnya. Model fastTextCNN-BiLSTM diukur performanya dengan melihat nilai akurasi, precision, recall, dan f1-score. Dari hasil penelitian didapat bahwa model gabungan CNN-BiLSTM memberikan nilai akurasi, precision, recall, dan f1-score yang paling baik dibanding model CNN dan BiLSTM saja. Model-model yang menggunakan word embedding fastText juga memberikan performa yang lebih baik dibanding model tanpa fastText (menggunakan word embedding standar). Secara keseluruhan, model gabungan fastTextCNN-BiLSTM ditemukan memiliki performa yang lebih baik dibandingkan dengan model-model lainnya. ......Sentiment analysis is a computational study to analyze person’s opinion about an entity expressed in text. There are several machine learning models, especially deep learning models that can be used for sentiment analysis, such as Convolutional Neural Network (CNN) and Bidirectional Long Short-Term Memory (BiLSTM). Essentially, deep learning models cannot directly process textual data and they need a method to transform text into numerical tensors such as word embedding. In this research, a hybrid model CNN-BiLSTM with fastText word embedding is proposed for sentiment analysis. The model is trained using Indonesian tweets data regarding public opinions on the plan for subsidizing the purchase of electric vehicles in Indonesia. The data is classified into positive, negative, and neutral sentiments, and it is found that the composition of these sentiments is imbalanced, with the positive class having fewer data compared to the other classes. To address this issue, the SMOTE resampling method is used to balance the data in the positive class with the other classes. The performance of the fastText-CNNBiLSTM model is measured by accuracy, precision, recall, and f1-score. The research results show that the hybrid model CNN-BiLSTM achieves the highest accuracy, precision, recall, and f1-score compared to the single models CNN and BiLSTM. Models with fastText word embedding also outperform models without fastText (with standard word embedding). Overall, the hybrid model fastText-CNN-BiLSTM is found to outperform other models in terms of performance.
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2023
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Fiftitah Repfian Aszhari
Abstrak :

Stroke merupakan salah satu penyakit dengan risiko kematian dan kecacatan yang tinggi. Secara umum, stroke diklasifikasikan menjadi dua jenis, yaitu stroke iskemik dan stroke hemoragik. Klasifikasi jenis stroke secara cepat dan tepat diperlukan untuk menentukan jenis pengobatan dan tindakan yang tepat guna mencegah terjadinya dampak yang lebih fatal pada pasien stroke. Pada penelitian ini, klasifikasi stroke dilakukan menggunakan pendekatan machine learning. Adapun data penelitian yang digunakan adalah data stroke yang terdiri atas pemeriksaan laboratorium. Pada data penelitian tersebut, terdapat berbagai komponen pemeriksaan laboratorium yang dicatat serta memungkinkan adanya suatu pemeriksaan yang kurang relevan atau informatif dalam mengklasifikasi stroke. Apabila data tersebut tidak ditangani, akan mempengaruhi kinerja serta waktu komputasi model dalam mengklasifikasi stroke. Oleh karena itu, pada penelitian ini, Random Forest (RF) dengan seleksi fitur Recursive Feature Elimination (RFE) digunakan dalam mengklasifikasi data stroke. Dengan menerapkan metode tersebut, diperoleh kinerja model yang lebih baik saat melakukan klasifikasi menggunakan sejumlah fitur yang diperoleh dari hasil seleksi fitur, dibandingkan menggunakan keseluruhan fitur dalam data stroke. Selain itu, pada penerapan metode tersebut, diperoleh kinerja model yang baik dalam mengklasifikasi data kelas stroke iskemik, akan tetapi tidak cukup baik dalam mengklasifikasi data kelas stroke hemoragik. Hal ini dikarenakan proporsi jumlah data pada kelas stroke iskemik lebih banyak dibandingkan stroke hemoragik. Dalam hal ini dibutuhkan suatu metode penanganan agar kinerja model tetap optimal dalam mengklasifikasi data kelas stroke iskemik dan stroke hemoragik. Pada penelitian ini, Synthetic Minority Oversampling Technique (SMOTE) digunakan untuk menyeimbangkan kedua kelas data stroke guna memperoleh kinerja model yang optimal dalam mengklasifikasi kedua kelas data stroke. Berdasarkan penerapan metode RF dengan RFE serta SMOTE dalam mengklasifikasi data stroke, diperoleh kinerja model yang lebih baik dibandingkan melakukan klasifikasi pada data stroke yang tidak diseimbangkan dengan SMOTE.


Stroke is one of the diseases with the high risk of death and disability. Stroke generally can be classified into two types, namely ischemic stroke and hemorrhagic stroke. A quick and accurate stroke classification is needed to find the right treatment to prevent a dangerous effect on the stroke patients. In this study, the stroke classification was applied using a machine learning approach. The data used in this study is stroke data that consists of laboratory examinations. The data consists of various laboratory examination components, therefore, it might be possible that some of the components are less relevant and has less informative related in classifying stroke. If the data is not well handled, it might affect the performance and computation time of the model in classifying stroke. Therefore, in this study, Random Forest (RF) with Recursive Feature Elimination (RFE) method is used to classify the stroke data. The result showed that by applying the method in classifying several amounts of features obtained from the feature selection results has better performance rather than classifying the method using all features in stroke data. Moreover, based on applying this method, the result showed that the model has better performance in classifying ischemic stoke class data but not good enough in classifying hemorrhagic stroke class data. This result might occur because the proportion of numbers the ischemic stroke more than hemorrhagic stroke class data. Therefore, the handling method is needed to obtain optimal model performance in classifying ischemic stroke and hemorrhagic stroke class data. In this study, Synthetic Minority Oversampling Technique (SMOTE) is applied to balance the two classes of stroke data so optimal performance of the classification model can be obtained. Based on the application of the RF with RFE methods and SMOTE in the classification of stroke data, better model performance is obtained compared to classifying the stroke data that is not balanced with SMOTE.

Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2020
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Kheisya Amanda
Abstrak :
Dalam industri perbankan, penilaian kredit yang akurat merupakan kunci dalam mengelola risiko kredit. Perkembangan ekonomi digital telah membawa inovasi dalam proses pemberian kredit yang ditandai dengan munculnya Layanan Jasa Pinjam Meminjam Uang Berbasis Teknologi Informasi. Hal ini membuat bank dihadapkan pada tantangan penilaian kredit yang lebih kompleks. Seiring perkembangan ilmu pengetahuan dan teknologi, algoritma machine learning telah terbukti memiliki kinerja yang unggul dalam proses penilaian kelayakan kredit. Penelitian ini menggunakan dua algoritma boosting, yaitu AdaBoost dan XGBoost dalam klasifikasi kinerja pembayaran pinjaman kredit. Kinerja pembayaran pinjaman kredit dibedakan menjadi dua kelas, yaitu Good dan Bad dengan kriteria Good adalah debitur yang melakukan pembayaran pinjaman kredit tidak lebih dari 3 bulan dari batas jatuh tempo dan Bad adalah debitur yang melakukan pembayaran pinjaman kredit lebih dari 3 bulan dari batas jatuh tempo. Dalam implementasi metode, digunakan data riwayat pembayaran pinjaman kredit khususnya untuk produk Kredit Usaha Mikro (KUM) digital yang diperoleh dari PT Bank X Tbk. dengan jumlah data berjumlah 2190 observasi. Jumlah observasi yang termasuk dalam kelas Good mencapai 89,36% dari total keseluruhan observasi, menyisakan 10,64% yang termasuk dalam kelas Bad. Pada penelitian ini digunakan metode Syntetic Minority Oversampling Technique (SMOTE) untuk mengatasi dataset yang tidak seimbang. Kinerja metode dievaluasi menggunakan nilai metrik accuracy, sensitivity, specificity, dan AUC-ROC dengan mempertimbangkan proporsi data training yang berbeda, mulai dari 50% sampai dengan 90%. Untuk meningkatkan keandalan hasil, simulasi metode dilakukan sebanyak lima kali. Hasil penelitian ini menunjukkan bahwa XGBoost mengungguli AdaBoost dalam klasifikasi kinerja pembayaran pinjaman kredit, terbukti dari perolehan kinerja yang lebih baik pada mayoritas metrik evaluasi dan kelima simulasi yang dilakukan, dengan rata-rata accuracy sebesar 87,71%, sensitivity sebesar 92,29%, specificity sebesar 44,21%, dan AUC-ROC sebesar 81,16%. ......In the banking industry, accurate credit assessment is key to managing credit risk. The development of the digital economy has brought innovations in the credit granting process, marked by the emergence of Financial Technology-Based Money Lending Services. This presents banks with more complex credit assessment challenges. With the advancement of science and technology, machine learning algorithms have proven to be superior in the process of creditworthiness assessment. This research utilizes two boosting algorithms, namely AdaBoost and XGBoost, in classifying credit loan payment performance. The performance of credit loan payments is divided into two classes: Good and Bad, where Good refers to debtors who make credit loan payments no more than 3 months past the due date, and Bad refers to those making payments more than 3 months past the due date. In the implementation of the method, data on credit loan payment history, specifically for digital Micro Business Credit (KUM) products obtained from PT Bank X Tbk., were used, totaling 2190 observations. The number of observations classified as Good accounted for 89.36% of the total, leaving 10.64% in the Bad category. This study employed the Synthetic Minority Oversampling Technique (SMOTE) to address the imbalanced dataset. The performance of the method was evaluated using the metrics of accuracy, sensitivity, specificity and AUC-ROC, considering different proportions of training data, ranging from 50% to 90%. To enhance the reliability of the results, the method simulation was conducted five times. The findings indicate that XGBoost outperforms AdaBoost in classifying credit loan payment performance, as evidenced by its superior performance across all evaluation metrics and all five simulations, achieving an average accuracy of 87.71%, sensitivity of 92.29%, specificity of 44,12%, and AUC-ROC of 81.16%.
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2024
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Muhammad Ilham Randi
Abstrak :
Dalam melakukan klasifikasi, tidak jarang terdapat data dengan jumlah anggota kategori yang tidak seimbang. Khususnya dalam dunia kesehatan dimana kategori yang diamati umumnya lebih jarang terjadi. Jika ketidakseimbangan ini tidak ditangani terlebih dahulu maka dapat memberikan hasil klasifikasi yang bias dan kurang akurat. Terdapat beberapa metode rebalancing konvensional untuk menanganinya seperti random oversampling dan random undersampling, namun keduanya diklaim memiliki beberapa kelemahan sehingga beberapa metode yang lebih kompleks dikembangkan. Namun jumlah metode yang dapat digunakan untuk menangani data kategorik selain metode konvensional tersebut masih minim. Salah satu metode yang dapat menangani data kategorik adalah synthetic minority over sampling-technique nominal continuous atau SMOTE-NC yang merupakan ekstensi dari SMOTE yang dikembangkan untuk menangani dataset dengan variabel campuran. Skripsi ini membahas perbandingan dari metode random oversampling dan SMOTE-NC juga metode gabungannya dengan undersampling yaitu random oversampling + undersampling dan SMOTE-NC + undersampling untuk menangani ketidakseimbangan data. Masing-masing metode tersebut akan diterapkan untuk klasifikasi tingkat keparahan COVID-19 berdasarkan urgensi perawatan rumah sakit dengan menggunakan metode random forest dimana selanjutnya dapat dilihat kombinasi metode yang menghasilkan performa terbaik. Penelitian ini juga bertujuan untuk melihat faktor-faktor manakah yang paling penting dalam memprediksi tingkat keparahan COVID-19 berdasarkan urgensi rumah sakit. Digunakan metode Leave-One-Out Cross-Validation untuk mengukur konsistensi model. Diperoleh hasil bahwa metode SMOTE-NC dengan undersampling memberikan performa terbaik dengan komorbid paru-paru, kadar c-reactive protein dan prokalsitonin merupakan variabel terpenting dalam model. Selain itu diperoleh kesimpulan bahwa pemilihan metode rebalancing yang tepat bergantung pada karakteristik data yang dimiliki. ...... In conducting classification, it is not uncommon for data with an unbalanced number of category members. Especially in the world of health where the categories we observe are generally less common. If this imbalance is not handled first, it can give biased and less accurate classification results. There are several conventional rebalancing methods to handle it, such as random oversampling and random undersampling, but both are claimed to have several weaknesses so that several more complex methods were developed. However, the number of methods that can be used to handle categorical data other than the conventional methods is still minimal. One method that can handle categorical data is synthetic minority over sampling-technique nominal continuous or SMOTE-NC which is an extension of SMOTE which was developed to handle datasets with mixed variables. This thesis discusses the comparison of random oversampling and SMOTE-NC methods as well as their combined methods with undersampling, namely random oversampling + undersampling and SMOTE-NC + undersampling to handle data imbalances. These methods will be applied to the classification of the severity of COVID-19 based on the urgency of hospital care using the random forest method, wherein the combination of methods that produces the best performance will be seen. This study also aims to see which factors are the most important in predicting the severity of COVID-19 based on hospital urgency. The Leave-One-Out Cross-Validation method is used to measure the consistency of the model. It was found that the SMOTE-NC method with undersampling gave the best performance with lung comorbidities, c-reactive protein and procalcitonin levels were the most important variables in the model. In addition, it can be concluded that the selection of the right rebalancing method depends on the characteristics of the data held.
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2021
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library