Hasil Pencarian

Ditemukan 184175 dokumen yang sesuai dengan query

Joan Bidadari Annandale

Perbandingan Kinerja Model Regresi Cox-Proportional Hazard (Cox-PH), Model Random Survival Forest dan Model Gradient Boosting Survival Analysis pada Data Alzheimer = Performance Comparison of Cox-Proportional Hazard Regression Models (Cox-PH), Random Survival Forest Model and Gradient Boosting Survival Analysis towards Alzheimer's Data

"Penyakit Alzheimer adalah penyakit progresif yang dimulai dengan hilangnya ingatan ringan dan berkembang hingga hilangnya kemampuan bicara dan respon terhadap lingkungan. Penyakit ini belum dapat disembuhkan, dan pengobatan saat ini hanya berfungsi mengurangi gejala sementara. Oleh karena itu, penting untuk mengidentifikasi risiko utama pengembangan Alzheimer dan memberikan diagnosis yang tepat guna mendukung penelitian lebih lanjut. Model regresi Cox-Proportional Hazard sering digunakan untuk menangani data survival tersensor, tetapi saat ini, machine learning menunjukkan potensi besar. Dua model machine learning, Random Survival Forest dan Gradient Boosting Survival Analysis, mampu menangani data survival dan data tersensor tanpa memerlukan asumsi parameter. Kedua model ini juga menghindari overfitting dan lebih mudah diinterpretasi dibandingkan model non-parametrik lainnya. Hasil pada data Alzheimer menunjukkan bahwa Gradient Boosting Survival Analysis memiliki performa terbaik dengan nilai C-index 0.8503, diikuti oleh Random Survival Forest dengan nilai 0.8286. Model regresi Cox-PH memiliki kinerja terendah dengan nilai C-index 0.8092, dan data Alzheimer yang digunakan tidak memenuhi asumsi proportional hazard. Model Gradient Boosting Survival Analysis dan Random Survival Forest mengidentifikasi CDRSB dan FDG sebagai risiko terpenting, sedangkan model Cox-PH mengidentifikasi AV45 dan FDG.

Alzheimer's disease is a progressive disease that begins with mild memory loss and progresses to loss of speech and response to the environment. There is no cure for the disease, and current treatments only temporarily reduce symptoms. Therefore, it is important to identify the main risk factors for developing Alzheimer's and provide an accurate diagnosis to support further research. The Cox-Proportional Hazard regression model is often used to handle censored survival data, but currently, machine learning shows potential. Two machine learning models, Random Survival Forest and Gradient Boosting Survival Analysis, are able to handle survival data and censored data without requiring parameter assumptions. Both models also avoid overfitting and are easier to interpret than other non-parametric models. The results on Alzheimer's data show that Gradient Boosting Survival Analysis has the best performance with a C-index value of 0.8503, followed by Random Survival Forest with a value of 0.8286. The Cox-PH regression model has the lowest performance with a C-index value of 0.8092, and the data used does not meet the proportional hazard assumption. The Gradient Boosting Survival Analysis and Random Survival Forest models identified CDRSB and FDG as the most important risks, while the Cox-PH model identified AV45 and FDG."

Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2024

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

Dewi Yanti

Analisis waktu keterlambatan dengan menggunakan model cox proportional hazard (studi kasus pada KRL Komuter Bekasi-Jakarta Kota) = Delay time analysis using cox proportional hazard model (case study on Commuter Line Bekasi-Jakarta Kota)

"ABSTRAK

Permasalahan yang akan diangkat dalam tesis ini adalah masalah keterlambatan yang terjadi pada perjalanan kereta api KRL komuter Bekasi-Jakarta Kota, yang lebih tinggi daripada KRL komuter lainnya. Hal ini diduga dikarenakan terjadinya konflik dengan kereta lain dan adanya keterlambatan keberangkatan di stasiun Bekasi. Cox Proportional Hazard adalah salah satu metode analisis semi parametrik di dalam kerangka Analisis Survival yang akan digunakan untuk menganalisis keterlambatan perjalanan suatu kereta api. Penggunaan metode ini antara lain karena lebih populer dan penggunaan asumsi yang lebih sedikit bila dibandingkan dengan metode parametrik. Model regresi Cox PH ini juga berguna untuk menafsirkan informasi mengenai hubungan dari fungsi hazard dengan prediktor. Hasil penelitian menunjukkan bahwa keterlambatan kedatangan KRL komuter Bekasi di stasiun tujuan dipengaruhi oleh keterlambatan keberangkatan di stasiun awal dan juga konflik dengan kereta lain, baik di stasiun awal maupun di tengah perjalanan. Oleh karena itu, konflik dan keterlambatan di stasiun keberangkatan harus diturunkan secara signifikan.

ABSTRACT
The issue raised in this thesis is the delay in the travel time of Bekasi-Jakarta Kota Commuter Line, which is higher than other commuter lines. This is presumably due to their own departure delays in Bekasi Station and also conflicts with other trains. Cox Proportional Hazard is one of the semi-parametric analysis methods in Survival Analysis framework that will be used to analyze the delay time. This method is used because it is more popular than other methods and uses fewer assumptions than the parametric method. Cox PH regression model is also useful for interpreting information about the relationship of the hazard function predictors. The results showed that the late arrival of KRL Commuter Bekasi at the destination is affected by the delay at the departure station and also by conflicts with other trains, either at the beginning or in the middle of the travel. Therefore, conflict reduction and delay reduction must be made significantly."

Depok: Fakultas Ekonomi dan Bisnis Universitas Indonesia, 2015

T-Pdf

UI - Tesis Membership Universitas Indonesia Library

Yoshua Yosia

Perbandingan Efektivitas Obat Antivirus terhadap Perbaikan Kondisi Pasien COVID-19 di Rumah Sakit ABC Jakarta dengan Model Cox Proportional Hazard = Effectiveness Comparison of Antiviral Drugs on Condition Improvement of COVID-19 Patients at ABC Hospital Jakarta with Cox Proportional Hazard Model

"Sebagai penyakit yang disebabkan oleh virus, obat antivirus banyak digunakan sebagai salah satu pengobatan COVID-19. Obat antivirus yang resmi digunakan di Indonesia, yaitu oseltamivir, avigan, dan remdesivir, tanpa adanya pertimbangan obat mana yang lebih efektif dalam menangani pasien COVID-19. Obat antivirus dapat dikatakan lebih efektif daripada obat antivirus lainnya jika dapat mengurangi infeksi virus pada pasien dan membuat kondisinya membaik lebih cepat. Penelitian ini bertujuan untuk membandingkan efektivitas dari ketiga jenis obat antivirus tersebut secara umum dan berdasarkan ciri pasien, yang meliputi jenis kelamin, kelompok usia, dan penyakit penyerta, dalam menghasilkan perbaikan kondisi bagi pasien COVID-19. Data yang digunakan dalam penelitian ini terdiri atas 142 pasien COVID-19 di Rumah Sakit ABC Jakarta pada tanggal 4 Juni 2020 hingga 31 Januari 2021 yang mengonsumsi salah satu jenis obat antivirus. Model Cox proportional hazard digunakan untuk mengukur hazard ratio pasien COVID-19 berdasarkan jenis obat antivirus yang dikonsumsi dan ciri pasien. Hasil penelitian menunjukkan bahwa oseltamivir memberikan efektivitas terbesar dan remdesivir memberikan efektivitas terkecil terhadap perbaikan kondisi pasien COVID-19 secara umum. Oseltamivir memberikan efektivitas yang besar untuk hampir semua ciri pasien yang meliputi pria, wanita, lansia, memiliki penyakit penyerta, dan tidak memiliki penyakit penyerta. Avigan memberikan efektivitas yang besar untuk pasien pria dan bukan lansia, sedangkan obat remdesivir dapat dikatakan efektif pada pasien wanita.

As a disease caused by a virus, antiviral drug is widely used as a treatment for COVID-19. The allowed antiviral drugs used in Indonesia are oseltamivir, avigan, and remdesivir, without any consideration which drug is more effective in treating COVID-19 patients. An antiviral drug can be said to be more effective than other antiviral drugs if it can reduce the viral infection in patients and make their condition improves faster. This study aims to compare the effectiveness of the three types of antiviral drugs in general and based on patient characteristics, which include gender, age group, and comorbidity presence, in resulting condition improvement for COVID-19 patients. The data used consists of 142 COVID-19 patients from ABC Hospital in Jakarta, who took one of three types of antiviral drugs. Cox proportional hazard model was used to measure the hazard ratio of COVID-19 patients based on the antiviral drug consumed and characteristics. The results showed that oseltamivir provided the greatest and remdesivir gave the least effectiveness in improving the condition of COVID-19 patients in general. Oseltamivir provides great effectiveness for almost all patient characteristics, including male, female, elders, and patients with and without comorbidity. Avigan provides high effectiveness for male and non-elderly patients. Meanwhile remdesivir can be said to be effective in female patients."

Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2021

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

Eka Fita Yanti

Metode Proportional Hazard (PH) Parametrik pada Data Preeklamsia = Parametric Proportional Hazard (PH) Method on Preeclampsia Data

"Preeklamsia menjadi penyebab kematian ibu hamil terbanyak kedua di Indonesia setelah pendarahan. Preeklamsia merupakan hipertensi dan proteinuria setelah usia kehamilan lebih dari 20 minggu pada wanita yang sebelumnya memiliki tekanan darah normal. Faktor risiko preeklamsia dapat dilihat berdasarkan karakteristik maternal, pengukuran biofisik, dan pengukuran biokimia. Preeklamsia umumnya terjadi pada trimester ketiga kehamilan. Namun kondisi ibu hamil tetap harus diamati pada setiap titik waktu kehamilan. Variabel dependen yang digunakan dalam penelitian ini adalah waktu kelahiran dengan kovariatnya adalah usia, Indeks Massa Tubuh (IMT), riwayat preeklamsia, Mean Arterial Pressure (MAP), dan Placental Growth Factor (PlGF). Adapun metode yang digunakan dalam penelitian ini adalah Proportional Hazard (PH) parametrik dimana diasumsikan efek yang multiplikatif terhadap nilai hazard. Metode parametrik lainnya yang dapat digunakan adalah Accelerated Failure Time (AFT) yang mengasumsikan bahwa efek multiplikatif terhadap waktu survival. Kedua metode tersebut merupakan metode parametrik dimana baseline hazard dari model diasumsikan mengikuti bentuk suatu distribusi tertentu. Konstruksi model terdiri dari pemilihan baseline hazard yang sesuai dengan data preeklamsia dan proses menambahkan kovariat ke dalam model. Estimasi parameter dilakukan dengan metode Maximum Likelihood Estimation (MLE) yang menghasilkan persamaan kompleks dan harus diselesaikan secara numerik menggunakan bantuan software. Hasil dari penelitian ini diperoleh bahwa faktor-faktor yang berhubungan dengan preeklamsia adalah MAP dan PlGF. Perbandingan metode PH parametrik dan metode AFT menggunakan nilai AIC memberikan hasil bahwa model PH Gompertz memberikan fit yang lebih baik untuk data preeklamsia dengan nilai sebesar 328,2045.

Preeclampsia is the second leading cause of death for pregnant women in Indonesia after bleeding. Preeclampsia is hypertension and proteinuria after gestational age of more than 20 weeks in women who previously had normal blood pressure. Risk factors for preeclampsia can be seen based on maternal characteristics, biophysical, and biochemical measurements. Preeclampsia generally occurs in the third trimester of pregnancy. However, the condition of pregnant women must still be observed at every point in time pregnancy. The dependent variable used in this study was the time of birth with the independent variables being age, Body Mass Index (BMI), history of preeclampsia, Mean Arterial Pressure (MAP), and Placental Growth Factor (PlGF). The method used in this research is parametric Proportional Hazard (PH) which is assumed to have a multiplicative effect on the hazard value. Another parametric method that can be used is Accelerated Failure Time (AFT) which is assumed to have a multiplicative effect on survival time. Both methods are parametric methods where the baseline hazard of the model is assumed to follow the shape of a certain distribution. The construction of the model consists of selecting a baseline hazard that fits the preeclampsia data and the process of adding independent variables to the model. Parameter estimation is carried out using the Maximum Likelihood Estimation (MLE) method which produces complex equations and must be solved numerically using software. The results of this study obtain factors associated with preeclampsia are MAP and PlGF. Comparison of the parametric PH method and the AFT method using the AIC value gives the result that the Gompertz PH model provides a better fit for preeclampsia data with a value of 328.2045."

Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2022

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

Kheisya Amanda

Implementasi Metode Adaptive Boosting (AdaBoost) dan Extreme Gradient Boosting (XGBoost) dalam Klasifikasi Kinerja Pembayaran Pinjaman Kredit pada Data Online Consumer Lending Bank di Indonesia = Implementation of Adaptive Boosting (AdaBoost) and Extreme Gradient Boosting (XGBoost) Methods in Classifying Credit Loan Payment Performance in Indonesian Online Consumer Lending Bank Data

"Dalam industri perbankan, penilaian kredit yang akurat merupakan kunci dalam mengelola risiko kredit. Perkembangan ekonomi digital telah membawa inovasi dalam proses pemberian kredit yang ditandai dengan munculnya Layanan Jasa Pinjam Meminjam Uang Berbasis Teknologi Informasi. Hal ini membuat bank dihadapkan pada tantangan penilaian kredit yang lebih kompleks. Seiring perkembangan ilmu pengetahuan dan teknologi, algoritma machine learning telah terbukti memiliki kinerja yang unggul dalam proses penilaian kelayakan kredit. Penelitian ini menggunakan dua algoritma boosting, yaitu AdaBoost dan XGBoost dalam klasifikasi kinerja pembayaran pinjaman kredit. Kinerja pembayaran pinjaman kredit dibedakan menjadi dua kelas, yaitu Good dan Bad dengan kriteria Good adalah debitur yang melakukan pembayaran pinjaman kredit tidak lebih dari 3 bulan dari batas jatuh tempo dan Bad adalah debitur yang melakukan pembayaran pinjaman kredit lebih dari 3 bulan dari batas jatuh tempo. Dalam implementasi metode, digunakan data riwayat pembayaran pinjaman kredit khususnya untuk produk Kredit Usaha Mikro (KUM) digital yang diperoleh dari PT Bank X Tbk. dengan jumlah data berjumlah 2190 observasi. Jumlah observasi yang termasuk dalam kelas Good mencapai 89,36% dari total keseluruhan observasi, menyisakan 10,64% yang termasuk dalam kelas Bad. Pada penelitian ini digunakan metode Syntetic Minority Oversampling Technique (SMOTE) untuk mengatasi dataset yang tidak seimbang. Kinerja metode dievaluasi menggunakan nilai metrik accuracy, sensitivity, specificity, dan AUC-ROC dengan mempertimbangkan proporsi data training yang berbeda, mulai dari 50% sampai dengan 90%. Untuk meningkatkan keandalan hasil, simulasi metode dilakukan sebanyak lima kali. Hasil penelitian ini menunjukkan bahwa XGBoost mengungguli AdaBoost dalam klasifikasi kinerja pembayaran pinjaman kredit, terbukti dari perolehan kinerja yang lebih baik pada mayoritas metrik evaluasi dan kelima simulasi yang dilakukan, dengan rata-rata accuracy sebesar 87,71%, sensitivity sebesar 92,29%, specificity sebesar 44,21%, dan AUC-ROC sebesar 81,16%.

In the banking industry, accurate credit assessment is key to managing credit risk. The development of the digital economy has brought innovations in the credit granting process, marked by the emergence of Financial Technology-Based Money Lending Services. This presents banks with more complex credit assessment challenges. With the advancement of science and technology, machine learning algorithms have proven to be superior in the process of creditworthiness assessment. This research utilizes two boosting algorithms, namely AdaBoost and XGBoost, in classifying credit loan payment performance. The performance of credit loan payments is divided into two classes: Good and Bad, where Good refers to debtors who make credit loan payments no more than 3 months past the due date, and Bad refers to those making payments more than 3 months past the due date. In the implementation of the method, data on credit loan payment history, specifically for digital Micro Business Credit (KUM) products obtained from PT Bank X Tbk., were used, totaling 2190 observations. The number of observations classified as Good accounted for 89.36% of the total, leaving 10.64% in the Bad category. This study employed the Synthetic Minority Oversampling Technique (SMOTE) to address the imbalanced dataset. The performance of the method was evaluated using the metrics of accuracy, sensitivity, specificity and AUC-ROC, considering different proportions of training data, ranging from 50% to 90%. To enhance the reliability of the results, the method simulation was conducted five times. The findings indicate that XGBoost outperforms AdaBoost in classifying credit loan payment performance, as evidenced by its superior performance across all evaluation metrics and all five simulations, achieving an average accuracy of 87.71%, sensitivity of 92.29%, specificity of 44,12%, and AUC-ROC of 81.16%."

Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2024

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

Evyorista Pratiwi

Kajian empiris perilaku default menggunakan pendekatan survival analysis debitur kredit pemilikan rumah pada Bank ABC TBK = Empirical study in default behaviour using survival analysis approach of mortgage loan debtor at Bank ABC TBK

"Produk Kredit Pemilikan Rumah (KPR) dari Bank ABC Tbk merupakan salah satu fasilitas kredit yang berkontribusi sebesar 60,2% terhadap pencapaian target kredit konsumer pada akhir tahun 2014. Untuk dapat meningkatkan penyaluran fasilitas KPR diperlukan strategi pemasaran dengan tetap memperhatikan mitigasi risikonya. Risiko yang menjadi perhatian utama adalah risiko terjadinya default. Salah satu cara yang dapat dilakukan untuk memitigasi risiko adalah dengan mengetahui sebaran peluang terjadinya default dari debitur. Sehingga dapat dibentuk early warning system terjadinya default. Sedangkan untuk menyusun strategi pemasaran yang tepat dapat mempertimbangkan karakteristik dari debitur yang mempunyai riwayat pembayaran cicilan lancar (survive).

Pada penelitian ini digunakan analisis survival terhadap data debitur yang menerima fasilitas KPR selama periode 1 Januari 2009 sampai dengan 31 Desember 2014. Diharapkan hasil penelitian ini dapat menunjang pertumbuhan produk KPR tersebut. Metode pengamatan yang digunakan menggunakan metode non parametrik dan semi parametrik. Melalui metode non parametrik Kaplan Meier, peluang debitur survive mulai turun pada bulan ke enam. Peluang tersebut akan turun semakin besar pada bulan ke delapan sampai dengan lima puluh tujuh sejak diterimanya kredit yaitu sebesar 94,5% sampai dengan 99%. Sedangkan dengan metode non parametrik Nelson Aalen, peluang pembayaran lancar akan menjadi default sesaat adalah sebesar 0,091%. Dengan menggunakan metode semi parametrik Cox Proportional Hazard, karakteristik debitur dan karakteristik produk yang mempengaruhi terjadinya default adalah jenis pekerjaan, wilayah tempat tinggal, tingkat pendidikan akhir, jangka waktu kredit, status pernikahan, jumlah penghasilan per bulan, jenjang jabatan dan jenis kendaraan.

House Ownership Loan (KPR) is one of Bank ABC's mortgage facilities that contributed 60.2% to consumer's credit achievement at the end of 2014. In order to increase the distribution of this mortgage facility, a marketing strategy is needed, but still taking into consideration the mitigation of potential risks. One of the major risk concerned is the risk of default. One of the way to mitigate this risk is to determine the distribution of the probability of a default by the debtor. This can in turn be used to establish an early warning system in the case of a default. Meanwhile, to prepare the right marketing strategy, one can consider the characteristics of debtors by their history of smooth or on time mortgage payments (survive).
This study uses survival analysis of the data from debtors who obtained mortgage facilities(loans) during the period of January 1, 2009 up to December 31, 2014. It is expected that the results of this study can help understand and support the growth of the mortgage product. The observation methods used are non-parametric and semi-parametric methods. With the nonparametric Kaplan-Meier method, the debtor's probability to survive starts to fall in the sixth month. These probability decreases further in the eighth up to fiftyseventh month from when the credit is received, in the amount of 99% down to 94,5%. Where as, using the non-parametric methods of Nelson Aalen, the probability that a smooth payment will change to a temporary default is 0.091%. By using the semi-parametric method of Cox Proportional Hazard, the debtor's characteristics and product's characteristics that influence the occurrence of default are the type of work, region of residence, education level, the credit period, marital status, amount of income per month, the social hierarchy and the type of vehicle."

Depok: Fakultas Ekonomi dan Bisnis Universitas Indonesia, 2015

T-Pdf

UI - Tesis Membership Universitas Indonesia Library

Elandt-Johnson, Regina C.

Survival models and data analysis

New York: John Wiley & Sons, 1980

312.015 ELA s

Buku Teks SO Universitas Indonesia Library

Kayla Calista Ayal

Implementasi Metode Support Vector Regression dan Light Gradient Boosting Machine dalam Memprediksi Usia Biologis pada Data Pemeriksaan Medis = Implementation of Support Vector Regression and Light Gradient Boosting Machine Methods for Predicting Biological Age from Medical Examination Data

"Usia biologis mengukur penuaan individu berdasarkan kondisi fisik dan fungsi organ. Meskipun banyak penelitian telah dilakukan untuk memprediksi usia biologis dengan berbagai metode, penerapan metode machine learning masih memiliki ruang untuk penelitian lebih lanjut. Penelitian ini mengimplementasikan dua metode machine learning dengan pendekatan yang berbeda, yaitu metode Support Vector Regression (SVR) dan Light Gradient Boosting Machine (LGBM) dalam memprediksi usia biologis menggunakan data pemeriksaan medis Kementerian Kesehatan tahun 2011 yang mencakup 5960 subjek dan 41 fitur. Proses preprocessing meliputi penyaringan usia kronologis > 30 tahun, pemisahan data berdasarkan jenis kelamin, penanganan missing values dan outlier, serta data encoding. Feature selection menggunakan koefisien korelasi Spearman menghasilkan 8 fitur berbeda untuk setiap jenis kelamin. Data dibagi dengan 90% untuk pelatihan dan 10% untuk pengujian, serta dilakukan tuning hyperparameter menggunakan GridSearchCV. Penelitian ini menggunakan metrik RMSE dan adjusted R-squared, yang dipilih berdasarkan relevansinya dengan tujuan penelitian. Hasil menunjukkan LGBM lebih unggul dari SVR dengan RMSE 7,2064 tahun dan adjusted R-squared 33,36% pada pria, serta RMSE 7,1475 tahun dan adjusted R-squared 22,16% pada wanita. Analisis korelasi menunjukkan hubungan yang wajar antara usia biologis dan usia kronologis serta korelasi yang cukup antara usia biologis dengan biomarker tekanan sistolik dan status hipertensi pada pria, serta tekanan sistolik dan kolesterol pada wanita. Analisis korelasi menunjukkan hubungan signifikan antara usia biologis dengan usia kronologis dan beberapa biomarker. Secara keseluruhan, LGBM lebih efektif dalam memprediksi usia biologis dibandingkan SVR. Hasil dari penelitian diharapkan dapat diaplikasikan dalam kehidupan sehari-hari, seperti membantu perusahaan asuransi menilai kelayakan klaim berdasarkan prediksi usia biologis, serta mendukung keputusan di bidang kesehatan preventif.

Biological age measures an individual's aging based on physical condition and organ function. Although numerous studies have been conducted to predict biological age using various methods, there is still room for further research in the application of machine learning techniques. This study implements two machine learning methods with different approaches, namely Support Vector Regression (SVR) and Light Gradient Boosting Machine (LGBM), to predict biological age using medical examination data from the Ministry of Health in 2011, covering 5960 subjects and 41 features. The preprocessing steps include filtering chronological age > 30 years, segregating data by gender, handling missing values and outliers, and data encoding. Feature selection using Spearman correlation coefficients resulted in 8 different features for each gender. The data was split into 90% for training and 10% for testing, with hyperparameter tuning performed using GridSearchCV. This study used RMSE and adjusted R-squared metrics, selected based on their relevance to the research objectives. The results show that LGBM outperformed SVR with an RMSE of 7.2064 years and an adjusted R-squared of 33.36% for men, and an RMSE of 7.1475 years and an adjusted R-squared of 22.16% for women. Correlation analysis revealed a significant relationship between biological age and chronological age, as well as a reasonable correlation between biological age and biomarkers such as systolic blood pressure and hypertension status in men, and systolic blood pressure and cholesterol in women. Overall, LGBM proved to be more effective in predicting biological age compared to SVR. The results of this study are expected to be applicable in everyday life, such as assisting insurance companies in evaluating claim eligibility based on biological age predictions, as well as supporting decision-making in preventive healthcare."

Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2024

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

Nadia Hartini Kusumawijaya

Komparasi Kinerja Metode Random Forest Regression dengan Metode Support Vector Regression untuk Memprediksi Usia Biologis pada Data Pemeriksaan Medis = Comparison of the Performance of the Random Forest Regression Method with the Support Vector Regression Method for Predicting Biological Age on Medical Examination Data

"Penuaan adalah salah satu faktor utama resiko terjadinya penyakit dan kematian. Laju

penuaan individu dengan usia kronologis yang sama terbukti bervariasi. Maka dari

itu, muncul kebutuhan untuk alat pengukuran penuaan yang lebih akurat, robust, dan

dapat diandalkan dibandingkan usia kronologis, yakni usia biologis. Pada penelitian

ini, penulis membangun model menggunakan Metode Random Forest Regression (RF)

dan Metode Support Vector Regression (SVR) untuk memprediksi umur biologis pada

data pemeriksaan medis, menilai dan mengevaluasi hasil kinerjanya, serta melakukan

komparasi kinerja kedua metode. Terkait metode yang digunakan, Metode RF adalah

metode yang mengaplikasikan Teknik Ensemble Learning dengan cara menggabungkan

beberapa decision tree untuk menghasilkan prediksi. Sedangkan, Metode SVR adalah

metode yang berkerja dengan cara membangun hyperplane atau kumpulan hyperplane

dalam ruang berdimensi tinggi yang dapat digunakan untuk regresi linier atau nonlinier.

Dataset yang digunakan adalah data medis yang berasal dari Kementrian Kesehatan

Republik Indonesia. Pada dataset dilakukan data preprocessing, yakni data diproses pada

aspek missing values handling, encoding, dan outliers detection and outliers handling.

Kemudian, dilakukan feature selection menggunakan Spearman’s Rank Correlation

Coefficient. Setelah itu, dilakukan pembangunan model dengan Metode RF dan model

dengan Metode SVR secara terpisah untuk masing - masing jenis kelamin. Terakhir,

performa model dievaluasi dan dibandingkan kinerjanya menggunakan metrik evaluasi

Root Mean Square Error (RMSE), Coefficient of Determination (R2), Adjusted R2, dan

running time. Metode RF menggunakan hyperparameter terbaik {’max depth’: 15,

’n estimators’: 1150} untuk dataset pria, dan {’max depth’: 15, ’n estimators’: 1250}

untuk dataset wanita. Sedangkan, Metode SVR menggunakan hyperparameter terbaik

{’C’: 2,’epsilon’: 0,2, ’gamma’: ’scale’, ’kernel’: ’rbf’, ’tol’: 0,005} untuk dataset pria,

dan {’C’: 3, ’epsilon’: 0,2, ’gamma’: ’scale’, ’kernel’: ’rbf’, ’tol’: 0,005} untuk dataset

wanita. Metode RF memiliki kinerja yang cukup baik, dengan nilai RMSE = 7,532; R2

= 0,403; Adjusted R2 = 0,351; running time = 0,154 untuk pria dan RMSE = 6,889;

R2 = 0,340; Adjusted R2 = 0,264; running time = 0,179 untuk wanita. Selain itu, SVR

juga memiliki performa yang cenderung sama namun sedikit lebih buruk, dengan nilai

RMSE = 7,692; R2 = 0,376; Adjusted R2 = 0,321; running time = 0,035 untuk pria dan

RMSE = 6,905; R2 = 0,337; Adjusted R2 = 0,306; running time = 0,080 untuk wanita.

Berdasarkan analisis kinerja model yang dilakukan pada penelitian ini model yang

dibangun dengan Metode Random Forest Regression lebih unggul dalam memprediksi

usia biologis dibandingkan dengan Metode Support Vector Regression.

Aging is one of the main risk factors for disease and death. The aging rate of individ- uals of the same chronological age has been shown to vary. So therefore, a need arises for a more accurate, robust, and reliable aging measurement tool than chronological age, namely biological age. In this research, the author build a model using the Random For- est Regression (RF) Method and the Support Vector Regression (SVR) Method to predict biological age from patient clinical data, assess and evaluate the performance results, and compare the performance of the two models. Regarding the method used, the Random Forest Regression Method is a method that applies the Ensemble Learning Technique by combining several decision trees to produce predictions. Meanwhile, the Support Vector Regression Method is a method that works by building a hyperplane or collection of hy- perplane in high-dimensional space which can be used for linear or nonlinear regression. The dataset used is medical data originating from the Ministry of Health of the Republic of Indonesia. On the dataset, data preprocessing is carried out, namely the data is processed in the aspects of missing values handling, encoding, and outliers detection and outliers handling. Then, feature selection is carried out using Spearman’s Rank Correlation Co- efficient. After that, machine learning model using RF Method and machine learning model using SVR Method were created separately for each gender. Finally, the model performance is evaluated and its performance compared using evaluation metrics, namely Root Mean Square Error (RMSE), Coefficient of Determination (R2), and Adjusted R2, as well as running time. The RF Method used best hyperparameters {’max depth’: 15, ’n estimators’: 1150} for the male dataset, and {’max depth’: 15, ’n estimators’: 1250 } for the female dataset. Meanwhile, the SVR Method used best hyperparameters {’C’: 2, ’epsilon’: 0.2, ’gamma’: ’scale’, ’kernel’: ’rbf’, ’toll’: 0.005} for the male dataset, and {’C’: 3, ’epsilon’: 0, 2, ’gamma’: ’scale’, ’kernel’: ’rbf’, ’toll’: 0.005} for female dataset. The result is that the model built using the RF Method has quite good performance, with an RMSE value of = 7.532; R2 = 0.403; Adjusted R2 = 0.351; running time = 0.154 for men and RMSE = 6.889; R2 = 0.340; Adjusted R2 = 0.264; running time = 0.179 for women. Apart from that, SVR also has performance that tends to be the same but slightly worse, with an RMSE value of = 7,692; R2 = 0.376; Adjusted R2 = 0.321; running time = 0.035 for men and RMSE = 6.905; R2 = 0.337; Adjusted R2 = 0.306; running time = 0.080 for women. Based on the model performance analysis carried out in this research, the model built using the Random Forest Regression Method is superior in predicting biological age compared to the Support Vector Regression Method."

Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2024

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

Assyifa Ulhusna

Implementasi Metode Binary Logistic Regression dan Gradient Boosting dalam Pemodelan Credit Scoring = Implementation of Binary Logistic Regression and Gradient Boosting Methods for Credit Scoring Model

"Credit scoring adalah sebuah sistem yang digunakan kreditor seperti bank dan perusahaan asuransi untuk menentukan apakah pemohon kredit termasuk dalam grup good credit yakni grup yang kemungkinan besar akan membayar utangnya tepat waktu atau bad credit yang merupakan grup dengan kemungkinan besar tidak membayar utangnya tepat waktu. Salah satu metode yang paling sering digunakan dalam pembuatan model credit scoring adalah binary logistic regression. Namun, seiring dengan kemajuan komputasi, banyak metode lain yang berkembang saat ini untuk dipakai dalam pembuatan model credit scoring yakni, metode gradient boosting. Pada skripsi ini dilakukan implementasi metode binary logistic regression dan gradient boosting dalam pemodelan credit scoring. Hasil yang didapatkan dengan menggunakan data 537.667 debitur dengan rincian 535.705 good credits dan 1.962 bad credits adalah pada data train penggunaan gradient boosting memberikan nilai tingkat akurasi 79,65%, uji KS 0,5389 dan AUROC/AUC 0,8393. Sementara pada data test penggunaan gradient boosting memberikan nilai tingkat akurasi 79,92%, uji KS 0,5345 dan AUROC/AUC 0,8313. Nilai-nilai tersebut lebih tinggi dibandingkan dengan penggunaan binary logistic regression baik pada data train maupun data test. Berdasarkan nilai uji AUC, metode gradient boosting tergolong klasifikasi yang baik, sedangkan metode binary logistic regression> tergolong klasifikasi yang cukup. Hasil simulasi ini menunjukkan untuk data yang digunakan, metode gradient boosting memberikan hasil yang lebih baik dari sisi akurasi, uji KS, dan AUROC/AUC daripada binary logistic regression. Dengan kata lain, metode gradient boosting dapat meningkatkan discriminant power, yakni kemampuan untuk membandingkan target yang lebih baik dibandingkan dengan metode binary logistic regression.

Credit scoring is a system used by creditors such as banks and insurance companies to determine whether credit applicants are included in the good credit group, namely the group that is most likely to pay its debts on time or the bad credit group which is the group that is most likely to not pay its debts on time. One of the most frequently used methods in making credit scoring models is binary logistic regression. However, along with the progress of computation, many other methods are currently being developed to be used in making credit scoring models, namely, the gradient boosting method. In this thesis, we will compare the binary logistic regression and gradient boosting methods in credit scoring model. The results obtained using data from 537,667 debtors with details of 535,705 good credits and 1,962 bad credits are the train data using gradient boosting gives an accuracy rate of 79.65%, KS test 0.5389 and AUROC/AUC 0.8393. Meanwhile, the test data using gradient boosting gives an accuracy rate of 79.92%, KS test 0.5345, and AUROC/AUC 0.8313. These values ââare higher than the use of binary logistic regression in both the train and test data. Based on the AUC test value, the gradient boosting method is a good classifier, while the binary logistic regression method is an acceptable classifier. The results of this simulation show that for the data used, the gradient boosting method gives better results in terms of accuracy, KS test, and AUROC/AUC than binary logistic regression. In other words, the gradient boosting method can increase discriminant power or the ability to compare targets better than the binary logistic regression method."

Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2021

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

<< 1 2 3 4 5 6 7 8 9 10 >>

Hasil Pencarian :: Simpan CSV :: Kembali

Hasil Pencarian