Hasil Pencarian  ::  Simpan CSV :: Kembali

Hasil Pencarian

Ditemukan 78918 dokumen yang sesuai dengan query
cover
Devina Christianti
"ABSTRACT
Klasifikasi adalah proses menugaskan satu set data ke dalam kelas yang ada berdasarkan nilai setiap atribut. Pengklasifikasi pohon keputusan diklaim lebih cepat dan berproduksi akurasi yang lebih baik. Namun, ia memiliki beberapa kelemahan di mana pengklasifikasi rentan untuk overfitting. Overfitting adalah suatu kondisi di mana model tidak mampu menarik kesimpulan data baru dengan cara yang benar. Overfitting di pohon keputusan dapat dihindari dengan memotong subtree pengaruh kecil dalam melakukan klasifikasi ketika pohon ditanam, disebut post-pruning, yang bertujuan untuk meningkatkan kinerja model dalam memprediksi data. Tesis ini mengusulkan metode pasca pemangkasan dengan menerapkan Risiko Bayes, di mana estimasi risiko setiap simpul induk dibandingkan dengan simpul daunnya. Sebagai perbandingan, pemangkasan pasca lainnya Metode yang diterapkan, yaitu Reduced Error Pruning (REP). Kedua metode tersebut diterapkan
untuk tiga dataset klasifikasi churn pelanggan dari situs Kaggle dan IBM Datasets. Untuk hasilnya, Bayes Risk Post-Pruning dapat meningkatkan kinerja Decision Tree lebih baik dari Reduced Error Pruning dengan meningkatkan nilai akurasi, presisi, dan daya ingat. Kedua metode juga diterapkan pada tiga proporsi berbeda untuk data pelatihan (60%, 70% dan 80%). Hasilnya menunjukkan bahwa semakin besar ukuran dataset pelatihan dikaitkan akurasi, presisi, dan daya ingat model yang lebih tinggi.

ABSTRACT
Classification is the process of assigning a set of data to an existing class based on the value of each attribute. Decision tree classifiers are claimed to be faster and produce better accuracy. However, it has several disadvantages where the classifier is prone to overfitting. Overfitting is a condition in which the model is unable to draw new data conclusions in the right way. Overfitting in the decision tree can be avoided by cutting the subtree of small influence in classifying when the tree is planted, called post-pruning, which aims to improve the performance of the model in predicting data. This thesis propose a post-pruning method by applying Bayes Risk, where the estimated risk of each parent node is compared to the leaf node. As a comparison, other post pruning methods are applied, namely Reduced Error Pruning (REP). Both methods are applied for three customer churn classification datasets from the Kaggle site and IBM Datasets. For the results, Bayes Risk Post-Pruning can improve Decision Tree performance better than Reduced Error Pruning by increasing the value of accuracy, precision, and memory. Both methods are also applied to three different proportions for training data (60%, 70% and 80%). The results show that the greater the size of the training dataset is associated with higher model accuracy, precision, and recall.
"
2019
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Valery Ongso Putri
"Ketidakseimbangan data merupakan masalah umum yang terjadi dalam bidang analisis data. Data menjadi tidak seimbang karena terdapat perbedaan antara jumlah sampel pada setiap kelasnya. Masalah ketidakseimbangan ini menyebabkan model klasifikasi menjadi bias, dimana model akan cenderung memprediksi kelas mayoritas secara efektif dibandingkan dengan kelas minoritas dan dapat menyebabkan kesalahan interpretasi dalam pengambilan suatu keputusan. Terdapat beberapa cara dalam menangani data yang tidak seimbang, yaitu random undersampling dan random oversampling. Salah satu metode dari random oversampling yang populer adalah Synthetic Minority Oversampling Technique (SMOTE). SMOTE dapat digabungkan dengan metode random undersampling, yaitu Edited Nearest Neighbors (ENN) dan Tomek link. Pada metode gabungan SMOTE-ENN dan SMOTE-Tomek link, SMOTE bekerja terlebih dahulu dengan membuat sampel sintetis pada kelas minoritas. ENN dan Tomek link berperan sebagai cleaning untuk menghapus data yang tidak relevan dan dianggap sebagai noise. Untuk melihat pengaruh ketiga metode resampling tersebut, yaitu SMOTE, SMOTEENN, dan SMOTE-Tomek Link, dilakukan simulasi data. Simulasi data dapat melihat pengaruh ukuran sampel, ukuran proporsi kelas, dan metode resampling terhadap model klasifikasi decision tree, random forest, dan XGBoost pada data yang tidak seimbang. Simulasi data juga dijalankan sebanyak 100 iterasi yang menunjukkan bahwa iterasi pertama cukup untuk mewakili hasil dari 100 iterasi. Hasil menunjukkan bahwa ketiga metode cenderung mampu memberikan hasil yang baik dengan adanya peningkatan nilai metrik precision, recall, ROC-AUC, dan G-Mean. Metode SMOTE dengan XGBoost bekerja dengan baik pada ukuran sampel kecil dengan adanya peningkatan nilai metrik yang cukup signifikan. Pada SMOTE-ENN, nilai recall cenderung meningkat yang diikuti oleh menurunnya nilai precision pada proporsi 1:9, 2:8, dan 3:7 dengan sampel yang relatif kecil. SMOTE-Tomek Link juga meningkatkan nilai metrik pada sampel yang relatif kecil dengan proporsi memberikan nilai metrik tertinggi.

Data imbalance is a common problem that occurs in the field of data analysis. The data becomes unbalanced because there is a difference between the number of samples in each class. This imbalance problem causes the classification model to be biased, where the model will tend to predict the majority class effectively compared to the minority class and can cause misinterpretation in making a decision. There are several ways to handle imbalanced data, namely random undersampling and random oversampling. One of the popular random oversampling methods is Synthetic Minority Over-sampling Technique (SMOTE). SMOTE can be combined with random undersampling methods, namely Edited Nearest Neighbors (ENN) and Tomek link. In the combined SMOTE-ENN and SMOTE-Tomek link method, SMOTE works first by creating a synthetic sample in the minority class. ENN and Tomek link act as cleaning to remove irrelevant data and are considered as noise. To see the effect of the three resampling methods, namely SMOTE, SMOTE-ENN, and SMOTE-Tomek Link, data simulation was conducted. Data simulation can see the effect of sample size, class proportion size, and resampling method on decision tree, random forest, and XGBoost classification models on imbalanced data. The data simulation was also run for 100 iterations which shows that the first iteration is sufficient to represent the results of 100 iterations. The results show that the three methods tend to be able to provide good results with an increase in the precision, recall, ROC-AUC, and G-Mean metric values. The SMOTE method with XGBoost works well on small sample sizes with a significant increase in metric values. In SMOTE-ENN, the recall value tends to increase followed by a decrease in precision value at proportions 1:9, 2:8, and 3:7 with relatively small samples. SMOTE-Tomek Link also increases the metric value on relatively small samples with proportions of 1:9 and 2:8. In addition, the resampling method was also used on data available on Kaggle.com, namely Pima Indian Diabetes and Give Me Some Credit:: 2011 Competition. In the Pima Indian Diabetes data, it can be seen that the recall, ROC-AUC, and G-Mean values are the highest using SMOTE-ENN with the XGBoost model. On the Give Me Some Credit:: 2011 Competition also shows that the SMOTE-ENN method with the XGBoost model provides the highest metric value."
Depok: Fakultas Matematika Dan Ilmu Pengetahuan Alam Universitas Indonesia, 2023
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Andre Nurrohman
"ABSTRACT
Penyakit Parkinson terbagi dalam dua subtipe, yaitu Tremor Dominant (TD) dan Postural Instability/Gait Dominant (PIGD). Tiap subtipe memiliki perbedaan dalam penanganan klinis, sehingga perlu dilakukan klasifikasi subtipe penyakit Parkinson. Dalam Statistika, ada beberapa model yang membahas klasifikasi diantaranya adalah decision tree, regresi logistik, dan logit leaf model (LLM). LLM merupakan model campuran dari decision tree dan regresi logistik yang diusulkan oleh De Caigny et al. (2018). Penulisan ini membahas klasifikasi subtipe penyakit Parkinson menggunakan model klasifikasi statistika beserta penanganan masalah imbalanced data yang terjadi pada data penyakit Parkinson. Diperoleh model klasifikasi regresi logistik dengan melakukan proses SMOTE ± = 600, = 200 untuk menangani masalah imbalanced data. Model tersebut memberikan akurasi sebesar 98,83%, sensitivitas sebesar 98,41%, dan spesifisitas sebesar 99,07%.

ABSTRACT
Parkinsons Disease has two sub-types which are Tremor Dominant (TD) and Postural Instability/Gait Difficulty (PIGD). Each subtype has the difference in clinical treatment, so it is necessary to classify Parkinsons Disease subtypes. In Statistics, there are statistical models for classifying such as decision tree, logistic regression, and logit leaf model (LLM). LLM is a hybrid model from decision tree and logistic regression that proposed by (De Caigny et al., 2018). In this thesis discuss Parkinsons Disease Classification using statistical models with imbalanced data problem handling happen in Parkinson`s Disease data. For the result, logistic regression by processing SMOTE ± = 600, = 200 to handle data imbalanced problem. The model provides an accuracy of 98,83%, sensitivity of 98.41%, and specificity of 99.07%."
[, ]: 2019
S-Pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Fahri Alamsyah
"Dunia digital khususnya image processing berkembang seiring waktu berjalan dikarenakan kebutuhan masyarakat dan pentingnya keamanan sistem berbasis digital. Salah satu teknologi yang sangat mengalami kemajuan pesat adalah pengenalan wajah (face recognition) menggunakan artificial intelligence. Wajah seseorang yang sudah terdaftar di dalam database akan dikenali oleh sistem untuk keperluan validasi atau verifikasi. Di dalam penelitian ini dirancang sistem pengenalan wajah (face recognition) menggunakan algoritma machine learning dan Principal Component Analysis (PCA) sebagai pereduksi dimensi. Pengujian dilakukan dengan menggunakan beberapa metode, yakni: Support Vector Machine (SVM), Decision Tree (DT), K-Nearest Neighbour (K- NN), Logistic Regression (LR), Multi-Layer Perceptron (MLP) dan Convolutional Neural network (CNN). CNN berfokus pada layer dan tidak memerlukan reduksi dimensi, sehingga hasilnya lebih akurat. Model machine learning yang digunakan untuk classifier selain CNN adalah standar/default, sedangkan CNN menggunakan arsitektur LeNet-5, dengan dropout rate sebesar 0.25. Training dilakukan selama 60 epoch dengan loss function crosscategorical entropy, optimizer Adam, dan batch size sebesar 20. Data masukan adalah citra wajah berukuran 64 × 64 × 1 yang diperoleh dari dataset olivetti faces. Akurasi tertinggi metode PCA, SVM, maupun LR sebesar 91.25%, sementara akurasi terbaik CNN mencapai 98.75%. Selain akurasi, pemakaian confusion matrix dan classification report digunakan untuk menguji performa metode yang ada melalui evaluasi model klasifikasi.

The digital world, especially image processing, is evolving due to the needs of society and the importance of digital-based system security. One of the technologies that are rapidly progressing is face recognition using artificial intelligence. The system will recognize a person's face already registered in the database for validation or verification purposes. A face recognition system was designed using machine learning algorithms and Principal Component Analysis (PCA) as dimension reduction in this study. Testing is conducted using several methods: Support Vector Machine (SVM), Decision Tree (DT), K-Nearest Neighbour (K-NN), Logistic Regression (LR), Multi-Layer Perceptron (MLP) and Convolutional Neural network (CNN). CNN focuses on layers and does not require dimensional reduction to increase the accuracy of the result. The machine learning model used for classifiers other than CNN is standard/default settings, while CNN uses the LeNet-5 architecture, with a dropout rate of 0.25. The training was conducted for 60 epochs with loss function cross-categorical entropy, optimizer Adam, and batch size of 20. Input data is a 64 × 64 × 1 facial image obtained from the Olivetti faces database. The highest accuracy of PCA, SVM and LR methods was 91.25%, while CNN's best accuracy reached 98.75%. In addition to accuracy, the use of confusion matrix and classification report is used to test the performance of existing methods through the evaluation of classification models."
Depok: Fakultas Teknik Universitas Indonesia, 2021
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Martha Christina
"Bank yang menyelenggarakan program keuangan inklusif cenderung tidak melakukan diferensiasi pelayanan bagi para pelanggannya yang berasal dari populasi masyarakat unbanked. Banyak organisasi mengganggap segmen keuangan inklusif sebagai ladang yang kurang populer dalam mendapatkan keuntungan, karena kecilnya pemasukan dan besarnya biaya operasional yang dibutuhkan. Namun, beberapa studi sebelumnya tentang keuangan inklusif dan segmentasi pelanggan telah menentang gagasan ini dan menyatakan bahwa klasifikasi lebih lanjut terhadap kategori pelanggan khusus ini dapat membawa keuntungan bagi pihak bank. Segmentasi pelanggan sering dilakukan menggunakan model Recency, Frequency, dan Monetary (RFM) untuk mendapatkan nilai pelanggan bagi perusahaan.
Penelitian ini bertujuan untuk membuat model prediksi segmen pelanggan dalam konteks keuangan inklusif, dengan menerapkan penggunaan dua teknik data mining Self-Organizing Map (SOM) dan C5.0 decision tree (DT) secara hybrid. Analisa sosioekonomi, regional, dan pengeluaran digunakan untuk menilai pelanggan, alih-alih menggunakan RFM. Penelitian ini juga mempelajari pengaruh SOM terhadap kinerja klasifikasi keseluruhan, yang dievaluasi menggunakan confusion matrix. Dataset yang digunakan memiliki struktur generik sehingga model ini diharapkan dapat membantu pengembangan program keuangan inklusif pada institusi keuangan penyelenggara keuangan inklusif lainnya.

Banks adopting financial inclusion program often exclude differentiation in their services towards the target customers. Many organizations consider financial inclusion inflicts huge operational costs hence it is deemed infamous for profit gain. Previous studies in financial inclusion and customer segmentation have challenged this notion, concluding that further classification of this particular customer class could indeed bring profit for the bank and such that maintaining existing profiting customers induce less cost than the effort of acquiring new customers. Customer segmentation is often done using the Recency, Frequency and Monetary (RFM) model to assess a customer's value for the company.
This study aims to model customer segment predictions in the context of financial inclusion, using socioeconomic, regional, and expenditure analyses to assess customer values. Two data mining techniques Self-Organizing Map (SOM) and C5.0 decision tree (DT) are used in a hybrid setting. This study also observes the effect of SOM on overall classification performance, which is evaluated using confusion matrix. Due to the generality of the input dataset, the prediction model is expected to be usable, with minimal adjustments, by other financial inclusion institutions in need of customer segmentation.
"
Depok: Fakultas Teknik Universitas Indonesia, 2019
T54216
UI - Tesis Membership  Universitas Indonesia Library
cover
Gregorius Vidy Prasetyo
"ABSTRAK
Pada permasalahan seperti kesehatan atau dunia retail banyak dijumpai data-data yang memiliki kategori yang tidak seimbang. Sebagai contoh jumlah penderita penyakit tertentu relatif langka pada suatu studi atau jumlah transaksi yang terkadang merupakan transaksi palsu (fraud) jumlahnya secara signifikan lebih sedikit ketimbang transaksi normal. Kondisi ini biasa disebut sebagai kondisi data tidak seimbang dan menyebabkan permasalahan pada performa model, terutama pada kelas minoritas. Beberapa metode telah dikembangkan untuk mengatasi permasalahan data tidak seimbang, salah satu metode terkini untuk menanganinya adalah Easy Ensemble. Easy Ensemble diklaim dapat mengatasi efek negatif dari pendekatan konvensional seperti random-under sampling dan mampu meningkatkan performa model dalam memprediksi kelas minoritas. Skripsi ini membahas metode Easy Ensemble dan penerapannya dengan model Random Forest dalam mengatasi masalah data tidak seimbang. Dua buah studi empiris dilakukan berdasarkan kasus nyata dari situs kompetisi hacks.id dan kaggle.com. Proporsi kategori antara kelas mayoritas dan minoritas pada dua data di kasus ini adalah 70:30 dan 94:6. Hasil penelitian menunjukkan bahwa metode Easy Ensemble, dapat meningkatkan performa model klasifikasi Random Forest terhadap kelas minoritas dengan signifikan. Sebelum dilakukan resampling pada data (nhacks.id), nilairecall minority hanya sebesar 0.47, sedangkan setelah dilakukan resampling, nilainya naik menjadi 0.82. Begitu pula pada data kedua (kaggle.com), sebelum resampling nilai recall minority hanya sebesar 0.14, sedangkan setelah dilakukan resampling, nilai naik secara signifikan menjadi 0.71.

ABSTRACT
In the real world problem, there is a lot case of imbalanced data. As an example in medical case, total patients who suffering from cancer is much less than healthy patients. These condition might cause some issues in problem definition level, algorithm level, and data level. Some of the methods have been developed to overcome this issues, one of state-of-the-art method is Easy Ensemble. Easy Ensemble was claimed can improve model performance to classify minority class moreover can overcome the deï¬?ciency of random under-sampling. In this thesis discussed the implementation of Easy Ensemble with Random Forest Classifers to handle imbalance problem in a credit scoring case. This combination method is implemented in two datasets which taken from data science competition website, nhacks.id and kaggle.com with class proportion within majority and minority is 70:30 and 94:6. The results show that resampling with Easy Ensemble can improve Random Forest classifier performance upon minority class. This been shown by value of recall on minority before and after resampling which increasing significantly. Before resampling on the first dataset (nhacks.id), value of recall on minority is just 0.49, but then after resampling, the value of recall on minority is increasing to 0.82. Same with the second dataset (kaggle.com), before the resampling, value of recall on minority is just 0.14, but then after resampling, the value of recall on minority is increasing significantly to 0.71."
2019
S-Pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Nada Firdaus
"ABSTRAK
Kanker adalah penyebab kematian nomor dua di dunia dan diperkirakan mencapai 9,6 juta kematian pada tahun 2018, dengan kanker payudara menjadi kanker kedua yang sering terjadi setelahnya kanker paru-paru. Kanker payudara terjadi karena pertumbuhan sel abnormal yang tidak terkendali, yang dimulai di saluran yang membawa susu ke puting susu atau kelenjar pembuat susu. Pengobatan kanker payudara tergantung pada subtipe tumor, stadium, penanda genetik, usia pasien, kesehatan pasien umum, status menopause, dan mutasi pada gen kanker payudara yang diwariskan. Di akhir pengobatan pasien diberikan terapi tambahan yang bertujuan meminimalkan risiko kekambuhan. Meskipun terapi ini telah dilakukan, risiko kekambuhan tetap ada. Penanda pengganti adalah penanda yang digunakan untuk menggantikan titik akhir dari uji klinis yang biasanya digunakan mempercepat penanganan pasien. Tujuan dari penelitian ini adalah untuk mengetahui rasio hematologi pengukuran yang dapat digunakan sebagai penanda pengganti dalam kekambuhan kanker payudara sepanjang dengan titik cut-off. Pohon keputusan digunakan untuk menemukan titik batas rasio hematologi pengukuran yang mempengaruhi kekambuhan kanker payudara, dan kemudian hutan acak itu digunakan untuk mengetahui urutan variabel penting dalam klasifikasi. Hasil keduanya
metode dikuantifikasi menggunakan regresi logistik. Berdasarkan analisis, ditemukan bahwa rasio jumlah trombosit ke darah putih (titik potong 47.560) dan neutrofil terhadap rasio limfosit (titik potong 1,953) mempengaruhi kekambuhan kanker payudara.

ABSTRACT
Cancer is the number two cause of death in the world and is estimated to reach 9.6 million deaths in 2018, with breast cancer becoming the second most common cancer that follows lung cancer. Breast cancer occurs because of uncontrolled abnormal cell growth, which starts in the ducts that carry milk to the nipples or milk glands. Treatment of breast cancer depends on the tumor subtype, stage, genetic markers, patient age, general patient health, menopausal status, and mutations in inherited breast cancer genes. At the end of treatment the patient is given additional therapy aimed at minimizing the risk of recurrence. Despite this therapy, the risk of recurrence remains. A surrogate marker is a marker used to replace the endpoints of clinical trials that are usually used to speed up patient management. The aim of this study is to determine the hematological ratio measurements that can be used as surrogate markers in breast cancer recurrence along with the cut-off point. The decision tree is used to find the hematological ratio boundary point measurements that affect breast cancer recurrence, and then the random forest is used to determine the order of important variables in the classification. Both results the method is quantified using logistic regression. Based on the analysis, it was found that the ratio of platelet count to white blood (cut point 47,560) and neutrophils against lymphocyte ratio (cut point 1.953) influences breast cancer recurrence.
"
2019
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Iasha Zahra Nabila
"Abstrak. Imputasi missing values berperan penting dalam pre-processing data untuk menghasilkan data yang lengkap dan berkualitas. Dalam penelitian ini, dilakukan kombinasi dari Decision Tree dan algoritma Expectation Maximization (EM) sebagai metode imputasi dalam mengestimasi missing values. Namun, terdapat kekurangan pada metode ini, yaitu algoritma Expectation Maximization (EM) cenderung memberikan hasil imputasi yang lebih akurat jika terdapat banyak kemiripan antar atribut. Hal ini dapat diatasi dengan mempartisi segmen horisontal menggunakan algoritma Decision Tree. EM diterapkan pada berbagai segmen horisontal dari data set agar diperoleh banyak kemiripan antar atribut. Metode yang diusulkan ini kemudian dievaluasi dengan membandingkan kinerjanya dengan imputasi menggunakan mean dalam mengestimasi missing values data numerik dan dipilih Decision Tree sebagai classifier. Data yang digunakan untuk simulasi dalam penelitian ini yaitu data set PPOK-OSA. Penelitian ini menunjukkan bahwa metode imputasi missing values yang
diusulkan menghasilkan akurasi yang lebih tinggi jika dibandingkan menggunakan nilai mean dalam mengestimasi missing values. Hasil akurasi tertinggi dari metode ini yaitu83.3%, diperoleh pada saat persentase data training 10% dan rata-rata akurasi pada berbagai persentase data training sebesar 70.3%, sedangkan hasil akurasi tertinggi menggunakan nilai mean yaitu 58.3%, diperoleh pada saat persentase data training 20% dengan rata-rata akurasi
pada berbagai persentase data training sebesar 50.5%.

Abstract. Missing values imputation plays a vital role in data pre-processing for ensuring good quality of data. In this study, we present a combination of Decision Tree and
Expectation Maximization (EM) algorithm as imputation method to estimate missing values. However, there are shortcomings of method, where the Expectation Maximization algorithm tends to give more accurate imputation results if there are many similarities among attributes. Therefore, this can be overcome by partitioning the horizontal segments using the Decision
Tree algorithm. We applied EM on various horizontal segments of a data set where there are many similarities among attributes. Besides, we evaluate our proposed method by comparing its performance with mean values to impute missing values, and we choose the Decision Tree
as a classifier. Data used in this research is COPD-OSA data set. In this study shows that ourproposed method leads to higher accuracy than mean imputation. The highest accuracy results obtained from our proposed method is 83.3% when the percentage of training data is
10% and average accuracy in various percentage of training data is 70.3%, while the highest accuracy results using the mean value is 58.3% when the training data percentage is 20% and the average accuracy in various percentage of training data is 50.5%.
"
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2019
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
As`ad, Bahrawi
"Proses mencari pola atau informasi yang berguna pada suatu kumpulan data dengan menggunakan metode tertentu, saat ini telah menjadi topik yang menarik. Salah satu manfaatnya yaitu dapat menunjang pengambilan keputusan dalam suatu organisasi baik itu organisasi profit maupun non profit. Pada makalah ini akan dilakukan pengujian terhadap sekumpulan data yang diambil dari kejadian nyata untuk diolah, guna mendapatkan informasi atau pola yang dapat berguna untuk penentuan pengambilan sebuah keputusan. Pengujian pada makalah ini merupakan prediksi terhadap pengguna jasa sebuah operator seluler akan kehadirannya pada suatu acara berdasarkanbeberapa indicator, cuaca, jarak relative terhadap lokasi acara, serta apakah pengguna jasa tersebut merupakan termasuk pelanggan pasca bayar atau tidak. Pengujian dilakukan dengan menggunakan tiga metode klasifikasi, yakni naïve bayes, decision tree, dan oneR. Hasil dari percobaan ini bisa menunjukkan prediksi dari setiap percobaan dengan tingkat akurasi prediksi yang berbeda-beda disetiap metode yang digunakan."
Kementerian Komunikasi dan Informatika RI. Badan Penelitian dan Pengembangan Sumber Daya Manusia, 2016
384 JPKOP 20:1 (2016)
Artikel Jurnal  Universitas Indonesia Library
cover
Esti Latifah
"ABSTRAK
Klasifikasi merupakan proses pengelompokan suatu himpunan data ke kelas-kelas yang sudah ada sebelumnya. Pada umumnya, himpunan data dibagi menjadi dua bagian, yaitu training data dan testing data. Dibutuhkan suatu metode klasifikasi yang dapat mengelompokkan training data dan testing data ke dalam suatu kelas dengan tepat. Sering kali metode klasifikasi hanya dapat mengelompokkan training data dengan tepat saja, namun tidak demikian untuk testing data. Artinya, model yang terbentuk tidak cukup stabil atau model tersebut mengalami overfitting. Secara umum, overfitting merupakan kondisi saat akurasi yang dihasilkan pada training data cukup tinggi, namun cenderung tidak mampu memprediksi testing data. Penentuan metode klasifikasi yang rentan terhadap overfitting perlu dipertimbangkan. Random forest merupakan salah satu metode klasifikasi yang rentan terhadap masalah overfitting. Hal tersebut sekaligus menjadi salah satu kelebihan dari metode random forest. Oleh karena itu, pada tugas akhir ini akan dibahas metode random forest serta mengaplikasikannya pada data penderita penyakit Parkinson yang dibagi berdasarkan 2 sub-tipe, yaitu tremor dominant TD dan postural instability gait difficulty PIGD dominant. Selanjutnya, dari data tersebut diperoleh hasil akurasi model yang dihasilkan dalam mengklasifikasi training data, yaitu sekitar 94,25 . Sementara itu, akurasi metode ini dalam melakukan klasifikasi pada data yang tidak terkandung dalam membentuk model sebesar 94,26.

ABSTRACT
Classification is the process of grouping a set of data into pre existing classes. In general, the data set is divided into two parts. There are training data and testing data. It takes a classification method that can classify both training data and testing data of its class appropriately. However, some of the classification methods only fit in training data, but it can not apply in testing data. It means that the model is unstable or the model occurs overfitting. In general, overfitting is a condition when the model too fit in training, but unable to predict testing data. In other words, the accuracy of predicting the testing data is decreasing. Therefore, the determination of classification methods that are vulnerable to overfitting need to be considered. Random forest is one of the classification methods that is vulnerable to overfitting. It is also one of the advantages of the random forest method. Therefore, in this final project will be discussed random forest method and applying it to the data of Parkinson 39 s disease patients that is divided by 2 sub types. There are dominant tremor TD and postural instability gait difficulty PIGD dominant. Furthermore, from the data obtained the results of model accuracy in classifying the training data is about 94.25 . Meanwhile, the accuracy of this method in classifying the data not contained in forming a model is about 94.26."
2018
S-Pdf
UI - Skripsi Membership  Universitas Indonesia Library
<<   1 2 3 4 5 6 7 8 9 10   >>