Hasil Pencarian

Ditemukan 14 dokumen yang sesuai dengan query

Glorya Khoirunnissa

Analisis Pendeteksian Kategori Email Spam dan Pengaruh Teknik Oversampling Pada Beberapa Model Machine Learning = Analysis of Spam Email Category Detection and The Influence of Oversampling Technique on Several Machine Learning Models

"Kategori email dapat diklasifikasikan dengan menggunakan pemrosesan bahasa alami (natural language processing) dan machine learning untuk mempelajari pola kata pada email. Model yang digunakan adalah support vector machine, multinomial naïve bayes, dan random forest dan digunakan teknik oversampling berupa random oversampling, synthetic minority over-sampling (SMOTE), dan adaptive synthetic sampling (ADASYN) untuk menyeimbangkan distribusi kelas dan meningkatkan performa pada model. Hasil yang diperoleh bahwa teknik ADASYN menghasilkan performa terbaik dalam klasifikasi email yang divalidasi dengan k-fold cross-validation (k=7) dibandingkan dua teknik lainnya. Rata-rata akurasi mencapai 97.87% pada support vector machine, sedangkan multinomial naive bayes 77.97% , dan random forest 95.94% dengan menggunakan teknik ADASYN.

Email categories can be classified using natural language processing (NLP) and machine learning to learn word patterns in emails. The models used are support vector machine, multinomial naïve Bayes, and random forest. Oversampling techniques such as random oversampling, synthetic minority over-sampling (SMOTE), and adaptive synthetic sampling (ADASYN) are employed to balance the class distribution and improve model performance. The results show that the ADASYN technique achieves the best performance in email classification validated with k-fold cross-validation (k=7) compared to the other two techniques. The average accuracy reaches 97.87% for support vector machine, 77.97% for multinomial naïve Bayes, and 95.94% for random forest when using the ADASYN technique."

Depok: Fakultas Teknik Universitas Indonesia, 2023

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

Doni Pradana

Pemodelan Prediksi Customer Churn Menggunakan Teknik Augmentasi Synthetic Minority Over-sampling Technique dan Optimasi Bayesian Adaboost untuk Data Tidak Seimbang = Customer Churn Prediction Modeling Using Synthetic Minority Over-sampling Technique and Adaboost Bayesian Optimization for Data Imbalanced Handling

"Customer churn merupakan masalah serius di banyak sektor, termasuk sektor telekomunikasi. Pengertian costumer churn adalah berhentinya penggunaan suatu layanan dan beralih ke penyedia lain atau tidak memperbarui kontrak. Untuk mengatasi risiko churn, perusahaan telekomunikasi perlu menggunakan model prediksi dengan bantuan metode machine learning. Terdapat beberapa model prediksi churn yang telah diajukan oleh para peneliti, termasuk pemilihan algoritma yang sesuai dan dataset untuk studi kasus. Pada tesis ini menggunakan dataset IBM Telco Customer Churn sebagai data pelatihan dan pengujian. Tantangan umum dalam klasifikasi adalah ketidakseimbangan data, yang dapat menyebabkan kegagalan dalam memprediksi kelas minoritas. Oleh karena itu, tesis ini menggunakan beberapa teknik augmentasi data seperti SMOTE, HAT, dan CVAE, sebagai teknik dalam menyeimbangkan data. Pembelajaran ensembel khususnya metode CART (Classification and Regression Tree) sering digunakan untuk menyelesaikan permasalahan klasifikasi dan regresi. Model Adaboost adalah algoritma pembelajaran ensemble yang menggunakan pohon keputusan sebagai dasar pembelajaran. Dalam pelatihan model Adaboost, Bayesian Optimization (BO) digunakan sebagai metode pencarian hyperparameter terbaik. Dari hasil percobaan dan pengujian yang diajukan, model Adaboost dapat memberikan nilai testing f1-score dan recall sebesar 0,661 dan 0,653 pada pelatihan dengan dataset tidak seimbang. Model Adaboost-SMOTE mempunyai nilai testing f1-score dan recall sebesar 0,646 dan 0,826. Penggunaan optimasi Bayesian Optimization pada model Adaboost-SMOTE dapat menaikkan testing f1-score dan recall menjadi 0,649 dan 0,849. Tes ANOVA dan Tukey HSD mengungkapkan variasi yang signifikan dalam hasil pelatihan dari model machine learning, dan menyoroti dampak penggunaan data seimbang dalam pelatihan model yang signifikan.

Customer churn is a severe problem in various sectors, including telecommunications. Customer churn refers to discontinuing the service, switching to another provider, or not renewing the contract. To deal with churn risk, telecommunication companies need to use predictive models with the help of machine learning methods. Several churn prediction models have been proposed by researchers, including the selection of suitable algorithms and data sets for case studies. In this thesis, research is conducted using the IBM Telco Customer Churn dataset. A common challenge in classification is data imbalance, which can lead to failure in predicting minority classes. Therefore, this thesis using several data augmentation techniques, such as SMOTE, HAT, and CVAE, for balancing data technique. Ensemble learning, especially the CART (Classification and Regression Tree) method, is often used to solve classification and regression problems. Adaboost is an ensemble learning algorithm that uses decision trees as the basis for learning. In the Adaboost model training, Bayesian Optimization (BO) is used to find the best hyperparameters. From the trials and tests carried out, Adaboost achieved an f1-score and recall test of 0.661 and 0.653, respectively, in training with an unbalanced dataset. The Adaboost SMOTE model achieved f1 and memory test scores of 0.646 and 0.826, respectively. Using Bayesian Optimization in the Adaboost SMOTE model increased the testing f1-score and recall scores to 0.649 and 0.849, respectively. ANOVA and Tukey HSD tests reveal significant variation in machine learning model training results and highlight the considerable impact of using balanced data in model training."

Depok: Fakultas Teknik Universitas Indonesia, 2023

T-pdf

UI - Tesis Membership Universitas Indonesia Library

Tarigan, Ibrahim Amyas Aksar

Rancang Bangun Model Prediksi Risiko Stunting di Indonesia dengan Penerapan Data Science = Development of Stunting Risk Prediction Model in Indonesia with the Application of Data Science

"Stunting adalah kondisi di mana balita memiliki panjang atau tinggi badan di bawah rata-rata yang diakibatkan oleh buruknya gizi yang didapatkan. Stunting berpotensi memperlambat perkembangan otak, dengan dampak jangka panjang berupa keterbelakangan mental, rendahnya kemampuan belajar, dan risiko serangan penyakit kronis (diabetes, hipertensi dan obesitas). Salah satu upaya untuk memitigasi dan mengurangi angka kejadian stunting adalah dengan menerapkan ilmu Data Science dalam mengevaluasi dan membuat model prediksi risiko dari faktor yang dianggap dominan dalam terjadinya stunting. Kerangka kerja CRISP-DM digunakan sebagai metodologi penelitian ini. Data yang digunakan adalah data sekunder dari Indonesia Family Life Survey (IFLS) tahun 2014-2015, yang dilakukan di 13 provinsi di Indonesia. Pemodelan dilakukan menggunakan bahasa pemrograman Python yang dikerjakan pada Jupyter Notebook. Dua metode sampling (Random Sampling dan Oversampling) digunakan untuk mengatasi masalah data imbalance. Empat algoritma classifier diujikan untuk mengetahui performa model. Hasil penelitian menunjukkan keempat algoritma dinyatakan model yang baik dengan performa rata-rata lebih dari 70%. Pada teknik undersampling, skor akurasi yang didapatkan Logistic Regression sebesar 98,31%, KNN sebesar 77,53%, SVC sebesar 97,48%, dan Decision Tree Classifier sebesar 80,76%. Sedangkan pada teknik oversampling, skor akurasi yang didapatkan Logistic Regression adalah 95%, KNN sebesar 71%, SVC sebesar 93%, dan Decision Tree Classifier sebesar 84%. Logistic Regression adalah algoritma klasifikasi terbaik yang dapat digunakan pada dataset ini dan hasil perbandingan skor Logistic Regression pada teknik undersampling (95,09%) dan oversampling (91,98%) setelah 10 kali percobaan menunjukkan bahwa meskipun teknik undersampling memiliki performa yang lebih baik, namun teknik oversampling memiliki hasil yang lebih konsisten.

Stunting is a condition in which a toddler has a length or height below the average caused by poor nutrition. Stunting has the potential to slow down brain development, with long-term effects in the form of intellectual disability, low learning abilities, and the risk of developing chronic diseases (diabetes, hypertension and obesity). One of the efforts to mitigate and reduce the incidence of stunting is to apply Data Science in evaluating and making risk prediction models from factors that are considered dominant in the occurrence of stunting. The CRISP-DM framework was used as the methodology of this study. The data used is secondary data from the Indonesia Family Life Survey (IFLS) 2014-2015, which was conducted in 13 provinces in Indonesia. The modelling is made using the Python programming language which is done on Jupyter Notebook. Two sampling methods (Random Sampling and Oversampling) were used to overcome the problem of data imbalance. Four classifier algorithms were tested to determine the performance of the model. The research results showed four algorithms were declared good models with an average performance of more than 70%. In the undersampling technique, the accuracy score obtained by Logistic Regression is 98.31%, KNN is 77.53%, SVC is 97.48%, and Decision Tree Classifier is 80.76%. While in the oversampling technique, the accuracy score obtained by Logistics Regression is 95%, KNN is 71%, SVC is 93%, and Decision Tree Classifier is 84%. Logistic Regression is the best classification algorithm that can be used in this dataset and the results of the comparison of Logistic Regression scores on the undersampling (95.09%) and oversampling (91.98%) techniques after 10 experiments show that although the undersampling technique has better performance, oversampling technique has more consistent results."

Depok: Fakultas Teknik Universitas Indonesia, 2022

T-pdf

UI - Tesis Membership Universitas Indonesia Library

Ruth Intan Davina

Analisis Perbandingan Metode AdaBoost, SMOTEBoost, dan RUSBoost dalam Menangani Ketidakseimbangan Data pada Klasifikasi = Comparative Analysis of AdaBoost, SMOTEBoost, and RUSBoost Methods in Handling Imbalanced Data in Classification

"Ketidakseimbangan data merupakan tantangan umum dalam klasifikasi, di mana salah satu kelas memiliki ukuran sampel yang jauh lebih sedikit dibandingkan kelas lainnya dalam suatu dataset. Kondisi ini dapat menghasilkan klasifikasi yang memiliki akurasi prediksi yang tinggi untuk kelas mayoritas, tetapi cenderung rendah untuk kelas minoritas yang memiliki kontribusi kecil terhadap kesalahan total. Dalam aplikasi dunia nyata, kesalahan klasifikasi pada kelas minoritas sering kali memiliki konsekuensi yang lebih serius, seperti pada kasus deteksi serangan siber pada sistem keamanan jaringan. Kegagalan dalam mendeteksi serangan siber (false negative) dapat membuka celah keamanan yang berakibat fatal. Untuk menangani masalah ketidakseimbangan data, berbagai metode telah dikembangkan, termasuk pendekatan ensemble seperti SMOTEBoost (Synthetic Minority Oversampling Technique and Boosting) dan RUSBoost (Random Undersampling and Boosting). Pada penelitian skripsi ini dilakukan studi empiris pada data serangan malware dari dataset AWID3 menggunakan metode SMOTEBoost dan RUSBoost dan dibandingkan performanya dengan algoritma dasarnya, AdaBoost. Simulasi dilakukan dengan berbagai kombinasi hyperparameter dan variasi proporsi data training dan testing untuk mengevaluasi kinerja model secara komprehensif. Hasil penelitian menunjukkan bahwa metode SMOTEBoost dan RUSBoost memiliki kinerja yang sebanding dalam mendeteksi kelas minoritas, di mana nilai recall mencapai 0,99, dan lebih unggul dari metode AdaBoost dengan nilai recall 0,87-0,88. Penelitian tambahan yang dilakukan untuk mengevaluasi kinerja masing-masing metode pada berbagai jenis ketidakseimbangan menunjukkan bahwa kinerja metode AdaBoost menurun seiring dengan meningkatnya ketidakseimbangan relatif, sedangkan metode SMOTEBoost dan RUSBoost tetap stabil dengan kinerja yang baik. Namun, ukuran sampel minoritas yang terbatas atau absolute rarity memiliki dampak pada penurunan kinerja metode SMOTEBoost dan RUSBoost.

Imbalanced data is a common challenge in classification tasks, where one class has significantly fewer instances compared to others within a dataset. This condition can result in classification models with high predictive accuracy for the majority class but tend to perform poorly on the minority class, which contributes little to the overall error rate. In real-world applications, misclassifications errors on the minority class often bear more severe consequences, such as in the case of detecting cyber attacks in network security systems. Failure to detect cyber attacks (false negatives) can lead to security breaches with fatal consequences. To address the imbalanced data problem, various methods have been developed, including ensemble approaches such as SMOTEBoost (Synthetic Minority Oversampling Technique and Boosting) and RUSBoost (Random Undersampling and Boosting). In this thesis research, an empirical study was conducted on malware attack data from the AWID3 dataset using the SMOTEBoost and RUSBoost, and their performance was compared with their base algorithm, AdaBoost. Simulations were carried out with various combinations of hyperparameter and different train-test split to comprehensively evaluate the model’s performance. The research results showed that SMOTEBoost and RUSBoost methods had comparable performance in detecting the minority class, achieving remarkable recall values of 0.99, outperformed the AdaBoost method, which had recall values ranging from 0.87 to 0.88. Additional research conducted to evaluate the performance of each method on various types of imbalance showed that the performance of the AdaBoost method decreased as the relative imbalance increased, while the SMOTEBoost and RUSBoost methods maintained a stable and robust performance. However, a limited number of minority instances or absolute rarity had a negative effect on the performance of the SMOTEBoost and RUSBoost methods."

Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2024

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

Handy Chandra

Simulasi dan optimisasi dari Second-Order Delta Sigma modulator dengan resolusi efektif 15 bit

"Delta Sigma ADC (Analog to Digital Converter) adalah salah satu jenis ADC dengan resolusi yang lebih tinggi dibandingkan jenis ADC lainnya. Komponen paling penting dari Delta Sigma ADC adalah Delta Sigma Modulator. Terdapat dua faktor yang mempengaruhi resolusi dari Delta Sigma Modulator yaitu oversampling ratio dan topologi rangkaian. Skripsi ini akan membahas simulasi dan optimasi dari salah satu topologi rangkaian Delta Sigma Modulator yaitu SecondOrder Delta Sigma Modulator untuk mencapai resolusi yang lebih tinggi. Rangkaian SecondOrder Delta Sigma Modulator akan dioptimasi dengan menggunakan topologi fully differential dan dengan menaikkan oversampling ratio agar mencapai resolusi yang lebih tinggi. Kemudian layout integrated circuit dari rangkaian secondorder Delta Sigma Modulator akan dibuat dan disimulasikan untuk melihat performa dari rangkaian. Pada simulasi awal didapatkan resolusi modulator sebesar 8 bit. Kemudian optimasi lebih jauh dilakukan dengan mengubah ? ubah nilai kapasitor dan kapasitansi parasitik pada modulator untuk melihat pengaruhnya terhadap resolusi dari modulator. Dari hasil percobaan optimasi didapatkan dengan mengubah kapasitor C1,C2 menjadi 0,2 pf dan kapasitansi parasitik poly1 ke substrat dari kapasitor C1,C2 menjadi 1 ff, resolusi modulator naik menjadi 15 bit.

Delta Sigma ADC (Analog to Digital Converter) is one of ADC with high resolution. The most important component of Delta Sigma ADC is Delta Sigma Modulator. There are two factors that influence the resolution of Delta Sigma Modulator, which is oversampling ratio and circuit topology. This thesis discusses about simulation and optimization of one topology of Delta Sigma Modulator called SecondOrder Delta Sigma Modulator to reach better resolution. Second¬ Order Delta Sigma circuit will be optimized using fully differential topology and increasing oversampling ratio. Then, integrated circuit layout of SecondOrder Delta Sigma Modulator will be made and simulated to look at the performance of the circuit. Simulation reveal that modulator?s resolution is 8 bit. Further optimization will be done by changing the value of capacitor and parasiticcapacitance to see it?s relation to the resolution of the modulator. After optimization is done, better resolution is achieved with the value of C1,C2 0.2 pf and parasitic capacitance poly1 to substrate from C1,C2 is 1 ff. The new effective resolution achieved is 15 bit."

Depok: Fakultas Teknik Universitas Indonesia, 2011

S769

UI - Skripsi Open Universitas Indonesia Library

Dea Aulia Utami

Klasifikasi Imbalanced Data Infark Serebri Menggunakan Support Vector Machine = Support Vector Machine for Classification Cerebral Infarction Imbalanced Data

"ABSTRAK

Infark serebral merupakan salah satu penyebab terjadinya stroke iskemik di otak. Dalam mendiagnosis adanya infark serebral di otak, digunakan pembelajaran mesin karena tidak cukup hanya menggunakan CT scan untuk mendiagnosisnya. Support vector machine (SVM) merupakan salah satu metode pembelajaran mesin yang dikenal dengan nilai akurasinya yang tinggi. Namun SVM dapat memberikan hasil yang kurang optimal jika data yang digunakan tidak seimbang. Jika data yang digunakan tidak seimbang, model yang dihasilkan akan bias. Oleh karena itu, penelitian ini menggunakan metode Synthetic Minority Oversampling Technique (SMOTE) dalam menangani data infark serebral yang tidak seimbang sehingga menjadi data yang seimbang. SMOTE mensintesis sampel data baru dari kelas minoritas untuk menyeimbangkan kumpulan data. Metode ini bekerja dengan mencari nilai tetangga terdekat untuk setiap data di kelas minoritas. Data yang telah diimbangi dengan metode SMOTE akan diklasifikasikan menggunakan SVM. Hasil klasifikasi SVM pada data infark serebral imbalanced dan data infark serebral berimbang akan dibandingkan berdasarkan nilai akurasi, recall, spesifisitas, presisi dan f1-score. Data infark serebral diperoleh dari Bagian Radiologi RSUD Dr. Cipto Mangunkusumo.

ABSTRACT

Cerebral infarction is one of the causes of ischemic stroke in the brain. In diagnosing cerebral infarction in the brain, machine learning is used because it is not enough to just use a CT scan to diagnose it. Support vector machine (SVM) is a machine learning method known for its high accuracy value. However, SVM can give less than optimal results if the data used is not balanced. If the data used is not balanced, the resulting model will be biased. Therefore, this study uses the Synthetic Minority Oversampling Technique (SMOTE) method in handling unbalanced cerebral infarction data so that it becomes a balanced data. SMOTE synthesizes a new data sample from a minority class to balance the data set. This method works by finding the value of the nearest neighbor for each data in the minority class. Data that has been balanced with the SMOTE method will be classified using SVM. The SVM classification results on imbalanced cerebral infarction data and balanced cerebral infarction data will be compared based on the accuracy, recall, specificity, precision and f1-score values. Cerebral infarction data were obtained from the Radiology Department of RSUD Dr. Cipto Mangunkusumo."

Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2019

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

Iffa Maula Nur Prasasti

Automobile insurance fraud detection using supervised learning classifiers = Deteksi kecurangan pada asuransi kendaraan bermotor dengan supervised learning classifiers.

"Asuransi mobil adalah produk asuransi yang banyak digunakan di Indonesia. Namun, asuransi mobil memiliki potensi untuk kecurangan klaim yang menyebabkan kerugian bagi perusahaan dan pemegang polis. Penelitian ini bertujuan untuk merancang model prediksi deteksi kecurangan asuransi mobil di Indonesia menggunakan pendekatan machine learning. Supervised classifiers adalah salah satu teknik machine learning yang memiliki kemampuan untuk memprediksi kasus-kasus anomali. Supervised classifiers yang digunakan pada penelitian ini adalah Multilayer Perceptron (MLP), Decision Tree C4.5, dan Random Forest (RF). Penelitian ini menggunakan data real-world pada perusahaan asuransi mobil di Indonesia. Dataset memiliki distribusi tidak seimbang yang sangat tinggi antara data pemegang polis yang melakukan kecurangan dan pemegang polis yang sah. Penelitian ini menangani masalah dataset yang tidak seimbang dengan menggunakan Synthetic Minority Oversampling Technique (SMOTE) dan metode undersampling. Kinerja model dievaluasi melalui confusion matrix, Kurva ROC, dan parameter seperti sensitivitas. Penelitian ini menemukan bahwa Random Forest memberikan hasil terbaik dibandingkan dengan MLP dan Decision Tree C4.5.

Automobile insurance is widely used insurance product in Indonesia. However, automobile insurance has the potential for fraudulent claim that leads to several consequences for the company and policyholder. This research aims to design a prediction model of automobile insurance fraud detection in Indonesia using a machine learning approach. Supervised classifiers is one of machine learning techniques that has the ability to predict anomaly cases. The proposed supervised classifiers are Multilayer Perceptron (MLP), Decision Tree C4.5, and Random Forest(RF). This research used real-world data on an automobile insurance company in Indonesia. The dataset has a high imbalanced distribution between the data of policyholders who commit fraud and legitimate. This study handles the imbalanced dataset problem by using the Synthetic Minority Oversampling Technique (SMOTE) and undersampling methods. The performance of models is evaluated through the confusion matrix, ROC Curve, and parameters such as sensitivity. This research found that Random Forest outperformed the results comparing to other classifiers."

Depok: Fakultas Teknik Universitas Indonesia, 2020

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

Fiftitah Repfian Aszhari

"Klasifikasi Data Stroke Menggunakan Random Forest dengan Recursive Feature Elimination" = "Classification of Stroke Data Using Random Forest with Recursive Feature Elimination"

Stroke merupakan salah satu penyakit dengan risiko kematian dan kecacatan yang tinggi. Secara umum, stroke diklasifikasikan menjadi dua jenis, yaitu stroke iskemik dan stroke hemoragik. Klasifikasi jenis stroke secara cepat dan tepat diperlukan untuk menentukan jenis pengobatan dan tindakan yang tepat guna mencegah terjadinya dampak yang lebih fatal pada pasien stroke. Pada penelitian ini, klasifikasi stroke dilakukan menggunakan pendekatan machine learning. Adapun data penelitian yang digunakan adalah data stroke yang terdiri atas pemeriksaan laboratorium. Pada data penelitian tersebut, terdapat berbagai komponen pemeriksaan laboratorium yang dicatat serta memungkinkan adanya suatu pemeriksaan yang kurang relevan atau informatif dalam mengklasifikasi stroke. Apabila data tersebut tidak ditangani, akan mempengaruhi kinerja serta waktu komputasi model dalam mengklasifikasi stroke. Oleh karena itu, pada penelitian ini, Random Forest (RF) dengan seleksi fitur Recursive Feature Elimination (RFE) digunakan dalam mengklasifikasi data stroke. Dengan menerapkan metode tersebut, diperoleh kinerja model yang lebih baik saat melakukan klasifikasi menggunakan sejumlah fitur yang diperoleh dari hasil seleksi fitur, dibandingkan menggunakan keseluruhan fitur dalam data stroke. Selain itu, pada penerapan metode tersebut, diperoleh kinerja model yang baik dalam mengklasifikasi data kelas stroke iskemik, akan tetapi tidak cukup baik dalam mengklasifikasi data kelas stroke hemoragik. Hal ini dikarenakan proporsi jumlah data pada kelas stroke iskemik lebih banyak dibandingkan stroke hemoragik. Dalam hal ini dibutuhkan suatu metode penanganan agar kinerja model tetap optimal dalam mengklasifikasi data kelas stroke iskemik dan stroke hemoragik. Pada penelitian ini, Synthetic Minority Oversampling Technique (SMOTE) digunakan untuk menyeimbangkan kedua kelas data stroke guna memperoleh kinerja model yang optimal dalam mengklasifikasi kedua kelas data stroke. Berdasarkan penerapan metode RF dengan RFE serta SMOTE dalam mengklasifikasi data stroke, diperoleh kinerja model yang lebih baik dibandingkan melakukan klasifikasi pada data stroke yang tidak diseimbangkan dengan SMOTE.

Stroke is one of the diseases with the high risk of death and disability. Stroke generally can be classified into two types, namely ischemic stroke and hemorrhagic stroke. A quick and accurate stroke classification is needed to find the right treatment to prevent a dangerous effect on the stroke patients. In this study, the stroke classification was applied using a machine learning approach. The data used in this study is stroke data that consists of laboratory examinations. The data consists of various laboratory examination components, therefore, it might be possible that some of the components are less relevant and has less informative related in classifying stroke. If the data is not well handled, it might affect the performance and computation time of the model in classifying stroke. Therefore, in this study, Random Forest (RF) with Recursive Feature Elimination (RFE) method is used to classify the stroke data. The result showed that by applying the method in classifying several amounts of features obtained from the feature selection results has better performance rather than classifying the method using all features in stroke data. Moreover, based on applying this method, the result showed that the model has better performance in classifying ischemic stoke class data but not good enough in classifying hemorrhagic stroke class data. This result might occur because the proportion of numbers the ischemic stroke more than hemorrhagic stroke class data. Therefore, the handling method is needed to obtain optimal model performance in classifying ischemic stroke and hemorrhagic stroke class data. In this study, Synthetic Minority Oversampling Technique (SMOTE) is applied to balance the two classes of stroke data so optimal performance of the classification model can be obtained. Based on the application of the RF with RFE methods and SMOTE in the classification of stroke data, better model performance is obtained compared to classifying the stroke data that is not balanced with SMOTE.

Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2020

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

Diwandaru Rousstia

Pengembangan Metode Intrusion Detection System berbasis Machine Learning pada tahap seleksi fitur, penyeimbangan kelas, dan ensemble learning = Development of Machine Learning-Based Intrusion Detection System methods at the feature selection, class balancing, and ensemble learning stages

"Risiko serangan siber berbanding lurus dengan pertumbuhan aplikasi dan jaringan komputer. Intrusion Detection System (IDS) diimplementasikan agar dapat mendeteksi serangan siber dalam lalu lintas jaringan. Akan tetapi terdapat permasalahan pada pendeteksian serangan yang belum diketahui atau jenis serangan baru. Selain itu juga terdapat masalah kinerja tentang waktu deteksi, akurasi deteksi, dan false alarm. Dibutuhkan deteksi anomali dalam lalu lintas jaringan untuk mengurangi permasalahan tersebut dengan pendekatan machine learning. Pengembangan dan pemanfaatan IDS dengan machine learning telah diterapkan dalam beberapa penelitian sebagai solusi untuk meningkatkan kinerja dan evaluasi prediksi deteksi serangan. Memilih pendekatan machine learning yang tepat diperlukan untuk meningkatkan akurasi deteksi serangan siber. Penelitian ini menggunakan metode homogeneous ensemble learning yang mengoptimalkan algoritma tree khususnya gradient boosting tree - LightGBM. Dataset Communications Security Establishment dan Canadian Institute of Cybersecurity 2018 (CSE-CIC-IDS 2018) digunakan untuk mengevaluasi pendekatan yang diusulkan. Metode Polynom-fit SMOTE (Synthetic Minority Oversampling Technique) digunakan untuk menyelesaikan masalah ketidakseimbangan dataset. Penerapan metode spearman’s rank correlation coefficient pada dataset menghasilkan 24 fitur subset dari 80 fitur dataset yang digunakan untuk mengevaluasi model. Model yang diusulkan mencapai akurasi 99%; presisi 99,2%, recall 97,1%; F1-score 98,1%; ROC-AUC 99,1%; dan average-PR 98,1% serta meningkatkan waktu pelatihan model dari 3 menit 25,10 detik menjadi 2 menit 39,68 detik.

The risk of cyberattacks is directly proportional to the growth of applications and computer networks. An Intrusion Detection System (IDS) is implemented to detect cyber attacks in network traffic. However, there are problems detecting unknown attacks or new types of attacks. In addition, there are performance issues regarding detection time, detection accuracy, and false alarms. A machine learning approach takes anomaly detection in network traffic to reduce these problems. The development and utilization of IDS with machine learning have been applied in several studies to improve performance and evaluate attack detection predictions. Choosing the right machine learning approach is necessary to improve the accuracy of cyberattack detection. This research uses a homogeneous ensemble learning method that optimizes tree algorithms, especially gradient boosting tree - LightGBM. The Communications Security Establishment and Canadian Institute of Cybersecurity 2018 (CSE-CIC-IDS 2018) dataset evaluated the proposed approach. The Polynom-fit SMOTE (Synthetic Minority Oversampling Technique) method solved the dataset imbalance problem. The application of spearman's rank correlation coefficient method to the dataset resulted in 24 subset features of the 80 dataset features used to evaluate the model. The proposed model achieves 99% accuracy; precision 99.2%, recall 97.1%; F1-score 98.1%; ROC-AUC 99.1%; and an average-PR of 98.1% and increased the training time of the model from 3 minutes 25.10 seconds to 2 minutes 39.68 seconds."

Depok: Fakultas Teknik Universitas Indonesia, 2021

T-pdf

UI - Tesis Membership Universitas Indonesia Library

Hada Melino Muhammad

Modifikasi arsitektur Deep Convolutional Generative Adversarial Network (DCGAN) untuk oversampling data tabel serta pengaruhnya terhadap performa deteksi Anomaly-Based Network Intrusion Detection System (ANIDS) = Modification of Deep Convolutional Generative Adversarial Network (DCGAN) architecture for tabular data oversampling and its effect on Anomaly-Based Network Intrusion Detection System (ANIDS) detection performance

"Anomaly-Based Network Intrusion Detection System (ANIDS) memegang peranan yang sangat penting dengan berkembangnya teknologi internet. ANIDS digunakan untuk mendeteksi trafik jaringan yang membahayakan pengguna internet. Metode tradisional yang digunakan untuk membuat ANIDS masih sulit untuk mengekstrak fitur dari trafik yang banyak dan berdimensi tinggi. Selain itu, jumlah sampel yang sedikit pada beberapa jenis trafik menyebabkan ketidakseimbangan dataset dan mempengaruhi performa deteksi ANIDS. Ketidakseimbangan dataset dapat diatasi dengan oversampling dan atau undersampling. Penulis mengusulkan metode oversampling menggunakan modifikasi dari Deep Convolutional Generative Adversarial Network (DCGAN) yang dapat mengekstrak fitur trafik data secara langsung dan menghasilkan sampel baru untuk menyeimbangkan dataset. Modifikasi DCGAN bertujuan untuk menghindari adanya pemetaan data tabular menjadi data gambar sebelum masuk ke DCGAN. Selain itu, modifikasi DCGAN bertujuan untuk menstabilkan pelatihan model untuk data tabular sehingga data yang dihasilkan lebih berkualitas. Pengujian efek modifikasi DCGAN dilakukan dengan melatih model ANIDS yang terdiri dari model Deep Neural Network (DNN) dan Convolutional Neural Network (CNN). Evaluasi performa deteksi dilakukan dengan confusion matrix serta metrik accuracy, precision, recall, dan F1-Score. Hasil yang didapatkan adalah oversampling menggunakan modifikasi DCGAN meningkatkan validation accuracy dari 75.77% menjadi 81.41% pada model DNN dan 73.94% menjadi 80.76% pada model CNN. Peningkatan metrik lain juga terjadi akibat dari peningkatan validation accuracy.

Anomaly-Based Network Intrusion Detection System (ANIDS) plays a very important role with the development of internet technology. ANIDS is used for detecting network traffic that endangers internet users. The traditional methods used to create ANIDS are still difficult to extract features from high-dimensional traffic. In addition, the small number of samples in some types of traffic causes imbalanced dataset and affects ANIDS detection performance. Imbalanced dataset can be overcome by oversampling and or undersampling. The author proposes an oversampling method using a modification of the Deep Convolutional Generative Adversarial Network (DCGAN) which can extract data traffic features directly and generate new samples to balance the dataset. DCGAN modification aims to avoid mapping tabular data into image data before entering DCGAN. In addition, the DCGAN modification aims to stabilize the training model for tabular data so that the resulting data is of higher quality. Testing the effects of the DCGAN modification was carried out by training the ANIDS model consisting of the Deep Neural Network (DNN) and Convolutional Neural Network (CNN) models. Evaluation of detection performance is carried out using a confusion matrix and the metrics of accuracy, precision, recall, and F1-Score. The results obtained are oversampling using the DCGAN modification increases the validation accuracy from 75.77% to 81.41% in the DNN model and 73.94% to 80.76% in the CNN model. Improvements in other metrics also occurred as a result of the increase in validation accuracy."

Depok: Fakultas Teknik Universitas Indonesia, 2022

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

<< 1 2 >>

Hasil Pencarian :: Simpan CSV :: Kembali

Hasil Pencarian