Hasil Pencarian  ::  Simpan CSV :: Kembali

Hasil Pencarian

Ditemukan 13 dokumen yang sesuai dengan query
cover
Glorya Khoirunnissa
Abstrak :
Kategori email dapat diklasifikasikan dengan menggunakan pemrosesan bahasa alami (natural language processing) dan machine learning untuk mempelajari pola kata pada email. Model yang digunakan adalah support vector machine, multinomial naïve bayes, dan random forest dan digunakan teknik oversampling berupa random oversampling, synthetic minority over-sampling (SMOTE), dan adaptive synthetic sampling (ADASYN) untuk menyeimbangkan distribusi kelas dan meningkatkan performa pada model. Hasil yang diperoleh bahwa teknik ADASYN menghasilkan performa terbaik dalam klasifikasi email yang divalidasi dengan k-fold cross-validation (k=7) dibandingkan dua teknik lainnya. Rata-rata akurasi mencapai 97.87% pada support vector machine, sedangkan multinomial naive bayes 77.97% , dan random forest 95.94% dengan menggunakan teknik ADASYN. ......Email categories can be classified using natural language processing (NLP) and machine learning to learn word patterns in emails. The models used are support vector machine, multinomial naïve Bayes, and random forest. Oversampling techniques such as random oversampling, synthetic minority over-sampling (SMOTE), and adaptive synthetic sampling (ADASYN) are employed to balance the class distribution and improve model performance. The results show that the ADASYN technique achieves the best performance in email classification validated with k-fold cross-validation (k=7) compared to the other two techniques. The average accuracy reaches 97.87% for support vector machine, 77.97% for multinomial naïve Bayes, and 95.94% for random forest when using the ADASYN technique.
Depok: Fakultas Teknik Universitas Indonesia, 2023
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Doni Pradana
Abstrak :
Customer churn merupakan masalah serius di banyak sektor, termasuk sektor telekomunikasi. Pengertian costumer churn adalah berhentinya penggunaan suatu layanan dan beralih ke penyedia lain atau tidak memperbarui kontrak. Untuk mengatasi risiko churn, perusahaan telekomunikasi perlu menggunakan model prediksi dengan bantuan metode machine learning. Terdapat beberapa model prediksi churn yang telah diajukan oleh para peneliti, termasuk pemilihan algoritma yang sesuai dan dataset untuk studi kasus. Pada tesis ini menggunakan dataset IBM Telco Customer Churn sebagai data pelatihan dan pengujian. Tantangan umum dalam klasifikasi adalah ketidakseimbangan data, yang dapat menyebabkan kegagalan dalam memprediksi kelas minoritas. Oleh karena itu, tesis ini menggunakan beberapa teknik augmentasi data seperti SMOTE, HAT, dan CVAE, sebagai teknik dalam menyeimbangkan data. Pembelajaran ensembel khususnya metode CART (Classification and Regression Tree) sering digunakan untuk menyelesaikan permasalahan klasifikasi dan regresi. Model Adaboost adalah algoritma pembelajaran ensemble yang menggunakan pohon keputusan sebagai dasar pembelajaran. Dalam pelatihan model Adaboost, Bayesian Optimization (BO) digunakan sebagai metode pencarian hyperparameter terbaik. Dari hasil percobaan dan pengujian yang diajukan, model Adaboost dapat memberikan nilai testing f1-score dan recall sebesar 0,661 dan 0,653 pada pelatihan dengan dataset tidak seimbang. Model Adaboost-SMOTE mempunyai nilai testing f1-score dan recall sebesar 0,646 dan 0,826. Penggunaan optimasi Bayesian Optimization pada model Adaboost-SMOTE dapat menaikkan testing f1-score dan recall menjadi 0,649 dan 0,849. Tes ANOVA dan Tukey HSD mengungkapkan variasi yang signifikan dalam hasil pelatihan dari model machine learning, dan menyoroti dampak penggunaan data seimbang dalam pelatihan model yang signifikan. ......Customer churn is a severe problem in various sectors, including telecommunications. Customer churn refers to discontinuing the service, switching to another provider, or not renewing the contract. To deal with churn risk, telecommunication companies need to use predictive models with the help of machine learning methods. Several churn prediction models have been proposed by researchers, including the selection of suitable algorithms and data sets for case studies. In this thesis, research is conducted using the IBM Telco Customer Churn dataset. A common challenge in classification is data imbalance, which can lead to failure in predicting minority classes. Therefore, this thesis using several data augmentation techniques, such as SMOTE, HAT, and CVAE, for balancing data technique. Ensemble learning, especially the CART (Classification and Regression Tree) method, is often used to solve classification and regression problems. Adaboost is an ensemble learning algorithm that uses decision trees as the basis for learning. In the Adaboost model training, Bayesian Optimization (BO) is used to find the best hyperparameters. From the trials and tests carried out, Adaboost achieved an f1-score and recall test of 0.661 and 0.653, respectively, in training with an unbalanced dataset. The Adaboost SMOTE model achieved f1 and memory test scores of 0.646 and 0.826, respectively. Using Bayesian Optimization in the Adaboost SMOTE model increased the testing f1-score and recall scores to 0.649 and 0.849, respectively. ANOVA and Tukey HSD tests reveal significant variation in machine learning model training results and highlight the considerable impact of using balanced data in model training.
Depok: Fakultas Teknik Universitas Indonesia, 2023
T-pdf
UI - Tesis Membership  Universitas Indonesia Library
cover
Tarigan, Ibrahim Amyas Aksar
Abstrak :
Stunting adalah kondisi di mana balita memiliki panjang atau tinggi badan di bawah rata-rata yang diakibatkan oleh buruknya gizi yang didapatkan. Stunting berpotensi memperlambat perkembangan otak, dengan dampak jangka panjang berupa keterbelakangan mental, rendahnya kemampuan belajar, dan risiko serangan penyakit kronis (diabetes, hipertensi dan obesitas). Salah satu upaya untuk memitigasi dan mengurangi angka kejadian stunting adalah dengan menerapkan ilmu Data Science dalam mengevaluasi dan membuat model prediksi risiko dari faktor yang dianggap dominan dalam terjadinya stunting. Kerangka kerja CRISP-DM digunakan sebagai metodologi penelitian ini. Data yang digunakan adalah data sekunder dari Indonesia Family Life Survey (IFLS) tahun 2014-2015, yang dilakukan di 13 provinsi di Indonesia. Pemodelan dilakukan menggunakan bahasa pemrograman Python yang dikerjakan pada Jupyter Notebook. Dua metode sampling (Random Sampling dan Oversampling) digunakan untuk mengatasi masalah data imbalance. Empat algoritma classifier diujikan untuk mengetahui performa model. Hasil penelitian menunjukkan keempat algoritma dinyatakan model yang baik dengan performa rata-rata lebih dari 70%. Pada teknik undersampling, skor akurasi yang didapatkan Logistic Regression sebesar 98,31%, KNN sebesar 77,53%, SVC sebesar 97,48%, dan Decision Tree Classifier sebesar 80,76%. Sedangkan pada teknik oversampling, skor akurasi yang didapatkan Logistic Regression adalah 95%, KNN sebesar 71%, SVC sebesar 93%, dan Decision Tree Classifier sebesar 84%. Logistic Regression adalah algoritma klasifikasi terbaik yang dapat digunakan pada dataset ini dan hasil perbandingan skor Logistic Regression pada teknik undersampling (95,09%) dan oversampling (91,98%) setelah 10 kali percobaan menunjukkan bahwa meskipun teknik undersampling memiliki performa yang lebih baik, namun teknik oversampling memiliki hasil yang lebih konsisten. ......Stunting is a condition in which a toddler has a length or height below the average caused by poor nutrition. Stunting has the potential to slow down brain development, with long-term effects in the form of intellectual disability, low learning abilities, and the risk of developing chronic diseases (diabetes, hypertension and obesity). One of the efforts to mitigate and reduce the incidence of stunting is to apply Data Science in evaluating and making risk prediction models from factors that are considered dominant in the occurrence of stunting. The CRISP-DM framework was used as the methodology of this study. The data used is secondary data from the Indonesia Family Life Survey (IFLS) 2014-2015, which was conducted in 13 provinces in Indonesia. The modelling is made using the Python programming language which is done on Jupyter Notebook. Two sampling methods (Random Sampling and Oversampling) were used to overcome the problem of data imbalance. Four classifier algorithms were tested to determine the performance of the model. The research results showed four algorithms were declared good models with an average performance of more than 70%. In the undersampling technique, the accuracy score obtained by Logistic Regression is 98.31%, KNN is 77.53%, SVC is 97.48%, and Decision Tree Classifier is 80.76%. While in the oversampling technique, the accuracy score obtained by Logistics Regression is 95%, KNN is 71%, SVC is 93%, and Decision Tree Classifier is 84%. Logistic Regression is the best classification algorithm that can be used in this dataset and the results of the comparison of Logistic Regression scores on the undersampling (95.09%) and oversampling (91.98%) techniques after 10 experiments show that although the undersampling technique has better performance, oversampling technique has more consistent results.
Depok: Fakultas Teknik Universitas Indonesia, 2022
T-pdf
UI - Tesis Membership  Universitas Indonesia Library
cover
Diwandaru Rousstia
Abstrak :
Risiko serangan siber berbanding lurus dengan pertumbuhan aplikasi dan jaringan komputer. Intrusion Detection System (IDS) diimplementasikan agar dapat mendeteksi serangan siber dalam lalu lintas jaringan. Akan tetapi terdapat permasalahan pada pendeteksian serangan yang belum diketahui atau jenis serangan baru. Selain itu juga terdapat masalah kinerja tentang waktu deteksi, akurasi deteksi, dan false alarm. Dibutuhkan deteksi anomali dalam lalu lintas jaringan untuk mengurangi permasalahan tersebut dengan pendekatan machine learning. Pengembangan dan pemanfaatan IDS dengan machine learning telah diterapkan dalam beberapa penelitian sebagai solusi untuk meningkatkan kinerja dan evaluasi prediksi deteksi serangan. Memilih pendekatan machine learning yang tepat diperlukan untuk meningkatkan akurasi deteksi serangan siber. Penelitian ini menggunakan metode homogeneous ensemble learning yang mengoptimalkan algoritma tree khususnya gradient boosting tree - LightGBM. Dataset Communications Security Establishment dan Canadian Institute of Cybersecurity 2018 (CSE-CIC-IDS 2018) digunakan untuk mengevaluasi pendekatan yang diusulkan. Metode Polynom-fit SMOTE (Synthetic Minority Oversampling Technique) digunakan untuk menyelesaikan masalah ketidakseimbangan dataset. Penerapan metode spearman’s rank correlation coefficient pada dataset menghasilkan 24 fitur subset dari 80 fitur dataset yang digunakan untuk mengevaluasi model. Model yang diusulkan mencapai akurasi 99%; presisi 99,2%, recall 97,1%; F1-score 98,1%; ROC-AUC 99,1%; dan average-PR 98,1% serta meningkatkan waktu pelatihan model dari 3 menit 25,10 detik menjadi 2 menit 39,68 detik. ......The risk of cyberattacks is directly proportional to the growth of applications and computer networks. An Intrusion Detection System (IDS) is implemented to detect cyber attacks in network traffic. However, there are problems detecting unknown attacks or new types of attacks. In addition, there are performance issues regarding detection time, detection accuracy, and false alarms. A machine learning approach takes anomaly detection in network traffic to reduce these problems. The development and utilization of IDS with machine learning have been applied in several studies to improve performance and evaluate attack detection predictions. Choosing the right machine learning approach is necessary to improve the accuracy of cyberattack detection. This research uses a homogeneous ensemble learning method that optimizes tree algorithms, especially gradient boosting tree - LightGBM. The Communications Security Establishment and Canadian Institute of Cybersecurity 2018 (CSE-CIC-IDS 2018) dataset evaluated the proposed approach. The Polynom-fit SMOTE (Synthetic Minority Oversampling Technique) method solved the dataset imbalance problem. The application of spearman's rank correlation coefficient method to the dataset resulted in 24 subset features of the 80 dataset features used to evaluate the model. The proposed model achieves 99% accuracy; precision 99.2%, recall 97.1%; F1-score 98.1%; ROC-AUC 99.1%; and an average-PR of 98.1% and increased the training time of the model from 3 minutes 25.10 seconds to 2 minutes 39.68 seconds.
Depok: Fakultas Teknik Universitas Indonesia, 2021
T-pdf
UI - Tesis Membership  Universitas Indonesia Library
cover
Dea Aulia Utami
Abstrak :
ABSTRAK
Infark serebral merupakan salah satu penyebab terjadinya stroke iskemik di otak. Dalam mendiagnosis adanya infark serebral di otak, digunakan pembelajaran mesin karena tidak cukup hanya menggunakan CT scan untuk mendiagnosisnya. Support vector machine (SVM) merupakan salah satu metode pembelajaran mesin yang dikenal dengan nilai akurasinya yang tinggi. Namun SVM dapat memberikan hasil yang kurang optimal jika data yang digunakan tidak seimbang. Jika data yang digunakan tidak seimbang, model yang dihasilkan akan bias. Oleh karena itu, penelitian ini menggunakan metode Synthetic Minority Oversampling Technique (SMOTE) dalam menangani data infark serebral yang tidak seimbang sehingga menjadi data yang seimbang. SMOTE mensintesis sampel data baru dari kelas minoritas untuk menyeimbangkan kumpulan data. Metode ini bekerja dengan mencari nilai tetangga terdekat untuk setiap data di kelas minoritas. Data yang telah diimbangi dengan metode SMOTE akan diklasifikasikan menggunakan SVM. Hasil klasifikasi SVM pada data infark serebral imbalanced dan data infark serebral berimbang akan dibandingkan berdasarkan nilai akurasi, recall, spesifisitas, presisi dan f1-score. Data infark serebral diperoleh dari Bagian Radiologi RSUD Dr. Cipto Mangunkusumo.
ABSTRACT
Cerebral infarction is one of the causes of ischemic stroke in the brain. In diagnosing cerebral infarction in the brain, machine learning is used because it is not enough to just use a CT scan to diagnose it. Support vector machine (SVM) is a machine learning method known for its high accuracy value. However, SVM can give less than optimal results if the data used is not balanced. If the data used is not balanced, the resulting model will be biased. Therefore, this study uses the Synthetic Minority Oversampling Technique (SMOTE) method in handling unbalanced cerebral infarction data so that it becomes a balanced data. SMOTE synthesizes a new data sample from a minority class to balance the data set. This method works by finding the value of the nearest neighbor for each data in the minority class. Data that has been balanced with the SMOTE method will be classified using SVM. The SVM classification results on imbalanced cerebral infarction data and balanced cerebral infarction data will be compared based on the accuracy, recall, specificity, precision and f1-score values. Cerebral infarction data were obtained from the Radiology Department of RSUD Dr. Cipto Mangunkusumo.
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2019
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Iffa Maula Nur Prasasti
Abstrak :
Asuransi mobil adalah produk asuransi yang banyak digunakan di Indonesia. Namun, asuransi mobil memiliki potensi untuk kecurangan klaim yang menyebabkan kerugian bagi perusahaan dan pemegang polis. Penelitian ini bertujuan untuk merancang model prediksi deteksi kecurangan asuransi mobil di Indonesia menggunakan pendekatan machine learningSupervised classifiers adalah salah satu teknik machine learning yang memiliki kemampuan untuk memprediksi kasus-kasus anomali. Supervised classifiers yang digunakan pada penelitian ini adalah Multilayer Perceptron (MLP), Decision Tree C4.5, dan Random Forest (RF). Penelitian ini menggunakan data real-world pada perusahaan asuransi mobil di Indonesia. Dataset memiliki distribusi tidak seimbang yang sangat tinggi antara data pemegang polis yang melakukan kecurangan dan pemegang polis yang sah. Penelitian ini menangani masalah dataset yang tidak seimbang dengan menggunakan Synthetic Minority Oversampling Technique (SMOTE) dan metode undersampling. Kinerja model dievaluasi melalui confusion matrix, Kurva ROC, dan parameter seperti sensitivitas. Penelitian ini menemukan bahwa Random Forest memberikan hasil terbaik dibandingkan dengan MLP dan Decision Tree C4.5. ......Automobile insurance is widely used insurance product in Indonesia. However, automobile insurance has the potential for  fraudulent claim that leads to several consequences for the company and policyholder. This research aims to design a prediction model of automobile insurance fraud detection in Indonesia using a machine learning approach. Supervised classifiers is one of machine learning techniques that has the ability to predict anomaly cases. The proposed supervised classifiers are Multilayer Perceptron (MLP), Decision Tree C4.5, and Random Forest(RF). This research used real-world data on an automobile insurance company in Indonesia. The dataset has a high imbalanced distribution between the data of policyholders who commit fraud and legitimate. This study handles the imbalanced dataset problem by using the Synthetic Minority Oversampling Technique (SMOTE) and undersampling methods. The performance of models is evaluated through the confusion matrix, ROC Curve, and parameters such as sensitivity. This research found that Random Forest outperformed the results comparing to other classifiers.
Depok: Fakultas Teknik Universitas Indonesia, 2020
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Fiftitah Repfian Aszhari
Abstrak :

Stroke merupakan salah satu penyakit dengan risiko kematian dan kecacatan yang tinggi. Secara umum, stroke diklasifikasikan menjadi dua jenis, yaitu stroke iskemik dan stroke hemoragik. Klasifikasi jenis stroke secara cepat dan tepat diperlukan untuk menentukan jenis pengobatan dan tindakan yang tepat guna mencegah terjadinya dampak yang lebih fatal pada pasien stroke. Pada penelitian ini, klasifikasi stroke dilakukan menggunakan pendekatan machine learning. Adapun data penelitian yang digunakan adalah data stroke yang terdiri atas pemeriksaan laboratorium. Pada data penelitian tersebut, terdapat berbagai komponen pemeriksaan laboratorium yang dicatat serta memungkinkan adanya suatu pemeriksaan yang kurang relevan atau informatif dalam mengklasifikasi stroke. Apabila data tersebut tidak ditangani, akan mempengaruhi kinerja serta waktu komputasi model dalam mengklasifikasi stroke. Oleh karena itu, pada penelitian ini, Random Forest (RF) dengan seleksi fitur Recursive Feature Elimination (RFE) digunakan dalam mengklasifikasi data stroke. Dengan menerapkan metode tersebut, diperoleh kinerja model yang lebih baik saat melakukan klasifikasi menggunakan sejumlah fitur yang diperoleh dari hasil seleksi fitur, dibandingkan menggunakan keseluruhan fitur dalam data stroke. Selain itu, pada penerapan metode tersebut, diperoleh kinerja model yang baik dalam mengklasifikasi data kelas stroke iskemik, akan tetapi tidak cukup baik dalam mengklasifikasi data kelas stroke hemoragik. Hal ini dikarenakan proporsi jumlah data pada kelas stroke iskemik lebih banyak dibandingkan stroke hemoragik. Dalam hal ini dibutuhkan suatu metode penanganan agar kinerja model tetap optimal dalam mengklasifikasi data kelas stroke iskemik dan stroke hemoragik. Pada penelitian ini, Synthetic Minority Oversampling Technique (SMOTE) digunakan untuk menyeimbangkan kedua kelas data stroke guna memperoleh kinerja model yang optimal dalam mengklasifikasi kedua kelas data stroke. Berdasarkan penerapan metode RF dengan RFE serta SMOTE dalam mengklasifikasi data stroke, diperoleh kinerja model yang lebih baik dibandingkan melakukan klasifikasi pada data stroke yang tidak diseimbangkan dengan SMOTE.


Stroke is one of the diseases with the high risk of death and disability. Stroke generally can be classified into two types, namely ischemic stroke and hemorrhagic stroke. A quick and accurate stroke classification is needed to find the right treatment to prevent a dangerous effect on the stroke patients. In this study, the stroke classification was applied using a machine learning approach. The data used in this study is stroke data that consists of laboratory examinations. The data consists of various laboratory examination components, therefore, it might be possible that some of the components are less relevant and has less informative related in classifying stroke. If the data is not well handled, it might affect the performance and computation time of the model in classifying stroke. Therefore, in this study, Random Forest (RF) with Recursive Feature Elimination (RFE) method is used to classify the stroke data. The result showed that by applying the method in classifying several amounts of features obtained from the feature selection results has better performance rather than classifying the method using all features in stroke data. Moreover, based on applying this method, the result showed that the model has better performance in classifying ischemic stoke class data but not good enough in classifying hemorrhagic stroke class data. This result might occur because the proportion of numbers the ischemic stroke more than hemorrhagic stroke class data. Therefore, the handling method is needed to obtain optimal model performance in classifying ischemic stroke and hemorrhagic stroke class data. In this study, Synthetic Minority Oversampling Technique (SMOTE) is applied to balance the two classes of stroke data so optimal performance of the classification model can be obtained. Based on the application of the RF with RFE methods and SMOTE in the classification of stroke data, better model performance is obtained compared to classifying the stroke data that is not balanced with SMOTE.

Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2020
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Hada Melino Muhammad
Abstrak :
Anomaly-Based Network Intrusion Detection System (ANIDS) memegang peranan yang sangat penting dengan berkembangnya teknologi internet. ANIDS digunakan untuk mendeteksi trafik jaringan yang membahayakan pengguna internet. Metode tradisional yang digunakan untuk membuat ANIDS masih sulit untuk mengekstrak fitur dari trafik yang banyak dan berdimensi tinggi. Selain itu, jumlah sampel yang sedikit pada beberapa jenis trafik menyebabkan ketidakseimbangan dataset dan mempengaruhi performa deteksi ANIDS. Ketidakseimbangan dataset dapat diatasi dengan oversampling dan atau undersampling. Penulis mengusulkan metode oversampling menggunakan modifikasi dari Deep Convolutional Generative Adversarial Network (DCGAN) yang dapat mengekstrak fitur trafik data secara langsung dan menghasilkan sampel baru untuk menyeimbangkan dataset. Modifikasi DCGAN bertujuan untuk menghindari adanya pemetaan data tabular menjadi data gambar sebelum masuk ke DCGAN. Selain itu, modifikasi DCGAN bertujuan untuk menstabilkan pelatihan model untuk data tabular sehingga data yang dihasilkan lebih berkualitas. Pengujian efek modifikasi DCGAN dilakukan dengan melatih model ANIDS yang terdiri dari model Deep Neural Network (DNN) dan Convolutional Neural Network (CNN). Evaluasi performa deteksi dilakukan dengan confusion matrix serta metrik accuracy, precision, recall, dan F1-Score. Hasil yang didapatkan adalah oversampling menggunakan modifikasi DCGAN meningkatkan validation accuracy dari 75.77% menjadi 81.41% pada model DNN dan 73.94% menjadi 80.76% pada model CNN. Peningkatan metrik lain juga terjadi akibat dari peningkatan validation accuracy. ......Anomaly-Based Network Intrusion Detection System (ANIDS) plays a very important role with the development of internet technology. ANIDS is used for detecting network traffic that endangers internet users. The traditional methods used to create ANIDS are still difficult to extract features from high-dimensional traffic. In addition, the small number of samples in some types of traffic causes imbalanced dataset and affects ANIDS detection performance. Imbalanced dataset can be overcome by oversampling and or undersampling. The author proposes an oversampling method using a modification of the Deep Convolutional Generative Adversarial Network (DCGAN) which can extract data traffic features directly and generate new samples to balance the dataset. DCGAN modification aims to avoid mapping tabular data into image data before entering DCGAN. In addition, the DCGAN modification aims to stabilize the training model for tabular data so that the resulting data is of higher quality. Testing the effects of the DCGAN modification was carried out by training the ANIDS model consisting of the Deep Neural Network (DNN) and Convolutional Neural Network (CNN) models. Evaluation of detection performance is carried out using a confusion matrix and the metrics of accuracy, precision, recall, and F1-Score. The results obtained are oversampling using the DCGAN modification increases the validation accuracy from 75.77% to 81.41% in the DNN model and 73.94% to 80.76% in the CNN model. Improvements in other metrics also occurred as a result of the increase in validation accuracy.
Depok: Fakultas Teknik Universitas Indonesia, 2022
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Valery Ongso Putri
Abstrak :
Ketidakseimbangan data merupakan masalah umum yang terjadi dalam bidang analisis data. Data menjadi tidak seimbang karena terdapat perbedaan antara jumlah sampel pada setiap kelasnya. Masalah ketidakseimbangan ini menyebabkan model klasifikasi menjadi bias, dimana model akan cenderung memprediksi kelas mayoritas secara efektif dibandingkan dengan kelas minoritas dan dapat menyebabkan kesalahan interpretasi dalam pengambilan suatu keputusan. Terdapat beberapa cara dalam menangani data yang tidak seimbang, yaitu random undersampling dan random oversampling. Salah satu metode dari random oversampling yang populer adalah Synthetic Minority Oversampling Technique (SMOTE). SMOTE dapat digabungkan dengan metode random undersampling, yaitu Edited Nearest Neighbors (ENN) dan Tomek link. Pada metode gabungan SMOTE-ENN dan SMOTE-Tomek link, SMOTE bekerja terlebih dahulu dengan membuat sampel sintetis pada kelas minoritas. ENN dan Tomek link berperan sebagai cleaning untuk menghapus data yang tidak relevan dan dianggap sebagai noise. Untuk melihat pengaruh ketiga metode resampling tersebut, yaitu SMOTE, SMOTEENN, dan SMOTE-Tomek Link, dilakukan simulasi data. Simulasi data dapat melihat pengaruh ukuran sampel, ukuran proporsi kelas, dan metode resampling terhadap model klasifikasi decision tree, random forest, dan XGBoost pada data yang tidak seimbang. Simulasi data juga dijalankan sebanyak 100 iterasi yang menunjukkan bahwa iterasi pertama cukup untuk mewakili hasil dari 100 iterasi. Hasil menunjukkan bahwa ketiga metode cenderung mampu memberikan hasil yang baik dengan adanya peningkatan nilai metrik precision, recall, ROC-AUC, dan G-Mean. Metode SMOTE dengan XGBoost bekerja dengan baik pada ukuran sampel kecil dengan adanya peningkatan nilai metrik yang cukup signifikan. Pada SMOTE-ENN, nilai recall cenderung meningkat yang diikuti oleh menurunnya nilai precision pada proporsi 1:9, 2:8, dan 3:7 dengan sampel yang relatif kecil. SMOTE-Tomek Link juga meningkatkan nilai metrik pada sampel yang relatif kecil dengan proporsi memberikan nilai metrik tertinggi. ......Data imbalance is a common problem that occurs in the field of data analysis. The data becomes unbalanced because there is a difference between the number of samples in each class. This imbalance problem causes the classification model to be biased, where the model will tend to predict the majority class effectively compared to the minority class and can cause misinterpretation in making a decision. There are several ways to handle imbalanced data, namely random undersampling and random oversampling. One of the popular random oversampling methods is Synthetic Minority Over-sampling Technique (SMOTE). SMOTE can be combined with random undersampling methods, namely Edited Nearest Neighbors (ENN) and Tomek link. In the combined SMOTE-ENN and SMOTE-Tomek link method, SMOTE works first by creating a synthetic sample in the minority class. ENN and Tomek link act as cleaning to remove irrelevant data and are considered as noise. To see the effect of the three resampling methods, namely SMOTE, SMOTE-ENN, and SMOTE-Tomek Link, data simulation was conducted. Data simulation can see the effect of sample size, class proportion size, and resampling method on decision tree, random forest, and XGBoost classification models on imbalanced data. The data simulation was also run for 100 iterations which shows that the first iteration is sufficient to represent the results of 100 iterations. The results show that the three methods tend to be able to provide good results with an increase in the precision, recall, ROC-AUC, and G-Mean metric values. The SMOTE method with XGBoost works well on small sample sizes with a significant increase in metric values. In SMOTE-ENN, the recall value tends to increase followed by a decrease in precision value at proportions 1:9, 2:8, and 3:7 with relatively small samples. SMOTE-Tomek Link also increases the metric value on relatively small samples with proportions of 1:9 and 2:8. In addition, the resampling method was also used on data available on Kaggle.com, namely Pima Indian Diabetes and Give Me Some Credit:: 2011 Competition. In the Pima Indian Diabetes data, it can be seen that the recall, ROC-AUC, and G-Mean values are the highest using SMOTE-ENN with the XGBoost model. On the Give Me Some Credit:: 2011 Competition also shows that the SMOTE-ENN method with the XGBoost model provides the highest metric value.
Depok: Fakultas Matematika Dan Ilmu Pengetahuan Alam Universitas Indonesia, 2023
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Handy Chandra
Abstrak :
Delta Sigma ADC (Analog to Digital Converter) adalah salah satu jenis ADC dengan resolusi yang lebih tinggi dibandingkan jenis ADC lainnya. Komponen paling penting dari Delta Sigma ADC adalah Delta Sigma Modulator. Terdapat dua faktor yang mempengaruhi resolusi dari Delta Sigma Modulator yaitu oversampling ratio dan topologi rangkaian. Skripsi ini akan membahas simulasi dan optimasi dari salah satu topologi rangkaian Delta Sigma Modulator yaitu SecondOrder Delta Sigma Modulator untuk mencapai resolusi yang lebih tinggi. Rangkaian SecondOrder Delta Sigma Modulator akan dioptimasi dengan menggunakan topologi fully differential dan dengan menaikkan oversampling ratio agar mencapai resolusi yang lebih tinggi. Kemudian layout integrated circuit dari rangkaian secondorder Delta Sigma Modulator akan dibuat dan disimulasikan untuk melihat performa dari rangkaian. Pada simulasi awal didapatkan resolusi modulator sebesar 8 bit. Kemudian optimasi lebih jauh dilakukan dengan mengubah ? ubah nilai kapasitor dan kapasitansi parasitik pada modulator untuk melihat pengaruhnya terhadap resolusi dari modulator. Dari hasil percobaan optimasi didapatkan dengan mengubah kapasitor C1,C2 menjadi 0,2 pf dan kapasitansi parasitik poly1 ke substrat dari kapasitor C1,C2 menjadi 1 ff, resolusi modulator naik menjadi 15 bit. ......Delta Sigma ADC (Analog to Digital Converter) is one of ADC with high resolution. The most important component of Delta Sigma ADC is Delta Sigma Modulator. There are two factors that influence the resolution of Delta Sigma Modulator, which is oversampling ratio and circuit topology. This thesis discusses about simulation and optimization of one topology of Delta Sigma Modulator called SecondOrder Delta Sigma Modulator to reach better resolution. Second¬ Order Delta Sigma circuit will be optimized using fully differential topology and increasing oversampling ratio. Then, integrated circuit layout of SecondOrder Delta Sigma Modulator will be made and simulated to look at the performance of the circuit. Simulation reveal that modulator?s resolution is 8 bit. Further optimization will be done by changing the value of capacitor and parasiticcapacitance to see it?s relation to the resolution of the modulator. After optimization is done, better resolution is achieved with the value of C1,C2 0.2 pf and parasitic capacitance poly1 to substrate from C1,C2 is 1 ff. The new effective resolution achieved is 15 bit.
Depok: Fakultas Teknik Universitas Indonesia, 2011
S769
UI - Skripsi Open  Universitas Indonesia Library
<<   1 2   >>