Hasil Pencarian  ::  Simpan CSV :: Kembali

Hasil Pencarian

Ditemukan 22 dokumen yang sesuai dengan query
cover
Cornelius
Abstrak :
AIS sebagai alat yang diwajibkan digunakan kapal menurut SOLAS sebagai pencegah tabrakan antar kapal memiliki potensi yang lebih besar dalam penerapan ruang lingkup data analytics. Data posisi kapal dapat membantu menggambarkan perilaku kapal di lautan. Aplikasi data AIS bisa membantu mengoptimalkan operasional kapal. Penelitian ini akan menjelaskan tentang sebuah metode penerapan data AIS untuk menghasilkan prediksi waktu tunggu kapal. Algoritma Extreme Gradient Boosting (Xgboost) akan digunakan sebagai pendekatan melakukan prediksi dari data historis. Dengan xgboost, prediksi yang dihasilkan mendapatkan nilai RMSE sebesar 268.47 dan R2 sekitar 0.3 setelah dioptimalkan dengan hyperparameter tuning. Hasil prediksi ini dapat digunakan sebagai pertimbangan penerapan green steaming ataupun bahan evaluasi pelabuhan untuk mengembangkan pelayanannya. ......AIS as a tool, according to SOLAS, used as a prevention of collisions between ships has more significant potential in the application of the scope of data analytics. Ship position data can help describe ship behavior at sea. AIS data applications can help optimize ship operations. This research will describe a method of applying AIS data to generate predictions of ship waiting times. The Extreme Gradient Boosting (Xgboost) algorithm will be used to make predictions from historical data. With xgboost, the resulting prediction gets an RMSE value of 268.47 and an R2 of about 0.3 after being optimized with hyperparameter tuning. The results of this prediction can be used as consideration for implementing green steaming or evaluating port evaluation materials to develop their services.
Depok: Fakultas Teknik, 2021
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Auriwan Yasper
Abstrak :
Klasifikasi curah hujan sangat membantu masyarakat dan instansi terkait dalam mengambil kebijakan seperti pengelolaan sumber daya air, transportasi, pertanian dan pencegahan bencana. Model yang sudah pernah digunakan dalam melakukan klasifikasi curah hujan yaitu XGBoost, telah terbukti mampu melakukan klasifikasi dengan efektif, namun masih memerlukan tuning pada hyperparameter-nya untuk meningkatkan performa model. Penelitian ini bertujuan untuk merancang metode klasifikasi curah hujan dengan model XGBoost dan menemukan nilai learning rate terbaik untuk klasifikasi curah hujan. Parameter max depth, dan n estimator ditetapkan berdasarkan penelitian yang sudah pernah dilakukan. Model ini dibangun berdasarkan data historis curah hujan selama 3 bulan setiap jam, yang telah dikumpulkan oleh peralatan Automated Weather Observed System (AWOS) di Stasiun Meteorologi Kota Pontianak. Pencarian hyperparameter menggunakan metode coarse to fine, yaitu pencarian kasar ke pencarian halus. Pencarian kasar menggunakan RandomizedSearchCV, sedangkan pencarian halus dengan GridSearchCV. Model dievaluasi dengan metrik Accuracy, precision, recall, dan F1-score. Evaluasi menunjukkan bahwa model memilki metrik evaluasi yang baik dengan persentase diatas 80% untuk setiap kasus pembagian data. Nilai learning rate terbaik dengan akurasi tertinggi yang didapatkan pada model dengan 2040 data set adalah pada kasus klasifikasi biner, yaitu sebesar 0.043 dengan akurasi pada data latih 90.19%. ......The classification of rainfall is very helpful for the community and related agencies in making policies such as managing water resources, transportation, agriculture, and disaster prevention. The model that has been used to classify rainfall, namely XGBoost, has proven to be able to classify effectively but still requires tuning its hyperparameters to improve model performance. This study aims to design a rainfall classification method using the XGBoost model and find the best learning rate for rainfall classification. The max depth and n estimator parameters are determined based on research that has been done. This model was built based on historical rainfall data for 3 months every hour, which has been collected by the Automated Weather Observed System (AWOS) equipment at the Pontianak City Meteorological Station. The hyperparameter search uses the coarse-to-fine method, which is a coarse-to-fine search. The coarse search uses RandomizedSearchCV, while the fine search uses GridSearchCV. The model is evaluated with Accuracy, precision, recall, and F1-score metrics. The evaluation shows that the model has good evaluation metrics with percentages above 80% for each case of data sharing. The best learning rate value with the highest accuracy obtained in the model with the 2040 dataset is in the binary classification case, which is equal to 0.043 with an accuracy of 90.19% of the training data.
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2023
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Farah Hana Kusumaputri
Abstrak :
Seiring dengan perkembangan teknologi komunikasi data yang tinggi, permasalahan yang dihadapi pun semakin bervariasi. Salah satu permasalahan yang sering dialami adalah cyber attack, permasalahan ini dapat mengakibatkan kerugian tidak hanya informasi yang bocor, namun juga kerugian secara finansial yang diakibatkan dari transaksi illegal yang memanfaatkan informasi pribadi pengguna yang bocor, serta kerugian lainnya. Dengan adanya permasalahan ini, penulis berinisiatif dalam mengusung model deteksi anomali berdasarkan dataset NSL-KDD menggunakan machine learning model XGBoost dengan Optuna Tuning. XGBoost merupakan machine learning model yang mampu mengatasi overfitting pada simulasi yang diusulkan, dengan kombinasi Optuna Tuning, model machine learning yang diusung mampu bekerja efisien akibat dari adanya optimasi hyperparameter secara otomatis. Kinerja model yang diusulkan penulis berhasil mendapatkan akurasi 99,56%, dengan nilai precision 98,16%, nilai recall 99,82%, dan untuk nilai f-1 score 99,61%. Berdasarkan hasil simulasi tersebut menunjukkan bahwa model yang diusulkan penulis berhasil mendeteksi adanya anomali pada trafik serta memiliki sensitivitas yang tinggi. ......Along with the development of high data communication technology, the problems faced are increasingly varied. One of the problems that is often experienced is in form of cyber attacks, this problem affected to losses, not only leaked information which occred, but also financial losses caused by illegal transactions that utilized by using user personal information, as well as other losses. In concern of facing this problem, the author takes an initiative in carrying out an anomaly detection model based on the NSL-KDD dataset using XGBoost, machine learning model with Optuna Tuning. XGBoost is a machine learning model that is able to overcome overfitting in the proposed simulation, with a combination of Optuna Tuning, this machine learning model is able to work efficiently due to automatic hyperparameter optimization. That statement is proven by the performance of the model succesfully manage to get an accuracy of 99.56%, with a precision value of 98.16%, a recall value of 99.82%, and for an f-1 value of 99.61%. Based on the results of the simulation, it shows that the model proposed by the author has successfully detected anomalies in traffic and has a high sensitivity
Depok: Fakultas Teknik Universitas Indonesia, 2022
T-pdf
UI - Tesis Membership  Universitas Indonesia Library
cover
Teresa Yubilea Koswari
Abstrak :
Asuransi merupakan bentuk pengalihan risiko dengan cara mendistribusikan risiko individu menjadi risiko kolektif. Pemasukan utama perusahaan asuransi adalah dari penjualan polis asuransi. Metode penjualan yang lazim digunakan pada asuransi maupun industri finansial lainnya adalah cross-selling. Cross-selling adalah proses menawarkan produk tambahan kepada orang yang sudah menjadi pelanggan perusahaan yang bersangkutan. Sangat penting bagi perusahaan asuransi untuk memiliki kemampuan memprediksi secara akurat karakteristik calon pelanggan yang sekiranya akan tertarik membeli suatu produk yang sedang ingin dipasarkan. Untuk dapat mengetahui karakteristik pelanggan potensial berdasarkan data perusahaan yang pada umumnya berskala besar, diusulkan untuk menggunakan machine learning. Hingga saat ini, metode machine learning yang  populer digunakan untuk mengolah data tabular adalah XGBoost. Pada penelitian ini, digunakan metode XGBoost untuk memprediksi hasil cross-selling produk asuransi dan kemudian dibandingkan dengan metode berbasis pohon lainnya, yaitu Decision Tree dan Random Forest, dari segi sensitivity, specificity, dan AUC-ROC. Diperoleh bahwa XGBoost unggul pada metrik specificity dan AUC-ROC. Selanjutnya, hasil simulasi terbaik dari setiap model diinterpretasikan menggunakan feature importance berdasarkan gain agar diperoleh fitur yang menjadi faktor penting dalam memprediksi cross-selling asuransi. Dengan adanya tahap interpretasi ini, diharapkan metode yang digunakan pada penelitian ini dapat diterima dan berguna bagi industri asuransi. ...... Insurance is a form of risk transfer by distributing individual risks into collective risks. The main income of insurance companies is from the sale of insurance policies. The sales method commonly used in the insurance and other financial industries is cross-selling. Cross-selling is the process of offering additional products to existing customers of the company. It is very important for insurance companies to have the ability to accurately predict the characteristics of potential customers who will be interested in buying a product that is being marketed. To find out the characteristics of potential customers based on company’s data, which are generally in large scale, it is proposed to use machine learning method. Until now, the most popular machine learning method used to process tabular data is XGBoost. In this study, the XGBoost method was used to predict cross-selling results of insurance products and then compared with other tree-based models, the Decision Tree and Random Forest, in terms of sensitivity, specificity, and AUC-ROC. It was found that XGBoost excels in specificity and AUC-ROC metrics. Furthermore, the best simulation results from each model are interpreted using feature importance based on gain to obtain features that are important factors in predicting insurance cross-selling. So, with this interpretation step done, it is hoped that the method used in this study can be accepted and useful for the insurance industry.
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2023
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Ali Muhammad Ali
Abstrak :
Citra hiperspektral memiliki informasi dalam rentang spektrum yang luas melebihi rentang spektrum yang ada pada citra RGB sebagai citra yang umum digunakan sehari-hari saat ini. Informasi tersebut dapat dimanfaatkan dalam berbagai macam bidang; salah satunya adalah pengukuran kadar tertentu dalam suatu objek. Namun, kamera hiperspektral sebagai alat akuisisi citra memiliki kekurangan yaitu harganya yang mahal, tidak mudah dioperasikan, ukuran hasil citra yang besar, serta memerlukan teknik dan perangkat khusus saat mengakuisisi citra. Hal tersebut berbeda dengan kamera RGB yang memiliki harga yang jauh lebih murah, hasil citra berukuran kecil, serta mudah dioperasikan. Penelitian ini melakukan implementasi sistem rekonstruksi citra hiperspektral dari citra RGB berbasis convolutional neural network ResNet pada sistem prediksi kadar fenolik daun bisbul. Terdapat proses rekonstruksi citra hiperspektral dengan target jumlah bands sebanyak 224 pada rentang panjang gelombang 400 sampai 1000 nm. Penelitian ini menggunakan algoritma model ResNet untuk model rekonstruksi citra, serta algoritma model XGBoost untuk model prediksi kadar. Performa model yang dihasilkan dalam penelitian ini adalah RMSE sebesar 0,1129 dan MRAE sebesar 0,3187 untuk model rekonstruksi citra, serta RMSE sebesar 0,5798 dan MRAE sebesar 0,1431 untuk model prediksi kadar. Citra hiperspektral hasil rekonstruksi mampu menghasilkan pola spectral signature yang serupa dengan citra hiperspektral asli. ......Hyperspectral images have much information within their large spectrum area; larger than RGB images which are used daily nowadays. The information can be used in many applications; one of them is content measurement of an object. However, hyperspectral cameras as an image acquisition instrument have disadvantages, such as high cost, not easy to operate, large image results, and require additional equipment in its image acquisition. This is different from RGB cameras which have cheaper price, smaller in image size, and easier to operate. This study implemented a hyperspectral image reconstruction system from RGB images based on the ResNet convolutional neural network on the velvet apple leaf’s phenolic content prediction system. This study reconstructs hyperspectral images with a total target of 224 bands in the wavelength range of 400 to 1000 nm. This study uses the ResNet model algorithm for the image reconstruction model, and the XGBoost model algorithm for the content prediction. The performance of the model produced in this study is RMSE of 0.1129 and MRAE of 0.3187 for the image reconstruction model, as well as RMSE of 0.5798 and MRAE of 0.1431 for the content prediction model. The reconstructed hyperspectral image can produce the same spectral signature pattern as the original hyperspectral image.
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2022
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Muhammad Feriansyah Raihan Taufiq
Abstrak :
Citra hiperspektral memiliki jumlah spektral dari suatu objek dengan rentang spektrum yang lebih luas dibandingkan dengan citra RGB. Suatu citra hiperspektral memberikan informasi yang jauh lebih banyak kegunaannya sebagai analisa suatu kasus dibandingkan dengan citra RGB. Salah satu pengaplikasian dengan menggunakan citra hiperspektral yaitu pengukuran suatu kadar tertentu dalam suatu objek. Namun, citra hiperspektral sulit diperoleh dikarenakan memiliki sistem akuisisi yang tidak sederhana. Faktor tersebut dikarenakan pencitraan berbasis citra hiperspektral menggunakan kamera yang mahal, perangkat keras pendukung sistem akuisisi yang kompleks, beserta ukuran citra yang lebih besar dibandingkan dengan citra RGB. Oleh karena itu, penelitian ini melakukan rekonstruksi citra hiperspektral dari citra RGB menggunakan algoritma convolutional neural network dengan arsitektur dense block untuk studi kasus sistem prediksi kadar karotenoid pada daun bisbul. Penelitian ini menghasilkan citra hiperspektral rekonstruksi dari citra RGB yang diperoleh dari proses konversi, beserta citra RGB yang diperoleh dari kamera RGB. Citra hiperspektral yang direkonstruksi pada penelitian ini yaitu berada pada rentang target panjang gelombang 400 nm hingga 1000 nm dengan target jumlah bands sebanyak 112. Algoritma rekonstruksi yang digunakan pada penelitian ini yaitu convolutional neural network dengan arsitektur dense blocks. Pembangunan model rekonstruksi citra pada penelitian ini, yaitu dengan memvariasikan jumlah dense block beserta target rentang dan jumlah panjang gelombang yang akan direkonstruksi. Variasi ini bertujuan untuk mencari model rekonstruksi citra yang optimal untuk merekonstruksi citra hiperspektral dari citra RGB. Lalu, citra hiperspektral rekonstruksi akan digunakan untuk membangun model prediksi kadar karotenoid pada daun bisbul berbasis algoritma machine learning XGBoost, kemudian model prediksi kadar karotenoid berbasis citra hiperspektral rekonstruksi akan dibandingkan dengan model prediksi kadar karotenoid berbasis citra hiperspektral asli. Hasil eksperimen memaparkan bahwa model rekonstruksi citra dengan jumlah dense block sebanyak 30 memiliki performa terbaik, dengan target rentang panjang gelombang 400 nm hingga 1000 nm dan target jumlah bands sebanyak 112. Performa model rekonstruksi citra dengan variasi tersebut memiliki RMSE sebesar 0,0743 dan MRAE sebesar 0,0910. Lalu, performa model prediksi kadar berbasis citra hiperspektral rekonstruksi memiliki RMSE sebesar 0,0565 dan MRAE sebesar 0,0963. Evaluasi kualitatif citra hiperspektral rekonstruksi memiliki pola signatur spektral yang sama dengan citra hiperspektral asli. ......Hyperspectral image has the spectral number of an object with a wider spectrum range than RGB image. As a some case analysis, a hyperspectral image is far more useful than RGB image. The measurement of contents in an object is one of the applications of the hyperspectral imagery. However, hyperspectral image is difficult to obtain due to a complicated acquisition system. This is down to the fact that hyperspectral imaging requires more expensive cameras, complex system support devices and have a larger size than RGB images. Therefore, this study reconstruct hyperspectral image using RGB images using a convolutional neural network with dense blocks architecture for a case study of a carotenoid content prediction in (Diospyros discolor Willd.) leaves. This research produces a reconstructed hyperspectral image from the RGB image obtained from the conversion process, and an RGB image obtained from the RGB camera. This study’s reconstructed hyperspectral image has a wavelength target from 400 nm to 1000 nm and a number of bands up to 112. This study’s reconstruction algorithm is a convolutional neural network with dense blocks architecture. In this study, an image reconstruction model is built by varying the number of dense block, target range and number of wavelengths to be reconstructed. The purpose of this variation is to find the best image reconstruction model for constructing hyperspectral images from RGB images. The reconstructed hyperspectral images will then be used to build a prediction model of carotenoid levels in (Diospyros discolor Willd.) leaves using the XGBoost machine learning algorithm, and this model will be compared to the original hyperspectral image based on carotenoid content prediction model. The experimental results indicate that the image reconstruction model with a dense block of 30 and a target wavelength range from 400 nm to 1000 nm with band number consist of 112 performs the best. The image reconstruction model performs well with these variations, with an RMSE of 0,0743 and an MRAE of 0,0910. The RMSE and MRAE of the reconstructed hyperspectral image for carotenoid content prediction model are 0,0565 and 0,0963, respectively. The qualitative evaluation of the reconstructed hyperspectral image has the same spectral signatur pattern as the original hyperspectral image.
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2022
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Ahmad Rafianto
Abstrak :
Pada tahun 2018, kanker prostat merupakan penyakit ganas kedua terbanyak pada pria secara global setelah kanker paru-paru. IDC-P merupakan varian agresif dari kanker prostat yang sering sering disalahinterpretasikan dengan proliferasi intraduktal seperti HGPIN yang dapat mempengaruhi perawatan pasien laki-laki pengidap kanker prostat. Teknik analisis spektroskopi Raman merupakan teknik molekuler berprospek untuk menganalisa jaringan biologis yang telah banyak digunakan dalam mencoba untuk mengidentifikasi berbagai macam jenis kanker. Sayangnya, spektroskopi Raman menghasilkan sinyal yang lemah dan mudah dipengaruhi oleh noise dan latar belakang floresens. Penelitian ini bertujuan untuk mengembangkan pipeline yang mencakup tahapan prapengolahan dan klasifikasi terhadap spektra Raman dari spesies IDC-P dan HGPIN untuk mendapatkan hasil metrik evaluasi yang optimal. Tujuan ini dicapai dengan menemukan nilai parameter optimal pada tahapan prapengolahan (smoothing, baseline correction, normalisasi), dan klasifikasi untuk menghasilkan hasil klasifikasi yang terbaik. Dihasilkan sebuah pipeline yang mencakup tahapan prapengolahan dan klasifikasi dengan kemampuan untuk meng- hasilkan hasil evaluasi metrik yang tinggi untuk metrik evaluasi F1 Test, accuracy, dan AUC-ROC masing-masing bernilai : 98.8%, 97.9%, dan 98.8%. Berdasarkan hasil anali- sis ANOVA, ditemukan bahwa perbedaan pada parameter window length dan polynomial order pada tahapan Savitzky-Golay smoothing tidak memiliki signifikansi terhadap hasil evaluasi metrik (p > 0.05). Sebaliknya, metode baseline correction beserta nilai polynomial degree yang berbeda cenderung memberikan signifikansi ke hasil evaluasi metrik (p < 0.05). ......In 2018, prostate cancer was the second most common malignant disease in men globally, following lung cancer. IDC-P is an aggressive variant of prostate cancer often misinterpreted as intraductal proliferation like HGPIN, which can impact the treatment of male patients with prostate cancer. Raman spectroscopy analysis is a promising molecular technique for analyzing biological tissues and has been extensively used in attempts to identify various types of cancer. Unfortunately, Raman spectroscopy produces weak signals that are easily influenced by noise and fluorescent backgrounds. This research aims to develop a pipeline that includes preprocessing and classification stages for Raman spectra of IDC-P and HGPIN species to achieve optimal evaluation metric results. This goal is achieved by finding the optimal parameter values in preprocessing stages (smoothing, baseline correction, normalization) and classification to produce the best classification results. A pipeline was created that includes preprocessing and classification stages capable of producing high evaluation metric results for the F1 Test, accuracy, and AUC-ROC metrics, respectively valued at 98.8%, 97.9%, and 98.8%. Based on ANOVA analysis, it was found that differences in the ’window length’ and ’polynomial order’ parameters in the Savitzky-Golay smoothing stage do not significantly affect the evaluation metric results (p > 0.05). Conversely, the baseline correction method and different ’polynomial degree’ values tend to significantly impact the evaluation metric results (p < 0.05).
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2023
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Deandra Aulia Rusdah
Abstrak :
Prediksi klaim dan prediksi risiko asuransi dilakukan untuk mengklasifikasikan klaim dan tingkat risiko dalam industri asuransi. Dari sudut pandang pembelajaran mesin, masalah prediksi klaim merupakan klasifikasi dua kelas dan masalah prediksi risiko adalah klasifikasi multi-kelas. Untuk mengklasifikasikan klaim dan risiko, model pembelajaran mesin akan memprediksi berdasarkan data historis. Dalam data historis pemohon asuransi, akan ada kemungkinan nilai yang hilang (missing values) sehingga perlu untuk mengatasi masalah tersebut agar memberikan kinerja yang lebih baik. XGBoost adalah metode pembelajaran mesin yang banyak digunakan untuk masalah klasifikasi dan dapat menangani nilai yang hilang (missing values) tanpa dilakukan proses imputasi terlebih dahulu. Penelitian ini menganalisis kinerja metode XGBoost dalam menangani nilai-nilai yang hilang (missing values) untuk prediksi klaim dan prediksi risiko dalam asuransi dan kinerja tersebut juga dibandingkan dengan metode imputasi standard lainnya, yaitu metode mean dan k-nearest neighbors (KNN). Simulasi menunjukkan bahwa model XGBoost tanpa dilakukan proses imputasi memberikan hasil yang sebanding dengan model XGBoost dengan imputasi ......Claim prediction and risk prediction of insurance is carried out to classify claims and the levels of risk in insurance industries. From the machine learning point of view, the problem of claim prediction is a two-class classification, and the problem of risk level prediction is a multi-class classification. To classify the claims and risk, a machine learning model will predict based on historical data. In the insurance applicant's historical data, there will be the possibility of missing values so that it is necessary to deal with these problems to provide better performance. XGBoost is a machine learning method that is widely used for classification problems and can handle missing values without an imputation preprocessing. This study analyzed the performance of the XGBoost model in handling missing values for claim prediction and risk prediction in insurance and the performance is also compared with other standard imputation methods, i.e the mean and k-nearest neighbors (KNN) method. The simulations show that the XGBoost model without any imputation preprocessing gives a comparable result to one of the XGBoost models with an imputation preprocessing.
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2020
T-pdf
UI - Tesis Membership  Universitas Indonesia Library
cover
Doni Pradana
Abstrak :
Customer churn merupakan masalah serius di banyak sektor, termasuk sektor telekomunikasi. Pengertian costumer churn adalah berhentinya penggunaan suatu layanan dan beralih ke penyedia lain atau tidak memperbarui kontrak. Untuk mengatasi risiko churn, perusahaan telekomunikasi perlu menggunakan model prediksi dengan bantuan metode machine learning. Terdapat beberapa model prediksi churn yang telah diajukan oleh para peneliti, termasuk pemilihan algoritma yang sesuai dan dataset untuk studi kasus. Pada tesis ini menggunakan dataset IBM Telco Customer Churn sebagai data pelatihan dan pengujian. Tantangan umum dalam klasifikasi adalah ketidakseimbangan data, yang dapat menyebabkan kegagalan dalam memprediksi kelas minoritas. Oleh karena itu, tesis ini menggunakan beberapa teknik augmentasi data seperti SMOTE, HAT, dan CVAE, sebagai teknik dalam menyeimbangkan data. Pembelajaran ensembel khususnya metode CART (Classification and Regression Tree) sering digunakan untuk menyelesaikan permasalahan klasifikasi dan regresi. Model Adaboost adalah algoritma pembelajaran ensemble yang menggunakan pohon keputusan sebagai dasar pembelajaran. Dalam pelatihan model Adaboost, Bayesian Optimization (BO) digunakan sebagai metode pencarian hyperparameter terbaik. Dari hasil percobaan dan pengujian yang diajukan, model Adaboost dapat memberikan nilai testing f1-score dan recall sebesar 0,661 dan 0,653 pada pelatihan dengan dataset tidak seimbang. Model Adaboost-SMOTE mempunyai nilai testing f1-score dan recall sebesar 0,646 dan 0,826. Penggunaan optimasi Bayesian Optimization pada model Adaboost-SMOTE dapat menaikkan testing f1-score dan recall menjadi 0,649 dan 0,849. Tes ANOVA dan Tukey HSD mengungkapkan variasi yang signifikan dalam hasil pelatihan dari model machine learning, dan menyoroti dampak penggunaan data seimbang dalam pelatihan model yang signifikan. ......Customer churn is a severe problem in various sectors, including telecommunications. Customer churn refers to discontinuing the service, switching to another provider, or not renewing the contract. To deal with churn risk, telecommunication companies need to use predictive models with the help of machine learning methods. Several churn prediction models have been proposed by researchers, including the selection of suitable algorithms and data sets for case studies. In this thesis, research is conducted using the IBM Telco Customer Churn dataset. A common challenge in classification is data imbalance, which can lead to failure in predicting minority classes. Therefore, this thesis using several data augmentation techniques, such as SMOTE, HAT, and CVAE, for balancing data technique. Ensemble learning, especially the CART (Classification and Regression Tree) method, is often used to solve classification and regression problems. Adaboost is an ensemble learning algorithm that uses decision trees as the basis for learning. In the Adaboost model training, Bayesian Optimization (BO) is used to find the best hyperparameters. From the trials and tests carried out, Adaboost achieved an f1-score and recall test of 0.661 and 0.653, respectively, in training with an unbalanced dataset. The Adaboost SMOTE model achieved f1 and memory test scores of 0.646 and 0.826, respectively. Using Bayesian Optimization in the Adaboost SMOTE model increased the testing f1-score and recall scores to 0.649 and 0.849, respectively. ANOVA and Tukey HSD tests reveal significant variation in machine learning model training results and highlight the considerable impact of using balanced data in model training.
Depok: Fakultas Teknik Universitas Indonesia, 2023
T-pdf
UI - Tesis Membership  Universitas Indonesia Library
cover
Abdul Fattah Ismail
Abstrak :
Konsumsi energi listrik di daerah pemukiman menjadi faktor utama peningkatan emisi karbon. Demi mengurangi pemakaiannya, penting untuk pihak operasional dapat mengawasi dan memantau pemakaian energi listrik. Selain itu, perlu diketahui juga faktor-faktor yang dapat memengaruhi tingkat konsumsi listrik. Kondisi cuaca eksrim akibat pemanasan global dapat memengaruhi tingkat pemakaian energi listrik. Menggunakan machine learning, khususnya regression, pemakaian energi listrik dapat diprediksi secara akurat berdasarkan data cuaca. Elasticsearch dan Kibana menjadi alat yang dapat digunakan untuk membantu pembuatan dashboard interaktif. Dengan kemampuan machine learning, Elasticsearch dapat melakukan analitik data dan memprediksi pemakaian energi listrik. Model machine learning menggunakan library XGBoost dimana nilai koefisien determinasi (R2), Mean Absolute Error, dan nilai Explained Variance dijadikan penilaian prediksi. Dari model yang dibuat, nilai R2 didapatkan sebesar 0,05, Mean Absolute Error sebesar 12,58, dan Explained Variance bernilai 0,07. Dengan dashboard yang telah dibuat dilakukan pengujian pengguna terhadap sistem berupa survei kepada 41 pengguna dimana diuji kepuasannya terhadap sistem. Survei yang diberikan berupa kuisioner menggunakan google form. Dari hasil yang didapat, sebanyak 46,3% dari responden memiliki pengalaman yang positif dan 26,8% responden memiliki pengalaman yang sangat positif ketika menggunakan sistem dashboard. Dari hasil penelitian ini diharapkan bagi pengguna dan pihak operasional dapat dengan mudah mengambil keputusan untuk dapat mengurangi pemakaian energi listrik. ......Consumption of electrical energy in residential areas is the main factor in increasing carbon emissions. In order to reduce its use, it is important for the operational party to be able to monitor the use of electrical energy. In addition, it is also necessary to know the factors that can affect the level of electricity consumption. Extreme weather conditions due to global warming can affect the level of electrical energy consumption. Using machine learning, especially regression, electrical energy consumption can be predicted accurately based on weather data. Elasticsearch and Kibana are tools that can be used to help create interactive dashboards. With machine learning capabilities, Elasticsearch can perform data analytics and predict electrical energy consumption. The machine learning model uses the XGBoost library where the coefficient of determination (R2), Mean Absolute Error, and Explained Variance values are used as predictive assessments. From the model made, the R2 value is 0.05, the Mean Absolute Error is 12.58, and the Explained Variance is 0.07. With the dashboard that has been created, user testing of the system is carried out in the form of a survey to 41 users where their satisfaction with the system is tested. The survey was given in the form of a questionnaire using a google form. From the results obtained, as many as 46.3% of respondents had a positive experience and 26.8% of respondents had a very positive experience when using the dashboard system. It is hoped that users and operational parties can easily make decisions to reduce the use of electrical energy.
Depok: Fakultas Teknik Universitas Indonesia, 2021
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
<<   1 2 3   >>