Hasil Pencarian  ::  Simpan CSV :: Kembali

Hasil Pencarian

Ditemukan 149344 dokumen yang sesuai dengan query
cover
Tarigan, Ibrahim Amyas Aksar
"Stunting adalah kondisi di mana balita memiliki panjang atau tinggi badan di bawah rata-rata yang diakibatkan oleh buruknya gizi yang didapatkan. Stunting berpotensi memperlambat perkembangan otak, dengan dampak jangka panjang berupa keterbelakangan mental, rendahnya kemampuan belajar, dan risiko serangan penyakit kronis (diabetes, hipertensi dan obesitas). Salah satu upaya untuk memitigasi dan mengurangi angka kejadian stunting adalah dengan menerapkan ilmu Data Science dalam mengevaluasi dan membuat model prediksi risiko dari faktor yang dianggap dominan dalam terjadinya stunting. Kerangka kerja CRISP-DM digunakan sebagai metodologi penelitian ini. Data yang digunakan adalah data sekunder dari Indonesia Family Life Survey (IFLS) tahun 2014-2015, yang dilakukan di 13 provinsi di Indonesia. Pemodelan dilakukan menggunakan bahasa pemrograman Python yang dikerjakan pada Jupyter Notebook. Dua metode sampling (Random Sampling dan Oversampling) digunakan untuk mengatasi masalah data imbalance. Empat algoritma classifier diujikan untuk mengetahui performa model. Hasil penelitian menunjukkan keempat algoritma dinyatakan model yang baik dengan performa rata-rata lebih dari 70%. Pada teknik undersampling, skor akurasi yang didapatkan Logistic Regression sebesar 98,31%, KNN sebesar 77,53%, SVC sebesar 97,48%, dan Decision Tree Classifier sebesar 80,76%. Sedangkan pada teknik oversampling, skor akurasi yang didapatkan Logistic Regression adalah 95%, KNN sebesar 71%, SVC sebesar 93%, dan Decision Tree Classifier sebesar 84%. Logistic Regression adalah algoritma klasifikasi terbaik yang dapat digunakan pada dataset ini dan hasil perbandingan skor Logistic Regression pada teknik undersampling (95,09%) dan oversampling (91,98%) setelah 10 kali percobaan menunjukkan bahwa meskipun teknik undersampling memiliki performa yang lebih baik, namun teknik oversampling memiliki hasil yang lebih konsisten.

Stunting is a condition in which a toddler has a length or height below the average caused by poor nutrition. Stunting has the potential to slow down brain development, with long-term effects in the form of intellectual disability, low learning abilities, and the risk of developing chronic diseases (diabetes, hypertension and obesity). One of the efforts to mitigate and reduce the incidence of stunting is to apply Data Science in evaluating and making risk prediction models from factors that are considered dominant in the occurrence of stunting. The CRISP-DM framework was used as the methodology of this study. The data used is secondary data from the Indonesia Family Life Survey (IFLS) 2014-2015, which was conducted in 13 provinces in Indonesia. The modelling is made using the Python programming language which is done on Jupyter Notebook. Two sampling methods (Random Sampling and Oversampling) were used to overcome the problem of data imbalance. Four classifier algorithms were tested to determine the performance of the model. The research results showed four algorithms were declared good models with an average performance of more than 70%. In the undersampling technique, the accuracy score obtained by Logistic Regression is 98.31%, KNN is 77.53%, SVC is 97.48%, and Decision Tree Classifier is 80.76%. While in the oversampling technique, the accuracy score obtained by Logistics Regression is 95%, KNN is 71%, SVC is 93%, and Decision Tree Classifier is 84%. Logistic Regression is the best classification algorithm that can be used in this dataset and the results of the comparison of Logistic Regression scores on the undersampling (95.09%) and oversampling (91.98%) techniques after 10 experiments show that although the undersampling technique has better performance, oversampling technique has more consistent results."
Depok: Fakultas Teknik Universitas Indonesia, 2022
T-pdf
UI - Tesis Membership  Universitas Indonesia Library
cover
Richie Ghifari
"Rancang campur beton merupakan proses bertahap dan kompleks untuk mencoba menemukan komposisi bahan terbaik guna menghasilkan beton dengan performa terbaik. Kuat tekan beton merupakan sifat terpenting dalam kualitas beton dibandingkan sifat-sifat lain. Dalam proses pembuatannya, banyak variabel terutama jumlah komposisi material penyusun yang dapat memengaruhi kuat tekan beton. Terdapat beberapa metode konvensional dalam memprediksi beton yang terkadang memberikan hasil prediksi lebih atau kurang dari kuat tekan yang ditargetkan. Diperlukan metode yang akurat dalam memprediksi kuat tekan beton agar dapat memberikan keuntungan secara signifikan terhadap penggunaan bahan. Oleh karena itu, penelitian ini menggunakan Deep Neural Network (DNN) sebagai subbidang dari Machine Learning (ML) dan Artificial Intelligence (AI), untuk memprediksi kuat tekan beton berdasarkan komposisi campuran dan properti materialnya. Penelitian ini menghasilkan formula matematika berupa persamaan yang dihasilkan dari model DNN terbaik dengan melihat aspek error model dan grafik model loss. Terdapat total 2048 model yang dianalisis dengan variasi jumlah variabel input (feature) yang berbeda-beda. Model 280 pada kasus 1 dan model 23 pada kasus 5 merupakan model terbaik yang dihasilkan penelitian ini, dengan masing-masing nilai error model 43,8028 dan 5778,5850 untuk Mean Squared Error (MSE) serta 5,0073 dan 59,8225 Maen Absolute Error (MAE).

Concrete mix design is a gradual and complex process of trying to find the best ingredient composition to produce the best performing concrete. The compressive strength of concrete is the most important property in concrete quality compared to other properties. In the manufacturing process, many variables, especially the amount of material composition, can affect the compressive strength of concrete. There are several conventional methods of predicting concrete that sometimes give predictive results more or less than the targeted compressive strength. An accurate method of predicting the compressive strength of concrete is needed in order to significantly benefit the use of materials. Therefore, this research utilizes Deep Neural Network (DNN), a subfield of Machine Learning (ML) and Artificial Intelligence (AI), to predict the compressive strength of concrete based on its mix composition and material properties. This research produces mathematical formulas in the form of equations generated from the best DNN model by looking at the aspects of model error and model loss graphs. There are a total of 2048 models analyzed with different variations in the number of input variables (features). Model 280 in case 1 and model 23 in case 5 are the best models produced by this study, with model error values of 43.8028 and 5778.5850 for Mean Squared Error (MSE) and 5.0073 and 59.8225 Maen Absolute Error (MAE), respectively.
"
Depok: Fakultas Teknik Universitas Indonesia, 2023
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Ghifari Gagah Dahana
"Sampai sekarang, sebagian besar orang masih menganggap kepemilikan rumah sebagai kebutuhan primer yang belum bisa ditandingi oleh pilihan hunian lain. Harga rumah biasanya ditentukan oleh berbagai faktor seperti lokasi, kondisi makro ekonomi, serta kondisi fisik rumah. Banyaknya faktor tersebut membuat penentuan valuasi rumah secara objektif menjadi sulit. Dalam beberapa tahun terakhir, penelitian mengenai estimasi harga rumah telah berkembang pesat, dengan metode machine learning menjadi yang paling sering digunakan. Oleh karena itu, penelitian ini menggunakan salah satu algoritma machine learning yang sudah terbukti dapat mendapatkan akurasi tinggi, yaitu stacked generalization. Penelitian ini menggabungkan beberapa variabel yang digunakan oleh penelitian-penelitian sebelumnya untuk memprediksi valuasi rumah. Model stacked generalization yang dibangun akan dibandingkan dengan algoritma lain yang juga sering digunakan dalam memprediksi valuasi rumah, diantaranya adalah regresi linear, random forest, gradient boosting machine, dan extreme gradient boosting. Hasil penelitian menunjukkan bahwa algoritma stacked generalization memiliki kemampuan prediksi yang lebih baik dibandingkan metode lainnya dengan hasil R2 sebesar 0,881, dan MAPE sebesar 0,21%. Selanjutnya dilakukan analisis terhadap faktor yang paling berpengaruh terhadap perubahan valuasi rumah menggunakan teknik permutation feature importance. Faktor-faktor yang paling berpengaruh adalah luas tanah, luas bangunan, jarak menuju pusat perbelanjaan, kapasitas listrik, dan Indeks Harga Perumahan Residensial.

In recent years, homeownership remains a primary need that other housing options have yet to match. House prices are typically determined by various factors such as location, macroeconomic conditions, and the physical state of the house. These numerous factors make objective house valuation challenging. Recently, research on house price estimation has advanced significantly, with machine learning methods being the most commonly used. Therefore, this study employs one proven machine learning algorithm with high accuracy, stacked generalization. This research incorporates several variables used by previous studies to predict house valuations. The stacked generalization model developed is compared with other frequently used algorithms for predicting house valuations, including linear regression, random forest, gradient boosting machine, and extreme gradient boosting. The results show that the stacked generalization algorithm has superior predictive ability compared to other methods, with an R2 of 0.881 and MAPE of 0.21%. Subsequently, an analysis of the factors most influencing changes in house valuation was conducted using permutation feature importance techniques. The most influential factors are land area, building area, distance to shopping centers, electricity capacity, and the Residential Property Price Index."
Depok: Fakultas Teknik Universitas Indonesia, 2024
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Ricki Taufik
"Penelitian ini bertujuan untuk meningkatkan prediksi time series pada jaringan seluler dengan memasukkan variabel lagged ke dalam model peramalan yang berbeda. Penelitian ini berfokus pada memprediksi Total Traffic Volume (Payload) pada jaringan seluler menggunakan model statistik dan machine learning. Teknik feature engineering melibatkan pemilihan variabel lagged, termasuk beban PRB, CQI, dan pengguna RRC, bersama dengan variabel waktu. Model yang memasukkan variabel lagged tambahan, yaitu SARIMAX, LSTM Multi, dan SVR Multi, memiliki performa lebih baik daripada model sebanding univariat tambahan, dengan hasil RMSE yang lebih rendah, MAE yang lebih rendah, dan nilai R-squared yang lebih tinggi. Penelitian ini menekankan pentingnya memasukkan variabel lagged dan menghitung peningkatan akurasi peramalan pada model multi-variabel dibandingkan dengan model variabel tunggal. Temuan ini berkontribusi pada pemahaman tentang peramalan time series pada jaringan seluler dan memberikan panduan untuk prediksi traffic volume yang akurat.

This research aims to improve time series prediction in cellular networks by incorporating lagged variables into different forecasting models. The study focuses on predicting the Total Traffic Volume (Payload) in cellular networks using statistical and machine learning models. Feature engineering involves selecting lagged variables, including PRB load, CQI, and RRC users, along with time variables. The models incorporating additional lagged variables, namely SARIMAX, LSTM Multi, and SVR Multi, outperform their counterparts without additional variables, resulting in lower RMSE, MAE, and higher R-squared values. The study highlights the importance of incorporating lagged variable and calculates the improvement of forecasting accuracy at multi-variable models compared to single variable models. These findings contribute to the understanding of time series forecasting in cellular networks and provide insights for accurate traffic volume prediction.
"
Depok: Fakultas Teknik Universitas Indonesia, 2023
T-pdf
UI - Tesis Membership  Universitas Indonesia Library
cover
Nina Fentiana
"Stunting anak 0-23 bulan di Indonesia merupakan masalah kesehatan masyarakat yang disebabkan oleh berbagai faktor langsung dan tidak langsung.  Penelitian menggunakan data Riset Kesehatan Dasar, Survey Sosial Ekonomi Nasional dan Produk Domestik Regional Bruto per kapita tahun 2018 dengan pendekatan potong lintang bertujuan mengetahui model jalur hubungan langsung dan tidak langsung berbagai faktor risiko stunting dengan prevalensi stunting tingkat kabupaten/kota.  Pengolahan data sekunder dilakukan pada Januari-April 2022. Sampel adalah 106 kabupaten/kota prevalensi stunting <20% dan 403 kabupaten/kota prevalensi stunting ≥20% (20%-<30%, 30%-40% dan >40%) yang diagregratkan pada tingkat kabupaten/kota dari 32.095 data individu anak usia 0-23 bulan yang diukur panjang badannya. Pemodelan menggunakan analisis jalur. Model jalur pencegahan risiko stunting memperlihatkan akses terhadap makanan (r=-0,31) dan pemeriksaan kehamilan (r=-0,29) berhubungan langsung dengan prevalensi stunting tingkat kabupaten/kota di kabupaten/kota prevalensi stunting <20%. Keluarga Berencana (r=-0,15), pemeriksaan kehamilan (r=-0,13) dan cuci tangan pakai sabun (r=-0,11) berhubungan langsung dengan prevalensi stunting tingkat kabupaten/kota di kabupaten/kota prevalensi stunting ≥20%. Tablet tambah darah ibu hamil (r=-0,02) dan inisiasi menyusu dini (r=-0,03) berhubungan tidak langsung melalui ASI eksklusif dengan prevalensi stunting tingkat kabupaten/kota di kabupaten/kota prevalensi stunting 20%-<30%. ASI eksklusif (r=-0,15) berhubungan langsung dengan prevalensi stunting tingkat kabupaten/kota di kabupaten/kota prevalensi stunting 20%-<30%. Cuci tangan pakai sabun berhubungan signifikan langsung dengan prevalensi stunting tingkat kabupaten/kota di kabupaten/kota prevalensi stunting 30%-40% (r=-0,22) dan >40% (r=-0,45). Model jalur menyimpulkan bahwa kabupaten/kota dapat memainkan peran penting dalam upaya pencegahan risiko stunting dengan memodifikasi sejumlah faktor risiko terutama pada keluarga anak 0-23 bulan.

Stunting in children 0-23 months in Indonesia is a public health problem caused by various direct and indirect factors. This study uses data from Basic Health Research, National Socio-Economic Survey and Gross Regional Domestic Product per capita in 2018 with a cross-sectional approach. Secondary data processing was carried out in January-April 2022. The samples were 106 districts/cities with stunting prevalence <20% and 403 districts/cities with stunting prevalence 20% (20%-<30%, 30%-40% and >40%) Aggregated at the district/city level from 32,095 individual data for children aged 0-23 months, whose body length was measured. The modeling uses path analysis. The stunting risk prevention pathway model shows that access to food (r=-0.31) and prenatal care (r=-0.29) is directly related to the prevalence of stunting at the district/city level in districts/cities with stunting prevalence <20%. Family planning (r=-0.15), pregnancy check-ups (r=-0.13) and hand washing with soap (r=-0.11) were directly related to the prevalence of stunting at the district/city level in districts/cities stunting prevalence 20 %. Blood supplement tablets for pregnant women (r=-0.02) and early initiation of breastfeeding (r=-0.03) were indirectly related through exclusive breastfeeding with the prevalence of stunting at the district/city level in districts/cities stunting prevalence of 20%-<30% . Exclusive breastfeeding (r=-0.15) was directly related to the prevalence of stunting at the district/city level in the district/city stunting prevalence of 20%-<30%. Hand washing with soap is directly related to stunting prevalence at district/city level in districts/cities, stunting prevalence is 30%-40% (r=-0.22) and >40% (r=-0.45). The pathway model concludes that districts/cities can play an important role in preventing stunting risk by modifying a number of risk factors, especially in families of children 0-23 months."
Depok: Fakultas Kesehatan Masyarakat Universitas Indonesia, 2022
D-pdf
UI - Disertasi Membership  Universitas Indonesia Library
cover
Abdul Akbar
"Keberadaan Cumulonimbus dapat menyebabkan hujan lebat, tornado, badai petir dan peristiwa ekstrem lainnya. Pengamatan Radiosonde telah digunakan untuk memprediksi potensi keberadaan awan CB dalam periode prakiraan cuaca jangka pendek dengan menggunakan pendekatan machine learning. Salah satu metode machine learning yang populer dan handal digunakan untuk prediksi potensi pertumbuhan awan CB adalah Artificial Neural Network (ANN). Namun, ANN masih sensitif terhadap inisialisasi nilai awal pada parameter weight dan bias. Metode yang terbukti paling handal untuk mengatasi masalah tersebut adalah Grey Wolf Optimizer (GWO). Oleh sebab itu, studi ini menggunakan GWO untuk mengoptimalkan parameter weight dan bias pada ANN berdasarkan kinerja MSE di setiap iterasi sehingga dapat meningkatkan kinerja ANN dalam memprediksi keberadaan awan CB. Hasil studi menunjukkan bahwa GWO memberikan peningkatan kinerja ANN dengan rata rata peningkatan akurasiakurasi sebesar 14,88 %. Akurasi terbaik didapatkan dengan nilai 89.6% dengan menggunakan 5 input indeks Radiosonde SI, LI, TT, CAPE, SWEAT pada epoch 250, dengan nilai MSE 0.071, serta nilai koefisien korelasinya sebesar 0.86

The presence of Cumulonimbus can cause heavy rain, tornadoes, thunderstorms and other extreme events. Radiosonde observations have been used to predict the potential presence of CB clouds in the short-term weather forecast period using a machine learning approach. One of the popular and reliable machine learning methods used to predict the potential growth of CB clouds is Artificial Neural Network (ANN). However, ANN is still sensitive to initialization of initial values ​​in weight and bias parameters. The most reliable proven method to solve this problem is the Gray Wolf Optimizer (GWO). Therefore, this study uses GWO to optimize weight and bias parameters on ANN based on MSE performance in each iteration so as to improve ANN performance in predicting the presence of CB clouds. The results of the study show that GWO provides an increase in ANN performance with an average increase in accuracy of 14.88%. The best accuracy was obtained with a value of 89.6% using 5 inputs Radiosonde SI, LI, TT, CAPE, SWEAT at epoch 250, with an MSE value of 0.071, and the correlation coefficient value of 0.86"
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2022
T-pdf
UI - Tesis Membership  Universitas Indonesia Library
cover
Raffly Pratama Iban Pameling
"Fraud adalah tindakan kejahatan yang terus terjadi hingga saat ini. Tidak ada lembaga perusahaan yang terbebas dari kemungkinan terjadinya fraud, termasuk juga industri asuransi. Berbagai cara sudah dilakukan untuk mencegah terjadinya fraud pada industri asuransi, seperti tersedianya daftar hitam hingga adanya tim pemeriksaan khusus di setiap perusahaan. Namun, kasus fraud asuransi tetap saja terjadi bahkan semakin berkembang/bervariasi karena perkembangan teknologi. Oleh karena itu, digunakanlah Artificial Intelligence (AI) dan machine learning sebagai decision support system untuk memprediksi potensi fraud asuransi. Masalah ini merupakan skenario klasifikasi biner dengan komposisi kelas antar-target yang tak seimbang (imbalance class) pada data tabular. Penelitian ini bertujuan untuk mengetahui kinerja model Neural Oblivious Decision Ensembles dalam mendeteksi fraud asuransi serta membandingkan kinerja tersebut dengan model XGBoost tanpa penanganan imbalance class, XGBoost dengan oversampling, dan XGBoost dengan pembobotan data sebagai penanganan standar pada masalah imbalance class. Penelitian ini menggunakan Auto Insurance Claims Data yang dipublikasikan oleh Bunty Shah di situs Kaggle pada tahun 2018. Hasil dari penelitian ini didapatkan bahwa rata-rata dari lima model Neural Oblivious Decision Ensembles (NODE) yang dilakukan pada penelitian memberikan nilai accuracy sebesar 75,53%, precision sebesar 74,24%, recall sebesar 75,53%, f1-score sebesar 74,43%, dan Area Under Curve sebesar 75,04% dan dapat mengungguli kinerja dari ketiga model lainnya.

Fraud is a crime that continues to occur today. No corporate institution is free from the possibility of fraud, including the insurance industry. Various methods have been taken to prevent fraud in the insurance industry, such as the availability of a blacklist to the existence of a special inspection team in each company. However, insurance fraud cases still occur even has more variation due to technological developments. Therefore, Artificial Intelligence (AI) and machine learning are used as decision support systems to predict potential insurance fraud. This research is an implementation of binary-classification scenario with imbalance class on tabular data. This research aims to determine the performance of the Neural Oblivious Decision Ensembles model in detecting insurance fraud and compare the performance with the XGBoost without imbalance class handling, XGBoost with oversampling, and XGBoost with weighted data as the standard handling of imbalance class problems. This research uses the Auto Insurance Claims Data published by Bunty Shah on the Kaggle website in 2018. The results of this research found that the average of the five Neural Oblivious Decision Ensembles (NODE) models gave an accuracy value of 75.53% , precision of 74.24%, recall of 75.53%, f1-score of 74.43%, and Area Under Curve of 75.04% and can outperform the performance of the other three models."
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2023
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Hakim Amarullah
"Proses training model membutuhkan sumber daya komputasi yang akan terus meningkat seiring dengan bertambahnya jumlah data dan jumlah iterasi yang telah dicapai. Hal ini dapat menimbulkan masalah ketika proses training model dilakukan pada lingkungan komputasi yang berbagi sumber daya seperti pada infrastruktur komputasi berbasis klaster. Masalah yang ditimbulkan terutama terkait dengan efisiensi, konkurensi, dan tingkat utilisasi sumber daya komputasi. Persoalan efisiensi muncul ketika sumber daya komputasi telah tersedia, tetapi belum mencukupi untuk kebutuhan job pada antrian ter- atas. Akibatnya sumber daya komputasi tersebut menganggur. Penggunaan sumber daya tersebut menjadi tidak efisien karena terdapat kemungkinan sumber daya tersebut cukup untuk mengeksekusi job lain pada antrian. Selain itu, pada cluster computing juga mem- butuhkan sistem monitoring untuk mengawasi dan menganalisis penggunaan sumber daya pada klaster. Penelitian ini bertujuan untuk menemukan resource manager yang sesuai untuk digunakan pada klaster komputasi yang memiliki GPU agar dapat meningkatkan efisiensi, implementasi sistem monitoring yang dapat membantu analisis penggunaan sumber daya sekaligus monitoring proses komputasi yang sedang dijalankan pada klaster, dan melayani inference untuk model machine learning. Penelitian dilakukan dengan cara menjalankan eksperimen penggunaan Slurm dan Kubernetes. Hasil yang diperoleh adalah Slurm dapat memenuhi kebutuhan untuk job scheduling dan mengatur penggunaan GPU dan resources lainnya pada klaster dapat digunakan oleh banyak pengguna sekaligus. Sedangkan untuk sistem monitoring, sistem yang dipilih adalah Prometheus, Grafana, dan Open OnDemand. Sementara itu, sistem yang digunakan untuk inference model adalah Flask dan Docker.

The amount of computational power needed for the model training process will keep rising along with the volume of data and the number of successful iterations. When the model training process is conducted in computing environments that share resources, such as on cluster-based computing infrastructure, this might lead to issues. Efficiency, competition, and the level of resource use are the three key issues discussed.Efficiency problems occur when there are already computing resources available, yet they are insufficient to meet the demands of high-level workloads. The power of the machine is subsequently wasted. The utilization of such resources becomes inefficient because it’s possible that they would be adequate to complete other tasks on the front lines. A monitoring system is also necessary for cluster computing in order to track and assess how resources are used on clusters. The project seeks to set up a monitoring system that can assist in analyzing the usage of resources while monitoring the com- puting processes running on the cluster and locate a suitable resource manager to be utilized on a computing cluster that has a GPU in order to increase efficiency, also serve inference model in production. Slurm and Kubernetes experiments were used to conduct the investigation. The findings show that Slurm can handle the demands of job scheduling, manage the utilization of GPUs, and allow for concurrent use of other cluster resources. Prometheus, Grafana, and Open OnDemand are the chosen moni- toring systems. Else, inference model is using Flask and Docker as its system constructor.
"
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2023
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Muhammad Anis Abdul Aziz
"Proses training model membutuhkan sumber daya komputasi yang akan terus meningkat seiring dengan bertambahnya jumlah data dan jumlah iterasi yang telah dicapai. Hal ini dapat menimbulkan masalah ketika proses training model dilakukan pada lingkungan komputasi yang berbagi sumber daya seperti pada infrastruktur komputasi berbasis klaster. Masalah yang ditimbulkan terutama terkait dengan efisiensi, konkurensi, dan tingkat utilisasi sumber daya komputasi. Persoalan efisiensi muncul ketika sumber daya komputasi telah tersedia, tetapi belum mencukupi untuk kebutuhan job pada antrian ter- atas. Akibatnya sumber daya komputasi tersebut menganggur. Penggunaan sumber daya tersebut menjadi tidak efisien karena terdapat kemungkinan sumber daya tersebut cukup untuk mengeksekusi job lain pada antrian. Selain itu, pada cluster computing juga mem- butuhkan sistem monitoring untuk mengawasi dan menganalisis penggunaan sumber daya pada klaster. Penelitian ini bertujuan untuk menemukan resource manager yang sesuai untuk digunakan pada klaster komputasi yang memiliki GPU agar dapat meningkatkan efisiensi, implementasi sistem monitoring yang dapat membantu analisis penggunaan sumber daya sekaligus monitoring proses komputasi yang sedang dijalankan pada klaster, dan melayani inference untuk model machine learning. Penelitian dilakukan dengan cara menjalankan eksperimen penggunaan Slurm dan Kubernetes. Hasil yang diperoleh adalah Slurm dapat memenuhi kebutuhan untuk job scheduling dan mengatur penggunaan GPU dan resources lainnya pada klaster dapat digunakan oleh banyak pengguna sekaligus. Sedangkan untuk sistem monitoring, sistem yang dipilih adalah Prometheus, Grafana, dan Open OnDemand. Sementara itu, sistem yang digunakan untuk inference model adalah Flask dan Docker.

The amount of computational power needed for the model training process will keep rising along with the volume of data and the number of successful iterations. When the model training process is conducted in computing environments that share resources, such as on cluster-based computing infrastructure, this might lead to issues. Efficiency, competition, and the level of resource use are the three key issues discussed.Efficiency problems occur when there are already computing resources available, yet they are insufficient to meet the demands of high-level workloads. The power of the machine is subsequently wasted. The utilization of such resources becomes inefficient because it’s possible that they would be adequate to complete other tasks on the front lines. A monitoring system is also necessary for cluster computing in order to track and assess how resources are used on clusters. The project seeks to set up a monitoring system that can assist in analyzing the usage of resources while monitoring the com- puting processes running on the cluster and locate a suitable resource manager to be utilized on a computing cluster that has a GPU in order to increase efficiency, also serve inference model in production. Slurm and Kubernetes experiments were used to conduct the investigation. The findings show that Slurm can handle the demands of job scheduling, manage the utilization of GPUs, and allow for concurrent use of other cluster resources. Prometheus, Grafana, and Open OnDemand are the chosen moni- toring systems. Else, inference model is using Flask and Docker as its system constructor.
"
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2023
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Doni Pradana
"Customer churn merupakan masalah serius di banyak sektor, termasuk sektor telekomunikasi. Pengertian costumer churn adalah berhentinya penggunaan suatu layanan dan beralih ke penyedia lain atau tidak memperbarui kontrak. Untuk mengatasi risiko churn, perusahaan telekomunikasi perlu menggunakan model prediksi dengan bantuan metode machine learning. Terdapat beberapa model prediksi churn yang telah diajukan oleh para peneliti, termasuk pemilihan algoritma yang sesuai dan dataset untuk studi kasus. Pada tesis ini menggunakan dataset IBM Telco Customer Churn sebagai data pelatihan dan pengujian. Tantangan umum dalam klasifikasi adalah ketidakseimbangan data, yang dapat menyebabkan kegagalan dalam memprediksi kelas minoritas. Oleh karena itu, tesis ini menggunakan beberapa teknik augmentasi data seperti SMOTE, HAT, dan CVAE, sebagai teknik dalam menyeimbangkan data. Pembelajaran ensembel khususnya metode CART (Classification and Regression Tree) sering digunakan untuk menyelesaikan permasalahan klasifikasi dan regresi. Model Adaboost adalah algoritma pembelajaran ensemble yang menggunakan pohon keputusan sebagai dasar pembelajaran. Dalam pelatihan model Adaboost, Bayesian Optimization (BO) digunakan sebagai metode pencarian hyperparameter terbaik. Dari hasil percobaan dan pengujian yang diajukan, model Adaboost dapat memberikan nilai testing f1-score dan recall sebesar 0,661 dan 0,653 pada pelatihan dengan dataset tidak seimbang. Model Adaboost-SMOTE mempunyai nilai testing f1-score dan recall sebesar 0,646 dan 0,826. Penggunaan optimasi Bayesian Optimization pada model Adaboost-SMOTE dapat menaikkan testing f1-score dan recall menjadi 0,649 dan 0,849. Tes ANOVA dan Tukey HSD mengungkapkan variasi yang signifikan dalam hasil pelatihan dari model machine learning, dan menyoroti dampak penggunaan data seimbang dalam pelatihan model yang signifikan.

Customer churn is a severe problem in various sectors, including telecommunications. Customer churn refers to discontinuing the service, switching to another provider, or not renewing the contract. To deal with churn risk, telecommunication companies need to use predictive models with the help of machine learning methods. Several churn prediction models have been proposed by researchers, including the selection of suitable algorithms and data sets for case studies. In this thesis, research is conducted using the IBM Telco Customer Churn dataset. A common challenge in classification is data imbalance, which can lead to failure in predicting minority classes. Therefore, this thesis using several data augmentation techniques, such as SMOTE, HAT, and CVAE, for balancing data technique. Ensemble learning, especially the CART (Classification and Regression Tree) method, is often used to solve classification and regression problems. Adaboost is an ensemble learning algorithm that uses decision trees as the basis for learning. In the Adaboost model training, Bayesian Optimization (BO) is used to find the best hyperparameters. From the trials and tests carried out, Adaboost achieved an f1-score and recall test of 0.661 and 0.653, respectively, in training with an unbalanced dataset. The Adaboost SMOTE model achieved f1 and memory test scores of 0.646 and 0.826, respectively. Using Bayesian Optimization in the Adaboost SMOTE model increased the testing f1-score and recall scores to 0.649 and 0.849, respectively. ANOVA and Tukey HSD tests reveal significant variation in machine learning model training results and highlight the considerable impact of using balanced data in model training."
Depok: Fakultas Teknik Universitas Indonesia, 2023
T-pdf
UI - Tesis Membership  Universitas Indonesia Library
<<   1 2 3 4 5 6 7 8 9 10   >>