Hasil Pencarian  ::  Simpan CSV :: Kembali

Hasil Pencarian

Ditemukan 11 dokumen yang sesuai dengan query
cover
Samuel Zico Christopher
Abstrak :
Salah satu metode yang populer untuk mengatasi missing value dalam sebuah survei adalah metode imputasi. Imputasi adalah solusi untuk mengganti suatu missing value dengan suatu nilai pengganti yang didapatkan dari teknik khusus tertentu, misalnya imputasi menggunakan nilai mean, nilai median, dan lain sebagainya. Pada skripsi dibahas suatu teknik imputasi yang menggabungankan dua macam teknik imputasi lain, yakni imputasi fractional dan imputasi hot deck. Imputasi fractional adalah imputasi yang punya kelebihan dalam meminimumkan suatu variansi dalam suatu data dikarenakan nilai imputasi yang dihasilkan berasal dari data set dalam survei itu sendiri, namun kekurangannya adalah bahwa nilai imputasi dari teknik fractional akan membuat jumlah observasi menjadi mengembang. Oleh karena masalah pengembangan data set yang dihasilkan teknik fractional tersebut, imputasi hot deck menjadi solusi untuk membatasi masalah jumlah observasi yang dihasilkan dengan membatasi calon nilai imputasi (donor) untuk suatu nilai hilang. Imputasi yang menggabungkan teknik imputasi fractional dan hot deck akan dikenal dengan nama imputasi fractional hot deck dengan sifat yang mirip dengan imputasi fractional , namun observasi yang dihasilkan lebih sedikit.
One of the most popular solution of missing value is imputation in a survey is imputation. Imputation is a solution to replace missing value with imputed value from a particular technique, such as mean value, median value, etc. This Thesis specifically discuss about technique that fuse fractional imputation technique and hot deck imputation technique. Fractional imputation is popular because this imputation tends to produce less variance compare to other methods. Unfortunately this method will extend the number of observations. Because fractional imputation tends to extend the number of observations, sampling becomes a solution to produce less observation. Sampling limits the numbers of imputed values (donor) in the observations that adopts hot deck imputation nature. The imputation that fuse fractional imputation and hot deck imputation is known as fractional hot deck, and produce a data set that have similar property to fractional imputation, but less observations.
Depok: Universitas Indonesia, 2019
S-Pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Adinda Dwi Putri
Abstrak :
Bioinformatika kerap digunakan oleh para peneliti untuk mempelajari berbagai penyakit yang ada pada tubuh manusia, salah satunya yaitu kanker payudara. Penelitian terhadap kanker payudara tersebut dilakukan dengan tujuan untuk menemukan jenis pengobatan terbaik bagi para pasien penderita kanker payudara. Data ekspresi gen merupakan salah satu komponen utama dalam penelitian mengenai pengobatan kanker payudara dan data tersebut dapat diperoleh dengan menggunakan alat dan teknologi microarray. Akan tetapi, seringkali ditemukan beberapa nilai yang hilang (missing values) pada data ekspresi gen yang dapat disebabkan oleh kesalahan teknis seperti kerusakan pada chip dan gambar. Adanya missing values juga dapat mengakibatkan masalah ketika proses analisis data selanjutnya, dimana terdapat metode analisis data yang memerlukan data lengkap seperti klasifikasi dan clustering. Oleh sebab itu, perlu dilakukan proses imputasi terhadap missing values agar hasil analisis data yang diperoleh lebih akurat. Pada penelitian ini, metode imputasi missing values yang digunakan yaitu SBi-MSREimpute. SBi-MSREimpute adalah metode imputasi berbasis biclustering dimana bicluster dibentuk berdasarkan suatu kriteria yang melibatkan skor Mean Squared Residue dan jarak Euclidean. Metode SBi-MSREimpute diimplementasikan pada data ekspresi gen pasien penderita kanker payudara stadium awal yang telah diberikan jenis obat MK-2206. Kinerja metode SBi-MSREimpute dilihat dengan membandingkan hasil imputasi metode SBi-MSREimpute dengan metode imputasi lain yaitu metode imputasi menggunakan weighted average berdasarkan skor Normalized Root-Mean-Square-Error (NRMSE). Hasil evaluasi dengan skor NRMSE tersebut menunjukkan bahwa kinerja metode SBi-MSREimpute dapat dipengaruhi oleh penentuan nilai k yang ada pada metode SBi-MSREimpute. ......Bioinformatics is often used by researchers to study various diseases that exist in the human body, one of which is breast cancer. The research on breast cancer was conducted with the aim of finding the best type of treatment for breast cancer patients. Gene expression data is one of the main components in research on breast cancer treatment and this data can be obtained using microarray tools and technology. However, there are often missing values found in gene expression data that can be caused by technical errors such as damage to chips and images. The existence of missing values ​​can also cause problems during the data analysis process, where there are data analysis methods that require complete data such as classification and clustering. Therefore, it is necessary to carry out an imputation process for missing values ​​so that the data analysis results obtained are more accurate. In this study, the missing values ​​imputation method used was SBi-MSREimpute. SBi-MSREimpute is a biclustering-based imputation method where the bicluster is formed based on a criterion involving Mean Squared Residue and Euclidean Distance. In this study, the SBi-MSREimpute method was applied to the gene expression data of patients with early stage breast cancer who had been given the MK-2206 type of drug. The performance of the SBi-MSREimpute method is assessed by comparing the results of the imputation using SBi-MSREimpute method with other imputation methods, namely the imputation method using weighted average, based on the Normalized Root-Mean-Square-Error score (NRMSE). The results of the evaluation with NRMSE score showed that the performance of the SBi-MSREimpute method can be affected by the determination of k value in the SBi-MSREimpute method.
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2021
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Richat Pahlepi
Abstrak :
Automatic Weather Station (AWS) mengalami kendala berupa kerusakan komponen dan kegagalan sistem komunikasi, sehingga menyebabkan data parameter tidak lengkap. Kerusakan komponen juga terjadi pada pyranometer. Penurunan kinerja pyranometer menghasilkan penyimpangan, ketidakpastian pengukuran intensitas radiasi matahari, serta gap data. Imputasi data menjadi salah satu solusi dalam meminimalisir penyimpangan pengukuran dan terjadinya missing data pyranometer AWS. Penelitian ini bertujuan mendesain serta menganalisis performa akurasi model imputasi data intensitas radiasi matahari pyranometer AWS multisite ketika terjadi gap data. Penelitian ini berupaya memanfaatkan kaitan spasio-temporal intensitasi radiasi matahari AWS multisite di dalam model imputasi. Algoritma Long-Short Term Memory (LSTM) digunakan sebagai estimator pada jaringan pyranometer AWS multisite. Tahap pemodelan imputasi data meliputi pengumpulan data, pra-pemrosesan data, pembuatan skenario missing data, desain LSTM dan pengujian model. Metode berbasis machine learning ini diharapkan mampu mengimputasi data AWS pada missing data dalam jangka menit maupun jam, jika AWS mengalami kerusakan sistem atau gangguan jaringan komunikasi. Nilai MAPE model LSTM untuk imputasi pyranometer AWS Cikancung untuk missing data 30 menit, 1 jam dan 3 jam berturut-turut yaitu 1,81% ; 2,72% ; dan 5,07%. Nilai MAPE model LSTM untuk AWS Cimalaka untuk missing data 30 menit, 1 jam dan 3 jam berturut-turut yaitu 0,46% ; 1,25% ; dan 3,24%. Nilai MAPE model LSTM untuk AWS Cipasung untuk missing data 30 menit, 1 jam dan 3 jam berturut-turut yaitu 2,30% ; 1,67% ; dan 0,94%. ......Automatic Weather Station (AWS) experienced problems in the form of component damage and communication system failure, resulting in incomplete parameter data. Component damage also occurs in pyranometers. Decreased pyranometer performance results in deviations, uncertainty in measuring solar radiation intensity, and data gaps. Data imputation is one solution to minimize measurement deviations and the occurrence of missing AWS pyranometer data. This research aims to design and analyze the accuracy performance of the multisite AWS pyranometer solar radiation intensity data imputation model when a data gap occurs. This research attempts to utilize the spatio-temporal relationship of multisite AWS solar radiation intensity in the imputation model. The Long-Short Term Memory (LSTM) algorithm is used as an estimator in the multisite AWS pyranometer network. The data imputation modeling stage includes data collection, data pre-processing, creating missing data scenarios, LSTM design and model testing. This machine learning-based method is expected to be able to impute AWS data for missing data in minutes or hours, if AWS experiences system damage or communication network disruption. The MAPE value of the LSTM model for the AWS Cikancung pyranometer for missing data of 30 minutes, 1 hour and 3 hours respectively is 1.81%; 2.72% ; and 5.07%. The MAPE value of the LSTM model for AWS Cimalaka for missing data of 30 minutes, 1 hour and 3 hours respectively is 0.46%; 1.25% ; and 3.24%. The MAPE value of the LSTM model for AWS Cipasung for missing data of 30 minutes, 1 hour and 3 hours respectively is 2.30%; 1.67% ; and 0.94%.
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2024
T-pdf
UI - Tesis Membership  Universitas Indonesia Library
cover
Dini Rahayu
Abstrak :
Masalah yang sering terjadi dalam penelitian adalah adanya missing value padahal data yang lengkap diperlukan untuk mendapatkan hasil analisis yang menggambarkan populasi. Dalam pengolahan data, missing value sering terjadi pada analisis regresi. Analisis regresi merupakan suatu model prediksi dengan melihat hubungan antara variabel respon dan variabel prediktor. Missing value dalam analisis regresi dapat ditemukan baik pada variabel respon maupun variabel prediktor. Penelitian ini membahas imputasi missing value yang terjadi pada kedua variabel tesebut dengan menggunakan imputasi regresi. Algoritma Expectation Maximization (EM) merupakan metode penaksiran parameter regresi dengan menggunakan metode Maximum Likelihood Estimaton (MLE) pada data yang memiliki missing value. Untuk menyeimbangkan hasil taksiran parameter model regresi untuk setiap variabel, dilakukan proses penyeimbangan (balance process) untuk mendapatkan hasil taksiran parameter yang konvergen. Simulasi taksiran nilai variabel respon dan prediktor yang hilang dilakukan pada berbagai variasi persentase missingness. Metode penaksiran parameter regresi dengan menggunakan algoritma EM, dapat menghasilkan model yang menjelaskan data sebesar 87% hingga terjadi missing sebanyak 60%.
The problem that often occurs in research is the existence of missing values even though complete data is needed to obtain the results of analysis that describe the population. In processing data, missing values often occur in regression analysis. Regression analysis is a prediction model by looking at the relationship between response variables and predictor variables. Missing values in regression analysis can be found in both the response variable and predictor variable. This study discusses the imputation of missing values that occur in both variables using regression imputation. The Expectation Maximization (EM) algorithm is a method of estimating regression parameters using the Maximum Likelihood Estimaton (MLE) method on data that has missing value. To balance the estimated parameters of the regression model for each variable, a balance process is performed to obtain the results of the convergent parameter estimates. The estimated simulation of the value of the response variable and missing predictor was carried out in various variations in the percentage of missingness. The method of estimating regression parameters using the EM algorithm, can produce a model that explains the data by 87% until there is missing as much as 60%.
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2019
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Kathan Gerry Vivaldi
Abstrak :
Nilai yang hilang adalah nilai yang tidak disimpan dalam variabel tertentu dalam pengamatan. Nilai yang hilang dapat ditemukan dalam data di hampir semua bidang penelitian dan dapat mempersulit analisis data. Self-Organizing Maps (SOM) adalah metode clustering berbasis jaringan saraf yang dapat digunakan sebagai metode imputasi, di mana SOM menyalahkan nilai-nilai yang hilang dengan menggeneralisasi pengamatan mengandung nilai yang hilang. Ensemble Self-Organizing Maps (E-SOM) adalah pengembangan metode imputasi SOM, di mana metode E-SOM diterapkan kerangka ensemble dengan menggunakan beberapa SOM untuk meningkatkan kemampuan generalisasi. Dalam tesis ini metode E-SOM dan SOM diimplementasikan untuk imputasi nilai yang hilang dalam data Penyakit Jantung Afrika Selatan dengan menggunakan 15 ansambel dan berbagai variasi dalam jumlah neuron. Pada data imputasi kedua metode ini kemudian dibentuk oleh model klasifikasi Hutan Acak dan dilakukan evaluasi kinerja model yang dibentuk menggunakan nilai akurasi dalam data pengujian. Hasil evaluasi menunjukkan bahwa untuk model yang terbentuk dari data imputasi E-SOM menghasilkan nilai akurasi yang lebih baik untuk variasi 20, 30, 50, 60, dan 80 neuron dalam klasifikasi data pengujian. Sedangkan untuk variasi 40 neuron, model terbentuk dari data imputasi SOM menghasilkan nilai akurasi yang lebih baik, dan untuk variasi 70 neuron, kedua metode menghasilkan nilai akurasi yang sama. Selain itu, menerapkan berbagai kombinasi variasi dalam jumlah neuron dan jumlah ansambel dalam metode ini imputasi E-SOM. Model Random Forest dihasilkan dari data dari imputasi E-SOM dengan kombinasi 60 neuron dan 5 ansambel menghasilkan nilai akurasi paling optimal.
Missing values ​​are values ​​that are not stored in certain variables in the observation. Missing values ​​can be found in data in almost all fields of research and can complicate data analysis. Self-Organizing Maps (SOM) is a neural network based clustering method that can be used as an imputation method, where SOM blames missing values ​​by generalizing observations contains missing values. Ensemble Self-Organizing Maps (E-SOM) is the development of the SOM imputation method, in which the E-SOM method is applied to an ensemble framework by using multiple SOMs to improve generalization capabilities. In this thesis the E-SOM and SOM methods are implemented for the imputation of missing values ​​in South African Heart Disease data with using 15 ensembles and various variations in the number of neurons. In the imputation data the two methods are then formed by the Random Forest classification model and an evaluation of the performance of the model is formed using the accuracy values ​​in the test data. The evaluation results show that the model formed from E-SOM imputation data produces better accuracy values ​​for variations of 20, 30, 50, 60, and 80 neurons in the classification of test data. As for the variation of 40 neurons, the model formed from SOM imputation data produces a better accuracy value, and for the variation of 70 neurons, both methods produce the same accuracy value. Other than that, applying various combinations of variations in the number of neurons and the number of ensembles in this method imputation E-SOM. The Random Forest model is generated from data from the E-SOM imputation with a combination of 60 neurons and 5 ensembles producing the most optimal accuracy value
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2019
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Emha Fathul Akmam
Abstrak :
Nilai yang hilang adalah suatu kondisi ketika ada beberapa entri yang hilang atau nilai kosong pada beberapa pengamatan dalam data. Ini dapat menyebabkan kita memiliki data yang tidak lengkap yang dapat menghambat proses analisis statistik dan dapat memberikan kesimpulan yang bias dari analisis jika tidak dapat ditangani dengan benar. Masalah ini juga dapat ditemukan dalam beberapa analisis regresi linier. Salah satu cara untuk mengatasi masalah ini adalah dengan menggunakan beberapa metode imputasi yang disebut Predictive Mean Matching (PMM). Beberapa imputasi adalah pendekatan umum untuk menangani data yang hilang yang memungkinkan ketidakpastian tentang data yang hilang dengan membuat serangkaian data imputasi yang masuk akal dan hasil analisis gabungan tepat yang diperoleh dari setiap data. Metode ini akan mencocokkan jarak rata-rata prediktif dari pengamatan tidak lengkap dengan pengamatan lengkap. Dengan demikian, pengamatan lengkap yang memiliki jarak terdekat akan menjadi nilai donor bagi yang tidak lengkap. Mean prediktif untuk pengamatan lengkap diperkirakan dengan kuadrat biasa yang paling tidak lengkap dan didekati oleh konsep Bayesian. Artikel ini akan menjelaskan tentang distribusi posterior yang memungkinkan ketidakpastian nilai yang hilang untuk memperkirakan parameter pengamatan yang tidak lengkap dan mendapatkan rata-rata prediktif mereka. Artikel ini akan memberikan hasil tentang penerapan metode PMM dalam data simulasi yang memiliki pola hilang univariat dengan mekanisme MAR dan dievaluasi dengan nilai bias dari koefisien regresi dari koefisien hasil pada dataset yang ditentukan.
Missing value is a condition when there are some missing entries or empty values ​​on some observations in the data. This can cause us to have incomplete data that can hinder the process of statistical analysis and can provide biased conclusions from the analysis if it cannot be handled properly. This problem can also be found in several linear regression analyzes. One way to overcome this problem is to use several imputation methods called Predictive Mean Matching (PMM). Some imputations are a general approach to handling missing data that allows uncertainty about missing data by making a series of reasonable imputation data and the precise combined analysis results obtained from each data. This method will match the predictive average distance from incomplete observations with complete observations. Thus, a complete observation that has the closest distance will be a donor value for the incomplete. The predictive means for complete observations are estimated with the most incomplete ordinary squares and are approached by the Bayesian concept. This article will explain posterior distributions that allow uncertainty of missing values ​​to estimate incomplete observation parameters and obtain their predictive averages. This article will provide results about the application of the PMM method in simulation data which have a univariate missing pattern with the MAR mechanism and are evaluated with a bias value of the regression coefficient of the yield coefficient on the specified dataset.
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2019
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Mush`ab Muzzammil
Abstrak :
Ekspresi gen adalah proses pembentukan molekul protein dengan cara menguraikan informasi yang terkandung dalam gen. Ekspresi gen dapat diubah menjadi data numerik dengan bantuan teknologi microarray. Penyakit chronic lymphocytic leukemia (CLL) merupakan salah satu penyakit kanker yang terjadi karena pembentukan lymphocytes yang tidak normal pada sumsum tulang. Data ekspresi gen dari pasien CLL dapat diperoleh dengan menggunakan teknologi microarray. Namun, penggunaan teknologi microarray dapat menghasilkan missing values pada data ekspresi gen CLL akibat dari adanya goresan atau debu pada microarray slides. Keberadaan missing values dapat mengakibatkan hasil analisis menjadi bias dan tidak merepresentasikan sifat aslinya. Untuk mengatasi hal tersebut, salah satu pendekatan yang dapat dilakukan adalah dengan melakukan imputasi missing values. Imputasi adalah proses mengisi missing values berdasarkan informasi yang terdapat dalam data. Nilai pada data hasil imputasi diharapkan mendekati nilai dari elemen yang hilang. Proses imputasi menghasilkan data yang lengkap sehingga analisis selanjutnya dapat berjalan dengan baik dan diperoleh hasil yang lebih akurat. Pada penelitian ini dilakukan proses imputasi missing values dengan metode imputasi Cosine Similarity Based Biclustering dan Normalized Mean Residue Similarity (NMRS) Based Biclustering. Metode Cosine Similarity Based Biclustering dan NMRS Based Biclustering melakukan imputasi dengan memanfaatkan analisis biclustering berbasis korelasi cosine similarity dan NMRS. Data yang digunakan untuk melakukan penelitian ini adalah data numerik berupa ekspresi gen pada pasien chronic lymphocytic leukemia (CLL). Kinerja dari metode imputasi pada penelitian ini dievaluasi dengan menghitung korelasi Pearson dari nilai asli pada data awal dengan nilai pada data yang sudah dilakukan imputasi. Hasil evaluasi dari kinerja metode imputasi menggunakan Cosine Similarity Based Biclustering dan NMRS Based Biclustering dibandingkan dengan kinerja metode imputasi K-Means. Berdasarkan hasil penelitian, didapatkan nilai koefisien korelasi Pearson dari metode imputasi menggunakan Cosine Similarity Based Biclustering dan NMRS Based Biclustering untuk missing rate 5%, 15%, 25%, 35% dan 45% memiliki rentang yang lebih tinggi dibandingkan metode imputasi K-Means, dengan sebagian besar nilai korelasi Pearson di atas 0,96. Selain itu metode NMRS Based Biclustering memiliki rentang korelasi Pearson paling tinggi, sehingga dapat dikatakan metode NMRS Based Biclustering menghasilkan nilai imputasi terbaik di antara metode yang digunakan untuk mengisi missing values pada data CLL. ......Gene expression is the process of forming protein molecules by deciphering the information contained in genes. Gene expression can be converted into numerical data using microarray technology. Chronic lymphocytic leukemia (CLL) is cancer that occurs due to the formation of abnormal lymphocytes in the bone marrow. Gene expression data from CLL patients can be obtained using microarray technology. However, the use of microarray technology can produce missing values in the CLL gene expression data due to scratches or dust on the microarray slides. The existence of missing values can lead to analysis results being biased and not representing their true nature. To overcome this, one approach that can be taken is to impute missing values. Imputation is the process of filling in the missing values based on the information contained in the data. The value of the imputed data is expected to be close to the value of the missing element. The imputation process produces complete data so that further analysis can run well and obtained more accurate results. In this study, the imputation process for missing values was carried out using the Cosine Similarity Based Biclustering and Normalized Mean Residue Similarity (NMRS) Based Biclustering imputation methods. Cosine Similarity Based Biclustering and NMRS Based Biclustering methods perform imputation by utilizing biclustering analysis based on cosine similarity correlation and NMRS. The data used to conduct this research is numerical data in the form of gene expression in chronic lymphocytic leukemia (CLL) patients. The performance of the imputation method in this study was evaluated by calculating the Pearson correlation of the original value in the initial data with the value in the imputed data. The results of the evaluation of the performance of the imputation method using Cosine Similarity Based Biclustering and NMRS Based Biclustering were compared with the performance of the K-Means imputation method. Based on the results of the study, the Pearson correlation coefficient values obtained from the imputation method using Cosine Similarity Based Biclustering and NMRS Based Biclustering for missing rates of 5%, 15%, 25%, 35% and 45% have a higher range than the K-Means imputation method, with most Pearson correlation values above 0.96. In addition, the NMRS Based Biclustering method has the highest Pearson correlation range, so it can be said that the NMRS Based Biclustering method produces the best imputation value among the methods used to fill in the missing values in CLL data.
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2021
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Gabriela Patricia Winny Gracia
Abstrak :
Clustering merupakan metode untuk mengidentifikasi kelompok natural pada data berdasarkan ukuran kemiripan seperti jarak Eucledian. Clustering bertujuan untuk mengelompokkan data, dengan kriteria observasi yang berada dalam satu klaster memiliki tingkat kemiripan yang sangat signifikan, sedangkan observasi yang berada dalam cluster yang berbeda, memiliki perbedaan yang sangat signifikan. Pada tahun 2021, Chowdhury, Bhattacharyya, & Kalita mengembangkan metode User-Input-Free Density-Based Clustering (UIFDBC) berdasarkan dari metode density-based clustering yang telah ada sebelumnya. Seperti namanya, metode UIFDBC ini tidak memerlukan input dari pengguna untuk menemukan cluster. Maka dari itu, metode UIFDBC ini berhasil menjawab permasalahan metode clustering sebelumnya yang bergantung pada input dari pengguna. Tujuan dari penelitian ini adalah untuk membahas lebih dalam terkait metode User-Input-Free Density-Based Clustering (UIFDBC), menerapkan metode UIFDBC pada data real, yaitu data konsumen kartu kredit untuk melakukan segmentasi konsumen, serta mengkaji performa metode ini pada data yang mengandung missing values di dalamnya. Dari hasil penelitian, metode UIFDBC berhasil diterapkan pada data konsumen kartu kredit, dan diperoleh sebanyak delapan cluster pengguna, dimana setiap cluster memiliki karakteristik masing-masing. Selain itu, dari hasil pengkajian metode UIFDBC terhadap data dengan missing values diketahui bahwa performa metode UIFDBC dinilai cukup baik untuk proporsi missing values ≤ 5%. Namun perlu menjadi catatan bahwa data hasil dari setiap iterasi akan bersifat acak, dikarenakan metode UIFDBC sangat bergantung pada densitas data, sedangkan densitas data bergantung pada missing values yang mana dibangkitkan secara acak sepenuhnya. ......Clustering is a method to identify natural groups in data based on similarity measures such as Eucledian distance. Clustering aims to group data, with the criteria for observations in one cluster having a very significant level of similarity, while observations in different clusters have very significant differences. In 2021, Chowdhury, Bhattacharyya, & Kalita developed the User-Input-Free Density-Based Clustering (UIFDBC) method based on the previous density-based clustering method. As the name suggests, this UIFDBC method does not require input from the user to find the cluster. Therefore, this UIFDBC method has succeeded in answering the problems of the previous clustering method which depended on input from the user. The purpose of this study is to discuss more deeply the User-Input-Free Density-Based Clustering (UIFDBC) method, to apply the UIFDBC method to real data, namely credit card consumer data to segment consumers, and to examine the performance of this method on data containing missing values in it. From the results of the study, the UIFDBC method was successfully applied to credit card consumer data, and obtained as many as eight user clusters, where each cluster has its own characteristics. In addition, from the results of the study of the UIFDBC method on data with missing values, it is known that the performance of the UIFDBC method is considered quite good for the proportion of missing values ≤ 5%. However, it should be noted that the resulting data from each iteration will be random, because the UIFDBC method is very dependent on data density, while data density depends on missing values which are generated completely randomly.
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2021
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Darian Texanditama
Abstrak :
Pemelajaran mesin dikenal sangat berguna dalam menyelesaikan permasalahan prediksi dan klasifikasi melalui pembelajaran pola dan perilaku data yang tersedia. Oleh karena itu, pemelajaran mesin dapat dimanfaatkan di berbagai bidang kehidupan dan industri modern. Namun, kinerja pemelajaran mesin sangat tergantung dari model pemelajaran mesin yang digunakan maupun dari kualitas data yang digunakan untuk pemelajaran. Data yang tidak bersih, tidak representatif, dan ketersediaannya terbatas akan mengurangi kualitas hasil prediksinya. Penelitian ini bertujuan untuk menguji kombinasi beberapa metode pemrosesan data (yaitu MissForest, GAIN, ENN, dan TabGAN oversampling) dengan model pembelajaran mesin (yaitu model CatBoost dan model klasifikasi biner berbasis neural network) untuk memprediksi kasus mahasiswa putus studi di beberapa universitas di Indonesia menggunakan data dari PDDikti. Penambahan fitur dilakukan untuk memberi label bidang studi terhadap dataset tersebut. Selain penambahan fitur seleksi fitur relevan menggunakan korelasi Pearson serta feature importances juga dilakukan setelah pelatihan model awal. Google Colab dengan bahasa pemrograman Python digunakan untuk menjalankan algoritma pemrosesan data dan pelatihan model. Hasil penelitian menunjukkan bahwa model CatBoost dengan kombinasi metode imputasi GAIN, undersampling ENN, dan tanpa fitur kelompok bidang studi memberikan F1-score tertinggi yaitu 66,38% dengan nilai precision 71,75% dan nilai recall 61,76%. Apabila digunakan model klasifikasi biner pemelajaran dalam akan didapatkan metrik terbaik F1-score 62,32%. Hasil terbaik penelitian ini menunjukkan peningkatan F1-score sebesar 2,15% dibandingkan dengan F1-score pada penelitian sebelumnya yang menggunakan model CatBoost bersama kombinasi Missforest dan ENN tanpa fitur kelompok bidang studi. Penelitian ini menunjukkan bahwa oversampling dan undersampling memberikan dampak yang berlawanan terhadap metrik precision dan recall. Penelitian juga menemukan seleksi fitur dapat meningkatkan kinerja model namun tidak berdampak besar dibandingkan teknik-teknik lain misalnya balancing dan optimisasi hyperparameter. ......Machine learning is known to be very useful in solving prediction and classification problems by learning the patterns and behavior of available data. Therefore, machine learning can be utilized in various areas of modern life and industry. However, the performance of machine learning is highly dependent on the machine learning model used as well as on the quality of the data used for learning. Data that is not clean, not representative, and scarce will reduce the quality of the prediction results. This study aims to test the combination of several data processing methods (namely MissForest, GAIN, ENN, and TabGAN oversampling) with machine learning models (CatBoost and binary classification models based on neural networks) to predict dropout cases at several Indonesian universities using data from PDDikti. The addition of features is done to label data with their respective fields of study. Other than adding features, selection of relevant features using Pearson’s correlation as well as feature importances is also carried out after initial model training. Google Colab with the Python programming language is used to run data processing algorithms and train models. This study shows that CatBoost with the combination of GAIN imputation, ENN undersampling, and no field of study feature results in the highest F1-score of 66.38%, which are composed of 71.75% in precision and 61.76% in recall. If a deep learning binary classification model is used instead, the best F1-score result is 62.32%. The best result from this study shows an increase in F1-score of 2.15% compared to the F1-score of the previous study (64.23%) which used CatBoost along with a combination of Missforest, ENN and no field of study features. This research shows oversampling and undersampling produce opposite effects on precision and recall scores. Research has also found that feature selection can improve model performance but does not have a large impact compared to other techniques such as balancing and hyperparameter optimization
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2022
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Muhamad Ihsan
Abstrak :
Nilai hilang merupakan suatu masalah yang sering dijumpai di berbagai bidang dan harus diatasi untuk memperoleh inferensi statistik yang baik seperti penaksiran parameter. Nilai hilang dapat ditemukan pada setiap jenis data, salah satunya pada jenis data cacah/ count data yang berdistribusi Poisson. Solusi untuk mengatasi masalah nilai hilang berjenis data cacah tersebut dapat diatasi dengan menerapkan teknik imputasi ganda. Teknik imputasi ganda merupakan suatu cara mengatasi nilai hilang dengan mengganti setiap nilai yang hilang dengan beberapa nilai estimasi. Teknik imputasi ganda untuk kasus data cacah terdiri dari tiga tahap utama yaitu tahap imputasi berdasarkan model linier normal, tahap analisis dengan metode generalized linear model Poisson regression dan tahap penggabungan pooling parameter yang didasarkan pada aturan Rubin. Studi ini juga dilengkapi dengan simulasi numerik yang bertujuan untuk komparasi akurasi berdasarkan nilai bias yang dihasilkan. Parameter yang digunakan pada simulasi ini yaitu sebesar 5,10 dan 15 dengan jumlah sampel sebesar 200 untuk tujuan mengaproksimasi sifat kenormalan dan simulasi ini diulang untuk empat skenario yang bertingkat untuk setiap parameter berdasarkan besarnya persentase observasi nilai hilang (0%, 10%, 20% dan 30%). Berdasarkan studi literatur dan simulasi numerik yang dilakukan, solusi yang diajukan untuk mengatasi nilai hilang pada data cacah menghasilkan hasil yang cukup memuaskan terutama saat parameter bernilai besar dan persentase observasi nilai hilang yang kecil. Hal ini diindikasikan dengan ukuran bias dan variansi total dari taksiran rata-rata yang kecil. Namun nilai bias cenderung meningkat seiring meningkatnya persentase observasi nilai yang hilang dan saat nilai parameter yang kecil.
Missing values are a problem that is often encountered in various fields and must be addressed to obtain good statistical inference such as parameter estimation. Missing values can be found in any type of data, included count data that has Poisson distributed. One solution to overcome that problem is applying multiple imputation techniques. The multiple imputation technique is a way of dealing with missing values by replacing each missing value with some estimated values. The multiple imputation technique for the case of count data consists of three main stages, namely the imputation stage based on the normal linear model, the analysis stage using the generalized linear model Poisson regression and the last stage is pooling parameter based on Rubins rules. This study is also equipped with numerical simulations which aim to compare accuracy based on the resulting bias value. The parameters used in this simulation are 5, 10 and 15 with a sample size of 200 for the purpose of approximating normal properties and this simulation is repeated for four multilevel scenarios for each parameter based on the percentage of observation of missing values (0%, 10%, 20% and 30%). Based on the study of literature and numerical simulations carried out, the solutions proposed to overcome the missing values in the count data yield satisfactory results, especially when the parameters are large and the percentage of observation of the missing values is small. This is indicated by the size of the bias and the total variance of the small average estimate. But the bias value tends to increase with increasing percentage of observation of missing values and when the parameter values are small.
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2019
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
<<   1 2   >>