Hasil Pencarian  ::  Simpan CSV :: Kembali

Hasil Pencarian

Ditemukan 28169 dokumen yang sesuai dengan query
cover
Taufik Anwar
"Pembersihan data merupakan salah satu langkah dalam preprocessing yang dalam prosesnya sering menemukan nilai yang hilang dalam dataset. Nilai yang hilang adalah suatu kondisi di mana tidak ada nilai untuk pengamatan. Langkah cepat yang dapat diambil untuk menangani nilai yang hilang adalah menghapus pengamatan yang mengandung nilai yang hilang, tetapi ini dapat mengurangi informasi dalam data. Cara lain untuk menangani nilai yang hilang adalah dengan menggunakan imputasi dengan mean, median, atau mode nilai dalam variabel di mana nilai-nilai yang hilang berada, dan beberapa metode imputasi seperti imputasi dengan pendekatan clustering. Imputasi dengan pendekatan clustering adalah fokus dari penelitian ini, di mana penelitian ini menggunakan K-Harmonic Means yang telah disesuaikan untuk menangani data numerik dan kategorik campuran. K-Harmonic Means adalah perpanjangan dari K-Means dengan mengurangi masalah sensitivitas inisialisasi centroid acak. Imputasi nilai-nilai yang hilang dilakukan dengan mendistribusikan pengamatan yang memiliki nilai-nilai yang hilang ke cluster dan mengganti nilai-nilai yang hilang dengan informasi centroid pada cluster yang sama. Simulasi menggunakan data dengan nilai-nilai yang hilang yang dibuat menggunakan mekanisme yang hilang sepenuhnya secara acak dengan proporsi 10%, 15%, dan 20% dari total pengamatan. Hasil simulasi dievaluasi menggunakan root mean square error (RMSE) dan nilai akurasi masing-masing nilai imputasi untuk data numerik dan kategorikal. Dalam penelitian ini, hasil imputasi optimal diperoleh pada data dengan proporsi nilai yang hilang 10%, yang memiliki nilai RMSE rendah dan nilai akurasi tinggi.

Data cleaning is one step in preprocessing which in the process often finds missing values ​​in the dataset. Missing value is a condition where there is no value for observation. A quick step that can be taken to handle missing values ​​is to delete observations that contain missing values, but this can reduce the information in the data. Another way to handle missing values ​​is to use imputations with the mean, median, or value modes in the variable where the missing values ​​are located, and some imputation methods such as imputation with the clustering approach. Imputation with the clustering approach is the focus of this study, where this study uses K-Harmonic Means that have been adjusted to handle numerical and mixed categorical data. K-Harmonic Means is an extension of K-Means by reducing the sensitivity problem of random centroid initialization. The imputation of missing values ​​is carried out by distributing observations that have missing values ​​to the cluster and replacing the missing values ​​with centroid information on the same cluster. The simulation uses data with missing values ​​that are made using a completely random missing mechanism with a proportion of 10%, 15%, and 20% of the total observations. Simulation results are evaluated using the root mean square error (RMSE) and the accuracy value of each imputation value for numerical and categorical data. In this study, the optimal imputation results are obtained on data with a proportion of missing values ​​of 10%, which has a low RMSE value and a high accuracy value."
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2019
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Clive Nathaniel
"Missing value merupakan masalah yang sering ditemukan pada analisis data ekspresi gen. Salah satu metode yang sering digunakan untuk mengatasi masalah ini adalah dengan melakukan imputasi. Imputasi adalah proses mengganti missing value pada data dengan nilai pengganti yang didapat dari metode tertentu. Pada skripsi ini dibahas mengenai suatu metode imputasi untuk data ekspresi gen yang merupakan pengembangan dari metode imputasi robust least squares estimation dengan principal components (RLSP) dengan menggunakan konsep biclustering. Metode ini dinamakan bicluster-based robust least squares estimation dengan principal components (bi-RLSP). Metode RLSP adalah metode imputasi data ekspresi gen yang menggunakan konsep k-nearest neighbor, principal component analysis, dan regresi kuantil. Konsep biclustering ingin diterapkan untuk menggantikan k-nearest neighbor yang mencari baris yang mirip untuk semua kolom, sehingga dapat dicari baris yang mirip serta kolom yang mirip secara bersamaan. Metode bi-RLSP diaplikasikan untuk mengimputasi missing values pada data ekspresi gen, dimana metode ini ditemukan memiliki akurasi yang lebih tinggi dibandingkan metode RLSP dan metode imputasi row average dengan melihat nilai NRMSE dari estimasi missing value pada metode-metode ini.

Missing values are a common problem in gene expression data analysis. One of the methods used to overcome this problem is by performing imputation. Imputation is the process of replacing missing values in data with values obtained from certain methods. This thesis discusses an imputation method for gene expression data which is a development of the robust least squares estimation with principal components (RLSP) imputation method using the biclustering concept. This method is called bicluster-based robust least squares estimation with principal components (bi-RLSP). This RLSP method is a gene expression data imputation method that uses the concept of k-nearest neighbor, principal component analysis, and quantile regression. The concept of biclustering is applied to replace the k-nearest neighbor concept that look for similar rows under all columns, so that it can search for similar rows as well as similar columns simultaneously. The bi-RLSP method was applied to impute missing values in gene expression data, where this method was found to have a higher accuracy than the RLSP method and the row average imputation method by looking at the NRMSE value of the estimated missing values in these methods."
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2021
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Dini Rahayu
"Masalah yang sering terjadi dalam penelitian adalah adanya missing value padahal data yang lengkap diperlukan untuk mendapatkan hasil analisis yang menggambarkan populasi. Dalam pengolahan data, missing value sering terjadi pada analisis regresi. Analisis regresi merupakan suatu model prediksi dengan melihat hubungan antara variabel respon dan variabel prediktor. Missing value dalam analisis regresi dapat ditemukan baik pada variabel respon maupun variabel prediktor. Penelitian ini membahas imputasi missing value yang terjadi pada kedua variabel tesebut dengan menggunakan imputasi regresi. Algoritma Expectation Maximization (EM) merupakan metode penaksiran parameter regresi dengan menggunakan metode Maximum Likelihood Estimaton (MLE) pada data yang memiliki missing value. Untuk menyeimbangkan hasil taksiran parameter model regresi untuk setiap variabel, dilakukan proses penyeimbangan (balance process) untuk mendapatkan hasil taksiran parameter yang konvergen. Simulasi taksiran nilai variabel respon dan prediktor yang hilang dilakukan pada berbagai variasi persentase missingness. Metode penaksiran parameter regresi dengan menggunakan algoritma EM, dapat menghasilkan model yang menjelaskan data sebesar 87% hingga terjadi missing sebanyak 60%.

The problem that often occurs in research is the existence of missing values even though complete data is needed to obtain the results of analysis that describe the population. In processing data, missing values often occur in regression analysis. Regression analysis is a prediction model by looking at the relationship between response variables and predictor variables. Missing values in regression analysis can be found in both the response variable and predictor variable. This study discusses the imputation of missing values that occur in both variables using regression imputation. The Expectation Maximization (EM) algorithm is a method of estimating regression parameters using the Maximum Likelihood Estimaton (MLE) method on data that has missing value. To balance the estimated parameters of the regression model for each variable, a balance process is performed to obtain the results of the convergent parameter estimates. The estimated simulation of the value of the response variable and missing predictor was carried out in various variations in the percentage of missingness. The method of estimating regression parameters using the EM algorithm, can produce a model that explains the data by 87% until there is missing as much as 60%."
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2019
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Kathan Gerry Vivaldi
"Nilai yang hilang adalah nilai yang tidak disimpan dalam variabel tertentu dalam pengamatan. Nilai yang hilang dapat ditemukan dalam data di hampir semua bidang penelitian dan dapat mempersulit analisis data. Self-Organizing Maps (SOM) adalah metode clustering berbasis jaringan saraf yang dapat digunakan sebagai metode imputasi, di mana SOM menyalahkan nilai-nilai yang hilang dengan menggeneralisasi pengamatan mengandung nilai yang hilang. Ensemble Self-Organizing Maps (E-SOM) adalah pengembangan metode imputasi SOM, di mana metode E-SOM diterapkan kerangka ensemble dengan menggunakan beberapa SOM untuk meningkatkan kemampuan generalisasi. Dalam tesis ini metode E-SOM dan SOM diimplementasikan untuk imputasi nilai yang hilang dalam data Penyakit Jantung Afrika Selatan dengan menggunakan 15 ansambel dan berbagai variasi dalam jumlah neuron. Pada data imputasi kedua metode ini kemudian dibentuk oleh model klasifikasi Hutan Acak dan dilakukan evaluasi kinerja model yang dibentuk menggunakan nilai akurasi dalam data pengujian. Hasil evaluasi menunjukkan bahwa untuk model yang terbentuk dari data imputasi E-SOM menghasilkan nilai akurasi yang lebih baik untuk variasi 20, 30, 50, 60, dan 80 neuron dalam klasifikasi data pengujian. Sedangkan untuk variasi 40 neuron, model terbentuk dari data imputasi SOM menghasilkan nilai akurasi yang lebih baik, dan untuk variasi 70 neuron, kedua metode menghasilkan nilai akurasi yang sama. Selain itu, menerapkan berbagai kombinasi variasi dalam jumlah neuron dan jumlah ansambel dalam metode ini imputasi E-SOM. Model Random Forest dihasilkan dari data dari imputasi E-SOM dengan kombinasi 60 neuron dan 5 ansambel menghasilkan nilai akurasi paling optimal.

Missing values ​​are values ​​that are not stored in certain variables in the observation. Missing values ​​can be found in data in almost all fields of research and can complicate data analysis. Self-Organizing Maps (SOM) is a neural network based clustering method that can be used as an imputation method, where SOM blames missing values ​​by generalizing observations contains missing values. Ensemble Self-Organizing Maps (E-SOM) is the development of the SOM imputation method, in which the E-SOM method is applied to an ensemble framework by using multiple SOMs to improve generalization capabilities. In this thesis the E-SOM and SOM methods are implemented for the imputation of missing values ​​in South African Heart Disease data with using 15 ensembles and various variations in the number of neurons. In the imputation data the two methods are then formed by the Random Forest classification model and an evaluation of the performance of the model is formed using the accuracy values ​​in the test data. The evaluation results show that the model formed from E-SOM imputation data produces better accuracy values ​​for variations of 20, 30, 50, 60, and 80 neurons in the classification of test data. As for the variation of 40 neurons, the model formed from SOM imputation data produces a better accuracy value, and for the variation of 70 neurons, both methods produce the same accuracy value. Other than that, applying various combinations of variations in the number of neurons and the number of ensembles in this method imputation E-SOM. The Random Forest model is generated from data from the E-SOM imputation with a combination of 60 neurons and 5 ensembles producing the most optimal accuracy value
"
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2019
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Iasha Zahra Nabila
"Abstrak. Imputasi missing values berperan penting dalam pre-processing data untuk menghasilkan data yang lengkap dan berkualitas. Dalam penelitian ini, dilakukan kombinasi dari Decision Tree dan algoritma Expectation Maximization (EM) sebagai metode imputasi dalam mengestimasi missing values. Namun, terdapat kekurangan pada metode ini, yaitu algoritma Expectation Maximization (EM) cenderung memberikan hasil imputasi yang lebih akurat jika terdapat banyak kemiripan antar atribut. Hal ini dapat diatasi dengan mempartisi segmen horisontal menggunakan algoritma Decision Tree. EM diterapkan pada berbagai segmen horisontal dari data set agar diperoleh banyak kemiripan antar atribut. Metode yang diusulkan ini kemudian dievaluasi dengan membandingkan kinerjanya dengan imputasi menggunakan mean dalam mengestimasi missing values data numerik dan dipilih Decision Tree sebagai classifier. Data yang digunakan untuk simulasi dalam penelitian ini yaitu data set PPOK-OSA. Penelitian ini menunjukkan bahwa metode imputasi missing values yang
diusulkan menghasilkan akurasi yang lebih tinggi jika dibandingkan menggunakan nilai mean dalam mengestimasi missing values. Hasil akurasi tertinggi dari metode ini yaitu83.3%, diperoleh pada saat persentase data training 10% dan rata-rata akurasi pada berbagai persentase data training sebesar 70.3%, sedangkan hasil akurasi tertinggi menggunakan nilai mean yaitu 58.3%, diperoleh pada saat persentase data training 20% dengan rata-rata akurasi
pada berbagai persentase data training sebesar 50.5%.

Abstract. Missing values imputation plays a vital role in data pre-processing for ensuring good quality of data. In this study, we present a combination of Decision Tree and
Expectation Maximization (EM) algorithm as imputation method to estimate missing values. However, there are shortcomings of method, where the Expectation Maximization algorithm tends to give more accurate imputation results if there are many similarities among attributes. Therefore, this can be overcome by partitioning the horizontal segments using the Decision
Tree algorithm. We applied EM on various horizontal segments of a data set where there are many similarities among attributes. Besides, we evaluate our proposed method by comparing its performance with mean values to impute missing values, and we choose the Decision Tree
as a classifier. Data used in this research is COPD-OSA data set. In this study shows that ourproposed method leads to higher accuracy than mean imputation. The highest accuracy results obtained from our proposed method is 83.3% when the percentage of training data is
10% and average accuracy in various percentage of training data is 70.3%, while the highest accuracy results using the mean value is 58.3% when the training data percentage is 20% and the average accuracy in various percentage of training data is 50.5%.
"
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2019
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Gabriela Patricia Winny Gracia
"Clustering merupakan metode untuk mengidentifikasi kelompok natural pada data berdasarkan ukuran kemiripan seperti jarak Eucledian. Clustering bertujuan untuk mengelompokkan data, dengan kriteria observasi yang berada dalam satu klaster memiliki tingkat kemiripan yang sangat signifikan, sedangkan observasi yang berada dalam cluster yang berbeda, memiliki perbedaan yang sangat signifikan. Pada tahun 2021, Chowdhury, Bhattacharyya, & Kalita mengembangkan metode User-Input-Free Density-Based Clustering (UIFDBC) berdasarkan dari metode density-based clustering yang telah ada sebelumnya. Seperti namanya, metode UIFDBC ini tidak memerlukan input dari pengguna untuk menemukan cluster. Maka dari itu, metode UIFDBC ini berhasil menjawab permasalahan metode clustering sebelumnya yang bergantung pada input dari pengguna. Tujuan dari penelitian ini adalah untuk membahas lebih dalam terkait metode User-Input-Free Density-Based Clustering (UIFDBC), menerapkan metode UIFDBC pada data real, yaitu data konsumen kartu kredit untuk melakukan segmentasi konsumen, serta mengkaji performa metode ini pada data yang mengandung missing values di dalamnya. Dari hasil penelitian, metode UIFDBC berhasil diterapkan pada data konsumen kartu kredit, dan diperoleh sebanyak delapan cluster pengguna, dimana setiap cluster memiliki karakteristik masing-masing. Selain itu, dari hasil pengkajian metode UIFDBC terhadap data dengan missing values diketahui bahwa performa metode UIFDBC dinilai cukup baik untuk proporsi missing values ≤ 5%. Namun perlu menjadi catatan bahwa data hasil dari setiap iterasi akan bersifat acak, dikarenakan metode UIFDBC sangat bergantung pada densitas data, sedangkan densitas data bergantung pada missing values yang mana dibangkitkan secara acak sepenuhnya.

Clustering is a method to identify natural groups in data based on similarity measures such as Eucledian distance. Clustering aims to group data, with the criteria for observations in one cluster having a very significant level of similarity, while observations in different clusters have very significant differences. In 2021, Chowdhury, Bhattacharyya, & Kalita developed the User-Input-Free Density-Based Clustering (UIFDBC) method based on the previous density-based clustering method. As the name suggests, this UIFDBC method does not require input from the user to find the cluster. Therefore, this UIFDBC method has succeeded in answering the problems of the previous clustering method which depended on input from the user. The purpose of this study is to discuss more deeply the User-Input-Free Density-Based Clustering (UIFDBC) method, to apply the UIFDBC method to real data, namely credit card consumer data to segment consumers, and to examine the performance of this method on data containing missing values in it. From the results of the study, the UIFDBC method was successfully applied to credit card consumer data, and obtained as many as eight user clusters, where each cluster has its own characteristics. In addition, from the results of the study of the UIFDBC method on data with missing values, it is known that the performance of the UIFDBC method is considered quite good for the proportion of missing values ≤ 5%. However, it should be noted that the resulting data from each iteration will be random, because the UIFDBC method is very dependent on data density, while data density depends on missing values which are generated completely randomly."
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2021
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Geraldine Immanuel Tangyong
"Clustering merupakan salah satu metode pengolahan data yang bekerja dengan mengelompokkan objek-objek yang memiliki kemiripan ke dalam beberapa kelompok. Salah satu metode dari clustering adalah metode Ordering Points to Identify the Clustering Structure (OPTICS) yang adalah metode turunan dari metode Density Based Spatial Clustering of Application with Noise (DBSCAN). DBSCAN memiliki dua parameter, yaitu epsilon dan MinPts. Parameter ini mengakibatkan DBSCAN kurang bisa beradaptasi terhadap variasi densitas data. Karena itu, OPTICS hadir untuk mengatasi masalah tersebut dengan parameter core distance dan reachability distance. Tujuan dari penelitian ini adalah mengkaji metode OPTICS dan menerapkannya pada data sintetis dengan missing value serta pada data real, dengan data yang digunakan adalah data Socio-Economic dengan 167 observasi. Dari hasil pengkajian diketahui bahwa jika suatu data memiliki proporsi missing value lebih dari 15%, maka nilai akurasi dianggap tidak baik. Selanjutnya, dilakukan penerapan terhadap data Socio-Economic dan diperoleh 3 cluster. Cluster 1 memiliki jumlah anggota terbanyak dan cenderung memiliki skor terendah pada banyak variabel dibanding cluster lainnya dan dapat dilihat bahwa anggota dari cluster 1 banyak terdiri dari negara-negara berkembang. Cluster 2 cenderung memiliki skor tertinggi dan negara-negara di cluster 2 merupakan negara-negara maju. Cluster 3 banyak berisi negara campuran, baik negara berkembang maupun negara maju.

Clustering is a data processing technique that works by grouping objects that have similarities into different groups. One method of clustering is the Ordering Points to Identify the Clustering Structure (OPTICS) method, a derivative method of the Density Based Spatial Clustering of Application with Noise (DBSCAN) method. DBSCAN has two kinds of parameters, epsilon and MinPts. These parameters cause DBSCAN to not be able to adapt fully to arbitrary data forms. Therefore, OPTICS is here to solve this problem with the parameters of core distance and reachability distance. The purpose of this study is to examine the OPTICS method and apply it to synthetic with missing value and real data, using the Socio-Economic data with 167 observations. We can conclude that if a data has a missing value proportion of more than 15%, then the accuracy value is considered not good. Furthermore, the Socio-Economic data was applied and obtained 3 clusters. Cluster 1 has the largest number of members and have the lowest scores on many variables, which consists mostly of developing countries. Cluster 2 tends to have the highest score whereas most coming from developed countries. Cluster 3 contains many mixed countries, both developing and developed countries."
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2022
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Graham, John W.
"This book offers an easy-to-read introduction to the theoretical underpinnings of analysis of missing data, provides clear, step-by-step instructions for performing state-of-the-art multiple imputation analyses, and offers practical advice, based on over 20 years' experience, for avoiding and troubleshooting problems. For more advanced readers, unique discussions of attrition, non-Monte-Carlo techniques for simulations involving missing data, evaluation of the benefits of auxiliary variables, and highly cost-effective planned missing data designs are provided. Most analysis described in the book are conducted using the well-known statistical software packages SAS and SPSS, supplemented by Norm 2.03 and associated Java-based automation utilities. "
New York: [Springer, ], 2012
e20419631
eBooks  Universitas Indonesia Library
cover
Yoel Fernando
"Penelitian biologi dengan menggunakan teknologi microarray menghasilkan data ekspresi gen berbentuk matriks di mana baris adalah gen dan kolom adalah kondisi. Analisis lanjutan dalam data ekspresi gen membutuhkan data yang lengkap. Namun, data ekspresi gen sering kali mengandung nilai hilang atau missing values. Ada berbagai cara untuk mengatasi missing values, antara lain pembuangan gen atau kondisi yang mengandung missing values, pengulangan pengambilan data, dan imputasi missing values pada data ekspresi gen. Pendekatan imputasi missing values awal hanyalah dengan mengisi nilai nol atau rata-rata baris. Namun, pendekatan ini tidak melihat informasi koheren dalam data. Pendekatan imputasi missing values terbagi menjadi empat berdasarkan informasi yang diperlukan pada algoritmanya, yaitu pendekatan lokal, pendekatan global, pendekatan hybrid, dan pendekatan knowledge assisted. Pada penelitian ini peneliti menggunakan algoritma pendekatan lokal dan global. Metode imputasi missing values paling popular untuk pendekatan global adalah Bayesian Principal Component Analysis (BPCA), sedangkan untuk pendekatan lokal adalah Local Least Square (LLS). Pada metode LLS, pemilihan similaritas gen dilakukan dengan teknik clustering dimana seluruh kondisi dalam data digunakan. Kenyataanya, terkadang gen-gen similar hanya dalam beberapa kondisi eksperimental saja. Maka, diperlukan teknik biclustering untuk dapat menemukan subset gen dan subset kondisi yang similar sebagai informasi lokal. Penerapan ide biclustering dalam LLS dinamakan sebagai Iterative Bicluster-Based Least Square (bi-iLS). Salah satu tahapan awal dalam bi-iLS adalah pembentukan matriks komplit sementara yang didapat dengan cara mengisi missing values dengan row average. Namun, row average dinilai kurang bagus karena hanya menggunakan informasi satu baris tersebut. Kekurangan ini diperbaiki dalam penelitian ini. Penggunaan metode BPCA untuk menemukan matriks komplit sementara dinilai lebih baik karena BPCA menggambarkan struktur keseluruhan data. Penggantian row average menjadi BPCA menjadi dasar masalah penelitian ini. Metode iterative Bicluster-based Bayesian Principal Component Analysis dan Least Square (bi-BPCA- iLS) pun diajukan. Penerapan bi-BPCA-iLS terhadap data ekspresi gen yang dihasilkan teknologi microarray terbukti menghasilkan penurunan nilai Normalzied Root Mean Square Error (NRMSE) sebesar 10,6% dan 0,58% secara rata-rata dalam beberapa missing rate (1%, 5%, 10%, 15%, 20%, 25%, dan 30%) jika dibandingkan dengan metode LLS dan bi-iLS.

Biological research using microarray technique produce some important gene expression datasets. These data can be expressed as a matrix in which rows are genes and columns are different conditions. Further analysis of these datasets requires a complete dataset or matrix. However, gene expression datasets often contain missing values. There are some ways to handle missing values, such as deletion of genes or conditions that contain missing values, repeat the process of acquiring data, and impute the missing values. Early approaches in missing values imputation are simply to replace missing values with zeros or row averages, but these methods do not use the coherence inside the data. Later, approaches in missing values imputations are categorized into four groups based on the required information, such as local, global, hybrid, and knowledge assisted approaches. In this paper, local and global approaches are used. Bayesian Principal Component Analysis (BPCA) is a well-known global based method, while the most popular local based method is Local Least Square (LLS). In LLS, selection of similar genes uses clustering technique where all conditions in the data are included. The reality is genes sometimes only correlate under some experimental conditions only. So, a technique that can find subset of genes under subset of experimental conditions for local information is needed. This technique is called biclustering. The usage of biclustering in LLS is called the Iterative Bicluster-based Least Square (bi-iLS). One of the early steps in bi-iLS is to find a temporary complete matrix. Temporary complete matrix is obtained by applying row averages to impute missing values. However, row average cannot reflect the real structure of the dataset because row average only uses the information of an individual row. The missing values in a target gene do not only rely on the known values of its own row. In this research, row average in bi-iLS is replaced with BPCA. The benefit of using BPCA is that it uses global structure of the dataset. This update will be the basic problem of this research. The proposed method is called Iterative Bicluster-based Bayesian Principal Component Analysis and Least Square (bi-BPCA-iLS). This new proposed method is applied to gene expression datasets from microarray technique. It shown a decrease in values of Normalized Root Mean Square Error (NRMSE) about 10.6% from LLS and about 0.58% from bi-iLS based on different missing rates (1%, 5%, 10%, 15%, 20%, 25%, and 30%)."
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2021
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Dea Kristina
"Kementrian Kesehatan menyatakan Indonesia sudah memasuki kondisi ageing population, dimana kondisi tersebut ditandai dengan kenaikan persentase penduduk lanjut usia (lansia). Kondisi tersebut tentunya memerlukan perhatian khusus dari pemerintah. Demensia adalah istilah medis untuk menggambarkan gejala penurunan memori dan fungsi kognitif pada tubuh manusia. Indonesia termasuk sepuluh negara dengan jumlah penderita orang dengan demensia (ODD) tertinggi di dunia, dan pada tahun 2050 jumlahnya diprediksi mencapai empat juta jiwa. Prediksi tersebut dibuat berdasarkan perbandingan jumlah lansia di Indonesia dengan jumlah ODD di seluruh dunia. Penelitian bertujuan untuk mengetahui peran dari masing-masing uji klinis untuk mengidentifikasi penderita ODD dan mereduksi komponen uji klinis yang memiliki peran kontribusi rendah. Data yang digunakan adalah data uji klinis NIFD (Neuroimaging in Frontotemporal Dementia). Metode yang akan digunakan adalah Principal Component Analysis (PCA), dimana metode ini bertujuan untuk melihat komponen uji klinis yang memberikan peran kontribusi dalam mengidentifikasi penderita ODD. Selain itu, akan dilakukan proses imputasi missing value dengan menggunakan algoritma pengembangan dari PCA, yaitu SVD-Impute dan PPCA. Setelah dilakukan tiga kali iterasi, pengujian menunjukan bahwa metode PPCA lebih baik dalam melakukan imputasi missing value dibandingkan dengan metode SVDImpute berdasarkan nilai NRMSE dan koefisien korelasi Pearson.

The Ministry of Health stated that Indonesia had entered a condition of an aging population, where an increase in the proportion of older people marks this condition. This condition certainly requires special attention from the government. Dementia is a medical term to describe symptoms of decreased memory and cognitive function in the human body. Indonesia is one of the ten countries with the highest number of people with dementia in the world, and by 2050 it is predicted to reach four million people. This prediction was based on comparing the number of older people in Indonesia with those with dementia worldwide. The research aims to determine each clinical trial's role in identifying people with dementia and reducing the components of clinical trials with a low role contribution. The data used is NIFD (Neuroimaging in Frontotemporal Dementia) clinical trial data. The method used is Principal Component Analysis (PCA), which aims to see clinical component tests that contribute to identifying people with dementia. In addition, the missing value imputation process will be carried out using the development algorithm from PCA, SVD-Impute and PPCA. After three iterations, the test showed that the PPCA method was better at imputing missing values than the SVDImpute method based on the NRMSE value and Pearson's correlation coefficient."
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2023
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
<<   1 2 3 4 5 6 7 8 9 10   >>