Hasil Pencarian  ::  Simpan CSV :: Kembali

Hasil Pencarian

Ditemukan 35348 dokumen yang sesuai dengan query
cover
Iasha Zahra Nabila
"Abstrak. Imputasi missing values berperan penting dalam pre-processing data untuk menghasilkan data yang lengkap dan berkualitas. Dalam penelitian ini, dilakukan kombinasi dari Decision Tree dan algoritma Expectation Maximization (EM) sebagai metode imputasi dalam mengestimasi missing values. Namun, terdapat kekurangan pada metode ini, yaitu algoritma Expectation Maximization (EM) cenderung memberikan hasil imputasi yang lebih akurat jika terdapat banyak kemiripan antar atribut. Hal ini dapat diatasi dengan mempartisi segmen horisontal menggunakan algoritma Decision Tree. EM diterapkan pada berbagai segmen horisontal dari data set agar diperoleh banyak kemiripan antar atribut. Metode yang diusulkan ini kemudian dievaluasi dengan membandingkan kinerjanya dengan imputasi menggunakan mean dalam mengestimasi missing values data numerik dan dipilih Decision Tree sebagai classifier. Data yang digunakan untuk simulasi dalam penelitian ini yaitu data set PPOK-OSA. Penelitian ini menunjukkan bahwa metode imputasi missing values yang
diusulkan menghasilkan akurasi yang lebih tinggi jika dibandingkan menggunakan nilai mean dalam mengestimasi missing values. Hasil akurasi tertinggi dari metode ini yaitu83.3%, diperoleh pada saat persentase data training 10% dan rata-rata akurasi pada berbagai persentase data training sebesar 70.3%, sedangkan hasil akurasi tertinggi menggunakan nilai mean yaitu 58.3%, diperoleh pada saat persentase data training 20% dengan rata-rata akurasi
pada berbagai persentase data training sebesar 50.5%.

Abstract. Missing values imputation plays a vital role in data pre-processing for ensuring good quality of data. In this study, we present a combination of Decision Tree and
Expectation Maximization (EM) algorithm as imputation method to estimate missing values. However, there are shortcomings of method, where the Expectation Maximization algorithm tends to give more accurate imputation results if there are many similarities among attributes. Therefore, this can be overcome by partitioning the horizontal segments using the Decision
Tree algorithm. We applied EM on various horizontal segments of a data set where there are many similarities among attributes. Besides, we evaluate our proposed method by comparing its performance with mean values to impute missing values, and we choose the Decision Tree
as a classifier. Data used in this research is COPD-OSA data set. In this study shows that ourproposed method leads to higher accuracy than mean imputation. The highest accuracy results obtained from our proposed method is 83.3% when the percentage of training data is
10% and average accuracy in various percentage of training data is 70.3%, while the highest accuracy results using the mean value is 58.3% when the training data percentage is 20% and the average accuracy in various percentage of training data is 50.5%.
"
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2019
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Taufik Anwar
"Pembersihan data merupakan salah satu langkah dalam preprocessing yang dalam prosesnya sering menemukan nilai yang hilang dalam dataset. Nilai yang hilang adalah suatu kondisi di mana tidak ada nilai untuk pengamatan. Langkah cepat yang dapat diambil untuk menangani nilai yang hilang adalah menghapus pengamatan yang mengandung nilai yang hilang, tetapi ini dapat mengurangi informasi dalam data. Cara lain untuk menangani nilai yang hilang adalah dengan menggunakan imputasi dengan mean, median, atau mode nilai dalam variabel di mana nilai-nilai yang hilang berada, dan beberapa metode imputasi seperti imputasi dengan pendekatan clustering. Imputasi dengan pendekatan clustering adalah fokus dari penelitian ini, di mana penelitian ini menggunakan K-Harmonic Means yang telah disesuaikan untuk menangani data numerik dan kategorik campuran. K-Harmonic Means adalah perpanjangan dari K-Means dengan mengurangi masalah sensitivitas inisialisasi centroid acak. Imputasi nilai-nilai yang hilang dilakukan dengan mendistribusikan pengamatan yang memiliki nilai-nilai yang hilang ke cluster dan mengganti nilai-nilai yang hilang dengan informasi centroid pada cluster yang sama. Simulasi menggunakan data dengan nilai-nilai yang hilang yang dibuat menggunakan mekanisme yang hilang sepenuhnya secara acak dengan proporsi 10%, 15%, dan 20% dari total pengamatan. Hasil simulasi dievaluasi menggunakan root mean square error (RMSE) dan nilai akurasi masing-masing nilai imputasi untuk data numerik dan kategorikal. Dalam penelitian ini, hasil imputasi optimal diperoleh pada data dengan proporsi nilai yang hilang 10%, yang memiliki nilai RMSE rendah dan nilai akurasi tinggi.

Data cleaning is one step in preprocessing which in the process often finds missing values ​​in the dataset. Missing value is a condition where there is no value for observation. A quick step that can be taken to handle missing values ​​is to delete observations that contain missing values, but this can reduce the information in the data. Another way to handle missing values ​​is to use imputations with the mean, median, or value modes in the variable where the missing values ​​are located, and some imputation methods such as imputation with the clustering approach. Imputation with the clustering approach is the focus of this study, where this study uses K-Harmonic Means that have been adjusted to handle numerical and mixed categorical data. K-Harmonic Means is an extension of K-Means by reducing the sensitivity problem of random centroid initialization. The imputation of missing values ​​is carried out by distributing observations that have missing values ​​to the cluster and replacing the missing values ​​with centroid information on the same cluster. The simulation uses data with missing values ​​that are made using a completely random missing mechanism with a proportion of 10%, 15%, and 20% of the total observations. Simulation results are evaluated using the root mean square error (RMSE) and the accuracy value of each imputation value for numerical and categorical data. In this study, the optimal imputation results are obtained on data with a proportion of missing values ​​of 10%, which has a low RMSE value and a high accuracy value."
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2019
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
"Salah satu metode yang digunakan untuk menentukan taksiran fungsi densitas secara nonparametrik adalah Metode Pendekatan Model Campuran (Mixed Model Approach). Perhitungannya dilakukan terlebih dahulu dengan pembagian data dalam n buah kelas (n ?1) yang lebarnya sama, sebut d . Misalkan titik-titik tengah kelas adalah xi. Akan ditaksir fi yaitu nilai fungsi densitas di xi. Menaksir i i x =Nf d , dengan N adalah banyaknya data, ekivalen dengan menaksir i l dari data Poisson. Model campuran yang digunakan adalah ln i i l = _x0008_ +b , dengan bi random dan _x0008_ fixed. Menggunakan syarat pemulusan normal, yaitu d i D b iid berdistribusi N(0, s 2 b ), dengan i i i 1 b b b - D = - dan 1 1 1 d d d i i i b - b - b - D = D - D , untuk d = 2, 3, 4, . . . n-1. Sehingga diperoleh taksiran fungsi densitas ? if yaitu ? ?i i f N l d = .
Salah satu metode yang digunakan untuk menentukan taksiran fungsi densitas secara parametrik adalah Algoritma EM (Expectation Maximization Algorithm). Algoritma EM mencari nilai taksiran parameter dan probabilitas pencampuran melalui proses iterasi yang dimulai dengan suatu nilai awal. Setiap iterasi merupakan proses EM yang terdiri atas E-Step (Langkah Ekspektasi) dan M-Step (Langkah Maksimisasi).
Untuk mengaplikasikan metode di atas digunakan data waiting time (dalam menit) antar erupsi dari geyser Old Faitful di Taman Nasional Yellowstone pada tahun 1990 sebanyak 299 pengamatan [Paw01]. Dari hasil pengolahan diperoleh data tersebut berdibusi campuran (mixture distribution) Gamma -Gamma dengan probabilitas pencampuran 1 ? p = 0,3230 dan parameter ? a = 106,6821, ?l = 1,9510 untuk distribusi Gamma (kiri) serta probabilitas pencampuran 2 ? p = 0,6770 dan parameter ? a = 127,2793, ?l = 1,5766 untuk distribusi Gamma (kanan). Kata kunci: Algoritma EM (Expectation Maximization Algorithm), Distribusi Campuran (Mixture Distribution), Metode Pendekatan Model Campuran (Mixed Model Approach Method), Probabilitas Pencampuran (Mixing Probability)."
Universitas Indonesia, 2005
S-Pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Dini Rahayu
"Masalah yang sering terjadi dalam penelitian adalah adanya missing value padahal data yang lengkap diperlukan untuk mendapatkan hasil analisis yang menggambarkan populasi. Dalam pengolahan data, missing value sering terjadi pada analisis regresi. Analisis regresi merupakan suatu model prediksi dengan melihat hubungan antara variabel respon dan variabel prediktor. Missing value dalam analisis regresi dapat ditemukan baik pada variabel respon maupun variabel prediktor. Penelitian ini membahas imputasi missing value yang terjadi pada kedua variabel tesebut dengan menggunakan imputasi regresi. Algoritma Expectation Maximization (EM) merupakan metode penaksiran parameter regresi dengan menggunakan metode Maximum Likelihood Estimaton (MLE) pada data yang memiliki missing value. Untuk menyeimbangkan hasil taksiran parameter model regresi untuk setiap variabel, dilakukan proses penyeimbangan (balance process) untuk mendapatkan hasil taksiran parameter yang konvergen. Simulasi taksiran nilai variabel respon dan prediktor yang hilang dilakukan pada berbagai variasi persentase missingness. Metode penaksiran parameter regresi dengan menggunakan algoritma EM, dapat menghasilkan model yang menjelaskan data sebesar 87% hingga terjadi missing sebanyak 60%.

The problem that often occurs in research is the existence of missing values even though complete data is needed to obtain the results of analysis that describe the population. In processing data, missing values often occur in regression analysis. Regression analysis is a prediction model by looking at the relationship between response variables and predictor variables. Missing values in regression analysis can be found in both the response variable and predictor variable. This study discusses the imputation of missing values that occur in both variables using regression imputation. The Expectation Maximization (EM) algorithm is a method of estimating regression parameters using the Maximum Likelihood Estimaton (MLE) method on data that has missing value. To balance the estimated parameters of the regression model for each variable, a balance process is performed to obtain the results of the convergent parameter estimates. The estimated simulation of the value of the response variable and missing predictor was carried out in various variations in the percentage of missingness. The method of estimating regression parameters using the EM algorithm, can produce a model that explains the data by 87% until there is missing as much as 60%."
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2019
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Vima Majesta Tingginehe
"ABSTRAK
Data yang tidak lengkap merupakan salah satu masalah yang sering muncul dalam penelitian medis, yang dapat mengakibatkan statistik inferensial tidak akurat. Salah satu cara yang dapat dilakukan untuk mengatasi masalah tersebut adalah dengan mengestimasi missing value yang terdapat pada data. Metode ini disebut imputasi. Beberapa metode imputasi telah dikembangkan untuk memperkirakan nilai yang hilang, dan salah satu metode imputasi yang paling sering digunakan adalah imputasi pohon keputusan. Pohon keputusan adalah salah satu metode pembelajaran mesin terawasi yang paling sederhana, yang digunakan untuk mengklasifikasikan dan meregresi data. Namun selain kepraktisan metode pohon keputusan untuk imputasi, metode ini kurang tepat jika muncul nilai-nilai yang hilang baik pada data latih maupun data pengujian secara bersamaan. Untuk mengatasi keterbatasan tersebut, metode imputasi pohon keputusan kemudian dikembangkan menjadi metode imputasi pohon atribut yang dipesan secara dinamis (DOAT). DOAT pertama kali diperkenalkan oleh Nick Street dan Jing Wang pada tahun 2009, untuk membangun sejumlah pohon keputusan yang digunakan untuk memperkirakan nilai yang hilang secara bertahap dalam data pelatihan. Selanjutnya tingkat akurasi estimasi akan digunakan untuk menentukan pohon keputusan akhir sebagai pohon keputusan terakhir yang melakukan imputasi. Setelah pohon keputusan akhir diperoleh dari data pelatihan, maka nilai-nilai yang hilang pada data pengujian akan diestimasi menggunakan sejumlah pohon keputusan yang dihasilkan dari data pelatihan, dimana pohon keputusan akhir yang dihasilkan pada data pelatihan juga merupakan pohon keputusan final. pohon keputusan yang digunakan dalam imputasi pengujian data. Pada penelitian ini dikembangkan metode imputasi DOAT dengan algoritma CART untuk membangun pohon keputusan untuk mengestimasi missing value pada data kategori penyakit. Kinerja metode imputasi DOAT akan dievaluasi berdasarkan tingkat akurasi menggunakan pohon keputusan. Hasil penelitian ini menunjukkan bahwa metode imputasi DOAT tidak mengurangi tingkat akurasi metode klasik yang sudah memiliki data lengkap.
ABSTRACT
Incomplete data is one of the problems that often arises in medical research, which can result in inaccurate inferential statistics. One way that can be done to overcome this problem is to estimate the missing value contained in the data. This method is called imputation. Several imputation methods have been developed to estimate missing values, and one of the most frequently used imputation methods is decision tree imputation. Decision trees are one of the simplest supervised machine learning methods, which are used to classify and regress data. However, in addition to the practicality of the decision tree method for imputation, this method is not appropriate if missing values ​​appear in both training data and test data simultaneously. To overcome these limitations, the decision tree imputation method was later developed into a dynamically ordered attribute tree (DOAT) imputation method. DOAT was first introduced by Nick Street and Jing Wang in 2009, to construct a number of decision trees that are used to estimate the incrementally missing values ​​in training data. Furthermore, the level of accuracy of the estimate will be used to determine the final decision tree as the last decision tree that performs imputation. After the final decision tree is obtained from the training data, the missing values ​​in the test data will be estimated using a number of decision trees generated from the training data, where the final decision tree generated in the training data is also the final decision tree. decision tree used in the imputation of data testing. In this study, the DOAT imputation method with the CART algorithm was developed to build a decision tree to estimate the missing value in disease category data. The performance of the DOAT imputation method will be evaluated based on the level of accuracy using a decision tree. The results of this study indicate that the DOAT imputation method does not reduce the level of accuracy of the classical method which already has complete data."
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2019
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Clive Nathaniel
"Missing value merupakan masalah yang sering ditemukan pada analisis data ekspresi gen. Salah satu metode yang sering digunakan untuk mengatasi masalah ini adalah dengan melakukan imputasi. Imputasi adalah proses mengganti missing value pada data dengan nilai pengganti yang didapat dari metode tertentu. Pada skripsi ini dibahas mengenai suatu metode imputasi untuk data ekspresi gen yang merupakan pengembangan dari metode imputasi robust least squares estimation dengan principal components (RLSP) dengan menggunakan konsep biclustering. Metode ini dinamakan bicluster-based robust least squares estimation dengan principal components (bi-RLSP). Metode RLSP adalah metode imputasi data ekspresi gen yang menggunakan konsep k-nearest neighbor, principal component analysis, dan regresi kuantil. Konsep biclustering ingin diterapkan untuk menggantikan k-nearest neighbor yang mencari baris yang mirip untuk semua kolom, sehingga dapat dicari baris yang mirip serta kolom yang mirip secara bersamaan. Metode bi-RLSP diaplikasikan untuk mengimputasi missing values pada data ekspresi gen, dimana metode ini ditemukan memiliki akurasi yang lebih tinggi dibandingkan metode RLSP dan metode imputasi row average dengan melihat nilai NRMSE dari estimasi missing value pada metode-metode ini.

Missing values are a common problem in gene expression data analysis. One of the methods used to overcome this problem is by performing imputation. Imputation is the process of replacing missing values in data with values obtained from certain methods. This thesis discusses an imputation method for gene expression data which is a development of the robust least squares estimation with principal components (RLSP) imputation method using the biclustering concept. This method is called bicluster-based robust least squares estimation with principal components (bi-RLSP). This RLSP method is a gene expression data imputation method that uses the concept of k-nearest neighbor, principal component analysis, and quantile regression. The concept of biclustering is applied to replace the k-nearest neighbor concept that look for similar rows under all columns, so that it can search for similar rows as well as similar columns simultaneously. The bi-RLSP method was applied to impute missing values in gene expression data, where this method was found to have a higher accuracy than the RLSP method and the row average imputation method by looking at the NRMSE value of the estimated missing values in these methods."
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2021
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Yoel Fernando
"Penelitian biologi dengan menggunakan teknologi microarray menghasilkan data ekspresi gen berbentuk matriks di mana baris adalah gen dan kolom adalah kondisi. Analisis lanjutan dalam data ekspresi gen membutuhkan data yang lengkap. Namun, data ekspresi gen sering kali mengandung nilai hilang atau missing values. Ada berbagai cara untuk mengatasi missing values, antara lain pembuangan gen atau kondisi yang mengandung missing values, pengulangan pengambilan data, dan imputasi missing values pada data ekspresi gen. Pendekatan imputasi missing values awal hanyalah dengan mengisi nilai nol atau rata-rata baris. Namun, pendekatan ini tidak melihat informasi koheren dalam data. Pendekatan imputasi missing values terbagi menjadi empat berdasarkan informasi yang diperlukan pada algoritmanya, yaitu pendekatan lokal, pendekatan global, pendekatan hybrid, dan pendekatan knowledge assisted. Pada penelitian ini peneliti menggunakan algoritma pendekatan lokal dan global. Metode imputasi missing values paling popular untuk pendekatan global adalah Bayesian Principal Component Analysis (BPCA), sedangkan untuk pendekatan lokal adalah Local Least Square (LLS). Pada metode LLS, pemilihan similaritas gen dilakukan dengan teknik clustering dimana seluruh kondisi dalam data digunakan. Kenyataanya, terkadang gen-gen similar hanya dalam beberapa kondisi eksperimental saja. Maka, diperlukan teknik biclustering untuk dapat menemukan subset gen dan subset kondisi yang similar sebagai informasi lokal. Penerapan ide biclustering dalam LLS dinamakan sebagai Iterative Bicluster-Based Least Square (bi-iLS). Salah satu tahapan awal dalam bi-iLS adalah pembentukan matriks komplit sementara yang didapat dengan cara mengisi missing values dengan row average. Namun, row average dinilai kurang bagus karena hanya menggunakan informasi satu baris tersebut. Kekurangan ini diperbaiki dalam penelitian ini. Penggunaan metode BPCA untuk menemukan matriks komplit sementara dinilai lebih baik karena BPCA menggambarkan struktur keseluruhan data. Penggantian row average menjadi BPCA menjadi dasar masalah penelitian ini. Metode iterative Bicluster-based Bayesian Principal Component Analysis dan Least Square (bi-BPCA- iLS) pun diajukan. Penerapan bi-BPCA-iLS terhadap data ekspresi gen yang dihasilkan teknologi microarray terbukti menghasilkan penurunan nilai Normalzied Root Mean Square Error (NRMSE) sebesar 10,6% dan 0,58% secara rata-rata dalam beberapa missing rate (1%, 5%, 10%, 15%, 20%, 25%, dan 30%) jika dibandingkan dengan metode LLS dan bi-iLS.

Biological research using microarray technique produce some important gene expression datasets. These data can be expressed as a matrix in which rows are genes and columns are different conditions. Further analysis of these datasets requires a complete dataset or matrix. However, gene expression datasets often contain missing values. There are some ways to handle missing values, such as deletion of genes or conditions that contain missing values, repeat the process of acquiring data, and impute the missing values. Early approaches in missing values imputation are simply to replace missing values with zeros or row averages, but these methods do not use the coherence inside the data. Later, approaches in missing values imputations are categorized into four groups based on the required information, such as local, global, hybrid, and knowledge assisted approaches. In this paper, local and global approaches are used. Bayesian Principal Component Analysis (BPCA) is a well-known global based method, while the most popular local based method is Local Least Square (LLS). In LLS, selection of similar genes uses clustering technique where all conditions in the data are included. The reality is genes sometimes only correlate under some experimental conditions only. So, a technique that can find subset of genes under subset of experimental conditions for local information is needed. This technique is called biclustering. The usage of biclustering in LLS is called the Iterative Bicluster-based Least Square (bi-iLS). One of the early steps in bi-iLS is to find a temporary complete matrix. Temporary complete matrix is obtained by applying row averages to impute missing values. However, row average cannot reflect the real structure of the dataset because row average only uses the information of an individual row. The missing values in a target gene do not only rely on the known values of its own row. In this research, row average in bi-iLS is replaced with BPCA. The benefit of using BPCA is that it uses global structure of the dataset. This update will be the basic problem of this research. The proposed method is called Iterative Bicluster-based Bayesian Principal Component Analysis and Least Square (bi-BPCA-iLS). This new proposed method is applied to gene expression datasets from microarray technique. It shown a decrease in values of Normalized Root Mean Square Error (NRMSE) about 10.6% from LLS and about 0.58% from bi-iLS based on different missing rates (1%, 5%, 10%, 15%, 20%, 25%, and 30%)."
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2021
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Gabriela Patricia Winny Gracia
"Clustering merupakan metode untuk mengidentifikasi kelompok natural pada data berdasarkan ukuran kemiripan seperti jarak Eucledian. Clustering bertujuan untuk mengelompokkan data, dengan kriteria observasi yang berada dalam satu klaster memiliki tingkat kemiripan yang sangat signifikan, sedangkan observasi yang berada dalam cluster yang berbeda, memiliki perbedaan yang sangat signifikan. Pada tahun 2021, Chowdhury, Bhattacharyya, & Kalita mengembangkan metode User-Input-Free Density-Based Clustering (UIFDBC) berdasarkan dari metode density-based clustering yang telah ada sebelumnya. Seperti namanya, metode UIFDBC ini tidak memerlukan input dari pengguna untuk menemukan cluster. Maka dari itu, metode UIFDBC ini berhasil menjawab permasalahan metode clustering sebelumnya yang bergantung pada input dari pengguna. Tujuan dari penelitian ini adalah untuk membahas lebih dalam terkait metode User-Input-Free Density-Based Clustering (UIFDBC), menerapkan metode UIFDBC pada data real, yaitu data konsumen kartu kredit untuk melakukan segmentasi konsumen, serta mengkaji performa metode ini pada data yang mengandung missing values di dalamnya. Dari hasil penelitian, metode UIFDBC berhasil diterapkan pada data konsumen kartu kredit, dan diperoleh sebanyak delapan cluster pengguna, dimana setiap cluster memiliki karakteristik masing-masing. Selain itu, dari hasil pengkajian metode UIFDBC terhadap data dengan missing values diketahui bahwa performa metode UIFDBC dinilai cukup baik untuk proporsi missing values ≤ 5%. Namun perlu menjadi catatan bahwa data hasil dari setiap iterasi akan bersifat acak, dikarenakan metode UIFDBC sangat bergantung pada densitas data, sedangkan densitas data bergantung pada missing values yang mana dibangkitkan secara acak sepenuhnya.

Clustering is a method to identify natural groups in data based on similarity measures such as Eucledian distance. Clustering aims to group data, with the criteria for observations in one cluster having a very significant level of similarity, while observations in different clusters have very significant differences. In 2021, Chowdhury, Bhattacharyya, & Kalita developed the User-Input-Free Density-Based Clustering (UIFDBC) method based on the previous density-based clustering method. As the name suggests, this UIFDBC method does not require input from the user to find the cluster. Therefore, this UIFDBC method has succeeded in answering the problems of the previous clustering method which depended on input from the user. The purpose of this study is to discuss more deeply the User-Input-Free Density-Based Clustering (UIFDBC) method, to apply the UIFDBC method to real data, namely credit card consumer data to segment consumers, and to examine the performance of this method on data containing missing values in it. From the results of the study, the UIFDBC method was successfully applied to credit card consumer data, and obtained as many as eight user clusters, where each cluster has its own characteristics. In addition, from the results of the study of the UIFDBC method on data with missing values, it is known that the performance of the UIFDBC method is considered quite good for the proportion of missing values ≤ 5%. However, it should be noted that the resulting data from each iteration will be random, because the UIFDBC method is very dependent on data density, while data density depends on missing values which are generated completely randomly."
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2021
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Dea Kristina
"Kementrian Kesehatan menyatakan Indonesia sudah memasuki kondisi ageing population, dimana kondisi tersebut ditandai dengan kenaikan persentase penduduk lanjut usia (lansia). Kondisi tersebut tentunya memerlukan perhatian khusus dari pemerintah. Demensia adalah istilah medis untuk menggambarkan gejala penurunan memori dan fungsi kognitif pada tubuh manusia. Indonesia termasuk sepuluh negara dengan jumlah penderita orang dengan demensia (ODD) tertinggi di dunia, dan pada tahun 2050 jumlahnya diprediksi mencapai empat juta jiwa. Prediksi tersebut dibuat berdasarkan perbandingan jumlah lansia di Indonesia dengan jumlah ODD di seluruh dunia. Penelitian bertujuan untuk mengetahui peran dari masing-masing uji klinis untuk mengidentifikasi penderita ODD dan mereduksi komponen uji klinis yang memiliki peran kontribusi rendah. Data yang digunakan adalah data uji klinis NIFD (Neuroimaging in Frontotemporal Dementia). Metode yang akan digunakan adalah Principal Component Analysis (PCA), dimana metode ini bertujuan untuk melihat komponen uji klinis yang memberikan peran kontribusi dalam mengidentifikasi penderita ODD. Selain itu, akan dilakukan proses imputasi missing value dengan menggunakan algoritma pengembangan dari PCA, yaitu SVD-Impute dan PPCA. Setelah dilakukan tiga kali iterasi, pengujian menunjukan bahwa metode PPCA lebih baik dalam melakukan imputasi missing value dibandingkan dengan metode SVDImpute berdasarkan nilai NRMSE dan koefisien korelasi Pearson.

The Ministry of Health stated that Indonesia had entered a condition of an aging population, where an increase in the proportion of older people marks this condition. This condition certainly requires special attention from the government. Dementia is a medical term to describe symptoms of decreased memory and cognitive function in the human body. Indonesia is one of the ten countries with the highest number of people with dementia in the world, and by 2050 it is predicted to reach four million people. This prediction was based on comparing the number of older people in Indonesia with those with dementia worldwide. The research aims to determine each clinical trial's role in identifying people with dementia and reducing the components of clinical trials with a low role contribution. The data used is NIFD (Neuroimaging in Frontotemporal Dementia) clinical trial data. The method used is Principal Component Analysis (PCA), which aims to see clinical component tests that contribute to identifying people with dementia. In addition, the missing value imputation process will be carried out using the development algorithm from PCA, SVD-Impute and PPCA. After three iterations, the test showed that the PPCA method was better at imputing missing values than the SVDImpute method based on the NRMSE value and Pearson's correlation coefficient."
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2023
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Fenni Amalia
"Bioinformatika merupakan ilmu yang ditujukan untuk menganalisis informasi biologis. Dalam perkembangan penelitian bioinformatika, data diperoleh salah satunya dengan menggunakan teknologi microarray. Teknologi microarray digunakan oleh lingkup biologi molekuler dalam melihat perbedaan tingkat ekspresi gen dengan cara mengonversi gambar monokromik yang berisi ratusan bahkan ribuan gen dari sampel sel dan menghasilkan data ekspresi gen. Teknologi microarray sering kali menghasilkan data ekspresi gen yang hilang atau tidak terdeteksi akibat adanya kesalahan teknis. Oleh karena itu, diperlukannya suatu metode imputasi pada data untuk mengatasi missing values. Pada penelitian ini, akan dikembangkan suatu metode imputasi yang disebut Biclustering Terurut berbasis k-Nearest Neighbor, Mean Squared Residual, dan Jarak Euclidean. Metode ini merupakan metode imputasi berbasis biclustering dimana bicluster dibentuk berdasarkan suatu kriteria yang melibatkan skor Mean Squared Residue dan Jarak Euclidean. Penggunakan k-Nearest Neighbor sebagai metode pra-imputasi didasarkan pada data ekspresi gen yang sering kali memiliki pola kompleks dan sulit terdeteksi, sehingga perlu pendekatan yang dapat memetakan struktur korelasi pada data. k-Nearest Neighbor mempertimbangkan korelasi pada data microarray dengan menyeleksi kumpulan gen yang memiliki profil ekspresi mirip dengan gen yang ingin diimputasi (gen target). Pada penelitian ini, metode SBi-kNN-MSREimpute diterapkan pada data ekspresi gen pasien penderita COVID-19 yang dilakukan tes rapid harian. Evaluasi kinerja metode SBi-kNN-MSREimpute dilakukan dengan menggunakan NRMSE, dimana hasilnya dibandingkan dengan metode SBi-MSREimpute. Berdasarkan penelitian yang dilakukan, metode SBi-kNN-MSREimpute dinilai lebih baik dibandingkan dengan SBi-MSREimpute untuk setiap missing rate pada tingkatan c berbeda. Nilai c optimal untuk imputasi missing values pada data COVID-19 adalah c = 10% untuk missing rate 25%, 30%, 40% dan c = 15% untuk missing rate 5%, 10%, 15%, 20%, dan 50%. Hasil akhir juga menunjukkan bahwa nilai NRMSE untuk SBi-kNN-MSREimpute relatif stabil bahkan untuk data dengan missing rate tinggi hingga 50%.

Bioinformatics is a study designed to analyze biological information. In the development of bioinformatics research, data was obtained using microarray technology. Microarray technology is used by the scope of molecular biology in transposing hundreds and even thousands of genes from cellular samples simultaneously and producing a gene expression data. Microarray technology often produces data that is lost or undetected as a result of technical error. Therefore, an imputation method is needed to address the missing values. In this study, a new imputation method called Sequential Biclustering based k-Nearest Neighbor, Mean Squared Residual, and Euclidean Distance (SBi-kNN-MSRE) will be developed. This method is a biclustering-based imputation method where the bicluster is formed based on a criterion involving Mean Squared Residue and Euclidean Distance. The use of k-Nearest Neighbor as a pre-imputation method is based on data on gene expression that often has a complex and difficult pattern of detection, so it requires an approach that can map correlation structures on data. K-nearest neighbor considers a correlation on a microarray data by selecting groups of genes that have an expression profile similar to a gene that wants to be imputed (the target gene). In this study, the SBi-kNN-MSRE method was applied to the data on the genes of patients with covid-19 that daily rapid tests were performed. The performance evaluation of the SBi-kNN-MSRE method is done using NRMSE, where the results are compared to the SBi-MSRE method. According to the result, the SBi-kNN-MSRE method performed better than SBi-kNN-MSRE for each missing rate on different c levels. The optimal c value on the covid-19 data is c = 10% for missing rate 25%, 30%, 40% and c = 15% for missing rate 5%, 10%, 15%, 20% and 50%. The results also showed that NRMSE scores"
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2022
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
<<   1 2 3 4 5 6 7 8 9 10   >>