Hasil Pencarian  ::  Simpan CSV :: Kembali

Hasil Pencarian

Ditemukan 163303 dokumen yang sesuai dengan query
cover
Nurul Shabrina
"Microarray merupakan salah satu teknologi pada bidang biologi yang memberikan
informasi tentang ekspresi gen. Data microarray mentah berupa gambar, yang harus
diubah menjadi matriks ekspresi gen dimana baris menunjukkan gen, kolom
menunjukkan kondisi eksperimental. Namun, pada praktiknya data microarray banyak
ditemukan missing values yang tentunya akan menghambat proses dari analisis datanya.
Imputasi merupakan salah satu solusi yang dapat mengatasi adanya missing values pada
data microarray. Dengan menggunakan imputasi, nilai missing values yang terdapat pada
matriks data diprediksi atau diestimasi sehingga diperoleh matriks data yang lengkap.
Metode imputasi yang digunakan pada penelitian ini bernama bi-KNN-RLSP, yang
menggunakan konsep biclustering, principal component analysis, dan regresi kuantil.
Dalam proses pembentukan biclustering, dibutuhkan matriks lengkap sementara yang
diperoleh melalui proses praimputasi dengan KNNimpute. Percobaan bi-KNN-RLSP
dilakukan pada data ekspresi gen garis sel kanker serviks dengan menerapkan missing
rate yang berbeda, yaitu 1%, 5%, 10%, 15%, 20%, 25%, dan 30% dengan menggunakan
parameter k=10 pada proses praimputasi KNNimpute. Hasil percobaan tersebut dievaluasi
performanya menggunakan normalized root mean squared error. Nilai rata-rata NRMSE
pada percobaan yang dilakukan sebanyak lima kali memiliki nilai yang lebih rendah
dibandingkan dengan metode bi-RLSP dan row average. Waktu komputasi untuk metode bi-KNN-RLSP dan bi-RLSP tidak jauh berbeda, sehingga dengan waktu yang tidak
signifikan berbeda, metode bi-KNN-RLSP dapat menghasilkan nilai NRMSE yang lebih kecil dibandingkan dengan bi-RLSP. Oleh karena itu, dapat dikatakan bahwa modifikasi praimputasi row average pada metode bi-RLSP menjadi KNNimpute dapat menghasilkan performa imputasi yang lebih bagus. Selain itu, diperoleh hasil bahwa nilai NMRSE untuk metode bi-KNN-RLSP meningkat seiring dengan meningkatnya missing rate.

Microarray is a technology in biology that provides information about gene expression. The raw microarray data is in the form of images, which must be converted into a gene expression matrix where rows indicate genes, columns indicate experimental conditions. However, in practice, many missing values are found in microarray data, which of course
will hinder the process of data analysis. Imputation is one solution that can overcome the missing values in microarray data. By using imputation, the missing values contained in the data matrix are predicted or estimated so that a complete data matrix is obtained. The imputation method used in this study is called bi-KNN-RLSP, which uses the concept of
biclustering, principal component analysis, and quantile regression. In the process of forming biclustering, a temporary complete matrix is needed which is obtained through the pre-imputation process with KNNimpute. The bi-KNN-RLSP experiment was carried out on cervical cancer cell line gene expression data by applying different missing rates,
namely 1%, 5%, 10%, 15%, 20%, 25%, and 30% using the parameter k=10. in the KNNimpute pre-imputation process. The results of these experiments were evaluated for their performance using the normalized root mean squared error. The average value of NRMSE in the five times experiment has a lower value than the bi-RLSP and row average methods. The computation time for the bi-KNN-RLSP and bi-RLSP methods is not much different, so with the time that is not significantly different, the bi-KNN-RLSP method can produce a smaller NRMSE value compared to bi-RLSP. Therefore, it can be said that the modification of the row average preimputation in the bi-RLSP method to KNNimpute can produce better imputation performance. In addition, it was found that the NMRSE value for the bi-KNN-RLSP method increased along with the increase in the missing rate.
"
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2022
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Clive Nathaniel
"Missing value merupakan masalah yang sering ditemukan pada analisis data ekspresi gen. Salah satu metode yang sering digunakan untuk mengatasi masalah ini adalah dengan melakukan imputasi. Imputasi adalah proses mengganti missing value pada data dengan nilai pengganti yang didapat dari metode tertentu. Pada skripsi ini dibahas mengenai suatu metode imputasi untuk data ekspresi gen yang merupakan pengembangan dari metode imputasi robust least squares estimation dengan principal components (RLSP) dengan menggunakan konsep biclustering. Metode ini dinamakan bicluster-based robust least squares estimation dengan principal components (bi-RLSP). Metode RLSP adalah metode imputasi data ekspresi gen yang menggunakan konsep k-nearest neighbor, principal component analysis, dan regresi kuantil. Konsep biclustering ingin diterapkan untuk menggantikan k-nearest neighbor yang mencari baris yang mirip untuk semua kolom, sehingga dapat dicari baris yang mirip serta kolom yang mirip secara bersamaan. Metode bi-RLSP diaplikasikan untuk mengimputasi missing values pada data ekspresi gen, dimana metode ini ditemukan memiliki akurasi yang lebih tinggi dibandingkan metode RLSP dan metode imputasi row average dengan melihat nilai NRMSE dari estimasi missing value pada metode-metode ini.

Missing values are a common problem in gene expression data analysis. One of the methods used to overcome this problem is by performing imputation. Imputation is the process of replacing missing values in data with values obtained from certain methods. This thesis discusses an imputation method for gene expression data which is a development of the robust least squares estimation with principal components (RLSP) imputation method using the biclustering concept. This method is called bicluster-based robust least squares estimation with principal components (bi-RLSP). This RLSP method is a gene expression data imputation method that uses the concept of k-nearest neighbor, principal component analysis, and quantile regression. The concept of biclustering is applied to replace the k-nearest neighbor concept that look for similar rows under all columns, so that it can search for similar rows as well as similar columns simultaneously. The bi-RLSP method was applied to impute missing values in gene expression data, where this method was found to have a higher accuracy than the RLSP method and the row average imputation method by looking at the NRMSE value of the estimated missing values in these methods."
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2021
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Alya Fadhilah Putri Banyu Nur Inayah
"Data ekspresi gen adalah data yang menyajikan tingkat ekspresi gen pada kondisi yang berbeda-beda. Analisis data ekspresi gen microarray sangat penting karena memiliki aplikasi luas pada bidang biologi, medis, dan lain-lain. Dalam melakukan analisis data ekspresi gen, sebagian besar algoritma analisis membutuhkan data matriks yang lengkap. Sayangnya, beberapa data mungkin hilang karena kerusakan gambar, debu, dan kesalahan eksperimental. Oleh karena itu, metode imputasi missing value diperlukan untuk melakukan pemulihan pada data yang hilang tersebut. Penelitian ini mengembangkan suatu metode imputasi missing value, yaitu bicluster-based Bayesian principal component analysis dan robust least squares estimation dengan principal components (bi-BPCA-RLSP). Metode bi-BPCA-RLSP merupakan metode pengembangan dari bicluster-based robust least squares estimation dengan principal components (bi-RLSP). Pada metode bi-RLSP, tahap praimputasi untuk memperoleh matriks komplit sementara dilakukan dengan menggunakan metode row average. Namun, metode row average dinilai kurang baik dalam menggambarkan struktur keseluruhan data karena hanya menggunakan informasi dari baris yang mengandung missing value. Oleh karena itu, penelitian ini melakukan penggantian metode row average menjadi BPCA. BPCA menggunakan informasi korelasi dari seluruh data sehingga lebih baik dalam menggambarkan struktur keseluruhan data. Metode bi-BPCA-RLSP diterapkan pada data ekspresi gen garis sel kanker serviks dengan missing rate 1%, 5%, 10%, 15%, 20%, 25%, dan 30%. Performa metode bi-BPCA-RLSP diukur dengan menggunakan nilai normalized root mean squared error (NRMSE) dan dibandingkan dengan metode bi-RLSP. Hasil penelitian menunjukkan bahwa kinerja bi-BPCA-RLSP lebih baik daripada bi-RLSP karena nilai NRMSE pada bi-BPCA-RLSP lebih rendah dibandingkan bi-RLSP untuk setiap missing rate.

Gene expression data is data that presents the level of gene expression under different conditions. Analysis of microarray gene expression data is very important because it has wide applications in the fields of biology, medicine, and others. In analyzing gene expression data, most of the analytical algorithms require a complete data matrix. Unfortunately, some data may be lost due to image corruption, dust, and experimental errors. Therefore, the missing value imputation method is needed to recover the lost data. This study developed a missing value imputation method, namely bicluster-based Bayesian principal component analysis and robust least squares estimation with principal components (bi-BPCA-RLSP). The bi-BPCA-RLSP method is a development method of bicluster-based robust least squares estimation with principal components (bi-RLSP). In the bi-RLSP method, the pre-imputation stage to obtain a temporary complete matrix is carried out using the row average method. However, the row average method is considered poor in describing the overall structure of the data because it only uses information from rows containing missing values. Therefore, this study replaced the row average method by BPCA. BPCA uses correlation information of all data so that it describes better the overall structure of the data. The bi-BPCA-RLSP method was applied to gene expression data of cervical cancer cell lines with missing rates of 1%, 5%, 10%, 15%, 20%, 25%, and 30%. The performance of the bi-BPCA-RLSP method was measured using the normalized root mean squared error (NRMSE) and compared with the bi-RLSP method. The results showed that bi-BPCA-RLSP performed better than bi-RLSP because the NRMSE value of bi-BPCA-RLSP was lower than bi-RLSP for each missing rate."
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2022
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Yoel Fernando
"Penelitian biologi dengan menggunakan teknologi microarray menghasilkan data ekspresi gen berbentuk matriks di mana baris adalah gen dan kolom adalah kondisi. Analisis lanjutan dalam data ekspresi gen membutuhkan data yang lengkap. Namun, data ekspresi gen sering kali mengandung nilai hilang atau missing values. Ada berbagai cara untuk mengatasi missing values, antara lain pembuangan gen atau kondisi yang mengandung missing values, pengulangan pengambilan data, dan imputasi missing values pada data ekspresi gen. Pendekatan imputasi missing values awal hanyalah dengan mengisi nilai nol atau rata-rata baris. Namun, pendekatan ini tidak melihat informasi koheren dalam data. Pendekatan imputasi missing values terbagi menjadi empat berdasarkan informasi yang diperlukan pada algoritmanya, yaitu pendekatan lokal, pendekatan global, pendekatan hybrid, dan pendekatan knowledge assisted. Pada penelitian ini peneliti menggunakan algoritma pendekatan lokal dan global. Metode imputasi missing values paling popular untuk pendekatan global adalah Bayesian Principal Component Analysis (BPCA), sedangkan untuk pendekatan lokal adalah Local Least Square (LLS). Pada metode LLS, pemilihan similaritas gen dilakukan dengan teknik clustering dimana seluruh kondisi dalam data digunakan. Kenyataanya, terkadang gen-gen similar hanya dalam beberapa kondisi eksperimental saja. Maka, diperlukan teknik biclustering untuk dapat menemukan subset gen dan subset kondisi yang similar sebagai informasi lokal. Penerapan ide biclustering dalam LLS dinamakan sebagai Iterative Bicluster-Based Least Square (bi-iLS). Salah satu tahapan awal dalam bi-iLS adalah pembentukan matriks komplit sementara yang didapat dengan cara mengisi missing values dengan row average. Namun, row average dinilai kurang bagus karena hanya menggunakan informasi satu baris tersebut. Kekurangan ini diperbaiki dalam penelitian ini. Penggunaan metode BPCA untuk menemukan matriks komplit sementara dinilai lebih baik karena BPCA menggambarkan struktur keseluruhan data. Penggantian row average menjadi BPCA menjadi dasar masalah penelitian ini. Metode iterative Bicluster-based Bayesian Principal Component Analysis dan Least Square (bi-BPCA- iLS) pun diajukan. Penerapan bi-BPCA-iLS terhadap data ekspresi gen yang dihasilkan teknologi microarray terbukti menghasilkan penurunan nilai Normalzied Root Mean Square Error (NRMSE) sebesar 10,6% dan 0,58% secara rata-rata dalam beberapa missing rate (1%, 5%, 10%, 15%, 20%, 25%, dan 30%) jika dibandingkan dengan metode LLS dan bi-iLS.

Biological research using microarray technique produce some important gene expression datasets. These data can be expressed as a matrix in which rows are genes and columns are different conditions. Further analysis of these datasets requires a complete dataset or matrix. However, gene expression datasets often contain missing values. There are some ways to handle missing values, such as deletion of genes or conditions that contain missing values, repeat the process of acquiring data, and impute the missing values. Early approaches in missing values imputation are simply to replace missing values with zeros or row averages, but these methods do not use the coherence inside the data. Later, approaches in missing values imputations are categorized into four groups based on the required information, such as local, global, hybrid, and knowledge assisted approaches. In this paper, local and global approaches are used. Bayesian Principal Component Analysis (BPCA) is a well-known global based method, while the most popular local based method is Local Least Square (LLS). In LLS, selection of similar genes uses clustering technique where all conditions in the data are included. The reality is genes sometimes only correlate under some experimental conditions only. So, a technique that can find subset of genes under subset of experimental conditions for local information is needed. This technique is called biclustering. The usage of biclustering in LLS is called the Iterative Bicluster-based Least Square (bi-iLS). One of the early steps in bi-iLS is to find a temporary complete matrix. Temporary complete matrix is obtained by applying row averages to impute missing values. However, row average cannot reflect the real structure of the dataset because row average only uses the information of an individual row. The missing values in a target gene do not only rely on the known values of its own row. In this research, row average in bi-iLS is replaced with BPCA. The benefit of using BPCA is that it uses global structure of the dataset. This update will be the basic problem of this research. The proposed method is called Iterative Bicluster-based Bayesian Principal Component Analysis and Least Square (bi-BPCA-iLS). This new proposed method is applied to gene expression datasets from microarray technique. It shown a decrease in values of Normalized Root Mean Square Error (NRMSE) about 10.6% from LLS and about 0.58% from bi-iLS based on different missing rates (1%, 5%, 10%, 15%, 20%, 25%, and 30%)."
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2021
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Bulan Firdanisa
"Penelitian bioinformatika sering diterapkan untuk mempelajari penyakit dalam tubuh manusia. Penelitian yang sampai saat ini masih aktif dilakukan ialah penelitian terhadap pasien penderita kanker. Tujuan dari berbagai penelitian ini yaitu untuk menemukan pengobatan terbaik bagi pasien penderita kanker. Salah satu pengobatan yang baru ini muncul dikenal sebagai imunoterapi. Imunoterapi memungkinkan sel-sel imun tubuh kita sendiri digunakan untuk melawan sel-sel kanker. Instrumen utama dalam penelitian terhadap efektifitas imunoterapi juga kasus bioinformatika lainnya ialah data ekspresi gen. Namun, pada data ekspresi gen seringkali ditemukan nilai yang hilang atau missing values yang biasanya disebabkan oleh kerusakan gambar atau kesalahan dalam proses hibridisasi. Keberadaan missing values pada data ekspresi gen dapat menyebabkan kesulitan pada analisis lebih lanjut, di mana banyak analisis ekspresi gen memerlukan data yang lengkap seperti klasifikasi dan pengelompokan. Oleh karena itu, perlu dilakukan imputasi terhadap missing values agar analisis yang dilakukan dapat lebih akurat. Pada penelitian ini dilakukan imputasi menggunakan metode Bi-BPCA. Bi-BPCA merupakan metode imputasi dengan mengombinasikan analisis biclustering dan imputasi BPCA. Metode Bi-BPCA diterapkan pada data ekspresi gen di sekitar kanker setelah dilakukan imunoterapi. Setelah itu, performa dari metode Bi-BPCA dilihat dengan membandingkan hasil imputasi metode Bi-BPCA dengan metode imputasi lainnya diantaranya imputasi menggunakan rata-rata baris, rata-rata kolom, dan metode imputasi BPCA melalui nilai NRMSE. Selain itu, koefisien korelasi Pearson digunakan untuk menghitung korelasi antara nilai hasil imputasi metode Bi-BPCA dengan nilai aslinya. Berdasarkan penelitian ini metode Bi-BPCA menghasilkan NRMSE kurang dari 0.6 untuk missing rate 1-30%, lebih rendah dibandingkan NRMSE dari metode imputasi lainnya. Kemudian, metode Bi-BPCA menghasilkan nilai koefisien korelasi Pearson mayoritas di atas 0.9 mendekati 1. Hasil ini menunjukkan bahwa metode Bi-BPCA menghasilkan nilai imputasi yang lebih baik untuk menggantikan missing values dibandingkan dengan metode imputasi BPCA, rata-rata kolom, dan rata-rata baris.

Bioinformatics research is often applied to study diseases in the human body. Research that is still actively being carried out is research on cancer patients. The aim of those studies is to find the best treatment for cancer patients. One treatment that has recently emerged is known as immunotherapy. Immunotherapy allows our body's own immune cells to be used to fight cancer cells. The main instrument in research on the effectiveness of immunotherapy as well as other cases of bioinformatics is gene expression data.. However, in gene expression data, it is often found missing values which are usually caused by image defects and errors in the hybridization process. The existence of missing values in gene expression data can cause difficulties in further analysis, where many analysis of gene expression requires complete data such as classification and clustering. Therefore, it is necessary to impute the missing values so that the analysis can be carried out more accurately. In this study, imputation was carried out using the Bi-BPCA method. Bi-BPCA is an imputation method by combining biclustering analysis and BPCA imputation. The Bi-BPCA method was applied to gene expression data around cancer after immunotherapy. After that, the performance of the Bi-BPCA method was seen by comparing the imputation results of the Bi-BPCA method with other imputation methods including imputation using row averages, column averages, and the BPCA imputation method through the NRMSE value. In addition, the Pearson correlation coefficient was used to calculate the correlation between the imputed value of the Bi-BPCA method and the original value. Based on this study, the Bi-BPCA method produces NRMSE values less than 0.6 for missing rates 1 to 30 percent, which is lower than NRMSE from other imputation methods. In addition, the Bi-BPCA method produces in a majority Pearson correlation coefficient above 0.9. These results indicate that the Bi-BPCA method produces better imputation values to replace the missing values."
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2021
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Fenni Amalia
"Bioinformatika merupakan ilmu yang ditujukan untuk menganalisis informasi biologis. Dalam perkembangan penelitian bioinformatika, data diperoleh salah satunya dengan menggunakan teknologi microarray. Teknologi microarray digunakan oleh lingkup biologi molekuler dalam melihat perbedaan tingkat ekspresi gen dengan cara mengonversi gambar monokromik yang berisi ratusan bahkan ribuan gen dari sampel sel dan menghasilkan data ekspresi gen. Teknologi microarray sering kali menghasilkan data ekspresi gen yang hilang atau tidak terdeteksi akibat adanya kesalahan teknis. Oleh karena itu, diperlukannya suatu metode imputasi pada data untuk mengatasi missing values. Pada penelitian ini, akan dikembangkan suatu metode imputasi yang disebut Biclustering Terurut berbasis k-Nearest Neighbor, Mean Squared Residual, dan Jarak Euclidean. Metode ini merupakan metode imputasi berbasis biclustering dimana bicluster dibentuk berdasarkan suatu kriteria yang melibatkan skor Mean Squared Residue dan Jarak Euclidean. Penggunakan k-Nearest Neighbor sebagai metode pra-imputasi didasarkan pada data ekspresi gen yang sering kali memiliki pola kompleks dan sulit terdeteksi, sehingga perlu pendekatan yang dapat memetakan struktur korelasi pada data. k-Nearest Neighbor mempertimbangkan korelasi pada data microarray dengan menyeleksi kumpulan gen yang memiliki profil ekspresi mirip dengan gen yang ingin diimputasi (gen target). Pada penelitian ini, metode SBi-kNN-MSREimpute diterapkan pada data ekspresi gen pasien penderita COVID-19 yang dilakukan tes rapid harian. Evaluasi kinerja metode SBi-kNN-MSREimpute dilakukan dengan menggunakan NRMSE, dimana hasilnya dibandingkan dengan metode SBi-MSREimpute. Berdasarkan penelitian yang dilakukan, metode SBi-kNN-MSREimpute dinilai lebih baik dibandingkan dengan SBi-MSREimpute untuk setiap missing rate pada tingkatan c berbeda. Nilai c optimal untuk imputasi missing values pada data COVID-19 adalah c = 10% untuk missing rate 25%, 30%, 40% dan c = 15% untuk missing rate 5%, 10%, 15%, 20%, dan 50%. Hasil akhir juga menunjukkan bahwa nilai NRMSE untuk SBi-kNN-MSREimpute relatif stabil bahkan untuk data dengan missing rate tinggi hingga 50%.

Bioinformatics is a study designed to analyze biological information. In the development of bioinformatics research, data was obtained using microarray technology. Microarray technology is used by the scope of molecular biology in transposing hundreds and even thousands of genes from cellular samples simultaneously and producing a gene expression data. Microarray technology often produces data that is lost or undetected as a result of technical error. Therefore, an imputation method is needed to address the missing values. In this study, a new imputation method called Sequential Biclustering based k-Nearest Neighbor, Mean Squared Residual, and Euclidean Distance (SBi-kNN-MSRE) will be developed. This method is a biclustering-based imputation method where the bicluster is formed based on a criterion involving Mean Squared Residue and Euclidean Distance. The use of k-Nearest Neighbor as a pre-imputation method is based on data on gene expression that often has a complex and difficult pattern of detection, so it requires an approach that can map correlation structures on data. K-nearest neighbor considers a correlation on a microarray data by selecting groups of genes that have an expression profile similar to a gene that wants to be imputed (the target gene). In this study, the SBi-kNN-MSRE method was applied to the data on the genes of patients with covid-19 that daily rapid tests were performed. The performance evaluation of the SBi-kNN-MSRE method is done using NRMSE, where the results are compared to the SBi-MSRE method. According to the result, the SBi-kNN-MSRE method performed better than SBi-kNN-MSRE for each missing rate on different c levels. The optimal c value on the covid-19 data is c = 10% for missing rate 25%, 30%, 40% and c = 15% for missing rate 5%, 10%, 15%, 20% and 50%. The results also showed that NRMSE scores"
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2022
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Kinanty Tasya Octaviane
"Teknologi DNA microarray menghasilkan data ekspresi gen yang dapat digunakan untuk membantu berbagai pemecahan masalah dalam dunia kesehatan. Data ekspresi gen merupakan matriks berukuran besar berisi gen dan kondisi eksperimental yang tak jarang mengandung missing values dan outlier. Data yang mengandung missing values dapat mengganggu dan membatasi analisis. Untuk mengatasinya, metode komputasi dinilai layak untuk imputasi missing values pada data ekspresi gen sebelum dilakukan analisis lanjutan, terlebih untuk data yang memiliki outlier. Oleh karena itu, pada penelitian ini digunakan metode imputasi missing values NCBI-LPCM untuk mengatasi permasalahan missing values pada data ekspresi gen yang memiliki outlier. Metode NCBI-LPCM menggunakan ukuran korelasi LPCM yang dapat menangani keberadaan outlier untuk pembentukan bicluster dan imputasi least square yang merupakan metode imputasi dengan pendekatan lokal. LPCM mengidentifikasi gen-gen yang memiliki pola korelasi similar sehingga menjadi informasi lokal untuk dasar imputasi. Metode ini diterapkan pada data ekspresi gen pasien Leukemia Limfoblastik Akut pada missing rate 5%, 10%, 15%, 20%, 25%, 30%, dan 35%. Berdasarkan RMSE dan korelasi Pearson, metode NCBI-LPCM lebih baik jika dibandingkan dengan NCBI-SSSim yang juga dapat menangani keberadaan outlier.

DNA microarray technology produces gene expression data that can be used to help solve various problems in healthcare. Gene expression data is a large matrix of genes and experimental conditions that often contains missing values and outliers. Data containing missing values can interfere with and limit analyses. To overcome this, computational methods are considered feasible for imputing missing values in gene expression data before further analysis is carried out, especially for data that has outliers. Therefore, in this study, the NCBI-LPCM missing values imputation method was used to overcome the problem of missing values in gene expression data with outliers. The NCBI-LPCM method uses the LPCM correlation measure which can handle the presence of outliers for bicluster formation and least square imputation which is an imputation method with a local approach. LPCM identifies genes that have similar correlation patterns so that they become local information for the basis of imputation. This method was applied to gene expression data of Acute Lymphoblastic Leukaemia patients at missing rates of 5%, 10%, 15%, 20%, 25%, 30%, and 35%. Based on RMSE and Pearson correlation, the NCBI- LPCM method is better than NCBI-SSSim which can also handle the presence of outliers."
Depok: Fakultas Matematika Dan Ilmu Pengetahuan Alam Universitas Indonesia, 2022
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Rizqa Fatika Fajrianti
"Prinsip parsimoni adalah prinsip yang menyatakan bahwa jika terdapat beberapa penjelasan untuk suatu fenomena, maka penjelasan paling sederhanalah yang harus dipilih. Prinsip ini digunakan dalam analisis data untuk memilih model yang paling efisien dalam menjelaskan variabilitas data dengan parameter seminimal mungkin. Namun pada beberapa kondisi, data bisa saja melibatkan pengukuran atau variabel yang cukup banyak. Data berdimensi tinggi dapat menyebabkan kompleksitas dan kesulitan dalam analisis, sehingga reduksi dimensi pada data penting untuk dilakukan. Principal Component Analysis (PCA) adalah salah satu metode yang dapat digunakan untuk melakukan reduksi dimensi, dengan mengekstraksi variabel baru dan mengurangi pengaruh dari variabel yang tidak relevan. Namun, metode PCA tidak toleran terhadap missing value, sehingga algoritma Nonlinear Iterative Partial Least Squares (NIPALS) dapat digunakan dalam mengatasi data yang mengandung missing value. Performa dari algoritma NIPALS dievaluasi menggunakan nilai normalized root mean square error (NRMSE) dan koefisien korelasi Pearson. Kemudian, performa dari algoritma ini dibandingkan dengan dua metode lain, meliputi Probabilistic Principal Component Analysis (PPCA) dan SVDImpute. Setelah dilakukan percobaan sebanyak seratus kali pada data survei COVIDiSTRESS, didapatkan hasil bahwa algoritma NIPALS memiliki performa yang lebih baik dan stabil dalam melakukan reduksi dimensi dibandingkan SVDImpute dan PPCA pada data dengan missing value sebesar 1% hingga 15%.

The principle of parsimony, states that if there are multiple explanations for a phenomenon, the simplest explanation should be chosen. This principle is applied in data analysis to select the most efficient model that explains the variability of the data with minimal parameters. However, in some cases, the data may involve a large number of measurements or variables. High-dimensional data can lead to complexity and difficulties in analysis, therefore dimensionality reduction is important. Principal Component Analysis (PCA) is one method that can be used for dimensionality reduction by extracting new variables and reducing the influence of irrelevant variables. However, PCA is not tolerant to missing values, so the Nonlinear Iterative Partial Least Squares (NIPALS) algorithm can be used to handle data with missing values. The performance of the NIPALS algorithm is evaluated using the normalized root mean square error (NRMSE) and Pearson correlation coefficient. Subsequently, the performance of this algorithm is compared with two other methods, including Probabilistic Principal Component Analysis (PPCA) and SVDImpute. After conducting a hundred trials on the COVIDiSTRESS survey data, it was found that the NIPALS algorithm performed better and was more stable in dimension reduction compared to SVDImpute and PPCA algorithms on data with missing values ranging from 1% to 15%."
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2023
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Allissa Rahman
"Data ekspresi gen merupakan data yang berisi hasil proses transformasi informasi genetik dari DNA atau RNA menjadi protein (fenotipe) yang disajikan dalam bentuk matriks berisi ekspresi gen (baris) dan kondisi (kolom). Sama halnya seperti jenis data lainnya, data ekspresi gen tidak terlepas dari kemungkinan masalah missing values atau data yang hilang. Untuk menangani masalah keberadaan missing values, diperlukan imputasi, yaitu metode untuk mengisi nilai pada data yang hilang. Metode imputasi yang digunakan pada penelitian ini adalah QP_Biclustering yang merupakan kombinasi antara biclustering dengan permasalahan pemrograman kuadratik yang akan diselesaikan dengan bahasa pemrograman Python. Metode QP_Biclustering diimplementasikan pada data ekspresi gen dari pasien Covid-19 bertipe numerik dengan tipe missing values berjenis Missing Completely at Random (MCAR). Algoritma biclustering yang digunakan sebagai metode dalam penelitian ini adalah hasil modifikasi dari algoritma SwarmBCluster, yaitu constructive heuristic with local search. Metode biclustering ini menggunakan Mean Squared Residue (MSR) dalam proses pembentukan bicluster yang berperan sebagai ukuran kualitas suatu bicluster. Setelah bicluster terbentuk, missing values akan diestimasi menggunakan quadratic programming dengan cara meminimumkan nilai MSR tiap bicluster. Hasil penelitian ini menunjukkan bahwa metode QP_Biclustering memiliki performa cukup baik untuk mengimputasi missing values pada data ekspresi gen pasien Covid-19 yang dapat dilihat dari nilai Normalized Root Mean Square Error (NRMSE) yang lebih rendah dibandingkan dengan metode KNNimpute.

Gene expression data contains the results of the transformation process of genetic information from DNA or RNA into protein (phenotype) which is presented in the form of a matrix containing gene expression (rows) and conditions (columns). Just like other types of data, gene expression data can not be separated from the possibility of missing values or missing data problems. To deal with the problem of the presence of missing values, imputation is needed, which is a method to fill in the values in the missing data. The imputation method used in this research is QP_Biclustering which is a combination of biclustering with quadratic programming problems that will be solved using the Python programming language. The QP_Biclustering method is implemented on gene expression data from Covid-19 patients with numeric type and the missing values has Missing Completely at Random (MCAR) type. The biclustering algorithm used as a method in this research is a modified result of the SwarmBCluster algorithm, namely constructive heuristic with local search. This biclustering method uses Mean Squared Residue (MSR) in the bicluster formation process which will be used as a measure of the quality of a bicluster. After the bicluster is formed, the missing values will be estimated using quadratic programming by minimizing the MSR value for each bicluster. The results of this study indicate that the QP_Biclustering method has a fairly good performance to impute the missing values in gene expression data of Covid-19 patients which can be seen from the NRMSE (Normalized Root Mean Square Error) value which is lower than KNNimpute method."
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2021
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Adinda Dwi Putri
"Bioinformatika kerap digunakan oleh para peneliti untuk mempelajari berbagai penyakit yang ada pada tubuh manusia, salah satunya yaitu kanker payudara. Penelitian terhadap kanker payudara tersebut dilakukan dengan tujuan untuk menemukan jenis pengobatan terbaik bagi para pasien penderita kanker payudara. Data ekspresi gen merupakan salah satu komponen utama dalam penelitian mengenai pengobatan kanker payudara dan data tersebut dapat diperoleh dengan menggunakan alat dan teknologi microarray. Akan tetapi, seringkali ditemukan beberapa nilai yang hilang (missing values) pada data ekspresi gen yang dapat disebabkan oleh kesalahan teknis seperti kerusakan pada chip dan gambar. Adanya missing values juga dapat mengakibatkan masalah ketika proses analisis data selanjutnya, dimana terdapat metode analisis data yang memerlukan data lengkap seperti klasifikasi dan clustering. Oleh sebab itu, perlu dilakukan proses imputasi terhadap missing values agar hasil analisis data yang diperoleh lebih akurat. Pada penelitian ini, metode imputasi missing values yang digunakan yaitu SBi-MSREimpute. SBi-MSREimpute adalah metode imputasi berbasis biclustering dimana bicluster dibentuk berdasarkan suatu kriteria yang melibatkan skor Mean Squared Residue dan jarak Euclidean. Metode SBi-MSREimpute diimplementasikan pada data ekspresi gen pasien penderita kanker payudara stadium awal yang telah diberikan jenis obat MK-2206. Kinerja metode SBi-MSREimpute dilihat dengan membandingkan hasil imputasi metode SBi-MSREimpute dengan metode imputasi lain yaitu metode imputasi menggunakan weighted average berdasarkan skor Normalized Root-Mean-Square-Error (NRMSE). Hasil evaluasi dengan skor NRMSE tersebut menunjukkan bahwa kinerja metode SBi-MSREimpute dapat dipengaruhi oleh penentuan nilai k yang ada pada metode SBi-MSREimpute.

Bioinformatics is often used by researchers to study various diseases that exist in the human body, one of which is breast cancer. The research on breast cancer was conducted with the aim of finding the best type of treatment for breast cancer patients. Gene expression data is one of the main components in research on breast cancer treatment and this data can be obtained using microarray tools and technology. However, there are often missing values found in gene expression data that can be caused by technical errors such as damage to chips and images. The existence of missing values ​​can also cause problems during the data analysis process, where there are data analysis methods that require complete data such as classification and clustering. Therefore, it is necessary to carry out an imputation process for missing values ​​so that the data analysis results obtained are more accurate. In this study, the missing values ​​imputation method used was SBi-MSREimpute. SBi-MSREimpute is a biclustering-based imputation method where the bicluster is formed based on a criterion involving Mean Squared Residue and Euclidean Distance. In this study, the SBi-MSREimpute method was applied to the gene expression data of patients with early stage breast cancer who had been given the MK-2206 type of drug. The performance of the SBi-MSREimpute method is assessed by comparing the results of the imputation using SBi-MSREimpute method with other imputation methods, namely the imputation method using weighted average, based on the Normalized Root-Mean-Square-Error score (NRMSE). The results of the evaluation with NRMSE score showed that the performance of the SBi-MSREimpute method can be affected by the determination of k value in the SBi-MSREimpute method."
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2021
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
<<   1 2 3 4 5 6 7 8 9 10   >>