Hasil Pencarian  ::  Simpan CSV :: Kembali

Hasil Pencarian

Ditemukan 5 dokumen yang sesuai dengan query
cover
Rasendriya Maheswari
Abstrak :
Teknologi microarray merupakan alat terapan ilmu bioinformatika dalam bidang biologi molekuler yang dapat menghasilkan suatu data ekspresi gen. Namun, pada data ekspresi gen sering ditemukan missing value yang dapat mengganggu proses analisis data. Untuk mengatasi masalah tersebut, missing value dapat diestimasi menggunakan teknik imputasi. Penelitian ini menggunakan metode NCBI-SSSim-QR yang merupakan metode imputasi biclustering berbasis Shifting-and-Scaling Similarity (SSSim) dan menggunakan regresi kuantil dalam mengestimasi missing values. Metode ini merupakan modifikasi dari metode NCBI-SSSim-LS yang menggunakan regresileast square dalam proses imputasinya. Regresi kuantil pada metode NCBI-SSSim-QR digunakan untuk menangani keberadaan outlier pada data karena regresi kuantil dapat menyesuaikan kemiringan distribusi data pada titik-titik kuantil tertentu. Pada penelitian ini, metode NCBI-SSSim-QR diimplementasikan pada data ekspresi gen kanker serviks yang mengandung outlier dan diujikan pada missing rate 5%, 10%, 15%, 20%, 25%, 30%, dan 35% dengan mekanisme MCAR (Missing Completely at Random) dalam pembentukan missing values. Terdapat beberapa titik kuantil yang diuji yaitu kuantil ke = 0,3, 0,4, 0,5, 0,6, 0,7 yang kemudian performanya dibandingkan dengan metode NCBI-SSSim-LS yang berbasis mean. Penelitian menunjukkan bahwa proses estimasi missing values pada data ekspresi gen kanker serviks paling baik dilakukan oleh metode NCBI-SSSim-QR dengan kuantil 0,5 berdasarkan nilai Root Mean Square Error (RMSE). ......Microarray technology is a bioinformatics tools in molecular biology that capable for quantitating hundreds or thousands of gene transcripts called gene expression data. However, the presence of missing values is often found in gene expression data which can interfere the further analysis process. Therefore, imputation technique used for estimating missing values. This research used NCBI-SSSim-QR method which is a Shifting-and-Scaling Similarity (SSSim)-based biclustering imputation method using quantile regression to estimate the missing values. This method is a modification of the NCBI-SSSim-LS method that using the least square regression for imputation process. Quantile regression in the NCBI-SSSim-QR method is used to handle the presence of outliers in the data because quantile regression can follow the skewness of the data distribution at certain quantile points. In this research, the NCBI-SSSim-QR method will be implemented on cervical cancer gene expression data containing outliers and tested on missing rate of 5%, 10%, 15%, 20%, 25%, 30%, and 35% with MCAR (Missing Completely at Random) mechanism in generating missing values. There are several quantile points to be tested, = 0,3, 0,4, 0,5, 0,6, 0,7 which will then be compared with the NCBI-SSSim-LS method which is mean-based. The research shows that the estimation process for missing values in cervical cancer gene expression data is better estimated by NCBI-SSSim-QR method with a quantile of 0,5 based on the Root Mean Square Error (RMSE) value.
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2022
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Kevin Prawira
Abstrak :
Studi mengenai kesehatan terus dikembangkan untuk meneliti dan mengetahui struktur penyusun makhluk hidup dalam dunia ini. Salah satunya adalah studi mengenai gen yang telah dikembangkan melalui teknologi microarray yang dapat menghasilkan data ekspresi gen. Namun sayangnya, studi ini sering terhambat akibat banyaknya informasi yang hilang pada data ekspresi gen tersebut, sehingga analisis lebih lanjut mengenai data ekspresi gen sulit dilanjutkan. Oleh karena itu, dibutuhkan suatu metode imputasi untuk mengisi hilangnya informasi tersebut sehingga analisis dapat dilanjutkan dan dikembangkan dengan lebih luas lagi. Pada penelitian ini, dikembangkan sebuah metode imputasi baru bernama SBi-BPCA-MSREimpute yang menggunakan perpaduan Bayesian Principal Component Analysis (BPCA), Biclustering serta jarak Euclidean dalam melakukan prediksi nilai imputasi. Metode ini menggunakan pendekatan hybrid dalam imputasinya, yaitu dengan metode BPCA (global) sebagai metode pra-imputasi, serta penggunaan metode nearest neighbour (lokal) dalam penentuan bicluster untuk memetakan gen yang memiliki pola sama dengan gen target. Penggunaan BPCA didasarkan pada struktur korelasi data yang besar, sehingga BPCA cocok digunakan untuk mereduksi dimensi data. Adapun penentuan nearest neighbour sebagai bentuk bicluster didasarkan pada nilai mean squared residual serta jarak Euclidean terhadap gen target. Akibatnya, bicluster yang terpilih merupakan gen kandidat yang memiliki sifat sama dengan gen target. Perhitungan nilai imputasi akhir dihitung menggunakan rata-rata terboboti pada anggota bicluster, serta normalized root mean squared error digunakan sebagai pengukuran evaluasi. Percobaan imputasi menggunakan metode SBi-BPCA-MSREimpute dilakukan pada data ekspresi gen sel kanker usus besar dengan percobaan tingkat missing rate 5%, 10%, 15%, 20%, 25%, 30%, 40%, serta 50%. Terdapat beberapa k neighbour gen yang diuji yaitu pada tingkat k = 5%,10%,15%,20%,25% dari banyaknya baris pada data. Pengujian menunjukkan bahwa SBi-BPCA-MSREimpute merupakan metode imputasi yang lebih baik daripada SBi-MSREimpute. Pengujian juga mendapatkan hasil bahwa nilai k = 5%,10%,15%,25% paling optimal digunakan pada data dengan missing rates 15% serta k = 20% paling optimal digunakan pada data dengan missing rate 10%. Berdasarkan missing rates, data dengan missing rates 5%, 10%, 15%, 20%, 25%, 30%, 40% paling optimal diimputasi menggunakan tingkat k = 5%, sedangkan data dengan missing rates 50% paling optimal diimputasi menggunakan tingkat k = 10%. ......
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2021
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Alya Fadhilah Putri Banyu Nur Inayah
Abstrak :
Data ekspresi gen adalah data yang menyajikan tingkat ekspresi gen pada kondisi yang berbeda-beda. Analisis data ekspresi gen microarray sangat penting karena memiliki aplikasi luas pada bidang biologi, medis, dan lain-lain. Dalam melakukan analisis data ekspresi gen, sebagian besar algoritma analisis membutuhkan data matriks yang lengkap. Sayangnya, beberapa data mungkin hilang karena kerusakan gambar, debu, dan kesalahan eksperimental. Oleh karena itu, metode imputasi missing value diperlukan untuk melakukan pemulihan pada data yang hilang tersebut. Penelitian ini mengembangkan suatu metode imputasi missing value, yaitu bicluster-based Bayesian principal component analysis dan robust least squares estimation dengan principal components (bi-BPCA-RLSP). Metode bi-BPCA-RLSP merupakan metode pengembangan dari bicluster-based robust least squares estimation dengan principal components (bi-RLSP). Pada metode bi-RLSP, tahap praimputasi untuk memperoleh matriks komplit sementara dilakukan dengan menggunakan metode row average. Namun, metode row average dinilai kurang baik dalam menggambarkan struktur keseluruhan data karena hanya menggunakan informasi dari baris yang mengandung missing value. Oleh karena itu, penelitian ini melakukan penggantian metode row average menjadi BPCA. BPCA menggunakan informasi korelasi dari seluruh data sehingga lebih baik dalam menggambarkan struktur keseluruhan data. Metode bi-BPCA-RLSP diterapkan pada data ekspresi gen garis sel kanker serviks dengan missing rate 1%, 5%, 10%, 15%, 20%, 25%, dan 30%. Performa metode bi-BPCA-RLSP diukur dengan menggunakan nilai normalized root mean squared error (NRMSE) dan dibandingkan dengan metode bi-RLSP. Hasil penelitian menunjukkan bahwa kinerja bi-BPCA-RLSP lebih baik daripada bi-RLSP karena nilai NRMSE pada bi-BPCA-RLSP lebih rendah dibandingkan bi-RLSP untuk setiap missing rate. ......Gene expression data is data that presents the level of gene expression under different conditions. Analysis of microarray gene expression data is very important because it has wide applications in the fields of biology, medicine, and others. In analyzing gene expression data, most of the analytical algorithms require a complete data matrix. Unfortunately, some data may be lost due to image corruption, dust, and experimental errors. Therefore, the missing value imputation method is needed to recover the lost data. This study developed a missing value imputation method, namely bicluster-based Bayesian principal component analysis and robust least squares estimation with principal components (bi-BPCA-RLSP). The bi-BPCA-RLSP method is a development method of bicluster-based robust least squares estimation with principal components (bi-RLSP). In the bi-RLSP method, the pre-imputation stage to obtain a temporary complete matrix is carried out using the row average method. However, the row average method is considered poor in describing the overall structure of the data because it only uses information from rows containing missing values. Therefore, this study replaced the row average method by BPCA. BPCA uses correlation information of all data so that it describes better the overall structure of the data. The bi-BPCA-RLSP method was applied to gene expression data of cervical cancer cell lines with missing rates of 1%, 5%, 10%, 15%, 20%, 25%, and 30%. The performance of the bi-BPCA-RLSP method was measured using the normalized root mean squared error (NRMSE) and compared with the bi-RLSP method. The results showed that bi-BPCA-RLSP performed better than bi-RLSP because the NRMSE value of bi-BPCA-RLSP was lower than bi-RLSP for each missing rate.
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2022
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Nurul Shabrina
Abstrak :
Microarray merupakan salah satu teknologi pada bidang biologi yang memberikan informasi tentang ekspresi gen. Data microarray mentah berupa gambar, yang harus diubah menjadi matriks ekspresi gen dimana baris menunjukkan gen, kolom menunjukkan kondisi eksperimental. Namun, pada praktiknya data microarray banyak ditemukan missing values yang tentunya akan menghambat proses dari analisis datanya. Imputasi merupakan salah satu solusi yang dapat mengatasi adanya missing values pada data microarray. Dengan menggunakan imputasi, nilai missing values yang terdapat pada matriks data diprediksi atau diestimasi sehingga diperoleh matriks data yang lengkap. Metode imputasi yang digunakan pada penelitian ini bernama bi-KNN-RLSP, yang menggunakan konsep biclustering, principal component analysis, dan regresi kuantil. Dalam proses pembentukan biclustering, dibutuhkan matriks lengkap sementara yang diperoleh melalui proses praimputasi dengan KNNimpute. Percobaan bi-KNN-RLSP dilakukan pada data ekspresi gen garis sel kanker serviks dengan menerapkan missing rate yang berbeda, yaitu 1%, 5%, 10%, 15%, 20%, 25%, dan 30% dengan menggunakan parameter k=10 pada proses praimputasi KNNimpute. Hasil percobaan tersebut dievaluasi performanya menggunakan normalized root mean squared error. Nilai rata-rata NRMSE pada percobaan yang dilakukan sebanyak lima kali memiliki nilai yang lebih rendah dibandingkan dengan metode bi-RLSP dan row average. Waktu komputasi untuk metode bi-KNN-RLSP dan bi-RLSP tidak jauh berbeda, sehingga dengan waktu yang tidak signifikan berbeda, metode bi-KNN-RLSP dapat menghasilkan nilai NRMSE yang lebih kecil dibandingkan dengan bi-RLSP. Oleh karena itu, dapat dikatakan bahwa modifikasi praimputasi row average pada metode bi-RLSP menjadi KNNimpute dapat menghasilkan performa imputasi yang lebih bagus. Selain itu, diperoleh hasil bahwa nilai NMRSE untuk metode bi-KNN-RLSP meningkat seiring dengan meningkatnya missing rate. ......Microarray is a technology in biology that provides information about gene expression. The raw microarray data is in the form of images, which must be converted into a gene expression matrix where rows indicate genes, columns indicate experimental conditions. However, in practice, many missing values are found in microarray data, which of course will hinder the process of data analysis. Imputation is one solution that can overcome the missing values in microarray data. By using imputation, the missing values contained in the data matrix are predicted or estimated so that a complete data matrix is obtained. The imputation method used in this study is called bi-KNN-RLSP, which uses the concept of biclustering, principal component analysis, and quantile regression. In the process of forming biclustering, a temporary complete matrix is needed which is obtained through the pre-imputation process with KNNimpute. The bi-KNN-RLSP experiment was carried out on cervical cancer cell line gene expression data by applying different missing rates, namely 1%, 5%, 10%, 15%, 20%, 25%, and 30% using the parameter k=10. in the KNNimpute pre-imputation process. The results of these experiments were evaluated for their performance using the normalized root mean squared error. The average value of NRMSE in the five times experiment has a lower value than the bi-RLSP and row average methods. The computation time for the bi-KNN-RLSP and bi-RLSP methods is not much different, so with the time that is not significantly different, the bi-KNN-RLSP method can produce a smaller NRMSE value compared to bi-RLSP. Therefore, it can be said that the modification of the row average preimputation in the bi-RLSP method to KNNimpute can produce better imputation performance. In addition, it was found that the NMRSE value for the bi-KNN-RLSP method increased along with the increase in the missing rate.
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2022
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Panjaitan, Andreas Pangihutan
Abstrak :
Kebutuhan data di zaman sekarang semakin meningkat seiring dengan perkembangan teknologi. Penggunaan dataset dengan ukuran besar sudah menjadi keperluan dalam berbagai bidang, termasuk kebutuhan data di bidang bioinformatika, yang dihasilkan melalui teknologi microarray berbentuk matriks berisi gen dan dan kondisi observasi. Sulit untuk menghasilkan data ekspresi gen yang sempurna dan tidak ada kekurangan karena berbagai keterbatasan dalam proses pengumpulan data. Kehadiran nilai hilang atau missing values pada data ekspresi gen adalah hal yang tidak dapat dihindarkan, sehingga dapat mengganggu jalannya proses analisis data lanjutan. Pada penelitian ini, keberadaan missing values pada data diatasi dengan metode imputasi biclustering berbasis Shifting and Scaling Similarity (SSSim) dan imputasi biclustering berbasis euclidean score. Metode imputasi biclustering berbasis SSSim dan imputasi biclustering berbasis euclidean score adalah 2 metode imputasi berbeda yang dikombinasikan dengan konsep biclustering yang berbeda. Kedua metode imputasi biclustering ini menggunakan konsep least square dan pembobotan gen dalam proses imputasinya, serta menggunakan konsep korelasi SSSim dan korelasi euclidean score dalam proses biclustering-nya. Kedua konsep korelasi tersebut memiliki perbedaan prinsip yang saling berkebalikan, di mana korelasi SSSim dapat mendeteksi pola shifting and scaling dalam data ekspresi gen sedangkan korelasi euclidean score tidak dapat mendeteksi pola shifting and scaling. Metode imputasi biclustering berbasis SSSim dan imputasi biclustering berbasis euclidean score diaplikasikan pada data eskpresi gen kanker usus besar dan diukur tingkat performanya bersama dua metode pembanding lain yaitu K-Nearest Neighbor Imputation (KNNimpute) dan column mean impute menggunakan nilai Root Mean Squared Error (RMSE). Berdasarkan penelitian ini, metode imputasi biclustering berbasis SSSim dan imputasi biclustering berbasis euclidean score memiliki tingkat akurasi yang hampir sama, tetapi secara konsisten lebih baik dari metode KNNimpute dan column mean impute pada data dengan missing rate (5%,10%,15%,20% dan 25%). ......The need for data today is increasing along the technological advances. The use of large data sets has become a necessity in various fields, including the need for data in bioinformatics, which is generated through microarray technology and produce data’s form of a matrix containing genes type and genes observation. It is difficult to produce perfect gene expression data, due to various limitations in the data collection process. The presence of missing values in gene expression data is unavoidable, so it can interfere further analysis. In this research, the presence of missing values was handled by the biclustering based on Shifting and Scaling Similarity (SSSim) and biclustering based on euclidean score for missing values imputation. Biclustering based on Shifting and Scaling Similarity (SSSim) and biclustering based on euclidean score for missing values imputation are 2 different imputation methods combined with biclustering concepts. This two methods use the least square concept and gene weighting in the imputation process, and use the SSSim and the Euclidean score correlation in the biclustering process. This two correlation concepts have contradictory basic principles, where SSSim correlation can detect shifting and scaling patterns in gene expression data while Euclidean score correlation cannot detect. Biclustering based on Shifting and Scaling Similarity (SSSim) and biclustering based on euclidean score for missing values imputation were applied to colon cancer gene expression data and their performance level was measured by Root Mean Squared Error (RMSE) with two other comparison methods, namely K-Nearest Neighbor Imputation (KNNimpute) and column mean impute. Based on this study, biclustering based on Shifting and Scaling Similarity (SSSim) and biclustering based on euclidean score for missing values imputation has almost the same accuracy level, but consistently better than the KNNimpute method and column mean impute on data with missing rate (5%, 10%, 15%, 20% and 25%).
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2021
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library