Hasil Pencarian  ::  Simpan CSV :: Kembali

Hasil Pencarian

Ditemukan 180624 dokumen yang sesuai dengan query
cover
Silvia
"Teknologi microarray merupakan analisis terhadap tingkat ekspresi puluhan ribu gen secara paralel untuk melihat perbedaan ekspresi gen. Penelitian microarray menghasilkan suatu nilai yang dirangkum dalam sebuah data yang disebut sebagai data ekspresi gen. Data ekspresi gen umumnya memiliki ukuran yang besar dan penggunaannya luas. Akan tetapi, data ekspresi gen sering mengalami masalah missing values. Data ekspresi gen umumnya mengandung persentase missing values sebesar 10% atau bahkan hingga 90% gen memiliki satu hingga lebih missing values. Salah satu solusi untuk mengatasi adanya missing values adalah dengan menggunakan teknik imputasi.  Pada penelitian ini, diajukan metode imputasi missing values Chronological Biclustering dengan basis PCor-MSRE yang berdasarkan pada konsep biclustering. Penentuan anggota bicluster dengan kesamaan sifat co-expressed dan ukuran magnitude dilakukan berdasarkan pada skor Mean Squared Residue (MSR), jarak Euclidean, dan ukuran jarak korelasi Pearson antara masing-masing gen dengan gen yang mengandung missing values. Dilakukan perhitungan skor MSR, jarak Euclidean, dan ukuran jarak korelasi Pearson pada setiap gen, kemudian dipilih k gen yang memberikan skor terkecil untuk masing-masing kriteria. Selanjutnya, dibentuk bicluster yang digunakan untuk mengimputasi nilai observasi yang missing. Metode ini merupakan pengembangan dari metode SBi-MSREimpute yang cocok digunakan pada data ekspresi gen non-time series atau time series. Metode diimplementasikan pada data ekspresi gen lengkapnon-time series GSE142693 mengenai sel tumor 12 pasien Glioblastoma. Pada data GSE142693, dilakukan konstruksi missing values MCAR dengan missing rate sebesar 5%, 10%, 20%, 30%, 40%, 50%, dan 60%. Performa metode diukur dengan skor NRMSE dan korelasi Pearson, kemudian dibandingkan dengan metode SBi-MSREimpute. Berdasarkan pada skor korelasi Pearson, metode Chronological Biclustering dengan basis PCor-MSRE merupakan metode yang cukup baik dibanding SBi-MSREimpute dalam mengimputasi missing values pada data GSE142693 jika missing rate-nya cukup besar (40%, 50% dan 60%) dengan penggunaan nilai yaitu  dan. Untuk nilai k yang lebih kecil dari 25, metode Chronological Biclustering dengan basis PCor-MSRE cukup baik digunakan (dibanding SBi-MSREimpute) jika jumlah observasi yang missing sebanyak 50% dan 60%. Performa metode Chronological Biclustering dengan basis PCor-MSRE semakin baik seiring dengan membesarnya nilai k yang digunakan. Artinya, performa metode Chronological Biclustering dengan basis PCor-MSRE dapat dipengaruhi oleh penentuan nilai k di awal.

Microarray technology is an analysis of the expression levels of tens of thousands of genes in parallel to see differences in gene expression. Microarray research produces a value that is summarized in a data called gene expression data. Gene expression data are generally large in size and widely used. However, gene expression data often suffer from missing values problems. Gene expression data generally contain a percentage of missing values of 10% or even up to 90% of genes having one or more missing values. One solution to overcome the missing values is to use the imputation technique. In this research, the method of imputing missing values Chronological Biclustering is proposed on the PCor - MSRE basis which is based on the biclustering concept. Determination of bicluster members with similar co-expressed traits and magnitude measures was carried out based on the Mean Squared Residue (MSR) score, the Euclidean distance, and the measure of the Pearson correlation distance between each gene and the gene containing missing values. The MSR score, Euclidean distance, and Pearson correlation distance measures were calculated for each gene, then k genes were selected that gave the smallest score for each criterion. Next, a bicluster is formed which is used to impute the missing observation values. This method is a development of the SBi-MSRE impute method which is suitable for use in non-time series or time series gene expression data. The method was implemented on the complete non-time series gene expression data GSE142693 regarding tumor cells of 12 Glioblastoma patients. In the GSE142693 data, MCAR missing values were constructed with a missing rate of 5%, 10%, 20%, 30%, 40%, 50%, and 60%. The performance of the method was measured by the NRMSE score and Pearson correlation, then compared with the SBi-MSREimpute method. Based on the Pearson correlation score, the Chronological Biclustering method with PCor - MSRE basis is a method that is quite good compared to SBi-MSRE impute in imputing missing values in GSE142693 data if the missing rate is large enough (40%, 50% and 60%) with the use of namely k=25,k=45,k=65,k=105,k=335, and k=375. For k values less than 25, the Chronological Biclustering method on the basis of PCor - MSRE is quite good to use (compared to SBi-MSRE impute) if the number of missing observations are 50% and 60%. The performance of the Chronological Biclustering method on the PCor - MSRE basis is getting better as the value of k used increases. This means that the performance of the Chronological Biclustering method on the PCor-MSRE basis can be affected by determining the initial k value."
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2021
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Luthfi Zahiya
"

Triclustering merupakan metode unsupervised learning yang bekerja pada data tiga dimensi dengan dimensi-dimensi berupa observasi, atribut, dan konteks. Tujuan dari triclustering adalah untuk membentuk himpunan submatriks yang disebut sebagai tricluster berdasarkan ketiga dimensi pada data yang diberikan. Data tiga dimensi banyak ditemukan dalam bidang biomedis, di mana hal tersebut turut mendorong penggunaan dan pengembangan triclustering untuk keperluan analisis data ekspresi gen di mana salah satu alternatif dimensi-dimensinya adalah gen, sampel, dan waktu (gene, sample, time) dan biasa juga disebut sebagai data GST. Salah satu metode triclustering yang dikembangkan untuk menganalisis data tiga dimensi short time-series adalah Order Preserving Tricluster (OPTricluster). OPTricluster mempertahankan sifat natural dimensi waktu yang berurutan dan mengelompokkan data ke dalam tricluster berdasarkan pola. Penelitian ini mengimplementasikan metode OPTricluster pada data GST biopsi otot rangka pria sehat yang berpuasa selama 24 jam. Tricluster-tricluster yang terbentuk dievaluasi menggunakan nilai Multi Slope Measure (MSL) untuk mengetahui kualitas grafis tricluster. MSL dikembangkan untuk mengevaluasi tricluster berisi data GST dan nilai MSL yang rendah menandakan kualitas tricluster yang baik. Berdasarkan analisis data GST, ditemukan bahwa penggunaan δ=1,7 menghasilkan tricluster pola constant dan divergent terbaik dan penggunaan δ=1,5 menghasilkan tricluster pola conserved terbaik. Namun, tricluster yang terbentuk mengindikasikan bahwa puasa selama 24 jam tidak menyebabkan banyak perubahan nilai ekspresi gen pada otot rangka manusia.


Triclustering is a method of unsupervised learning that runs on three-dimensional data where the dimensions are observation, attribute, and context. The objective of triclustering is to create a set of triclusters based on the three dimensions within the provided data. The abundance of three-dimensional data in the biomedical field is a big factor on the utilization and improvement of triclustering, particularly in the analysis of gene expression data which in it are the dimensions gene, sample, and time or abbreviated as GST data. One of the triclustering method developed to analyze three-dimensional short time-series data is Order Preserving Tricluster (OPTricluster). OPTricluster preserves the natural sequiential properties of the time dimension and organizes data into triclusters based on patterns. This study applies the OPTricluster method on the GST data from muscle biopsies from fasting healthy men. The formed triclusters are evaluated graphically using the Multi Slope Measure (MSL). A small MSL score indicates a good tricluster. Based on the analysis of GST data, δ=1,7 produces the best constant and divergent triclusters and δ=1,5 produces the best conserved triclusters. However, the triclusters formed suggest that fasting for 24 hours doesn’t have a lot of effect on gene expressions in human muscle.

"
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2024
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Adinda Dwi Putri
"Bioinformatika kerap digunakan oleh para peneliti untuk mempelajari berbagai penyakit yang ada pada tubuh manusia, salah satunya yaitu kanker payudara. Penelitian terhadap kanker payudara tersebut dilakukan dengan tujuan untuk menemukan jenis pengobatan terbaik bagi para pasien penderita kanker payudara. Data ekspresi gen merupakan salah satu komponen utama dalam penelitian mengenai pengobatan kanker payudara dan data tersebut dapat diperoleh dengan menggunakan alat dan teknologi microarray. Akan tetapi, seringkali ditemukan beberapa nilai yang hilang (missing values) pada data ekspresi gen yang dapat disebabkan oleh kesalahan teknis seperti kerusakan pada chip dan gambar. Adanya missing values juga dapat mengakibatkan masalah ketika proses analisis data selanjutnya, dimana terdapat metode analisis data yang memerlukan data lengkap seperti klasifikasi dan clustering. Oleh sebab itu, perlu dilakukan proses imputasi terhadap missing values agar hasil analisis data yang diperoleh lebih akurat. Pada penelitian ini, metode imputasi missing values yang digunakan yaitu SBi-MSREimpute. SBi-MSREimpute adalah metode imputasi berbasis biclustering dimana bicluster dibentuk berdasarkan suatu kriteria yang melibatkan skor Mean Squared Residue dan jarak Euclidean. Metode SBi-MSREimpute diimplementasikan pada data ekspresi gen pasien penderita kanker payudara stadium awal yang telah diberikan jenis obat MK-2206. Kinerja metode SBi-MSREimpute dilihat dengan membandingkan hasil imputasi metode SBi-MSREimpute dengan metode imputasi lain yaitu metode imputasi menggunakan weighted average berdasarkan skor Normalized Root-Mean-Square-Error (NRMSE). Hasil evaluasi dengan skor NRMSE tersebut menunjukkan bahwa kinerja metode SBi-MSREimpute dapat dipengaruhi oleh penentuan nilai k yang ada pada metode SBi-MSREimpute.

Bioinformatics is often used by researchers to study various diseases that exist in the human body, one of which is breast cancer. The research on breast cancer was conducted with the aim of finding the best type of treatment for breast cancer patients. Gene expression data is one of the main components in research on breast cancer treatment and this data can be obtained using microarray tools and technology. However, there are often missing values found in gene expression data that can be caused by technical errors such as damage to chips and images. The existence of missing values ​​can also cause problems during the data analysis process, where there are data analysis methods that require complete data such as classification and clustering. Therefore, it is necessary to carry out an imputation process for missing values ​​so that the data analysis results obtained are more accurate. In this study, the missing values ​​imputation method used was SBi-MSREimpute. SBi-MSREimpute is a biclustering-based imputation method where the bicluster is formed based on a criterion involving Mean Squared Residue and Euclidean Distance. In this study, the SBi-MSREimpute method was applied to the gene expression data of patients with early stage breast cancer who had been given the MK-2206 type of drug. The performance of the SBi-MSREimpute method is assessed by comparing the results of the imputation using SBi-MSREimpute method with other imputation methods, namely the imputation method using weighted average, based on the Normalized Root-Mean-Square-Error score (NRMSE). The results of the evaluation with NRMSE score showed that the performance of the SBi-MSREimpute method can be affected by the determination of k value in the SBi-MSREimpute method."
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2021
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Fenni Amalia
"Bioinformatika merupakan ilmu yang ditujukan untuk menganalisis informasi biologis. Dalam perkembangan penelitian bioinformatika, data diperoleh salah satunya dengan menggunakan teknologi microarray. Teknologi microarray digunakan oleh lingkup biologi molekuler dalam melihat perbedaan tingkat ekspresi gen dengan cara mengonversi gambar monokromik yang berisi ratusan bahkan ribuan gen dari sampel sel dan menghasilkan data ekspresi gen. Teknologi microarray sering kali menghasilkan data ekspresi gen yang hilang atau tidak terdeteksi akibat adanya kesalahan teknis. Oleh karena itu, diperlukannya suatu metode imputasi pada data untuk mengatasi missing values. Pada penelitian ini, akan dikembangkan suatu metode imputasi yang disebut Biclustering Terurut berbasis k-Nearest Neighbor, Mean Squared Residual, dan Jarak Euclidean. Metode ini merupakan metode imputasi berbasis biclustering dimana bicluster dibentuk berdasarkan suatu kriteria yang melibatkan skor Mean Squared Residue dan Jarak Euclidean. Penggunakan k-Nearest Neighbor sebagai metode pra-imputasi didasarkan pada data ekspresi gen yang sering kali memiliki pola kompleks dan sulit terdeteksi, sehingga perlu pendekatan yang dapat memetakan struktur korelasi pada data. k-Nearest Neighbor mempertimbangkan korelasi pada data microarray dengan menyeleksi kumpulan gen yang memiliki profil ekspresi mirip dengan gen yang ingin diimputasi (gen target). Pada penelitian ini, metode SBi-kNN-MSREimpute diterapkan pada data ekspresi gen pasien penderita COVID-19 yang dilakukan tes rapid harian. Evaluasi kinerja metode SBi-kNN-MSREimpute dilakukan dengan menggunakan NRMSE, dimana hasilnya dibandingkan dengan metode SBi-MSREimpute. Berdasarkan penelitian yang dilakukan, metode SBi-kNN-MSREimpute dinilai lebih baik dibandingkan dengan SBi-MSREimpute untuk setiap missing rate pada tingkatan c berbeda. Nilai c optimal untuk imputasi missing values pada data COVID-19 adalah c = 10% untuk missing rate 25%, 30%, 40% dan c = 15% untuk missing rate 5%, 10%, 15%, 20%, dan 50%. Hasil akhir juga menunjukkan bahwa nilai NRMSE untuk SBi-kNN-MSREimpute relatif stabil bahkan untuk data dengan missing rate tinggi hingga 50%.

Bioinformatics is a study designed to analyze biological information. In the development of bioinformatics research, data was obtained using microarray technology. Microarray technology is used by the scope of molecular biology in transposing hundreds and even thousands of genes from cellular samples simultaneously and producing a gene expression data. Microarray technology often produces data that is lost or undetected as a result of technical error. Therefore, an imputation method is needed to address the missing values. In this study, a new imputation method called Sequential Biclustering based k-Nearest Neighbor, Mean Squared Residual, and Euclidean Distance (SBi-kNN-MSRE) will be developed. This method is a biclustering-based imputation method where the bicluster is formed based on a criterion involving Mean Squared Residue and Euclidean Distance. The use of k-Nearest Neighbor as a pre-imputation method is based on data on gene expression that often has a complex and difficult pattern of detection, so it requires an approach that can map correlation structures on data. K-nearest neighbor considers a correlation on a microarray data by selecting groups of genes that have an expression profile similar to a gene that wants to be imputed (the target gene). In this study, the SBi-kNN-MSRE method was applied to the data on the genes of patients with covid-19 that daily rapid tests were performed. The performance evaluation of the SBi-kNN-MSRE method is done using NRMSE, where the results are compared to the SBi-MSRE method. According to the result, the SBi-kNN-MSRE method performed better than SBi-kNN-MSRE for each missing rate on different c levels. The optimal c value on the covid-19 data is c = 10% for missing rate 25%, 30%, 40% and c = 15% for missing rate 5%, 10%, 15%, 20% and 50%. The results also showed that NRMSE scores"
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2022
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Fahrezal Zubedi
"Pada penelitian ini mengimplementasikan algoritma Similarity Based Biclustering dengan menggunakan PAM clustering pada tiga dataset ekspresi gen microarray. Penelitian ini bertujuan untuk mengetahui ekspresi regulasi dari masing-masing bicluster yang diperoleh dan mengetahui kinerja algoritma Similarity Based Biclustering-PAM clustering berdasarkan hasil analisis kelompok kondisi. Similarity based biclustering-PAM clustering secara teoritis terdiri dari empat tahap utama yaitu: mentransformasi data, membangun matriks similaritas, proses clustering khususnya dalam tesis ini menggunakan metode partisi PAM dan mengekstrak bicluster. Algoritma similarity based biclustering-PAM clustering dapat mengetahui ekspresi regulasi dari tiap bicluster pada tiga dataset yaitu: Diabetes Melitus tipe II, Diabetes Retinopati, dan Limfoma. Akurasi yang diperoleh dari algoritma Similarity Based Biclustering untuk masing-masing dataset yaitu Diabetes Melitus tipe II sebesar 0.55, Diabetes Retinopati sebesar 0.80 dan Limfoma sebesar 0.83.

In this research implements Similarity Based Biclustering algorithm by using PAM Clustering method in three dataset of microarray gene expression. Aim of this research is to know the regulated expression of each obtained bicluster and to know the performance of Similarity Based Biclustering PAM Clustering algorithm based on the result of group condition analysis. Similarity Based Biclustering is theoretically composed of four main stages transforming data, constructing matrix similarity, clustering process, especially in this thesis using PAM partition algorithm and extracting bicluster. Similarity Based Biclustering PAM is able to know the regulatory expression of each bicluster in three datasets Diabetes Mellitus type 2, Diabetes Retinopathy, and Lymphoma. Accuracy obtained from Similarity Based Biclustering algorithm for each dataset is 0.55 in data of type 2 diabetes mellitus, 0.80 in diabetic retinopathy data and 0.83 in lymphoma data.
"
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2018
T49505
UI - Tesis Membership  Universitas Indonesia Library
cover
Soeganda Formalidin
"Penelitian ini bertujuan untuk mencari korelasi yang kuat antar gen dan kondisi dari data ekspresi gen penyakit Diabetes Melitus (DM) pada sampel obesitas dan sampel kurus dengan menggunakan metode three phase biclustering. Tahap pertama pada metode ini adalah dengan menggunakan matriks dekomposisi Singular Value Decomposition (SVD) yang mentransformasikan data menjadi dua matriks berbasis gen dan kondisi. Selanjutnya pada tahap kedua menggunakan metode partisi Partition Around Medoids (PAM) pada dua matriks gen dan kondisi menggunakan jarak Euclidean sehingga jika digabung akan membentuk bicluster yang pada tahap tiga akan dievaluasi dengan menggunakan modifikasi lift algorithm berbasiskan korelasi Pearson yang cocok untuk mendeteksi bicluster model additive-multiplicative. Hasil dari implementasi algoritma yang digunakan pada dataset microarray dinamakan δ-corbicluster yang memiliki korelasi yang tinggi antar gen dan sampel. Implementasi dari tahap pertama dan kedua (SVDPAM) pada dataset DM dengan 1331 gen terseleksi menghasilkan 8 bicluster. Sedangkan hasil tahap ketiga yaitu modifikasi algoritma lift pada kedelapan bicluster ini menghasilkan 3 δ-corbicluster dengan masing-masing nilai korelasi yang tinggi yaitu 0,097, 0,095, 0,085, sehingga metode yang diusulkan dan hasil analisisnya pada gen dan sampel penyakit DM memiliki potensi besar ke depannya dalam penelitan pada bidang medis.

The purpose of this research is to find strong correlation among genes and conditions of Diabetes Melitus genes expression data which samples are obese and lean people using three phase biclustering. First step is to use matrix decomposition Singular Value Decomposition (SVD) to decompose matrix gene expression data into two global based gene and condition matrices. Second step is to use partition method Partition Around Medoid (PAM) to cluster gene and condition based matrices using Euclidean distance, forming several biclusters which further evaluated using modified lift algorithm based on Pearson correlation which is very appropriate method to detect additive-multiplicative bicluster type. The resulting bicluster of the proposed algorithm having strong correlation among genes and samples to microarray dataset are called δ-corbicluster. Implementation of the first and second step (SVD-PAM) to dataset DM with 1331 selected genes produces 8 biclusters. For the third step using modified lift algorithm to these 8 biclusters produces 3 δ-corbiclusters having strong correlation values: 0,097, 0,0095, 0,085, so that the proposed method and the result of analysis to genes and samples of DM have high potential in future medical researches.
"
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2018
T49441
UI - Tesis Membership  Universitas Indonesia Library
cover
Sofia Debi Puspa
"Penelitian ini bertujuan untuk mengimplementasikan similarity based biclustering SBB dalam memperoleh bicluster sekumpulan gen dengan ekspresi yang similar di bawah kondisi tertentu yang signifikan pada data microarray. Secara teoritis similarity based biclustering terdiri atas tiga tahap utama, yaitu: membangun matriks similaritas baris gen dan matriks similaritas kolom kondisi , mempartisi masing-masing matriks similaritas dengan hard clustering khususnya dalam penelitian ini menggunakan partisi k-means, dan ekstrak bicluster. Sebelum mengimplementasikan metode SBB, strategi seleksi gen diterapkan dan selanjutnya dilakukan normalisasi. Perolehan evaluasi indeks silhouette pada dataset diabetic nephropathy, diabetic retinopathy dan lymphoma berturut-turut pada cluster kondisi yaitu 0,8304; 0,7853 dan 0,7382, sedangkan indeks silhouette untuk cluster gen yaitu 0,5382; 0,5408 dan 0,5464. Dan dari hasil analisis cluster kondisi, akurasi dari dataset diabetic nephropathy dan diabetic retinopathy yaitu 100 , sedangkan dataset lymphoma yaitu 98 . Selanjutnya dapat diketahui regulasi proses seluler yang terjadi pada bicluster dari ketiga dataset. Hasil analisis menunjukkan bahwa gen-gen yang diperoleh dari bicluster sesuai dengan fungsi gen dan proses biologis didukung oleh GO enrichment sehingga menjadi potensi yang besar bagi praktisi medis dalam tindak lanjut suatu penyakit yang diderita oleh pasien.

This study aims to implement similarity based biclustering SBB in obtaining a bicluster a set of genes that exhibit similar levels of gene expression under certain conditions that is significant in microarray data. Theoretically, similarity based biclustering consists of three main phase constructing the row gene similarity matrix and the column condition similarity matrix, partitioning each matrix similarity with hard clustering especially in this research using k means partition, and extracting bicluster. Before implementing the SBB method, the gene selection strategy is applied and subsequently normalized. The acquisition of silhouette index evaluation in diabetic nephropathy, diabetic retinopathy, and lymphoma on cluster condition respectively is 0.8304, 0.7853 and 0.7382, while the silhouette index for the gene cluster is 0.5382, 0.5408 and 0.5464. In addition, according to the cluster condition analysis, accuracy of dataset diabetic nephropathy and diabetic retinopathy is 100 , whereas dataset lymphoma is 98 . Furthermore, it can be known cellular regulation that occurs on the bicluster of the three datasets. The results of the analysis show that the genes obtained from bicluster are relevant to the function of genes and biological processes supported by GO enrichment , therefore it becomes a great potential for medical practitioners in the follow up of a disease suffered by the patient.
"
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2018
T49530
UI - Tesis Membership  Universitas Indonesia Library
cover
Adib Hanafi
"Teknologi microarray merupakan salah satu teknologi yang berkembang dalam bidang bioinformatika. Salah satu teknologi microarray dalam bidang kesehatan, yaitu untuk mendeteksi adanya gen pada DNA individu yang menghasilkan data ekspresi gen. Pada data ekspresi gen, sering kali ditemukan informasi yang hilang sehingga membuat terhambatnya analisis lebih lanjut pada data ekspresi gen. Pada penelitian ini, diusulkan metode imputasi missing values Sequential Biclustering berbasis Shifting-and-Scaling Similarity dan Mean Square Residue (SSSim-MSR). Penentuan anggota bicluster dengan kesamaan sifat co-expressed dan pendeteksian pola shifting-and-scaling dilakukan berdasarkan pada skor Mean Squared Residue (MSR) dan skor Shifting-and-Scaling Similarity (SSSim) antara masing-masing gen dengan gen yang mengandung missing values. Performa metode diukur dengan skor korelasi Pearson dan skor NRMSE, lalu dibandingkan dengan metode Chronological Biclustering berbasis PCor-MSRE. Berdasarkan pada skor korelasi Pearson, metode Sequential Biclustering dengan basis SSSim-MSR merupakan metode yang cukup baik dibandingkan metode Chronological Biclustering berbasis PCor-MSRE pada missing rate sebesar 20% dan 50% untuk setiap nilai k. Untuk setiap missing rate pada nilai k lainnya, skor korelasi Pearson yang dihasilkan belum tentu bernilai lebih besar untuk nilai k yang lebih besar. Hal ini dapat terjadi karena perseberan porporsi pola shifting-and-scaling dan yang tidak berpola shifting-and-scaling pada data yang digunakan cenderung sama, sehingga pada tahap pembentukan bicluster yang didasarkan pada keserupaan pola dan pendeteksian pola shifting-and-scaling dapat memengaruhi keserupaan pola yang dibentuk.

Microarray technology is one of the emerging technologies in the field of bioinformatics. One of the microarray technologies in the health sector is to detect the presence of genes in individual DNA that produce gene expression data. In gene expression data, missing information is often found, which hinders further analysis of gene expression data. In this study, a method of imputing missing values Sequential Biclustering based on Shifting-and-Scaling Similarity and Mean Square Residue (SSSim - MSR) is proposed. Determination of bicluster members with similar co-expressed characteristics and detection of shifting-and-scaling patterns is carried out based on the score. Mean Squared Residue (MSR) and Shifting-and-Scaling Similarity (SSSim) scores between each gene and genes containing missing values. The performance of the method was measured by the Pearson correlation score and the NRMSE score, then compared with the Chronological Biclustering method on the basis of PCor – MSRE. Based on the Pearson correlation score, the Sequential Biclustering method on the basis of SSSim – MSR is a fairly good method compared to the Chronological Biclustering method at a missing rate of 20% and 50% for each value of k. For each other missing rate for k values, the resulting Pearson correlation score is not necessarily greater for larger k values. This can happen because the proportions of shifting-and-scaling and non-shifting-and-scaling patterns in the data used tend to be the same, so that at the stage of bicluster formation based on pattern similarity and detection of shifting-and-scaling patterns can detect similarity of pattern."
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2022
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Kevin Prawira
"Studi mengenai kesehatan terus dikembangkan untuk meneliti dan mengetahui struktur penyusun makhluk hidup dalam dunia ini. Salah satunya adalah studi mengenai gen yang telah dikembangkan melalui teknologi microarray yang dapat menghasilkan data ekspresi gen. Namun sayangnya, studi ini sering terhambat akibat banyaknya informasi yang hilang pada data ekspresi gen tersebut, sehingga analisis lebih lanjut mengenai data ekspresi gen sulit dilanjutkan. Oleh karena itu, dibutuhkan suatu metode imputasi untuk mengisi hilangnya informasi tersebut sehingga analisis dapat dilanjutkan dan dikembangkan dengan lebih luas lagi. Pada penelitian ini, dikembangkan sebuah metode imputasi baru bernama SBi-BPCA-MSREimpute yang menggunakan perpaduan Bayesian Principal Component Analysis (BPCA), Biclustering serta jarak Euclidean dalam melakukan prediksi nilai imputasi. Metode ini menggunakan pendekatan hybrid dalam imputasinya, yaitu dengan metode BPCA (global) sebagai metode pra-imputasi, serta penggunaan metode nearest neighbour (lokal) dalam penentuan bicluster untuk memetakan gen yang memiliki pola sama dengan gen target. Penggunaan BPCA didasarkan pada struktur korelasi data yang besar, sehingga BPCA cocok digunakan untuk mereduksi dimensi data. Adapun penentuan nearest neighbour sebagai bentuk bicluster didasarkan pada nilai mean squared residual serta jarak Euclidean terhadap gen target. Akibatnya, bicluster yang terpilih merupakan gen kandidat yang memiliki sifat sama dengan gen target. Perhitungan nilai imputasi akhir dihitung menggunakan rata-rata terboboti pada anggota bicluster, serta normalized root mean squared error digunakan sebagai pengukuran evaluasi. Percobaan imputasi menggunakan metode SBi-BPCA-MSREimpute dilakukan pada data ekspresi gen sel kanker usus besar dengan percobaan tingkat missing rate 5%, 10%, 15%, 20%, 25%, 30%, 40%, serta 50%. Terdapat beberapa k neighbour gen yang diuji yaitu pada tingkat k = 5%,10%,15%,20%,25% dari banyaknya baris pada data. Pengujian menunjukkan bahwa SBi-BPCA-MSREimpute merupakan metode imputasi yang lebih baik daripada SBi-MSREimpute. Pengujian juga mendapatkan hasil bahwa nilai k = 5%,10%,15%,25% paling optimal digunakan pada data dengan missing rates 15% serta k = 20% paling optimal digunakan pada data dengan missing rate 10%. Berdasarkan missing rates, data dengan missing rates 5%, 10%, 15%, 20%, 25%, 30%, 40% paling optimal diimputasi menggunakan tingkat k = 5%, sedangkan data dengan missing rates 50% paling optimal diimputasi menggunakan tingkat k = 10%.

"
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2021
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Mush`ab Muzzammil
"Ekspresi gen adalah proses pembentukan molekul protein dengan cara menguraikan informasi yang terkandung dalam gen. Ekspresi gen dapat diubah menjadi data numerik dengan bantuan teknologi microarray. Penyakit chronic lymphocytic leukemia (CLL) merupakan salah satu penyakit kanker yang terjadi karena pembentukan lymphocytes yang tidak normal pada sumsum tulang. Data ekspresi gen dari pasien CLL dapat diperoleh dengan menggunakan teknologi microarray. Namun, penggunaan teknologi microarray dapat menghasilkan missing values pada data ekspresi gen CLL akibat dari adanya goresan atau debu pada microarray slides. Keberadaan missing values dapat mengakibatkan hasil analisis menjadi bias dan tidak merepresentasikan sifat aslinya. Untuk mengatasi hal tersebut, salah satu pendekatan yang dapat dilakukan adalah dengan melakukan imputasi missing values. Imputasi adalah proses mengisi missing values berdasarkan informasi yang terdapat dalam data. Nilai pada data hasil imputasi diharapkan mendekati nilai dari elemen yang hilang. Proses imputasi menghasilkan data yang lengkap sehingga analisis selanjutnya dapat berjalan dengan baik dan diperoleh hasil yang lebih akurat. Pada penelitian ini dilakukan proses imputasi missing values dengan metode imputasi Cosine Similarity Based Biclustering dan Normalized Mean Residue Similarity (NMRS) Based Biclustering. Metode Cosine Similarity Based Biclustering dan NMRS Based Biclustering melakukan imputasi dengan memanfaatkan analisis biclustering berbasis korelasi cosine similarity dan NMRS. Data yang digunakan untuk melakukan penelitian ini adalah data numerik berupa ekspresi gen pada pasien chronic lymphocytic leukemia (CLL). Kinerja dari metode imputasi pada penelitian ini dievaluasi dengan menghitung korelasi Pearson dari nilai asli pada data awal dengan nilai pada data yang sudah dilakukan imputasi. Hasil evaluasi dari kinerja metode imputasi menggunakan Cosine Similarity Based Biclustering dan NMRS Based Biclustering dibandingkan dengan kinerja metode imputasi K-Means. Berdasarkan hasil penelitian, didapatkan nilai koefisien korelasi Pearson dari metode imputasi menggunakan Cosine Similarity Based Biclustering dan NMRS Based Biclustering untuk missing rate 5%, 15%, 25%, 35% dan 45% memiliki rentang yang lebih tinggi dibandingkan metode imputasi K-Means, dengan sebagian besar nilai korelasi Pearson di atas 0,96. Selain itu metode NMRS Based Biclustering memiliki rentang korelasi Pearson paling tinggi, sehingga dapat dikatakan metode NMRS Based Biclustering menghasilkan nilai imputasi terbaik di antara metode yang digunakan untuk mengisi missing values pada data CLL.

Gene expression is the process of forming protein molecules by deciphering the information contained in genes. Gene expression can be converted into numerical data using microarray technology. Chronic lymphocytic leukemia (CLL) is cancer that occurs due to the formation of abnormal lymphocytes in the bone marrow. Gene expression data from CLL patients can be obtained using microarray technology. However, the use of microarray technology can produce missing values in the CLL gene expression data due to scratches or dust on the microarray slides. The existence of missing values can lead to analysis results being biased and not representing their true nature. To overcome this, one approach that can be taken is to impute missing values. Imputation is the process of filling in the missing values based on the information contained in the data. The value of the imputed data is expected to be close to the value of the missing element. The imputation process produces complete data so that further analysis can run well and obtained more accurate results. In this study, the imputation process for missing values was carried out using the Cosine Similarity Based Biclustering and Normalized Mean Residue Similarity (NMRS) Based Biclustering imputation methods. Cosine Similarity Based Biclustering and NMRS Based Biclustering methods perform imputation by utilizing biclustering analysis based on cosine similarity correlation and NMRS. The data used to conduct this research is numerical data in the form of gene expression in chronic lymphocytic leukemia (CLL) patients. The performance of the imputation method in this study was evaluated by calculating the Pearson correlation of the original value in the initial data with the value in the imputed data. The results of the evaluation of the performance of the imputation method using Cosine Similarity Based Biclustering and NMRS Based Biclustering were compared with the performance of the K-Means imputation method. Based on the results of the study, the Pearson correlation coefficient values obtained from the imputation method using Cosine Similarity Based Biclustering and NMRS Based Biclustering for missing rates of 5%, 15%, 25%, 35% and 45% have a higher range than the K-Means imputation method, with most Pearson correlation values above 0.96. In addition, the NMRS Based Biclustering method has the highest Pearson correlation range, so it can be said that the NMRS Based Biclustering method produces the best imputation value among the methods used to fill in the missing values in CLL data."
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2021
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
<<   1 2 3 4 5 6 7 8 9 10   >>