Hasil Pencarian  ::  Simpan CSV :: Kembali

Hasil Pencarian

Ditemukan 121374 dokumen yang sesuai dengan query
cover
Soeganda Formalidin
"Penelitian ini bertujuan untuk mencari korelasi yang kuat antar gen dan kondisi dari data ekspresi gen penyakit Diabetes Melitus (DM) pada sampel obesitas dan sampel kurus dengan menggunakan metode three phase biclustering. Tahap pertama pada metode ini adalah dengan menggunakan matriks dekomposisi Singular Value Decomposition (SVD) yang mentransformasikan data menjadi dua matriks berbasis gen dan kondisi. Selanjutnya pada tahap kedua menggunakan metode partisi Partition Around Medoids (PAM) pada dua matriks gen dan kondisi menggunakan jarak Euclidean sehingga jika digabung akan membentuk bicluster yang pada tahap tiga akan dievaluasi dengan menggunakan modifikasi lift algorithm berbasiskan korelasi Pearson yang cocok untuk mendeteksi bicluster model additive-multiplicative. Hasil dari implementasi algoritma yang digunakan pada dataset microarray dinamakan δ-corbicluster yang memiliki korelasi yang tinggi antar gen dan sampel. Implementasi dari tahap pertama dan kedua (SVDPAM) pada dataset DM dengan 1331 gen terseleksi menghasilkan 8 bicluster. Sedangkan hasil tahap ketiga yaitu modifikasi algoritma lift pada kedelapan bicluster ini menghasilkan 3 δ-corbicluster dengan masing-masing nilai korelasi yang tinggi yaitu 0,097, 0,095, 0,085, sehingga metode yang diusulkan dan hasil analisisnya pada gen dan sampel penyakit DM memiliki potensi besar ke depannya dalam penelitan pada bidang medis.

The purpose of this research is to find strong correlation among genes and conditions of Diabetes Melitus genes expression data which samples are obese and lean people using three phase biclustering. First step is to use matrix decomposition Singular Value Decomposition (SVD) to decompose matrix gene expression data into two global based gene and condition matrices. Second step is to use partition method Partition Around Medoid (PAM) to cluster gene and condition based matrices using Euclidean distance, forming several biclusters which further evaluated using modified lift algorithm based on Pearson correlation which is very appropriate method to detect additive-multiplicative bicluster type. The resulting bicluster of the proposed algorithm having strong correlation among genes and samples to microarray dataset are called δ-corbicluster. Implementation of the first and second step (SVD-PAM) to dataset DM with 1331 selected genes produces 8 biclusters. For the third step using modified lift algorithm to these 8 biclusters produces 3 δ-corbiclusters having strong correlation values: 0,097, 0,0095, 0,085, so that the proposed method and the result of analysis to genes and samples of DM have high potential in future medical researches.
"
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2018
T49441
UI - Tesis Membership  Universitas Indonesia Library
cover
Fahrezal Zubedi
"Pada penelitian ini mengimplementasikan algoritma Similarity Based Biclustering dengan menggunakan PAM clustering pada tiga dataset ekspresi gen microarray. Penelitian ini bertujuan untuk mengetahui ekspresi regulasi dari masing-masing bicluster yang diperoleh dan mengetahui kinerja algoritma Similarity Based Biclustering-PAM clustering berdasarkan hasil analisis kelompok kondisi. Similarity based biclustering-PAM clustering secara teoritis terdiri dari empat tahap utama yaitu: mentransformasi data, membangun matriks similaritas, proses clustering khususnya dalam tesis ini menggunakan metode partisi PAM dan mengekstrak bicluster. Algoritma similarity based biclustering-PAM clustering dapat mengetahui ekspresi regulasi dari tiap bicluster pada tiga dataset yaitu: Diabetes Melitus tipe II, Diabetes Retinopati, dan Limfoma. Akurasi yang diperoleh dari algoritma Similarity Based Biclustering untuk masing-masing dataset yaitu Diabetes Melitus tipe II sebesar 0.55, Diabetes Retinopati sebesar 0.80 dan Limfoma sebesar 0.83.

In this research implements Similarity Based Biclustering algorithm by using PAM Clustering method in three dataset of microarray gene expression. Aim of this research is to know the regulated expression of each obtained bicluster and to know the performance of Similarity Based Biclustering PAM Clustering algorithm based on the result of group condition analysis. Similarity Based Biclustering is theoretically composed of four main stages transforming data, constructing matrix similarity, clustering process, especially in this thesis using PAM partition algorithm and extracting bicluster. Similarity Based Biclustering PAM is able to know the regulatory expression of each bicluster in three datasets Diabetes Mellitus type 2, Diabetes Retinopathy, and Lymphoma. Accuracy obtained from Similarity Based Biclustering algorithm for each dataset is 0.55 in data of type 2 diabetes mellitus, 0.80 in diabetic retinopathy data and 0.83 in lymphoma data.
"
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2018
T49505
UI - Tesis Membership  Universitas Indonesia Library
cover
Siregar, Anggrainy Togi Marito
"Data tiga dimensi banyak ditemukan terutama dalam bidang biomedical dan sosial. Contoh data tiga dimensi adalah data gen-sampel-waktu, individual-fitur-waktu, atau node-node-time,yang umumnya disebut sebagai data konteks-atribut-observasi. Salah satu teknik dalam mengelola data tiga dimensi yaitu triclustering. Penelitian ini menggunakan metode THD-Tricluster untuk mendapatkan hasil triclustering pada data 3 dimensi penyakit AIDS yang disebabkan oleh virus Human Immunodeficiency Virus Tipe 1 (HIV-1). Pencarian triclustering tersebut dilakukan melalui tahap biclustering yang dilakukan pada setiap kondisi. Penelitian ini dengan memodifikasi algoritma Cheng & Church (CC) untuk menghasilkan biclustering dengan ukuran yang digunakan yaitu transposed virtual error ) yang mampu mengelompokkan data berdasarkan pola pergeseran (shifting) dan penskalaan (scaling). Hasil bicluster tersebut yang kemudian diiriskan pada masing-masing kondisi sehingga menghasilkan triclustering. Keseluruhan penelitian ini dilakukan pada program RStudio. Setiap tricluster memiliki suatu kedalaman yang dapat ditentukan bergantung pada banyak kondisi yang diiriskan. Implementasi ukuran transposed virtual error pada triclustering ini menghasilkan 4 tricluster pada kedalaman empat. Evaluasi tricluster tersebut dilakukan dengan menggunakan inter temporal homogeneity dan diperoleh nilai korelasi tricluster antar kondisi di atas 0.9. Dari hasil triclustering tersebut dianalisis probe id gen yang berpengaruh pada penyakit AIDS. Dari analisis tersebut ditemukan 2 simbol gen yang berhubungan dengan penyakit AIDS yang disebabkan oleh HIV-1 yang ada pada setiap kondisi penderita HIV-1 normal, akut, kronis, dan nonprogressor yaitu HLA-C dan ELF-1.
Three-dimensional data are mainly found in biomedical and social fields. Examples of three-dimensional data are gene-sample-time, individual-feature-time, or node-node-time Data, commonly referred to as context-attribute-observation data. One of the techniques in managing three-dimensional data is triclustering. This study uses the THD Tricluster method to obtain triclustering results in 3-dimensional data on AIDS caused by the HIV-1 virus. The Triclustering search is carried out through biclustering stages carried out in each condition. This study modifies the Cheng & Church (CC) algorithm to produce a bicluster using the measure called transposed virtual error ( which is able to group data based on shifting and scaling patterns. The biclustering results are then sliced under each condition to produce a tricluster. This research was conducted in the RStudio program. Each tricluster has a depth that can be determined depending on the many overlapping conditions. The implementation of the transposed virtual error size on biclustering results in 4 triclusters with a depth of four. The tricluster evaluation was carried out using inter temporal homogeneity and obtained a tricluster correlation value between conditions that was above 0.9. Then, the probe id genes that affect AIDS were analyzed from the results of the triclustering. From this analysis, 2 symbol genes associated with AIDS caused by HIV-1 were found in every condition of HIV-1 sufferers, which are normal, acute, chronic, and non-progressor HIV-1 sufferers, namely HLA-C and ELF-1."
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2020
T-pdf
UI - Tesis Membership  Universitas Indonesia Library
cover
Bulan Firdanisa
"Penelitian bioinformatika sering diterapkan untuk mempelajari penyakit dalam tubuh manusia. Penelitian yang sampai saat ini masih aktif dilakukan ialah penelitian terhadap pasien penderita kanker. Tujuan dari berbagai penelitian ini yaitu untuk menemukan pengobatan terbaik bagi pasien penderita kanker. Salah satu pengobatan yang baru ini muncul dikenal sebagai imunoterapi. Imunoterapi memungkinkan sel-sel imun tubuh kita sendiri digunakan untuk melawan sel-sel kanker. Instrumen utama dalam penelitian terhadap efektifitas imunoterapi juga kasus bioinformatika lainnya ialah data ekspresi gen. Namun, pada data ekspresi gen seringkali ditemukan nilai yang hilang atau missing values yang biasanya disebabkan oleh kerusakan gambar atau kesalahan dalam proses hibridisasi. Keberadaan missing values pada data ekspresi gen dapat menyebabkan kesulitan pada analisis lebih lanjut, di mana banyak analisis ekspresi gen memerlukan data yang lengkap seperti klasifikasi dan pengelompokan. Oleh karena itu, perlu dilakukan imputasi terhadap missing values agar analisis yang dilakukan dapat lebih akurat. Pada penelitian ini dilakukan imputasi menggunakan metode Bi-BPCA. Bi-BPCA merupakan metode imputasi dengan mengombinasikan analisis biclustering dan imputasi BPCA. Metode Bi-BPCA diterapkan pada data ekspresi gen di sekitar kanker setelah dilakukan imunoterapi. Setelah itu, performa dari metode Bi-BPCA dilihat dengan membandingkan hasil imputasi metode Bi-BPCA dengan metode imputasi lainnya diantaranya imputasi menggunakan rata-rata baris, rata-rata kolom, dan metode imputasi BPCA melalui nilai NRMSE. Selain itu, koefisien korelasi Pearson digunakan untuk menghitung korelasi antara nilai hasil imputasi metode Bi-BPCA dengan nilai aslinya. Berdasarkan penelitian ini metode Bi-BPCA menghasilkan NRMSE kurang dari 0.6 untuk missing rate 1-30%, lebih rendah dibandingkan NRMSE dari metode imputasi lainnya. Kemudian, metode Bi-BPCA menghasilkan nilai koefisien korelasi Pearson mayoritas di atas 0.9 mendekati 1. Hasil ini menunjukkan bahwa metode Bi-BPCA menghasilkan nilai imputasi yang lebih baik untuk menggantikan missing values dibandingkan dengan metode imputasi BPCA, rata-rata kolom, dan rata-rata baris.

Bioinformatics research is often applied to study diseases in the human body. Research that is still actively being carried out is research on cancer patients. The aim of those studies is to find the best treatment for cancer patients. One treatment that has recently emerged is known as immunotherapy. Immunotherapy allows our body's own immune cells to be used to fight cancer cells. The main instrument in research on the effectiveness of immunotherapy as well as other cases of bioinformatics is gene expression data.. However, in gene expression data, it is often found missing values which are usually caused by image defects and errors in the hybridization process. The existence of missing values in gene expression data can cause difficulties in further analysis, where many analysis of gene expression requires complete data such as classification and clustering. Therefore, it is necessary to impute the missing values so that the analysis can be carried out more accurately. In this study, imputation was carried out using the Bi-BPCA method. Bi-BPCA is an imputation method by combining biclustering analysis and BPCA imputation. The Bi-BPCA method was applied to gene expression data around cancer after immunotherapy. After that, the performance of the Bi-BPCA method was seen by comparing the imputation results of the Bi-BPCA method with other imputation methods including imputation using row averages, column averages, and the BPCA imputation method through the NRMSE value. In addition, the Pearson correlation coefficient was used to calculate the correlation between the imputed value of the Bi-BPCA method and the original value. Based on this study, the Bi-BPCA method produces NRMSE values less than 0.6 for missing rates 1 to 30 percent, which is lower than NRMSE from other imputation methods. In addition, the Bi-BPCA method produces in a majority Pearson correlation coefficient above 0.9. These results indicate that the Bi-BPCA method produces better imputation values to replace the missing values."
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2021
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Sofia Debi Puspa
"Penelitian ini bertujuan untuk mengimplementasikan similarity based biclustering SBB dalam memperoleh bicluster sekumpulan gen dengan ekspresi yang similar di bawah kondisi tertentu yang signifikan pada data microarray. Secara teoritis similarity based biclustering terdiri atas tiga tahap utama, yaitu: membangun matriks similaritas baris gen dan matriks similaritas kolom kondisi , mempartisi masing-masing matriks similaritas dengan hard clustering khususnya dalam penelitian ini menggunakan partisi k-means, dan ekstrak bicluster. Sebelum mengimplementasikan metode SBB, strategi seleksi gen diterapkan dan selanjutnya dilakukan normalisasi. Perolehan evaluasi indeks silhouette pada dataset diabetic nephropathy, diabetic retinopathy dan lymphoma berturut-turut pada cluster kondisi yaitu 0,8304; 0,7853 dan 0,7382, sedangkan indeks silhouette untuk cluster gen yaitu 0,5382; 0,5408 dan 0,5464. Dan dari hasil analisis cluster kondisi, akurasi dari dataset diabetic nephropathy dan diabetic retinopathy yaitu 100 , sedangkan dataset lymphoma yaitu 98 . Selanjutnya dapat diketahui regulasi proses seluler yang terjadi pada bicluster dari ketiga dataset. Hasil analisis menunjukkan bahwa gen-gen yang diperoleh dari bicluster sesuai dengan fungsi gen dan proses biologis didukung oleh GO enrichment sehingga menjadi potensi yang besar bagi praktisi medis dalam tindak lanjut suatu penyakit yang diderita oleh pasien.

This study aims to implement similarity based biclustering SBB in obtaining a bicluster a set of genes that exhibit similar levels of gene expression under certain conditions that is significant in microarray data. Theoretically, similarity based biclustering consists of three main phase constructing the row gene similarity matrix and the column condition similarity matrix, partitioning each matrix similarity with hard clustering especially in this research using k means partition, and extracting bicluster. Before implementing the SBB method, the gene selection strategy is applied and subsequently normalized. The acquisition of silhouette index evaluation in diabetic nephropathy, diabetic retinopathy, and lymphoma on cluster condition respectively is 0.8304, 0.7853 and 0.7382, while the silhouette index for the gene cluster is 0.5382, 0.5408 and 0.5464. In addition, according to the cluster condition analysis, accuracy of dataset diabetic nephropathy and diabetic retinopathy is 100 , whereas dataset lymphoma is 98 . Furthermore, it can be known cellular regulation that occurs on the bicluster of the three datasets. The results of the analysis show that the genes obtained from bicluster are relevant to the function of genes and biological processes supported by GO enrichment , therefore it becomes a great potential for medical practitioners in the follow up of a disease suffered by the patient.
"
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2018
T49530
UI - Tesis Membership  Universitas Indonesia Library
cover
Achmad Eriza Aminanto
"Analisis biclustering merupakan pengembangan analisis clustering, dimana analisis biclustering merupakan proses partisi data matriks menjadi sub-matriks berdasarkan baris dan kolom secara simultan. Salah satu metode analisis bicluster yaitu dengan menggunakan model probabilistik, contohnya adalah Plaid model yang dapat memberikan hasil bicluster yang bersifat overlapping. Plaid model, memperhitungkan nilai elemen yang diberikan dari suatu sub-matriks tertentu, sehingga pada analisis biclustering dapat dilihat sebagai jumlah kontribusi atau efek dari bicluster tertentu. Tahapan analisis biclustering dengan plaid model diawali dengan input data berbentuk matriks, kemudian dilakukan penaksiran model awal dan membuat matriks residual dari model tersebut. Kemudian penentuan kandidat bicluster. Kandidat tersebut ditaksir parameter efeknya dan parameter keanggotaan bicluster. Terakhir dilakukan pemangkasan kandidat bicluster tersebut. Implementasi dilakukan pada data matriks ekspresi gen berupa data numerik yaitu data penyakit kanker usus, dimana baris berisikan observasi atau pasien sedangkan kolom berisikan jenis dari gen yang dilakukan dalam 6 skenario. Masing-masing skenario menggunakan parameter model dan nilai threshold berbeda. Validasi hasil implementasi menggunakan indeks Jaccard yaitu kedektahan hasil anggota bicluster dan variansi koherensi. Hasil implementasi menunjukkan penggunaan model yang lebih sederhana yang hanya menggunakan efek mean memberikan variansi koherensi yang lebih tinggi dibandingkan penggunaan model yang berisi mean, efek baris, dan efek kolom dari bicluster.

Biclustering analysis is the development of clustering analysis, which is the process of partitioning matrix data into sub-matrices based on rows and columns simultaneously. One method of bicluster analysis is using probabilistic model, for example the Plaid model that provide overlapping bicluster. Plaid model, calculates the value of an element given from a particular sub-matrix, thus can be seen as number of contributions of particular bicluster. The process begins with matrix data input, then an initial model is assessed and makes a residual matrix from the model. Then determining bicluster candidates. The candidate assessed for its effect parameters and bicluster membership parameters. Finally, the bicluster candidate was prunned. The implementation is carried out on the gene expression matrix data in form of numerical data, namely colon cancer data, where the rows contain observations while the columns contain the types of genes carried out in 6 scenarios. Each scenario uses different model parameters and threshold values. Validation of the implementation results using Jaccard index and coherence variance. Implementation results show that simpler model which only uses mean effect gives higher coherence variance than using model that contains mean, row, and column effect of the bicluster."
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2019
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Wutun, Theresia Bunga Palang
"ABSTRAK

Pada penelitian ini diterapkan algoritma FABIAS (Factor Analysis for Bicluster Acquisition: Sparseness Projection) untuk mendeteksi biomarker penyakit Alzheimer pada dataset berupa 54675 data microarray ekspresi gen penyakit Alzheimer dari 161 sampel. Penelitian ini terdiri dari ekstraksi data dan seleksi gen, ekstraksi bicluster, interpretasi biologis untuk setiap bicluster, dan pendeteksian biomarker penyakit Alzheimer pada dataset yang diteliti. Hasil yang diperoleh dari penelitian ini ditemukan pada 3 daerah otak yakni daerah HIP, daerah PC, dan daerah VCX. Gen-gen biomarker penyakit Alzheimer tersebut antara lain gen BIN1, SORL1, dan CLU. Penemuan tiga gen biomarker penyakit Alzheimer dari beberapa bicluster yang dihasilkan dari penerapan algoritma FABIAS ini membuka kemungkinan adanya gen biomarker penyakit Alzheimer yang baru dari bicluster lain dengan sampel berkondisi sakit.


ABSTRACT


In this research, FABIAS algorithm (Factor Analysis for Bicluster Acquisition: Sparseness Projection) was applied to detect biomarkers of Alzheimer`s Disease in a dataset of 54.675 gene expression microarray data from 161 samples. This study consisted of data extraction and gene selection, bicluster extraction, biological interpretation of each bicluster, and biomarker detection of Alzheimer`s disease in the dataset. The results obtained from this study were found in 3 brain regions namely the HIP area, PC area, and VCX area. The biomarker of Alzheimer`s disease include BIN1, SORL1, and CLU genes. The discovery of three biomarker genes from some biclusters resulting from implementation of the FABIAS algorithm opens up the possibility of finding new Alzheimer`s disease biomarker gene from other bicluster with sick condition samples.

"
2019
T53941
UI - Tesis Membership  Universitas Indonesia Library
cover
Allissa Rahman
"Data ekspresi gen merupakan data yang berisi hasil proses transformasi informasi genetik dari DNA atau RNA menjadi protein (fenotipe) yang disajikan dalam bentuk matriks berisi ekspresi gen (baris) dan kondisi (kolom). Sama halnya seperti jenis data lainnya, data ekspresi gen tidak terlepas dari kemungkinan masalah missing values atau data yang hilang. Untuk menangani masalah keberadaan missing values, diperlukan imputasi, yaitu metode untuk mengisi nilai pada data yang hilang. Metode imputasi yang digunakan pada penelitian ini adalah QP_Biclustering yang merupakan kombinasi antara biclustering dengan permasalahan pemrograman kuadratik yang akan diselesaikan dengan bahasa pemrograman Python. Metode QP_Biclustering diimplementasikan pada data ekspresi gen dari pasien Covid-19 bertipe numerik dengan tipe missing values berjenis Missing Completely at Random (MCAR). Algoritma biclustering yang digunakan sebagai metode dalam penelitian ini adalah hasil modifikasi dari algoritma SwarmBCluster, yaitu constructive heuristic with local search. Metode biclustering ini menggunakan Mean Squared Residue (MSR) dalam proses pembentukan bicluster yang berperan sebagai ukuran kualitas suatu bicluster. Setelah bicluster terbentuk, missing values akan diestimasi menggunakan quadratic programming dengan cara meminimumkan nilai MSR tiap bicluster. Hasil penelitian ini menunjukkan bahwa metode QP_Biclustering memiliki performa cukup baik untuk mengimputasi missing values pada data ekspresi gen pasien Covid-19 yang dapat dilihat dari nilai Normalized Root Mean Square Error (NRMSE) yang lebih rendah dibandingkan dengan metode KNNimpute.

Gene expression data contains the results of the transformation process of genetic information from DNA or RNA into protein (phenotype) which is presented in the form of a matrix containing gene expression (rows) and conditions (columns). Just like other types of data, gene expression data can not be separated from the possibility of missing values or missing data problems. To deal with the problem of the presence of missing values, imputation is needed, which is a method to fill in the values in the missing data. The imputation method used in this research is QP_Biclustering which is a combination of biclustering with quadratic programming problems that will be solved using the Python programming language. The QP_Biclustering method is implemented on gene expression data from Covid-19 patients with numeric type and the missing values has Missing Completely at Random (MCAR) type. The biclustering algorithm used as a method in this research is a modified result of the SwarmBCluster algorithm, namely constructive heuristic with local search. This biclustering method uses Mean Squared Residue (MSR) in the bicluster formation process which will be used as a measure of the quality of a bicluster. After the bicluster is formed, the missing values will be estimated using quadratic programming by minimizing the MSR value for each bicluster. The results of this study indicate that the QP_Biclustering method has a fairly good performance to impute the missing values in gene expression data of Covid-19 patients which can be seen from the NRMSE (Normalized Root Mean Square Error) value which is lower than KNNimpute method."
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2021
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Gianinna Ardaneswari
"Diabetic Retinopathy merupakan penyakit yang disebabkan oleh komplikasi mikrovaskuler jangka panjang dari pasien Diabetes Melitus. Salah satu bentuk data biologi molekuler yang tengah berkembang pesat saat ini adalah data ekspresi gen pada microarray. Analisis data ekspresi gen dapat dilakukan dengan berbagai cara termasuk pengelompokkan data menggunakan algoritma clustering ataupun biclustering. Salah satu metode untuk menganalisis data ekspresi gen adalah metode Two-Phase Biclustering. Untuk data yang berukuran besar, metode tersebut membutuhkan waktu komputasi yang lama. Penerapan komputasi paralel diperlukan dalam metode Two-Phase Biclustering ini agar waktu komputasi yang dibutuhkan lebih sedikit dan memiliki kinerja yang baik.
Dalam tesis ini akan dibahas implementasi paralel pada metode Two-Phase Biclustering, dimana fase pertama menggunakan algoritma paralel K-Means dan fase kedua menggunakan algoritma biclustering Cheng-Church pada data ekspresi gen Diabetic Retinopathy. Dari hasil penelitian kami diperoleh peningkatan kinerja komputasi berupa speed-up sebesar 3,63x pada multicore paralel R dan 34x pada pemrograman manycore paralel CUDA-GPU.

Diabetic Retinopathy is a disease caused by long term microvascular complications on diabetes mellitus patients. Recently, the microarray gene expression data has been developing rapidly in molecular biology. There are many techniques for gene expression data analysis methods using clustering or biclustering algorithms. One of the effective method for analyzing gene expression data is Two Phase Biclustering method. However for large sized data, the method requires long computation time. Implementation of parallel computing is necessary in Two Phase Biclustering method to reduce the computation time and to obtain a good performance.
In this thesis we discuss the implementation of parallel Two Phase biclustering, where in the first phase using parallel K Means algorithm and the second phase using Cheng Church biclustering algorithm on Diabetic Retinopathy gene expression data. In parallel K Means algorithms are applied multicore based parallel R programming and manycore CUDA GPU parallel programming. Parallelization using multicore based parallel R programming achieves an average speed up of 3.63x and using manycore CUDA GPU parallel programming achieves significant performance with an average speed up of 34x.
"
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2017
T47269
UI - Tesis Membership  Universitas Indonesia Library
cover
Kinanty Tasya Octaviane
"Teknologi DNA microarray menghasilkan data ekspresi gen yang dapat digunakan untuk membantu berbagai pemecahan masalah dalam dunia kesehatan. Data ekspresi gen merupakan matriks berukuran besar berisi gen dan kondisi eksperimental yang tak jarang mengandung missing values dan outlier. Data yang mengandung missing values dapat mengganggu dan membatasi analisis. Untuk mengatasinya, metode komputasi dinilai layak untuk imputasi missing values pada data ekspresi gen sebelum dilakukan analisis lanjutan, terlebih untuk data yang memiliki outlier. Oleh karena itu, pada penelitian ini digunakan metode imputasi missing values NCBI-LPCM untuk mengatasi permasalahan missing values pada data ekspresi gen yang memiliki outlier. Metode NCBI-LPCM menggunakan ukuran korelasi LPCM yang dapat menangani keberadaan outlier untuk pembentukan bicluster dan imputasi least square yang merupakan metode imputasi dengan pendekatan lokal. LPCM mengidentifikasi gen-gen yang memiliki pola korelasi similar sehingga menjadi informasi lokal untuk dasar imputasi. Metode ini diterapkan pada data ekspresi gen pasien Leukemia Limfoblastik Akut pada missing rate 5%, 10%, 15%, 20%, 25%, 30%, dan 35%. Berdasarkan RMSE dan korelasi Pearson, metode NCBI-LPCM lebih baik jika dibandingkan dengan NCBI-SSSim yang juga dapat menangani keberadaan outlier.

DNA microarray technology produces gene expression data that can be used to help solve various problems in healthcare. Gene expression data is a large matrix of genes and experimental conditions that often contains missing values and outliers. Data containing missing values can interfere with and limit analyses. To overcome this, computational methods are considered feasible for imputing missing values in gene expression data before further analysis is carried out, especially for data that has outliers. Therefore, in this study, the NCBI-LPCM missing values imputation method was used to overcome the problem of missing values in gene expression data with outliers. The NCBI-LPCM method uses the LPCM correlation measure which can handle the presence of outliers for bicluster formation and least square imputation which is an imputation method with a local approach. LPCM identifies genes that have similar correlation patterns so that they become local information for the basis of imputation. This method was applied to gene expression data of Acute Lymphoblastic Leukaemia patients at missing rates of 5%, 10%, 15%, 20%, 25%, 30%, and 35%. Based on RMSE and Pearson correlation, the NCBI- LPCM method is better than NCBI-SSSim which can also handle the presence of outliers."
Depok: Fakultas Matematika Dan Ilmu Pengetahuan Alam Universitas Indonesia, 2022
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
<<   1 2 3 4 5 6 7 8 9 10   >>