Hasil Pencarian  ::  Simpan CSV :: Kembali

Hasil Pencarian

Ditemukan 8 dokumen yang sesuai dengan query
cover
Gianinna Ardaneswari
Abstrak :
Diabetic Retinopathy merupakan penyakit yang disebabkan oleh komplikasi mikrovaskuler jangka panjang dari pasien Diabetes Melitus. Salah satu bentuk data biologi molekuler yang tengah berkembang pesat saat ini adalah data ekspresi gen pada microarray. Analisis data ekspresi gen dapat dilakukan dengan berbagai cara termasuk pengelompokkan data menggunakan algoritma clustering ataupun biclustering. Salah satu metode untuk menganalisis data ekspresi gen adalah metode Two-Phase Biclustering. Untuk data yang berukuran besar, metode tersebut membutuhkan waktu komputasi yang lama. Penerapan komputasi paralel diperlukan dalam metode Two-Phase Biclustering ini agar waktu komputasi yang dibutuhkan lebih sedikit dan memiliki kinerja yang baik. Dalam tesis ini akan dibahas implementasi paralel pada metode Two-Phase Biclustering, dimana fase pertama menggunakan algoritma paralel K-Means dan fase kedua menggunakan algoritma biclustering Cheng-Church pada data ekspresi gen Diabetic Retinopathy. Dari hasil penelitian kami diperoleh peningkatan kinerja komputasi berupa speed-up sebesar 3,63x pada multicore paralel R dan 34x pada pemrograman manycore paralel CUDA-GPU. ......Diabetic Retinopathy is a disease caused by long term microvascular complications on diabetes mellitus patients. Recently, the microarray gene expression data has been developing rapidly in molecular biology. There are many techniques for gene expression data analysis methods using clustering or biclustering algorithms. One of the effective method for analyzing gene expression data is Two Phase Biclustering method. However for large sized data, the method requires long computation time. Implementation of parallel computing is necessary in Two Phase Biclustering method to reduce the computation time and to obtain a good performance. In this thesis we discuss the implementation of parallel Two Phase biclustering, where in the first phase using parallel K Means algorithm and the second phase using Cheng Church biclustering algorithm on Diabetic Retinopathy gene expression data. In parallel K Means algorithms are applied multicore based parallel R programming and manycore CUDA GPU parallel programming. Parallelization using multicore based parallel R programming achieves an average speed up of 3.63x and using manycore CUDA GPU parallel programming achieves significant performance with an average speed up of 34x.
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2017
T47269
UI - Tesis Membership  Universitas Indonesia Library
cover
Mush`ab Muzzammil
Abstrak :
Ekspresi gen adalah proses pembentukan molekul protein dengan cara menguraikan informasi yang terkandung dalam gen. Ekspresi gen dapat diubah menjadi data numerik dengan bantuan teknologi microarray. Penyakit chronic lymphocytic leukemia (CLL) merupakan salah satu penyakit kanker yang terjadi karena pembentukan lymphocytes yang tidak normal pada sumsum tulang. Data ekspresi gen dari pasien CLL dapat diperoleh dengan menggunakan teknologi microarray. Namun, penggunaan teknologi microarray dapat menghasilkan missing values pada data ekspresi gen CLL akibat dari adanya goresan atau debu pada microarray slides. Keberadaan missing values dapat mengakibatkan hasil analisis menjadi bias dan tidak merepresentasikan sifat aslinya. Untuk mengatasi hal tersebut, salah satu pendekatan yang dapat dilakukan adalah dengan melakukan imputasi missing values. Imputasi adalah proses mengisi missing values berdasarkan informasi yang terdapat dalam data. Nilai pada data hasil imputasi diharapkan mendekati nilai dari elemen yang hilang. Proses imputasi menghasilkan data yang lengkap sehingga analisis selanjutnya dapat berjalan dengan baik dan diperoleh hasil yang lebih akurat. Pada penelitian ini dilakukan proses imputasi missing values dengan metode imputasi Cosine Similarity Based Biclustering dan Normalized Mean Residue Similarity (NMRS) Based Biclustering. Metode Cosine Similarity Based Biclustering dan NMRS Based Biclustering melakukan imputasi dengan memanfaatkan analisis biclustering berbasis korelasi cosine similarity dan NMRS. Data yang digunakan untuk melakukan penelitian ini adalah data numerik berupa ekspresi gen pada pasien chronic lymphocytic leukemia (CLL). Kinerja dari metode imputasi pada penelitian ini dievaluasi dengan menghitung korelasi Pearson dari nilai asli pada data awal dengan nilai pada data yang sudah dilakukan imputasi. Hasil evaluasi dari kinerja metode imputasi menggunakan Cosine Similarity Based Biclustering dan NMRS Based Biclustering dibandingkan dengan kinerja metode imputasi K-Means. Berdasarkan hasil penelitian, didapatkan nilai koefisien korelasi Pearson dari metode imputasi menggunakan Cosine Similarity Based Biclustering dan NMRS Based Biclustering untuk missing rate 5%, 15%, 25%, 35% dan 45% memiliki rentang yang lebih tinggi dibandingkan metode imputasi K-Means, dengan sebagian besar nilai korelasi Pearson di atas 0,96. Selain itu metode NMRS Based Biclustering memiliki rentang korelasi Pearson paling tinggi, sehingga dapat dikatakan metode NMRS Based Biclustering menghasilkan nilai imputasi terbaik di antara metode yang digunakan untuk mengisi missing values pada data CLL. ......Gene expression is the process of forming protein molecules by deciphering the information contained in genes. Gene expression can be converted into numerical data using microarray technology. Chronic lymphocytic leukemia (CLL) is cancer that occurs due to the formation of abnormal lymphocytes in the bone marrow. Gene expression data from CLL patients can be obtained using microarray technology. However, the use of microarray technology can produce missing values in the CLL gene expression data due to scratches or dust on the microarray slides. The existence of missing values can lead to analysis results being biased and not representing their true nature. To overcome this, one approach that can be taken is to impute missing values. Imputation is the process of filling in the missing values based on the information contained in the data. The value of the imputed data is expected to be close to the value of the missing element. The imputation process produces complete data so that further analysis can run well and obtained more accurate results. In this study, the imputation process for missing values was carried out using the Cosine Similarity Based Biclustering and Normalized Mean Residue Similarity (NMRS) Based Biclustering imputation methods. Cosine Similarity Based Biclustering and NMRS Based Biclustering methods perform imputation by utilizing biclustering analysis based on cosine similarity correlation and NMRS. The data used to conduct this research is numerical data in the form of gene expression in chronic lymphocytic leukemia (CLL) patients. The performance of the imputation method in this study was evaluated by calculating the Pearson correlation of the original value in the initial data with the value in the imputed data. The results of the evaluation of the performance of the imputation method using Cosine Similarity Based Biclustering and NMRS Based Biclustering were compared with the performance of the K-Means imputation method. Based on the results of the study, the Pearson correlation coefficient values obtained from the imputation method using Cosine Similarity Based Biclustering and NMRS Based Biclustering for missing rates of 5%, 15%, 25%, 35% and 45% have a higher range than the K-Means imputation method, with most Pearson correlation values above 0.96. In addition, the NMRS Based Biclustering method has the highest Pearson correlation range, so it can be said that the NMRS Based Biclustering method produces the best imputation value among the methods used to fill in the missing values in CLL data.
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2021
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Airlangga Muhammad Putrapradana
Abstrak :
Analisis triclustering merupakan salah satu metode data mining yang bertujuan mengelompokkan data berbentuk tiga dimensi. Triclustering kerap digunakan pada bidang bioinformatika untuk menganalisis kesamaan ekspresi gen suatu eksperimen pada titik waktu tertentu. Analisis triclustering yang dilakukan pada penelitian ini menggunakan metode gabungan Fuzzy Cuckoo Search dengan I-Trimax. Metode ini merupakan penggabungan algoritma nodes deletion pada I-Trimax dengan algoritma optimasi Fuzzy Cuckoo Search. Cuckoo Search merupakan metode optimasi yang sudah baik dalam menghasilkan himpunan tricluster yang menggunakan konsep parasitisme spesies cuckoo. Fuzzy Cuckoo Search menggunakan fungsi objektif fuzzy c-means untuk mengatasi ketidakjelasan (indiscernibility) yang biasa terjadi dalam data ekspresi gen sehingga masalah kesulitan membedakan objek karena kurangnya pengetahuan dari informasi yang tersedia dapat diatasi. Algoritma nodes deletion pada I-Trimax digunakan pada fase pembentukan populasi awal dari metode gabungan Fuzzy Cuckoo Search dengan I-Trimax. Hal ini dilakukan demi mendapatkan populasi awal yang sudah baik yaitu memiliki MSR yang minimum karena konsep dari algoritma nodes deletion yaitu dapat menghasilkan himpunan tricluster dengan Mean Square Residue (MSR) kecil yaitu di bawah threshold. Berdasarkan itu proses komputasi algoritma Fuzzy Cuckoo Searchyang dilakukan pada fase optimasi dapat berjalan dengan efektif sehingga menghasilkan himpunan tricluster yang berkualitas baik secara efisien. Analisis triclustering menggunakan metode gabungan Fuzzy Cuckoo Search dengan I-Trimax digunakan pada data ekspresi gen tiga dimensi sel kanker paru-paru fase stabil (A549) yang berkaitan dengan pemberian obat kemoterapi Motexafin Gadolinium (MGd), di mana ekspresi gen diamati pada 6 kondisi dan 3 titik waktu. Pada penelitian ini, himpunan tricluster yang memiliki kualitas terbaik berdasarkan Triclustering Quality Index (TQI) adalah himpunan tricluster yang dihasilkan dengan nilai  dan. Berdasarkan himpunan tricluster tersebut, didapatkan informasi penting mengenai kumpulan gen yang memiliki respon baik terhadap pemberian MGd tapi tidak bertahan setiap titik waktu. Hal ini dapat dijadikan acuan penelitian terkait terapi kanker menggunakan obat kemoterapi MGd yang perlu dilakukan pengembangan agar dapat tetap efektif pada seluruh titik waktu. Terdapat juga kumpulan gen yang memiliki respon cepat dan bertahan hingga jangka panjang dengan pemberian MGd dan mannitol. Gen-gen tersebut merupakan gen yang menunjukkan respon baik pemberian obat kemoterapi MGd tetapi efektivitasnya tidak terlalu maksimal karena responnya beririsan dengan subjek yang hanya diberikan mannitol. Hal ini dapat dijadikan bahan untuk penelitian lebih lanjut dalam pengembangan obat MGd supaya dapat lebih efektif. ......Triclustering analysis is a data mining method that aims to group data in three dimensions. Triclustering is often used in the field of bioinformatics to analyze the similarity of gene expression under experimental conditions at a certain point in time. The triclustering analysis carried out in this study used the combined Fuzzy Cuckoo Search method with -Trimax. This method is a combination of node deletion algorithm on -Trimax with Fuzzy Cuckoo Search optimization algorithm. Cuckoo Search is a good optimization method in generating tricluster sets that use the concept of parasitism of cuckoo species. Fuzzy Cuckoo Search uses the fuzzy c-means objective function to overcome the indiscernibility that usually occurs in gene expression data so that the problem of difficulty distinguishing objects due to lack of knowledge from available information can be overcome. The nodes deletion algorithm on I-Trimax is used in the initial population formation phase from the combined Fuzzy Cuckoo Search method with I-Trimax. This is done in order to get a good initial population, which has a minimum MSR because the concept of the nodes deletion algorithm is that it can produce a tricluster set with a small Mean Square Residue (MSR), which is below the threshold. Based on that, the computational process of the Fuzzy Cuckoo Search algorithm which is carried out in the optimization phase can run effectively so as to produce a good quality tricluster set efficiently. Triclustering analysis using the combined Fuzzy Cuckoo Search method with I-Trimax was used on three-dimensional gene expression data of stable phase lung cancer cells (A549) associated with the administration of the chemotherapy drug Motexafin Gadolinium (MGd), where gene expression was observed in 6 conditions and 3 time points. In this study, the tricluster set that has the best quality based on the Triclustering Quality Index (TQI) is the resulting tricluster set with values. Based on these tricluster sets, important information was obtained regarding gene pools that responded well to MGd administration but did not persist at any point in time. This can be used as a reference for research related to cancer therapy using MGd chemotherapy drugs that need to be developed in order to remain effective at all time points. There is also a gene pool that responds quickly and persists in the long term with MGd and mannitol administration. These genes are genes that show a good response to MGd chemotherapy drugs but their effectiveness is not maximal because their responses coincide with subjects who are only given mannitol. This can be used as material for further research in the development of MGd drugs so that they can be more effective.
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2022
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Fenni Amalia
Abstrak :
Bioinformatika merupakan ilmu yang ditujukan untuk menganalisis informasi biologis. Dalam perkembangan penelitian bioinformatika, data diperoleh salah satunya dengan menggunakan teknologi microarray. Teknologi microarray digunakan oleh lingkup biologi molekuler dalam melihat perbedaan tingkat ekspresi gen dengan cara mengonversi gambar monokromik yang berisi ratusan bahkan ribuan gen dari sampel sel dan menghasilkan data ekspresi gen. Teknologi microarray sering kali menghasilkan data ekspresi gen yang hilang atau tidak terdeteksi akibat adanya kesalahan teknis. Oleh karena itu, diperlukannya suatu metode imputasi pada data untuk mengatasi missing values. Pada penelitian ini, akan dikembangkan suatu metode imputasi yang disebut Biclustering Terurut berbasis k-Nearest Neighbor, Mean Squared Residual, dan Jarak Euclidean. Metode ini merupakan metode imputasi berbasis biclustering dimana bicluster dibentuk berdasarkan suatu kriteria yang melibatkan skor Mean Squared Residue dan Jarak Euclidean. Penggunakan k-Nearest Neighbor sebagai metode pra-imputasi didasarkan pada data ekspresi gen yang sering kali memiliki pola kompleks dan sulit terdeteksi, sehingga perlu pendekatan yang dapat memetakan struktur korelasi pada data. k-Nearest Neighbor mempertimbangkan korelasi pada data microarray dengan menyeleksi kumpulan gen yang memiliki profil ekspresi mirip dengan gen yang ingin diimputasi (gen target). Pada penelitian ini, metode SBi-kNN-MSREimpute diterapkan pada data ekspresi gen pasien penderita COVID-19 yang dilakukan tes rapid harian. Evaluasi kinerja metode SBi-kNN-MSREimpute dilakukan dengan menggunakan NRMSE, dimana hasilnya dibandingkan dengan metode SBi-MSREimpute. Berdasarkan penelitian yang dilakukan, metode SBi-kNN-MSREimpute dinilai lebih baik dibandingkan dengan SBi-MSREimpute untuk setiap missing rate pada tingkatan c berbeda. Nilai c optimal untuk imputasi missing values pada data COVID-19 adalah c = 10% untuk missing rate 25%, 30%, 40% dan c = 15% untuk missing rate 5%, 10%, 15%, 20%, dan 50%. Hasil akhir juga menunjukkan bahwa nilai NRMSE untuk SBi-kNN-MSREimpute relatif stabil bahkan untuk data dengan missing rate tinggi hingga 50%. ......Bioinformatics is a study designed to analyze biological information. In the development of bioinformatics research, data was obtained using microarray technology. Microarray technology is used by the scope of molecular biology in transposing hundreds and even thousands of genes from cellular samples simultaneously and producing a gene expression data. Microarray technology often produces data that is lost or undetected as a result of technical error. Therefore, an imputation method is needed to address the missing values. In this study, a new imputation method called Sequential Biclustering based k-Nearest Neighbor, Mean Squared Residual, and Euclidean Distance (SBi-kNN-MSRE) will be developed. This method is a biclustering-based imputation method where the bicluster is formed based on a criterion involving Mean Squared Residue and Euclidean Distance. The use of k-Nearest Neighbor as a pre-imputation method is based on data on gene expression that often has a complex and difficult pattern of detection, so it requires an approach that can map correlation structures on data. K-nearest neighbor considers a correlation on a microarray data by selecting groups of genes that have an expression profile similar to a gene that wants to be imputed (the target gene). In this study, the SBi-kNN-MSRE method was applied to the data on the genes of patients with covid-19 that daily rapid tests were performed. The performance evaluation of the SBi-kNN-MSRE method is done using NRMSE, where the results are compared to the SBi-MSRE method. According to the result, the SBi-kNN-MSRE method performed better than SBi-kNN-MSRE for each missing rate on different c levels. The optimal c value on the covid-19 data is c = 10% for missing rate 25%, 30%, 40% and c = 15% for missing rate 5%, 10%, 15%, 20% and 50%. The results also showed that NRMSE scores
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2022
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Dea Siska
Abstrak :
Metode triclustering merupakan pengembangan dari metode clustering dan biclustering. Berbeda dengan  metode clustering dan biclustering yang bekerja pada data dua dimensi, triclustering bekerja pada data tiga dimensi yang disusun dalam bentuk matriks. Matriks ini terdiri dari dimensi observasi, atribut, dan konteks. Triclustering mampu mengelompokkan ketiga dimensi tersebut secara simultan dan membentuk kelompok berupa subruang yang disebut tricluster. Metode ini umumnya diimplementasikan dalam bidang bioinformatika, terkhususnya dalam analisis data ekspresi gen tiga dimensi untuk menemukan profil ekspresi gen. Data atau matriks ini terdiri dari dimensi gen, kondisi eksperimen, dan waktu eksperimen (time point). Salah satu algoritma triclustering, yaitu Order Preserving Triclustering (OPTricluster), adalah algoritma yang menggunakan pendekatan pattern based dan digunakan untuk menganalisis data ekspresi gen tiga dimensi yang merupakan short time series 3-8 time point). OPTricluster membentuk tricluster dengan mengidentifikasi gen-gen yang memiliki perubahan ekspresi yang sama di sepanjang time points pada sejumlah kondisi eksperimen. Dalam penelitian ini, OPTricluster diimplementasikan pada data ekspresi gen sejumlah pasien yellow fever pasca vaksinasi dengan beberapa skenario yang menggunakan threshold yang berbeda-beda. Skenario dengan threshold yang optimum ditunjukkan oleh rata-rata skor Tricluster Diffusion terendah. Tricluster-tricluster yang dihasilkan berhasil menunjukkan hubungan biologis di antara pasien-pasien tersebut, di mana vaksin cenderung memberikan reaksi yang lebih signifikan pada pasien pria dibandingkan pasien wanita. Selain itu, ditemukan anomali pada pasien-pasien tersebut.
Triclustering method is the development of clustering method and biclustering method. Unlike clustering and biclustering that works on two-dimensional data, triclustering works on three-dimensional data that arranged in the form of a matrix consisting of observations, attributes, and contexts dimensions. Triclustering is able to group these dimensions simultaneously and form a subspace called a tricluster. This method is generally implemented in analysis of three-dimensional gene expression data to find profiles of gene expression. This data or matrix consists of genes, experimental conditions and time points dimensions. One of the triclustering algorithms, Order Preserving Triclustering (OPTricluster), is an algorithm that uses a pattern-based approach and used to analyze short time series data (3-8 time points). The OPTricluster forms the tricluster by identifying genes that have the same expression change across time points under a number of experimental conditions. The change in expression is expressed in a rank pattern which is divided based on three types of patterns, namely constant, conserved and divergent patterns. In this study, OPTricluster was implemented in gene expression data of yellow fever patients after vaccination using several scenarios with different thresholds. The scenario with the optimum threshold is indicated by the lowest average Tricluster Diffusion score. The resulting triclusters were successful in showing biological relationships among these patients, where the vaccine tending to have a more significant reaction in male patients than in female patients. In addition, anomalies were found in these patients.
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2020
S-Pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Awlia Dwi Rachma
Abstrak :

Metode THD-Tricluster merupakan analisis triclustering dengan pendekatan berbasis biclustering. Pada metode THD-Tricluster digunakan nilai Shifting-and-Scaling Similarity untuk membentuk bicluster terlebih dahulu dan dilanjutkan dengan membentuk tricluster. Nilai SSSim menggunakan Shifting-and-Scaling Correlation untuk mendeteksi adanya  korelasi antaranggota dengan pola pergeseran dan penskalaan serta koherensi antarwaktu dan membandingkannya dengan nilai threshold. Metode THD-Tricluster dilakukan pada data respon pengobatan terapi interferon-beta pada pasien sklerosis ganda. Skenario optimal adalah skenario dengan nilai coverage terkecil yaitu saat menggunakan nilai threshold tertinggi. Pada skenario tersebut diperoleh dua jenis tricluster yaitu tricluster yang memiliki kumpulan gen pada pasien yang responsif dan pasien yang tidak responsif terhadap terapi. Perbedaan kumpulan gen pada kedua tricluster dapat digunakan oleh para ahli medis untuk mengembangkan pengobatan terapi  untuk meningkatkan tingkat keresponsifan pasien sklerosis ganda terhadap terapi tersebut.


The THD-Tricluster method is a triclustering analysis with a biclustering-based approach. The THD-Tricluster method uses the Shifting-and-Scaling Similarity value to form a bicluster first and shows it by forming a tricluster. The SSSim value uses Shifting-and-Scaling Correlation to use an interface with shifting and scaling patterns as well as intertemporal coherence and compares it with the threshold value. The THD-Tricluster method was performed on treatment response data to interferon-beta therapy in multiple sclerosis patients. The optimal scenario is a scenario with a coverage value scenario that uses the highest threshold value. In this scenario, there are two types of tricluster, namely the tricluster which has a collection of genes in responsive patients and patients who are not responsive to therapy. Differences in gene pools in the two tricluster can be used by medical professionals to develop IFN-β therapeutic treatments to increase the responsiveness of multiple sclerosis patients to these therapies.

Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2020
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Ika Marta Sari
Abstrak :

Analisis triclustering merupakan pengembangan dari analisis clustering dan analisis biclustering. Tujuan dari analisis triclustering yaitu mengelompokkan data tiga dimensi secara simultan atau bersamaan. Data tiga dimensi tersebut dapat berupa observasi, atribut, dan konteks. Salah satu pendekatan yang digunakan dalam analisis triclustering, yaitu pendekatan berdasarkan pattern contohnya, adalah metode Timesvector. Metode Timesvector bertujuan untuk mengelompokkan matriks data yang menunjukkan pola yang sama atau berbeda pada data tiga dimensi. Metode Timesvector memiliki langkah kerja yang dimulai dengan mereduksi matriks data tiga dimensi menjadi matriks data dua dimensi untuk mengurangi kompleksitas dalam pengelompokkan. Pada metode ini akan digunakan algoritma Spherical K-means dalam pengelompokkannya. Tahap selanjutnya, yaitu mengidentifikasi pola dari cluster yang dihasilkan pada Spherical K-means. Pola yang dimaksud terdiri dari tiga jenis, yaitu DEP (Differentially Expressed Pattern), ODEP (One Differentially Expressed Pattern), dan SEP (Similarly Expressed Pattern). Penerapan dari metode Timesvector dilakukan pada data ekspresi gen yaitu data tumor otak yang dilakukan dalam 6 skenario. Masing-masing skenario menggunakan banyak cluster yang sama tetapi nilai threshold yang berbeda-beda. Hasil dari ke enam skenario akan divalidasi menggunakan nilai coverage dan nilai tricluster diffusion (TD). Hasil penerapan metode timesvector menunjukkan bahwa dengan menggunakan threshold sebesar 1,5 memberikan hasil yang paling optimal karena memiliki nilai coverage yang tinggi sebesar 57% dan nilai TD yang rendah sebesar 2,95594E-06. Nilai coverage yang tinggi menunjukkan kemampuan metode dalam mengekstrak data dan nilai TD yang rendah menunjukkan bahwa tricluster yang dihasilkan memiliki volume yang besar dan koherensi yang tinggi. Berdasarkan pola yang dihasilkan menggunakan skenario yang optimal diperoleh sebanyak 49 ODEP cluster dengan pasien ke-empat selalu memiliki pola ekspresi yang berbeda dibandingkan dengan pasien lainya.  Hal ini dapat digunakan oleh ahli medis untuk melakukan tindakan selanjutnya terhadap pasien tumor otak.

 


Triclustering analysis is the development of clustering analysis and biclustering analysis. The purpose of triclustering analysis is to group three-dimensional data simultaneously or simultaneously. The three-dimensional data can be in the form of observations, attributes, and context. One of the approaches used in triclustering analysis, namely an approach based on a pattern, for example, is the Timesvector method. Timesvector method aims to group data matrices that show the same or different patterns in three-dimensional data. The Timesvector method has a work step that starts with reducing the three-dimensional data matrix to a two-dimensional data matrix to reduce complexity in a grouping. In this method, the Spherical K-means algorithm will be used in grouping it. The next step is to identify the pattern of the clusters generated in the Spherical K-means. The pattern referred to consists of three types, namely DEP (Differentially Expressed Pattern), ODEP (One Differentially Expressed Pattern), and SEP (Similar Expressed Pattern). The application of the Timesvector method was carried out on gene expression data, namely brain tumor data carried out in 6 scenarios. Each scenario uses the same many clusters but different threshold values. The results of the six scenarios will be validated using the coverage value and the tricluster diffusion (TD) value. The results of applying the timesvector method show that using a threshold of 1.5 gives the most optimal results because it has a high coverage value of 57% and a low TD value of 2.95594E-06. A high coverage value indicates the method's ability to extract data and a low TD value indicates that the resulting tricluster has a large volume and high coherence. Based on the pattern generated using the optimal scenario, there were 49 ODEP clusters with the fourth patient always having a different expression pattern compared to other patients. This can be used by medical experts to perform further action on brain tumor patients.

 

Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2020
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Yoel Fernando
Abstrak :
Penelitian biologi dengan menggunakan teknologi microarray menghasilkan data ekspresi gen berbentuk matriks di mana baris adalah gen dan kolom adalah kondisi. Analisis lanjutan dalam data ekspresi gen membutuhkan data yang lengkap. Namun, data ekspresi gen sering kali mengandung nilai hilang atau missing values. Ada berbagai cara untuk mengatasi missing values, antara lain pembuangan gen atau kondisi yang mengandung missing values, pengulangan pengambilan data, dan imputasi missing values pada data ekspresi gen. Pendekatan imputasi missing values awal hanyalah dengan mengisi nilai nol atau rata-rata baris. Namun, pendekatan ini tidak melihat informasi koheren dalam data. Pendekatan imputasi missing values terbagi menjadi empat berdasarkan informasi yang diperlukan pada algoritmanya, yaitu pendekatan lokal, pendekatan global, pendekatan hybrid, dan pendekatan knowledge assisted. Pada penelitian ini peneliti menggunakan algoritma pendekatan lokal dan global. Metode imputasi missing values paling popular untuk pendekatan global adalah Bayesian Principal Component Analysis (BPCA), sedangkan untuk pendekatan lokal adalah Local Least Square (LLS). Pada metode LLS, pemilihan similaritas gen dilakukan dengan teknik clustering dimana seluruh kondisi dalam data digunakan. Kenyataanya, terkadang gen-gen similar hanya dalam beberapa kondisi eksperimental saja. Maka, diperlukan teknik biclustering untuk dapat menemukan subset gen dan subset kondisi yang similar sebagai informasi lokal. Penerapan ide biclustering dalam LLS dinamakan sebagai Iterative Bicluster-Based Least Square (bi-iLS). Salah satu tahapan awal dalam bi-iLS adalah pembentukan matriks komplit sementara yang didapat dengan cara mengisi missing values dengan row average. Namun, row average dinilai kurang bagus karena hanya menggunakan informasi satu baris tersebut. Kekurangan ini diperbaiki dalam penelitian ini. Penggunaan metode BPCA untuk menemukan matriks komplit sementara dinilai lebih baik karena BPCA menggambarkan struktur keseluruhan data. Penggantian row average menjadi BPCA menjadi dasar masalah penelitian ini. Metode iterative Bicluster-based Bayesian Principal Component Analysis dan Least Square (bi-BPCA- iLS) pun diajukan. Penerapan bi-BPCA-iLS terhadap data ekspresi gen yang dihasilkan teknologi microarray terbukti menghasilkan penurunan nilai Normalzied Root Mean Square Error (NRMSE) sebesar 10,6% dan 0,58% secara rata-rata dalam beberapa missing rate (1%, 5%, 10%, 15%, 20%, 25%, dan 30%) jika dibandingkan dengan metode LLS dan bi-iLS. ......Biological research using microarray technique produce some important gene expression datasets. These data can be expressed as a matrix in which rows are genes and columns are different conditions. Further analysis of these datasets requires a complete dataset or matrix. However, gene expression datasets often contain missing values. There are some ways to handle missing values, such as deletion of genes or conditions that contain missing values, repeat the process of acquiring data, and impute the missing values. Early approaches in missing values imputation are simply to replace missing values with zeros or row averages, but these methods do not use the coherence inside the data. Later, approaches in missing values imputations are categorized into four groups based on the required information, such as local, global, hybrid, and knowledge assisted approaches. In this paper, local and global approaches are used. Bayesian Principal Component Analysis (BPCA) is a well-known global based method, while the most popular local based method is Local Least Square (LLS). In LLS, selection of similar genes uses clustering technique where all conditions in the data are included. The reality is genes sometimes only correlate under some experimental conditions only. So, a technique that can find subset of genes under subset of experimental conditions for local information is needed. This technique is called biclustering. The usage of biclustering in LLS is called the Iterative Bicluster-based Least Square (bi-iLS). One of the early steps in bi-iLS is to find a temporary complete matrix. Temporary complete matrix is obtained by applying row averages to impute missing values. However, row average cannot reflect the real structure of the dataset because row average only uses the information of an individual row. The missing values in a target gene do not only rely on the known values of its own row. In this research, row average in bi-iLS is replaced with BPCA. The benefit of using BPCA is that it uses global structure of the dataset. This update will be the basic problem of this research. The proposed method is called Iterative Bicluster-based Bayesian Principal Component Analysis and Least Square (bi-BPCA-iLS). This new proposed method is applied to gene expression datasets from microarray technique. It shown a decrease in values of Normalized Root Mean Square Error (NRMSE) about 10.6% from LLS and about 0.58% from bi-iLS based on different missing rates (1%, 5%, 10%, 15%, 20%, 25%, and 30%).
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2021
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library