Hasil Pencarian  ::  Simpan CSV :: Kembali

Hasil Pencarian

Ditemukan 106436 dokumen yang sesuai dengan query
cover
Hendy Fergus Atheri Hura
"ABSTRAK
Penelitian ini mengimplementasikan metode spectral clustering-Fuzzy C-Means pada tiga microarray data ekspresi gen, dengan tujuan untuk mengelompokkan gen-gen yang memiliki tingkat ekspresi yang similar. Spectral clustering secara teoritis terdiri dari tiga tahap utama yaitu: membangun matriks jarak, membentuk matriks Laplacian, dan proses partisi, khususnya dalam tesis ini menggunakan algoritma partisi Fuzzy C-Means. Oleh karena itu, implementasi dari spectral clustering-FCM lebih sederhana dan intuitif pada pelaksanaannya. Analisis cluster singkat juga akan dipaparkan untuk masing-masing microarray data yang digunakan yaitu: Carcinoma, Leukemia, dan Lymphoma. Hasil cluster yang sangat baik didapatkan, sehingga metode yang diusulkan memiliki potensi besar ke depannya dalam penelitan pada bidang medis.

ABSTRACT
This research implements the spectral clustering FCM method on three microarray gene expression data, with the aim of grouping genes with similar expression levels. Spectral clustering is theoretically composed of three main stages building distance matrix, forming Laplacian matrix, and partitioning process, especially in this thesis using Fuzzy C Means partition algorithm. Therefore, the implementation of spectral clustering FCM is simpler and more intuitive in its implementation. Brief cluster analysis will also be presented for each microarray data used Carcinoma, Leukemia, and Lymphoma. Excellent cluster results are obtained, so the proposed method has great potential for future research in the medical field. "
2017
T48274
UI - Tesis Membership  Universitas Indonesia Library
cover
Airlangga Muhammad Putrapradana
"Analisis triclustering merupakan salah satu metode data mining yang bertujuan mengelompokkan data berbentuk tiga dimensi. Triclustering kerap digunakan pada bidang bioinformatika untuk menganalisis kesamaan ekspresi gen suatu eksperimen pada titik waktu tertentu. Analisis triclustering yang dilakukan pada penelitian ini menggunakan metode gabungan Fuzzy Cuckoo Search dengan I-Trimax. Metode ini merupakan penggabungan algoritma nodes deletion pada I-Trimax dengan algoritma optimasi Fuzzy Cuckoo Search. Cuckoo Search merupakan metode optimasi yang sudah baik dalam menghasilkan himpunan tricluster yang menggunakan konsep parasitisme spesies cuckoo. Fuzzy Cuckoo Search menggunakan fungsi objektif fuzzy c-means untuk mengatasi ketidakjelasan (indiscernibility) yang biasa terjadi dalam data ekspresi gen sehingga masalah kesulitan membedakan objek karena kurangnya pengetahuan dari informasi yang tersedia dapat diatasi. Algoritma nodes deletion pada I-Trimax digunakan pada fase pembentukan populasi awal dari metode gabungan Fuzzy Cuckoo Search dengan I-Trimax. Hal ini dilakukan demi mendapatkan populasi awal yang sudah baik yaitu memiliki MSR yang minimum karena konsep dari algoritma nodes deletion yaitu dapat menghasilkan himpunan tricluster dengan Mean Square Residue (MSR) kecil yaitu di bawah threshold. Berdasarkan itu proses komputasi algoritma Fuzzy Cuckoo Searchyang dilakukan pada fase optimasi dapat berjalan dengan efektif sehingga menghasilkan himpunan tricluster yang berkualitas baik secara efisien. Analisis triclustering menggunakan metode gabungan Fuzzy Cuckoo Search dengan I-Trimax digunakan pada data ekspresi gen tiga dimensi sel kanker paru-paru fase stabil (A549) yang berkaitan dengan pemberian obat kemoterapi Motexafin Gadolinium (MGd), di mana ekspresi gen diamati pada 6 kondisi dan 3 titik waktu. Pada penelitian ini, himpunan tricluster yang memiliki kualitas terbaik berdasarkan Triclustering Quality Index (TQI) adalah himpunan tricluster yang dihasilkan dengan nilai  dan. Berdasarkan himpunan tricluster tersebut, didapatkan informasi penting mengenai kumpulan gen yang memiliki respon baik terhadap pemberian MGd tapi tidak bertahan setiap titik waktu. Hal ini dapat dijadikan acuan penelitian terkait terapi kanker menggunakan obat kemoterapi MGd yang perlu dilakukan pengembangan agar dapat tetap efektif pada seluruh titik waktu. Terdapat juga kumpulan gen yang memiliki respon cepat dan bertahan hingga jangka panjang dengan pemberian MGd dan mannitol. Gen-gen tersebut merupakan gen yang menunjukkan respon baik pemberian obat kemoterapi MGd tetapi efektivitasnya tidak terlalu maksimal karena responnya beririsan dengan subjek yang hanya diberikan mannitol. Hal ini dapat dijadikan bahan untuk penelitian lebih lanjut dalam pengembangan obat MGd supaya dapat lebih efektif.

Triclustering analysis is a data mining method that aims to group data in three dimensions. Triclustering is often used in the field of bioinformatics to analyze the similarity of gene expression under experimental conditions at a certain point in time. The triclustering analysis carried out in this study used the combined Fuzzy Cuckoo Search method with -Trimax. This method is a combination of node deletion algorithm on -Trimax with Fuzzy Cuckoo Search optimization algorithm. Cuckoo Search is a good optimization method in generating tricluster sets that use the concept of parasitism of cuckoo species. Fuzzy Cuckoo Search uses the fuzzy c-means objective function to overcome the indiscernibility that usually occurs in gene expression data so that the problem of difficulty distinguishing objects due to lack of knowledge from available information can be overcome. The nodes deletion algorithm on I-Trimax is used in the initial population formation phase from the combined Fuzzy Cuckoo Search method with I-Trimax. This is done in order to get a good initial population, which has a minimum MSR because the concept of the nodes deletion algorithm is that it can produce a tricluster set with a small Mean Square Residue (MSR), which is below the threshold. Based on that, the computational process of the Fuzzy Cuckoo Search algorithm which is carried out in the optimization phase can run effectively so as to produce a good quality tricluster set efficiently. Triclustering analysis using the combined Fuzzy Cuckoo Search method with I-Trimax was used on three-dimensional gene expression data of stable phase lung cancer cells (A549) associated with the administration of the chemotherapy drug Motexafin Gadolinium (MGd), where gene expression was observed in 6 conditions and 3 time points. In this study, the tricluster set that has the best quality based on the Triclustering Quality Index (TQI) is the resulting tricluster set with values. Based on these tricluster sets, important information was obtained regarding gene pools that responded well to MGd administration but did not persist at any point in time. This can be used as a reference for research related to cancer therapy using MGd chemotherapy drugs that need to be developed in order to remain effective at all time points. There is also a gene pool that responds quickly and persists in the long term with MGd and mannitol administration. These genes are genes that show a good response to MGd chemotherapy drugs but their effectiveness is not maximal because their responses coincide with subjects who are only given mannitol. This can be used as material for further research in the development of MGd drugs so that they can be more effective."
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2022
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Fahrezal Zubedi
"Pada penelitian ini mengimplementasikan algoritma Similarity Based Biclustering dengan menggunakan PAM clustering pada tiga dataset ekspresi gen microarray. Penelitian ini bertujuan untuk mengetahui ekspresi regulasi dari masing-masing bicluster yang diperoleh dan mengetahui kinerja algoritma Similarity Based Biclustering-PAM clustering berdasarkan hasil analisis kelompok kondisi. Similarity based biclustering-PAM clustering secara teoritis terdiri dari empat tahap utama yaitu: mentransformasi data, membangun matriks similaritas, proses clustering khususnya dalam tesis ini menggunakan metode partisi PAM dan mengekstrak bicluster. Algoritma similarity based biclustering-PAM clustering dapat mengetahui ekspresi regulasi dari tiap bicluster pada tiga dataset yaitu: Diabetes Melitus tipe II, Diabetes Retinopati, dan Limfoma. Akurasi yang diperoleh dari algoritma Similarity Based Biclustering untuk masing-masing dataset yaitu Diabetes Melitus tipe II sebesar 0.55, Diabetes Retinopati sebesar 0.80 dan Limfoma sebesar 0.83.

In this research implements Similarity Based Biclustering algorithm by using PAM Clustering method in three dataset of microarray gene expression. Aim of this research is to know the regulated expression of each obtained bicluster and to know the performance of Similarity Based Biclustering PAM Clustering algorithm based on the result of group condition analysis. Similarity Based Biclustering is theoretically composed of four main stages transforming data, constructing matrix similarity, clustering process, especially in this thesis using PAM partition algorithm and extracting bicluster. Similarity Based Biclustering PAM is able to know the regulatory expression of each bicluster in three datasets Diabetes Mellitus type 2, Diabetes Retinopathy, and Lymphoma. Accuracy obtained from Similarity Based Biclustering algorithm for each dataset is 0.55 in data of type 2 diabetes mellitus, 0.80 in diabetic retinopathy data and 0.83 in lymphoma data.
"
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2018
T49505
UI - Tesis Membership  Universitas Indonesia Library
cover
Rosalia Deviana Cahyaningrum
"Penelitian ini bertujuan untuk mengimplementasikan spectral clustering-PAM dengan menggunakan algoritma similaritas serial dan mengimplementasikan algoritma similaritas paralel berbasis CUDA dalam metode spectral clustering pada data microarray gen karsinoma. Implementasi dibantu dengan perangkat lunak R berbasis open source yang digunakan pada algoritma spectral clustering-PAM dengan algoritma similaritas serial dan CUDA yang digunakan pada algoritma similaritas paralel. Pengelompokan data microarray gen karsinoma diawali dengan menormalisasi data menggunakan normalisasi min-max. Pada algoritma spectral clustering-PAM, pertama-tama similaritas antar gen karsinoma dihitung. Selanjutnya, membentuk matriks Laplacian ternormalisasi dari matriks diagonal dan matriks Laplacian tak ternormalisasi. Langkah berikutnya yaitu menghitung eigenvalue dari matriks Laplacian ternormalisasi dan menentukan eigenvector dari eigenvalue terkecil matriks Laplacian ternormalisasi yang disusun menjadi dataset baru untuk dipartisi setiap barisnya menggunakan metode PAM. Berdasarkan running time, waktu yang dibutuhkan untuk menghitung nilai similaritas secara paralel di CUDA 378 kali lebih cepat daripada secara serial di R. Hasil penelitian menunjukkan bahwa spectral clustering-PAM mengelompokkan data microarray gen karsinoma menjadi dua cluster dengan nilai rata-rata silhouette yaitu 0,6458276.

This research aims to implement the spectral clustering PAM using serial similarity algorithm and implement parallel similarity algorithm based on CUDA in spectral clustering method on microarray data of carcinoma genes. Implementation assisted with software based on open source R used in spectral clustering algorithm PAM with serial similarity algorithm and CUDA used to parallel similarity algorithm. Clustering microarray data of carcinoma genes preceded by normalizing the data using min max normalization. In the spectral clustering PAM algorithm, first of all, similarity between genes of carcinoma calculated. Furthermore, forming the normalized Laplacian matrix from diagonal matrix and unnormalized Laplacian matrix. The next step is to calculate the eigenvalues of normalized Laplacian matrix and determine the eigenvectors of k smallest eigenvalues of normalized Laplacian matrix is organized into a new dataset to be partitioned each line using PAM. Based on the running time, the time required to calculate the value of parallel similarity in CUDA is 378 times faster than a serial in R. The results showed that spectral clustering PAM classify microarray data of carcinoma genes into two clusters with an average silhouette value is 0,6458276."
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2017
T47172
UI - Tesis Membership  Universitas Indonesia Library
cover
Almaira Nabila Ayudhiya
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2021
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Frisca
"Spectral clustering adalah salah satu algoritma clustering modern yang paling terkenal. Sebagai teknik clustering yang efektif, metode spectral clustering muncul dari konsep teori graf spektral. Metode spectral clustering membutuhkan algoritma partisi. Ada beberapa metode partisi termasuk PAM, SOM, Fuzzy c-means, dan k-means. Berdasarkan penelitian yang telah dilakukan oleh Capital dan Choudhury pada 2013, ketika menggunakan Euclidian distance, k-means memberikan akurasi yang lebih baik dibandingkan dengan algoritma PAM. sehingga, makalah ini menggunakan algoritma k-means. Keuntungan utama dari spectral clustering adalah mengurangi dimensi data, terutama dalam hal ini untuk mengurangi dimensi yang besar dari data microarray.
Microarray data adalah chip berukuran kecil yang terbuat dari slide kaca yang berisi ribuan bahkan puluhan ribu jenis gen dalam fragmen DNA yang berasal dari cDNA. Aplikasi data microarray secara luas digunakan untuk mendeteksi kanker, misalnya adalah karsinoma, di mana sel-sel kanker mengekspresikan kelainan pada gen-nya. Proses spectral clustering dimulai dengan pengumpulan data microarray gen karsinoma, preprocessing, menghitung similaritas, menghitung , menghitung nilai eigen dari , membentuk matriks , dan clustering dengan menggunakan k-means. Dari hasil pengelompokan gen karsinoma pada penelitian ini diperoleh dua kelompok dengan nilai rata-rata Silhouette maksimal adalah 0.6336247. Proses clustering pada penelitian ini menggunakan program open source R.

Spectral clustering is one of the most famous modern clustering algorithms. As an effective clustering technique, spectral clustering method emerged from the concepts of spectral graph theory. Spectral clustering method needs partitioning algorithm. There are some partitioning methods including PAM, SOM, Fuzzy c means, and k means. Based on the research that has been done by Capital and Choudhury in 2013, when using Euclidian distance k means algorithm provide better accuracy than PAM algorithm. So in this paper we use k means as our partition algorithm. The major advantage of spectral clustering is in reducing data dimension, especially in this case to reduce the dimension of large microarray dataset.
Microarray data is a small sized chip made of a glass plate containing thousands and even tens of thousands kinds of genes in the DNA fragments derived from doubling cDNA. Application of microarray data is widely used to detect cancer, for the example is carcinoma, in which cancer cells express the abnormalities in his genes. The spectral clustering process is started with collecting microarray data of carcinoma genes, preprocessing, compute similarity matrix, compute , compute eigen value of , compute , clustering using k means algorithm. In this research, Carcinoma microarray data using 7457 genes. The result of partitioning using k means algorithm is two clusters clusters with maximum Silhouette value 0.6336247.
"
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2017
T47117
UI - Tesis Membership  Universitas Indonesia Library
cover
Cynthia
"Dengue adalah salah satu penyakit endemik yang terjadi pada banyak daerah sub tropis dan tropis. Nyamuk Aedes aegypti merupakan vektor utama penyakit dengue. Jumlah insiden dengue telah meningkat secara drastis di seluruh dunia dalam beberapa dekade terakhir. Perubahan iklim dapat menyebabkan perubahan curah hujan, suhu, kelembapan, dan arah udara, sehingga dapat berpengaruh pada perkembangbiakan hidup nyamuk Aedes. Pada skripsi ini, penulis mengimplementasikan algoritma ­K-Medoids dan Fuzzy C-Means Clustering menggunakan jarak Euclidean pada data insiden dengue dan cuaca yang diambil dari kelima wilayah di DKI Jakarta pada tahun 2009 hingga 2016. Variabel yang digunakan terdiri atas rata-rata temperatur, rata-rata kelembapan udara relatif, curah hujan, dan insiden dengue. Proses implementasi dalam skripsi ini dibedakan atas 2 skenario penelitian, yaitu menggunakan 4 variabel yang telah disebutkan di atas dan 3 variabel (variabel yang sama seperti sebelumnya, namun tanpa variabel insiden dengue). Tujuan penelitian dalam skripsi ini adalah menganalisis keterkaitan antara variabel cuaca tersebut dan insiden dengue dari kelima wilayah di DKI Jakarta. Untuk menentukan jumlah klaster yang digunakan, pada metode K-Medoids Clustering dilakukan perhitungan Silhouette Coefficient dan pada metode Fuzzy C-Means Clustering dilakukan perhitungan Modified Partition Coefficient. Hasil menunjukkan bahwa terdapat korelasi yang cenderung positif antara insiden dengue dengan rata-rata kelembapan udara relatif dan jumlah curah hujan di DKI Jakarta. Sementara itu, terdapat korelasi yang cenderung negatif antara jumlah insiden dengue dengan rata-rata temperatur di DKI Jakarta. Hasil dari kedua skenario menunjukkan bahwa terdapat kemiripan nilai rata-rata temperatur yang terjadi antara Jakarta Pusat dan Jakarta Utara, serta antara Jakarta Timur, Jakarta Selatan, dan Jakarta Barat. Kemiripan nilai rata-rata kelembapan udara relatif juga terjadi pada wilayah-wilayah seperti yang telah disebutkan sebelumnya. Hasil dari kedua skenario juga menunjukkan bahwa insiden dengue yang terjadi di Jakarta Pusat dan Jakarta Utara cenderung lebih rendah dari Jakarta Timur, Jakarta Barat, dan Jakarta Selatan. Berdasarkan hasil yang diperoleh, pembentukan klaster pada skenario pertama cenderung dipengaruhi oleh jumlah insiden dengue. Sementara itu, pembentukan klaster pada skenario kedua cenderung dipengaruhi oleh jumlah curah hujan.

Dengue is an endemic disease prevalent in sub-tropical and tropical regions. The Aedes aegypti mosquito is the main vector of dengue. Dengue incidence has been rising dramatically throughout the last few decades. Climate change may lead to changes in rainfall, temperature, humidity, and wind direction, so that it can affect the breeding of Aedes mosquitoes. In this study, we employ K-Medoids Clustering and Fuzzy C-Means (FCM) Clustering algorithms using Euclidean distance on five regions in DKI Jakarta every year from 2009 to 2016. The variables used consist of average temperature, average relative humidity, rainfall, and dengue incidence. The implementation process in this study is divided into 2 research scenarios. Firstly using the 4 variables that was mentioned above, and secondly using 3 variables (the same variables as before, but without the dengue incidence variable). The purpose of this study is to analyze the relationships between these weather variables and dengue incidence in the five regions in DKI Jakarta. In order to determine the number of clusters used, for K-Medoids Clustering we determine the Silhouette Coefficient, and for Fuzzy C-Means Clustering we determine the Modified Partition Coefficient. The results show that there tends to be a positive correlation between the number of dengue incidence with average relative humidity and the amount of rainfall. On the other hand, there tends to be a negative correlation between the number of dengue incidence with the average temperature. The results of the two scenarios show that there are similarities in the average temperature between Central Jakarta and North Jakarta, as well as between the East Jakarta, South Jakarta, and West Jakarta. Similarities in the average relative humidity also occur in the areas mentioned before. The results of both scenarios also show that the dengue incidence in Central Jakarta and North Jakarta tend to be lower than in East Jakarta, West Jakarta, and South Jakarta. Based on the results, cluster formation in the first scenario tends to be influenced by the number of dengue incidence. Meanwhile, cluster formation in the second scenario tends to be influenced by the amount of rainfall."
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2020
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Aisyah Gefira
"Teknologi microarray adalah teknologi di bidang bioinformatika yang digunakan untuk mengukur ekspresi gen dalam berbagai kondisi eksperimental dan menghasilkan data ekspresi gen. Salah satu metode yang dapat digunakan untuk menganalisis data ekspresi gen adalah triclustering, Triclustering adalah metode pengelompokan data tiga dimensi berdasarkan karakteristik yang serupa. Berbagai algoritma seperti TriGen, δ-Trimax dan EMOA-δ-Trimax dikembangkan untuk melakukan triclustering. Namun, seluruh algoritma tersebut menghadapi masalah yang sama, yaitu waktu komputasi yang lama. Penelitian ini menggunakan Coarse-grain Parallel Genetic Algorithm (CgPGA) untuk mengatasi tantangan waktu komputasi pada triclustering. Algoritma ini membagi data menjadi beberapa subpopulasi dan menjalankan proses evolusi genetik secara paralel menggunakan enam core. Penelitian ini mengusulkan penggunaan CgPGA untuk mempercepat proses triclustering pada data ekspresi gen darah microarray tiga dimensi yang dipengaruhi empat jenis minuman dan diukur pada lima titik waktu. Kualitas tricluster dievaluasi menggunakan fitness function yang diadaptasi dari Mean Square Residue (MSR), weights, dan distinction. Hasil penelitian ini menunjukkan bahwa CgPGA secara signifikan mengurangi waktu komputasi dengan bekerja 18,24 kali lebih cepat dibandingkan dengan Genetic Algorithm secara serial yang diukur dengan speedup. CgPGA berhasil diterapkan untuk melakukan triclustering pada data ekspresi gen tiga dimensi microarray berdasarkan kemiripan pola ekspresi gen. 10 tricluster yang dihasilkan memiliki kombinasi gen, kondisi, dan waktu yang beragam, serta memiliki fitness score tinggi yang berkisar antara 2514,542745 hingga 2568,106026. Tricluster 5 memiliki fitness score tertinggi yaitu sebesar 2568,106026. Selanjutnya, hasil triclustering dianalisis menggunakan Gene Ontology (GO) dan KEGG Pathway untuk mengidentifikasi informasi gen dan interaksi antar gen di dalam tricluster. Hasil penelitian menunjukkan bahwa GO berhasil mengidentifikasi gen-gen di dalam tricluster dalam aspek proses biologis, fungsi molekuler, dan komponen seluler. Analisis KEGG Pathway menunjukkan bahwa gen-gen di dalam tricluster berpartisipasi dalam berbagai jalur biokimia, salah satunya adalah jalur diabetic cardiomyopathy. Secara keseluruhan, penelitian ini memberikan kontribusi signifikan dalam analisis data genomik dengan mengimplementasikan teknik triclustering menggunakan CgPGA yang efektif dan efisien, serta memperluas pengetahuan tricluster melalui identifikasi informasi genetik yang relevan dan meningkatkan pemahaman tentang interaksi biologis yang terjadi pada suatu kelompok gen berpola ekspresi serupa menggunakan GO dan KEGG Pathway.

Microarray technology is a bioinformatics tool utilized to measure gene expression across various experimental conditions, generating comprehensive gene expression data. Triclustering, a method for clustering three-dimensional data based on similar characteristics, is one approach to analyzing this data. Despite the development of several algorithms for triclustering, such as TriGen, δ-Trimax, and EMOA-δ-Trimax, they all encounter the challenge of lengthy computation times. This study addresses this issue by employing the Coarse-grain Parallel Genetic Algorithm (CgPGA). The algorithm mitigates computational time by dividing the data into several subpopulations and executing the genetic evolution process in parallel across six cores. The study demonstrates the application of CgPGA to expedite the triclustering process on three dimensional microarray blood gene expression data, influenced by four types of beverages and measured at five different time points. The triclusters' quality is assessed using a fitness function adapted from Mean Square Residue (MSR), weights, and distinction. Results indicate that CgPGA significantly reduces computation time, operating 18,24 times faster than the serial Genetic Algorithm as measured by speedup. CgPGA effectively performs triclustering on three-dimensional microarray gene expression data. The 10 resulting triclusters exhibit diverse combinations of genes, conditions, and time points, and have high fitness scores ranging from 2514.542745 to 2568.106026. Tricluster 5 has the highest fitness score of 2568.106026. Further analysis of the triclustering results using Gene Ontology (GO) and KEGG Pathway reveals gene information and interactions within the triclusters. GO analysis successfully identifies genes within the triclusters in terms of biological processes, molecular functions, and cellular components, while KEGG Pathway analysis shows that the genes participate in various biochemical pathways, including the diabetic cardiomyopathy pathway. Overall, this study significantly contributes to genomic data analysis by implementing an efficient and effective triclustering technique using CgPGA, expanding the understanding of triclusters by identifying relevant genetic information, and enhancing the comprehension of biological interactions within gene groups exhibiting similar expression patterns using GO and KEGG Pathway."
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2024
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Sofia Debi Puspa
"Penelitian ini bertujuan untuk mengimplementasikan similarity based biclustering SBB dalam memperoleh bicluster sekumpulan gen dengan ekspresi yang similar di bawah kondisi tertentu yang signifikan pada data microarray. Secara teoritis similarity based biclustering terdiri atas tiga tahap utama, yaitu: membangun matriks similaritas baris gen dan matriks similaritas kolom kondisi , mempartisi masing-masing matriks similaritas dengan hard clustering khususnya dalam penelitian ini menggunakan partisi k-means, dan ekstrak bicluster. Sebelum mengimplementasikan metode SBB, strategi seleksi gen diterapkan dan selanjutnya dilakukan normalisasi. Perolehan evaluasi indeks silhouette pada dataset diabetic nephropathy, diabetic retinopathy dan lymphoma berturut-turut pada cluster kondisi yaitu 0,8304; 0,7853 dan 0,7382, sedangkan indeks silhouette untuk cluster gen yaitu 0,5382; 0,5408 dan 0,5464. Dan dari hasil analisis cluster kondisi, akurasi dari dataset diabetic nephropathy dan diabetic retinopathy yaitu 100 , sedangkan dataset lymphoma yaitu 98 . Selanjutnya dapat diketahui regulasi proses seluler yang terjadi pada bicluster dari ketiga dataset. Hasil analisis menunjukkan bahwa gen-gen yang diperoleh dari bicluster sesuai dengan fungsi gen dan proses biologis didukung oleh GO enrichment sehingga menjadi potensi yang besar bagi praktisi medis dalam tindak lanjut suatu penyakit yang diderita oleh pasien.

This study aims to implement similarity based biclustering SBB in obtaining a bicluster a set of genes that exhibit similar levels of gene expression under certain conditions that is significant in microarray data. Theoretically, similarity based biclustering consists of three main phase constructing the row gene similarity matrix and the column condition similarity matrix, partitioning each matrix similarity with hard clustering especially in this research using k means partition, and extracting bicluster. Before implementing the SBB method, the gene selection strategy is applied and subsequently normalized. The acquisition of silhouette index evaluation in diabetic nephropathy, diabetic retinopathy, and lymphoma on cluster condition respectively is 0.8304, 0.7853 and 0.7382, while the silhouette index for the gene cluster is 0.5382, 0.5408 and 0.5464. In addition, according to the cluster condition analysis, accuracy of dataset diabetic nephropathy and diabetic retinopathy is 100 , whereas dataset lymphoma is 98 . Furthermore, it can be known cellular regulation that occurs on the bicluster of the three datasets. The results of the analysis show that the genes obtained from bicluster are relevant to the function of genes and biological processes supported by GO enrichment , therefore it becomes a great potential for medical practitioners in the follow up of a disease suffered by the patient.
"
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2018
T49530
UI - Tesis Membership  Universitas Indonesia Library
cover
Gianinna Ardaneswari
"Diabetic Retinopathy merupakan penyakit yang disebabkan oleh komplikasi mikrovaskuler jangka panjang dari pasien Diabetes Melitus. Salah satu bentuk data biologi molekuler yang tengah berkembang pesat saat ini adalah data ekspresi gen pada microarray. Analisis data ekspresi gen dapat dilakukan dengan berbagai cara termasuk pengelompokkan data menggunakan algoritma clustering ataupun biclustering. Salah satu metode untuk menganalisis data ekspresi gen adalah metode Two-Phase Biclustering. Untuk data yang berukuran besar, metode tersebut membutuhkan waktu komputasi yang lama. Penerapan komputasi paralel diperlukan dalam metode Two-Phase Biclustering ini agar waktu komputasi yang dibutuhkan lebih sedikit dan memiliki kinerja yang baik.
Dalam tesis ini akan dibahas implementasi paralel pada metode Two-Phase Biclustering, dimana fase pertama menggunakan algoritma paralel K-Means dan fase kedua menggunakan algoritma biclustering Cheng-Church pada data ekspresi gen Diabetic Retinopathy. Dari hasil penelitian kami diperoleh peningkatan kinerja komputasi berupa speed-up sebesar 3,63x pada multicore paralel R dan 34x pada pemrograman manycore paralel CUDA-GPU.

Diabetic Retinopathy is a disease caused by long term microvascular complications on diabetes mellitus patients. Recently, the microarray gene expression data has been developing rapidly in molecular biology. There are many techniques for gene expression data analysis methods using clustering or biclustering algorithms. One of the effective method for analyzing gene expression data is Two Phase Biclustering method. However for large sized data, the method requires long computation time. Implementation of parallel computing is necessary in Two Phase Biclustering method to reduce the computation time and to obtain a good performance.
In this thesis we discuss the implementation of parallel Two Phase biclustering, where in the first phase using parallel K Means algorithm and the second phase using Cheng Church biclustering algorithm on Diabetic Retinopathy gene expression data. In parallel K Means algorithms are applied multicore based parallel R programming and manycore CUDA GPU parallel programming. Parallelization using multicore based parallel R programming achieves an average speed up of 3.63x and using manycore CUDA GPU parallel programming achieves significant performance with an average speed up of 34x.
"
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2017
T47269
UI - Tesis Membership  Universitas Indonesia Library
<<   1 2 3 4 5 6 7 8 9 10   >>