Hasil Pencarian  ::  Simpan CSV :: Kembali

Hasil Pencarian

Ditemukan 9 dokumen yang sesuai dengan query
cover
Heri Kurnia Andika
Abstrak :
Penyakit Alzheimer adalah penyakit bersifat neurodegenerative atau terdapat penurunan fungsi pada neuron yang bercirikan terdapat gangguan memori yang parah pada bagian otak. Penelitian ini bertujuan menganalisis Alzheimer disease (AD) dalam bentuk data microarray untuk mencari bicluster dengan algoritma BicHPT (Biclustering based on Hamming Pattern Table). Bagian otak manusia akan dibagi terlebih dahulu menjadi enam bagian yang menjadi penyebab AD yakni Entorhinal Cortex (EC), Hippocampus (HIP), Middle Temporal Gyrus (MTG), Posterior Cingulate Cortex (PC), Superior Frontal Gyrus (SFG), dan Visual Cortex (VCX). Algoritma untuk mendapatkan Bicluster pada umumnya hanya dapat digunakan dalam matriks dengan entri bilangan real namun pada penelitian ini akan digunakan algoritma BicHPT yang dapat digunakan untuk mendapatkan bicluster dari matriks yang berisi entri dengan nilai biner yakni 0 dan 1. Data microarray dari Alzheimer disease akan dibinerisasi terlebih dahulu melalui threshold dari mean keseluruhan matriks. Jika nilai suatu entri melebihi nilai threshold maka entri tersebut akan bernilai 1 dan sebaliknya jika entri kurang dari nilai threshold maka entri matriks tersebut akan bernilai 0. Setelah semua entri pada matriks dibinerisasi akan diaplikasikan algoritma BicHPT. Konsep utama algoritma ini adalah mencari jarak Hamming pada masing-masing kolom matriks untuk mendapatkan kandidat bicluster. Algoritma BicHPT terdiri atas beberapa langkah yakni: Mereduksi kolom matriks, mencari tabel dari jarak Hamming, mendapatkan candidat bicluster, dan terakhir diperoleh hasil bicluster dalam bentuk submatriks. Gen dari hasil bicluster yang didapatkan akan dianalisis dengan gene ontology (GO) untuk mengetahui fungsi biologis dari bicluster tersebut. Dengan mendapatkan informasi dari fungsi biologis tersebut melalui algoritma BicHPT diharapkan dapat memberikan potensi dalam analisis diagnosis penyakit Alzheimer di bidang medis. ......Alzheimer’s disease is a neurodegenerative disesase or a decline function in neurons which is characterized by severe memory impairment in parts of the brain. In this study we aim to analyze this Alzheimer’s disease (AD) from microarray data to look after a bicluster using BicHPT (Biclustering based on Hamming Pattern Table) algorithm. First we divide the humain brain into six parts that cause the AD, there is Entorhinal Cortex (EC), Hippocampus (HIP), Middle Temporal Gyrus (MTG), Posterior Cingulate Cortex (PC), Superior Frontal Gyrus (SFG), and Visual Cortex (VCX). An algorithm to get a bicluster used only available on real number of matrices. But in this study the BicHPT algorithm can be used to get bicluster from matrices that contain entries with binary number which is 0 or 1. The microarray data from AD will be binarized first through the threshold of the mean from the whole matrices. If the value of an entry exceeds the threshold then the entry will be 1 on the other side if the value of the entry is less than the threshold the matrice will become 0. After all entries in the matrice are binarized, the BicHPT algorithm will be applied. The main concept of this algorithm is to find the Hamming distance in each column to get the bicluster candidates. BicHPT algorithm consist of several steps, which is reducing the matrices column, filling the Hamming distance table, seek for bicluster candidat, and build a bicluster in form of submatrices. Genes from the obtained bicluster will be analyzed by Gene Ontology (GO) to determine the biological function of the bicluster. By that information from these biological functionsthrough the BicHPT algorithm we hope to provide some potential in the analysis of Alzheimer diagnosis in the medical in the future.
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2020
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Nabila Safitri
Abstrak :
Kemiskinan di Indonesia masih menjadi masalah yang harus diperhatikan setiap tahun. Menurut Laporan Susenas Maret 2022, Pulau Sulawesi menempati urutan ketiga dari enam pulau besar di Indonesia berdasarkan persentase penduduk miskin. Hal ini menunjukkan masih banyak penduduk di Pulau Sulawesi yang mengalami kemiskinan. Oleh karena itu, pemerintah perlu mengambil kebijakan yang tepat untuk mengatasi kemiskinan. Salah satu upaya yang dapat dilakukan pemerintah adalah dengan melakukan pengelompokan, yaitu mengelompokkan daerah-daerah kabupaten/kota di Pulau Sulawesi berdasarkan variabel-variabel kemiskinan. Tujuan penelitian ini adalah mengelompokkan data secara dua arah yaitu pengelompokan berdasarkan kabupaten/kota dan variabel-variabelnya secara bersamaan. Dengan terbentuknya pengelompokan kabupaten/kota dan variabel secara bersamaan akan mempermudah pemerintah untuk membuat kebijakan untuk mengatasi kemiskinan. Metode yang sesuai untuk mengelompokkan kabupaten/kota dan variabel-variabel secara bersamaan adalah metode biclustering. Metode biclustering dapat melakukan pengelompokan observasi dan karakteristik secara bersamaan sehingga terbentuk bicluster yang dapat dicirikan dengan karakteristik yang berbeda. Salah satu algoritma biclustering yaitu Iterative Signature Algorithm (ISA). Pengelompokan dengan menggunakan Iterative Signature Algorithm (ISA) memerlukan nilai ambang batas atas dan nilai ambang batas bawah. Nilai ambang batas adalah nilai yang digunakan untuk menentukan apakah suatu wilayah kabupaten/kota dan variabel-variabel dapat masuk ke dalam bicluster. Hasil yang terbaik dipilih berdasarkan rata-rata Mean Square Residu (MSR) per volume. Analisis biclustering pada data kemiskinan di Pulau Sulawesi tahun 2022 menggunakan Iterative Signature Algorithm (ISA) menghasilkan sebanyak 2 bicluster. Pemerintah diharapkan dapat membuat kebijakan yang tepat sesuai dengan masalah yang terjadi pada bicluster 1 dan bicluster 2. ......Poverty in Indonesia is still a problem that must be addressed every year. According to the March 2022 Susenas report, Sulawesi Island ranks at third out of six major islands in Indonesia based on the percentage of the population living in poverty. This shows that there are still many people in Sulawesi Island who experience poverty.  Therefore, the government needs to take the right policy to overcome poverty. One of the efforts that the government can make is by clustering, namely grouping districts/cities on the island of Sulawesi based on poverty variables. The objective of this research is to group the data in two directions, namely grouping by district/city and its variables simultaneously. With the formation of groupings of districts/cities and variables simultaneously, it will be easier for the government to make policies to overcome poverty. The appropriate method to group districts/cities and variables together is the biclustering method. The biclustering method able to group observations and characteristics simultaneously so that biclusters formed that can be characterized differently. One of the biclustering algorithms is the Iterative Signature Algorithm (ISA). Clustering using the Iterative Signature Algorithm (ISA) requires an upper threshold value and a lower threshold value. Threshold value is the value used to determine whether a district/city and variables can be included in a bicluster. The best result is selected based on the average Mean Square Residu (MSR) per volume. Biclustering analysis of poverty data in Sulawesi Island in 2022 using Iterative Signature Algorithm (ISA) produce 2 biclusters. Based on this results, the government is expected to make a right policy to overcome poverty problems in bicluster 1 and bicluster 2.
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2024
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Nuning Setyaningrum
Abstrak :

Alzheimer Disease (AD) merupakan salah satu gangguan saraf yang menyerang otak manusia yang lambat namun progresif yang menyebabkan masalah serius pada otak, sikap, dan masalah percakapan pasien. Penyakit itu sampai sekarang belum ada obatnya tetapi perkembangannya bisa dihambat. Untuk membantu menghambat perkembangan AD, analisis studi tentang Alzheimers diperlukan. Dalam penelitian ini kami bertujuan menganalisis data microarray penyakit AD dengan menyeleksi gen yang signifikan pada enam daerah otak manusia untuk mengidentifikasi adanya kandidat biomarker AD dengan pendekatan metode sparse biclustering berbasis factor analysis. Dengan metode biclustering ini kami menggelompokkan secara simultan baris yang mewakili gen dan kolom yang mewakili sampel, sehingga terbentuklah bicluster-bicluster. Model metode kami adalah multiplikatif generative yaitu metode yang menguraikan matriks menjadi dua faktor matriks sparse plus noise. Dengan analisis gen hasil bicluster dengan gen ontology (GO) maka diketahui fungsi biologi bicluster tersebut. Hasil dari sparse biclustering berbasis factor analysis akhirnya terdeteksi kandidat biomarker AD di dua  daerah otak yaitu EC dan SFG. Hasil dari penelitian ini diharapkan dapat memberikan masukan buat kemajuan analisis pengembangan obat dan diagnosis Alzheimer di bidang medis.

 


Alzheimer's Disease (AD) is one of the nervous disorders that attacks the slow but progressive human brain that causes serious problems in the brain, attitudes, and problems with patient conversation. There is no cure for the disease but the development can be inhibited. To help inhibit AD development, an analysis of studies on Alzheimers is needed. In this study we aimed to analyze AD microarray data by selecting genes that were significant in six regions of the human brain to identify candidates for biomarker AD with a factor analysis sparse biclustering method approach. With this biclustering method, we group together the rows representing genes and columns that represent the sample, so that bicluster-bterluster is formed. Our model method is a generative multiplicative method that describes the matrix into two sparse plus noise matrix factors. By analyzing the gene produced by bicluster with the ontology (GO) gene, the biological function of the bicluster is known. The results from sparse biclustering based factor analysis finally detected AD biomarker candidates in two brain regions namely EC and SFG. The results of this study are expected to provide input for the progress of the analysis of drug development and Alzheimer`s diagnosis in the medical field.

 

2019
T54067
UI - Tesis Membership  Universitas Indonesia Library
cover
Adinda Dwi Putri
Abstrak :
Bioinformatika kerap digunakan oleh para peneliti untuk mempelajari berbagai penyakit yang ada pada tubuh manusia, salah satunya yaitu kanker payudara. Penelitian terhadap kanker payudara tersebut dilakukan dengan tujuan untuk menemukan jenis pengobatan terbaik bagi para pasien penderita kanker payudara. Data ekspresi gen merupakan salah satu komponen utama dalam penelitian mengenai pengobatan kanker payudara dan data tersebut dapat diperoleh dengan menggunakan alat dan teknologi microarray. Akan tetapi, seringkali ditemukan beberapa nilai yang hilang (missing values) pada data ekspresi gen yang dapat disebabkan oleh kesalahan teknis seperti kerusakan pada chip dan gambar. Adanya missing values juga dapat mengakibatkan masalah ketika proses analisis data selanjutnya, dimana terdapat metode analisis data yang memerlukan data lengkap seperti klasifikasi dan clustering. Oleh sebab itu, perlu dilakukan proses imputasi terhadap missing values agar hasil analisis data yang diperoleh lebih akurat. Pada penelitian ini, metode imputasi missing values yang digunakan yaitu SBi-MSREimpute. SBi-MSREimpute adalah metode imputasi berbasis biclustering dimana bicluster dibentuk berdasarkan suatu kriteria yang melibatkan skor Mean Squared Residue dan jarak Euclidean. Metode SBi-MSREimpute diimplementasikan pada data ekspresi gen pasien penderita kanker payudara stadium awal yang telah diberikan jenis obat MK-2206. Kinerja metode SBi-MSREimpute dilihat dengan membandingkan hasil imputasi metode SBi-MSREimpute dengan metode imputasi lain yaitu metode imputasi menggunakan weighted average berdasarkan skor Normalized Root-Mean-Square-Error (NRMSE). Hasil evaluasi dengan skor NRMSE tersebut menunjukkan bahwa kinerja metode SBi-MSREimpute dapat dipengaruhi oleh penentuan nilai k yang ada pada metode SBi-MSREimpute. ......Bioinformatics is often used by researchers to study various diseases that exist in the human body, one of which is breast cancer. The research on breast cancer was conducted with the aim of finding the best type of treatment for breast cancer patients. Gene expression data is one of the main components in research on breast cancer treatment and this data can be obtained using microarray tools and technology. However, there are often missing values found in gene expression data that can be caused by technical errors such as damage to chips and images. The existence of missing values ​​can also cause problems during the data analysis process, where there are data analysis methods that require complete data such as classification and clustering. Therefore, it is necessary to carry out an imputation process for missing values ​​so that the data analysis results obtained are more accurate. In this study, the missing values ​​imputation method used was SBi-MSREimpute. SBi-MSREimpute is a biclustering-based imputation method where the bicluster is formed based on a criterion involving Mean Squared Residue and Euclidean Distance. In this study, the SBi-MSREimpute method was applied to the gene expression data of patients with early stage breast cancer who had been given the MK-2206 type of drug. The performance of the SBi-MSREimpute method is assessed by comparing the results of the imputation using SBi-MSREimpute method with other imputation methods, namely the imputation method using weighted average, based on the Normalized Root-Mean-Square-Error score (NRMSE). The results of the evaluation with NRMSE score showed that the performance of the SBi-MSREimpute method can be affected by the determination of k value in the SBi-MSREimpute method.
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2021
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Soeganda Formalidin
Abstrak :
Penelitian ini bertujuan untuk mencari korelasi yang kuat antar gen dan kondisi dari data ekspresi gen penyakit Diabetes Melitus (DM) pada sampel obesitas dan sampel kurus dengan menggunakan metode three phase biclustering. Tahap pertama pada metode ini adalah dengan menggunakan matriks dekomposisi Singular Value Decomposition (SVD) yang mentransformasikan data menjadi dua matriks berbasis gen dan kondisi. Selanjutnya pada tahap kedua menggunakan metode partisi Partition Around Medoids (PAM) pada dua matriks gen dan kondisi menggunakan jarak Euclidean sehingga jika digabung akan membentuk bicluster yang pada tahap tiga akan dievaluasi dengan menggunakan modifikasi lift algorithm berbasiskan korelasi Pearson yang cocok untuk mendeteksi bicluster model additive-multiplicative. Hasil dari implementasi algoritma yang digunakan pada dataset microarray dinamakan δ-corbicluster yang memiliki korelasi yang tinggi antar gen dan sampel. Implementasi dari tahap pertama dan kedua (SVDPAM) pada dataset DM dengan 1331 gen terseleksi menghasilkan 8 bicluster. Sedangkan hasil tahap ketiga yaitu modifikasi algoritma lift pada kedelapan bicluster ini menghasilkan 3 δ-corbicluster dengan masing-masing nilai korelasi yang tinggi yaitu 0,097, 0,095, 0,085, sehingga metode yang diusulkan dan hasil analisisnya pada gen dan sampel penyakit DM memiliki potensi besar ke depannya dalam penelitan pada bidang medis. ...... The purpose of this research is to find strong correlation among genes and conditions of Diabetes Melitus genes expression data which samples are obese and lean people using three phase biclustering. First step is to use matrix decomposition Singular Value Decomposition (SVD) to decompose matrix gene expression data into two global based gene and condition matrices. Second step is to use partition method Partition Around Medoid (PAM) to cluster gene and condition based matrices using Euclidean distance, forming several biclusters which further evaluated using modified lift algorithm based on Pearson correlation which is very appropriate method to detect additive-multiplicative bicluster type. The resulting bicluster of the proposed algorithm having strong correlation among genes and samples to microarray dataset are called δ-corbicluster. Implementation of the first and second step (SVD-PAM) to dataset DM with 1331 selected genes produces 8 biclusters. For the third step using modified lift algorithm to these 8 biclusters produces 3 δ-corbiclusters having strong correlation values: 0,097, 0,0095, 0,085, so that the proposed method and the result of analysis to genes and samples of DM have high potential in future medical researches.
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2018
T49441
UI - Tesis Membership  Universitas Indonesia Library
cover
Sagitra Tri Meizanda
Abstrak :
Indeks Pembangunan Manusia (IPM) merupakan salah satu indikator yang dapat digunakan untuk menggambarkan tingkat kesejahteraan rakyat di Indonesia. Pada tahun 2021, Provinsi Papua dan Papua Barat menempati dua urutan terakhir berdasarkan nilai IPM di Indonesia. Hal ini menandakan bahwa kesejahteraan masyarakat di Provinsi Papua dan Papua Barat dalam menikmati hasil pembangunan mengalami ketertinggalan dibandingkan dengan provinsi lain. Tetapi, IPM hanya dapat menggambarkan kesejahteraan dari dimensi pembentuknya saja, sehingga dibutuhkan indikator lain yang dapat menggambarkan kesejahteraan dari berbagai dimensi yang lebih luas. Pada penelitian ini dilakukan pengelompokan terhadap kabupaten/kota yang ada di Pulau Papua agar pemerintah lebih mudah dalam mengambil kebijakan yang tepat untuk mengatasi permasalahan kesejahteraan rakyat di Pulau Papua. Analisis yang digunakan pada penelitian ini adalah analisis biclustering. Analisis biclustering merupakan metode pengembangan dari analisis clustering yang digunakan untuk mengelompokkan baris dan kolom pada data secara bersamaan. Salah satu metode dari analisis biclustering adalah menggunakan algoritma Cheng and Church. Algoritma Cheng and Church menghasilkan bicluster yang memiliki ukuran yang maksimal dan mempunyai nilai mean squared residue lebih kecil dari batas yang telah ditentukan. Evaluasi dari hasil biclustering menggunakan rata-rata mean squared residue terhadap volume bicluster dan indeks Jaccard yaitu kemiripan antara dua hasil biclustering. Data yang akan digunakan dalam penelitian ini adalah data indikator kesejahteraan rakyat di pulau Papua tahun 2021. Analisis biclustering terhadap data indikator kesejahteraan rakyat di pulau Papua tahun 2021 menggunakan algoritma Cheng and Church mampu menghasilkan sebanyak 9 bicluster. Harapannya, pemerintah dapat membuat kebijakan yang tepat sesuai dengan masalah yang terjadi pada setiap bicluster. ......The Human Development Index (HDI) is one of the indicators that can be used to describe the level of people's welfare in Indonesia. In 2021, Papua and Papua Barat Provinces occupy the last two ranks based on HDI values in Indonesia. This indicates that the welfare of the people in Papua and Papua Barat Provinces in enjoying the results of development has lagged compared to other provinces. However, HDI can only describe welfare from the dimensions that form it, so other indicators are needed to describe welfare from a broader range of dimensions. In this study, a grouping of districts/cities in Papua Island is carried out so that the government can more easily take the right policy to overcome the problems of people's welfare in Papua Island.  The analysis used in this research is biclustering analysis. Biclustering analysis is a development method of clustering analysis used to simultaneously group rows and columns in the data. One method of biclustering analysis is using the Cheng and Church algorithm. Cheng and Church's algorithm produces a bicluster with a maximum size and a mean squared residue value smaller than the predetermined limit. Evaluation of the biclustering results uses the average mean squared residue of the bicluster volume and the Jaccard index, which is the similarity between the two biclustering results. The data used in this study are welfare indicators data on Papua Island in 2021. Biclustering analysis of welfare indicators data on Papua Island in 2021 using the Cheng and Church algorithm produced as many as 9 biclusters. The hope is that the government can make the right policy according to the problems that occur in each bicluster.
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2023
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Achmad Eriza Aminanto
Abstrak :
Analisis biclustering merupakan pengembangan analisis clustering, dimana analisis biclustering merupakan proses partisi data matriks menjadi sub-matriks berdasarkan baris dan kolom secara simultan. Salah satu metode analisis bicluster yaitu dengan menggunakan model probabilistik, contohnya adalah Plaid model yang dapat memberikan hasil bicluster yang bersifat overlapping. Plaid model, memperhitungkan nilai elemen yang diberikan dari suatu sub-matriks tertentu, sehingga pada analisis biclustering dapat dilihat sebagai jumlah kontribusi atau efek dari bicluster tertentu. Tahapan analisis biclustering dengan plaid model diawali dengan input data berbentuk matriks, kemudian dilakukan penaksiran model awal dan membuat matriks residual dari model tersebut. Kemudian penentuan kandidat bicluster. Kandidat tersebut ditaksir parameter efeknya dan parameter keanggotaan bicluster. Terakhir dilakukan pemangkasan kandidat bicluster tersebut. Implementasi dilakukan pada data matriks ekspresi gen berupa data numerik yaitu data penyakit kanker usus, dimana baris berisikan observasi atau pasien sedangkan kolom berisikan jenis dari gen yang dilakukan dalam 6 skenario. Masing-masing skenario menggunakan parameter model dan nilai threshold berbeda. Validasi hasil implementasi menggunakan indeks Jaccard yaitu kedektahan hasil anggota bicluster dan variansi koherensi. Hasil implementasi menunjukkan penggunaan model yang lebih sederhana yang hanya menggunakan efek mean memberikan variansi koherensi yang lebih tinggi dibandingkan penggunaan model yang berisi mean, efek baris, dan efek kolom dari bicluster.
Biclustering analysis is the development of clustering analysis, which is the process of partitioning matrix data into sub-matrices based on rows and columns simultaneously. One method of bicluster analysis is using probabilistic model, for example the Plaid model that provide overlapping bicluster. Plaid model, calculates the value of an element given from a particular sub-matrix, thus can be seen as number of contributions of particular bicluster. The process begins with matrix data input, then an initial model is assessed and makes a residual matrix from the model. Then determining bicluster candidates. The candidate assessed for its effect parameters and bicluster membership parameters. Finally, the bicluster candidate was prunned. The implementation is carried out on the gene expression matrix data in form of numerical data, namely colon cancer data, where the rows contain observations while the columns contain the types of genes carried out in 6 scenarios. Each scenario uses different model parameters and threshold values. Validation of the implementation results using Jaccard index and coherence variance. Implementation results show that simpler model which only uses mean effect gives higher coherence variance than using model that contains mean, row, and column effect of the bicluster.
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2019
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Panjaitan, Andreas Pangihutan
Abstrak :
Kebutuhan data di zaman sekarang semakin meningkat seiring dengan perkembangan teknologi. Penggunaan dataset dengan ukuran besar sudah menjadi keperluan dalam berbagai bidang, termasuk kebutuhan data di bidang bioinformatika, yang dihasilkan melalui teknologi microarray berbentuk matriks berisi gen dan dan kondisi observasi. Sulit untuk menghasilkan data ekspresi gen yang sempurna dan tidak ada kekurangan karena berbagai keterbatasan dalam proses pengumpulan data. Kehadiran nilai hilang atau missing values pada data ekspresi gen adalah hal yang tidak dapat dihindarkan, sehingga dapat mengganggu jalannya proses analisis data lanjutan. Pada penelitian ini, keberadaan missing values pada data diatasi dengan metode imputasi biclustering berbasis Shifting and Scaling Similarity (SSSim) dan imputasi biclustering berbasis euclidean score. Metode imputasi biclustering berbasis SSSim dan imputasi biclustering berbasis euclidean score adalah 2 metode imputasi berbeda yang dikombinasikan dengan konsep biclustering yang berbeda. Kedua metode imputasi biclustering ini menggunakan konsep least square dan pembobotan gen dalam proses imputasinya, serta menggunakan konsep korelasi SSSim dan korelasi euclidean score dalam proses biclustering-nya. Kedua konsep korelasi tersebut memiliki perbedaan prinsip yang saling berkebalikan, di mana korelasi SSSim dapat mendeteksi pola shifting and scaling dalam data ekspresi gen sedangkan korelasi euclidean score tidak dapat mendeteksi pola shifting and scaling. Metode imputasi biclustering berbasis SSSim dan imputasi biclustering berbasis euclidean score diaplikasikan pada data eskpresi gen kanker usus besar dan diukur tingkat performanya bersama dua metode pembanding lain yaitu K-Nearest Neighbor Imputation (KNNimpute) dan column mean impute menggunakan nilai Root Mean Squared Error (RMSE). Berdasarkan penelitian ini, metode imputasi biclustering berbasis SSSim dan imputasi biclustering berbasis euclidean score memiliki tingkat akurasi yang hampir sama, tetapi secara konsisten lebih baik dari metode KNNimpute dan column mean impute pada data dengan missing rate (5%,10%,15%,20% dan 25%). ......The need for data today is increasing along the technological advances. The use of large data sets has become a necessity in various fields, including the need for data in bioinformatics, which is generated through microarray technology and produce data’s form of a matrix containing genes type and genes observation. It is difficult to produce perfect gene expression data, due to various limitations in the data collection process. The presence of missing values in gene expression data is unavoidable, so it can interfere further analysis. In this research, the presence of missing values was handled by the biclustering based on Shifting and Scaling Similarity (SSSim) and biclustering based on euclidean score for missing values imputation. Biclustering based on Shifting and Scaling Similarity (SSSim) and biclustering based on euclidean score for missing values imputation are 2 different imputation methods combined with biclustering concepts. This two methods use the least square concept and gene weighting in the imputation process, and use the SSSim and the Euclidean score correlation in the biclustering process. This two correlation concepts have contradictory basic principles, where SSSim correlation can detect shifting and scaling patterns in gene expression data while Euclidean score correlation cannot detect. Biclustering based on Shifting and Scaling Similarity (SSSim) and biclustering based on euclidean score for missing values imputation were applied to colon cancer gene expression data and their performance level was measured by Root Mean Squared Error (RMSE) with two other comparison methods, namely K-Nearest Neighbor Imputation (KNNimpute) and column mean impute. Based on this study, biclustering based on Shifting and Scaling Similarity (SSSim) and biclustering based on euclidean score for missing values imputation has almost the same accuracy level, but consistently better than the KNNimpute method and column mean impute on data with missing rate (5%, 10%, 15%, 20% and 25%).
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2021
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Bulan Firdanisa
Abstrak :
Penelitian bioinformatika sering diterapkan untuk mempelajari penyakit dalam tubuh manusia. Penelitian yang sampai saat ini masih aktif dilakukan ialah penelitian terhadap pasien penderita kanker. Tujuan dari berbagai penelitian ini yaitu untuk menemukan pengobatan terbaik bagi pasien penderita kanker. Salah satu pengobatan yang baru ini muncul dikenal sebagai imunoterapi. Imunoterapi memungkinkan sel-sel imun tubuh kita sendiri digunakan untuk melawan sel-sel kanker. Instrumen utama dalam penelitian terhadap efektifitas imunoterapi juga kasus bioinformatika lainnya ialah data ekspresi gen. Namun, pada data ekspresi gen seringkali ditemukan nilai yang hilang atau missing values yang biasanya disebabkan oleh kerusakan gambar atau kesalahan dalam proses hibridisasi. Keberadaan missing values pada data ekspresi gen dapat menyebabkan kesulitan pada analisis lebih lanjut, di mana banyak analisis ekspresi gen memerlukan data yang lengkap seperti klasifikasi dan pengelompokan. Oleh karena itu, perlu dilakukan imputasi terhadap missing values agar analisis yang dilakukan dapat lebih akurat. Pada penelitian ini dilakukan imputasi menggunakan metode Bi-BPCA. Bi-BPCA merupakan metode imputasi dengan mengombinasikan analisis biclustering dan imputasi BPCA. Metode Bi-BPCA diterapkan pada data ekspresi gen di sekitar kanker setelah dilakukan imunoterapi. Setelah itu, performa dari metode Bi-BPCA dilihat dengan membandingkan hasil imputasi metode Bi-BPCA dengan metode imputasi lainnya diantaranya imputasi menggunakan rata-rata baris, rata-rata kolom, dan metode imputasi BPCA melalui nilai NRMSE. Selain itu, koefisien korelasi Pearson digunakan untuk menghitung korelasi antara nilai hasil imputasi metode Bi-BPCA dengan nilai aslinya. Berdasarkan penelitian ini metode Bi-BPCA menghasilkan NRMSE kurang dari 0.6 untuk missing rate 1-30%, lebih rendah dibandingkan NRMSE dari metode imputasi lainnya. Kemudian, metode Bi-BPCA menghasilkan nilai koefisien korelasi Pearson mayoritas di atas 0.9 mendekati 1. Hasil ini menunjukkan bahwa metode Bi-BPCA menghasilkan nilai imputasi yang lebih baik untuk menggantikan missing values dibandingkan dengan metode imputasi BPCA, rata-rata kolom, dan rata-rata baris. ......Bioinformatics research is often applied to study diseases in the human body. Research that is still actively being carried out is research on cancer patients. The aim of those studies is to find the best treatment for cancer patients. One treatment that has recently emerged is known as immunotherapy. Immunotherapy allows our body's own immune cells to be used to fight cancer cells. The main instrument in research on the effectiveness of immunotherapy as well as other cases of bioinformatics is gene expression data.. However, in gene expression data, it is often found missing values which are usually caused by image defects and errors in the hybridization process. The existence of missing values in gene expression data can cause difficulties in further analysis, where many analysis of gene expression requires complete data such as classification and clustering. Therefore, it is necessary to impute the missing values so that the analysis can be carried out more accurately. In this study, imputation was carried out using the Bi-BPCA method. Bi-BPCA is an imputation method by combining biclustering analysis and BPCA imputation. The Bi-BPCA method was applied to gene expression data around cancer after immunotherapy. After that, the performance of the Bi-BPCA method was seen by comparing the imputation results of the Bi-BPCA method with other imputation methods including imputation using row averages, column averages, and the BPCA imputation method through the NRMSE value. In addition, the Pearson correlation coefficient was used to calculate the correlation between the imputed value of the Bi-BPCA method and the original value. Based on this study, the Bi-BPCA method produces NRMSE values less than 0.6 for missing rates 1 to 30 percent, which is lower than NRMSE from other imputation methods. In addition, the Bi-BPCA method produces in a majority Pearson correlation coefficient above 0.9. These results indicate that the Bi-BPCA method produces better imputation values to replace the missing values.
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2021
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library