Hasil Pencarian

Ditemukan 5 dokumen yang sesuai dengan query

Panjaitan, Andreas Pangihutan

Analisis perbandingan kinerja antara metode imputasi biclustering berbasis Shifting and Scaling Similarity (SSSim) dan euclidean score pada data ekspresi gen kanker usus besar = Performance comparison analysis between of biclustering based Shifting and Scaling Similarity (SSSim) and euclidean score for missing values imputation on colon cancer gene expression data.

"Kebutuhan data di zaman sekarang semakin meningkat seiring dengan perkembangan teknologi. Penggunaan dataset dengan ukuran besar sudah menjadi keperluan dalam berbagai bidang, termasuk kebutuhan data di bidang bioinformatika, yang dihasilkan melalui teknologi microarray berbentuk matriks berisi gen dan dan kondisi observasi. Sulit untuk menghasilkan data ekspresi gen yang sempurna dan tidak ada kekurangan karena berbagai keterbatasan dalam proses pengumpulan data. Kehadiran nilai hilang atau missing values pada data ekspresi gen adalah hal yang tidak dapat dihindarkan, sehingga dapat mengganggu jalannya proses analisis data lanjutan. Pada penelitian ini, keberadaan missing values pada data diatasi dengan metode imputasi biclustering berbasis Shifting and Scaling Similarity (SSSim) dan imputasi biclustering berbasis euclidean score. Metode imputasi biclustering berbasis SSSim dan imputasi biclustering berbasis euclidean score adalah 2 metode imputasi berbeda yang dikombinasikan dengan konsep biclustering yang berbeda. Kedua metode imputasi biclustering ini menggunakan konsep least square dan pembobotan gen dalam proses imputasinya, serta menggunakan konsep korelasi SSSim dan korelasi euclidean score dalam proses biclustering-nya. Kedua konsep korelasi tersebut memiliki perbedaan prinsip yang saling berkebalikan, di mana korelasi SSSim dapat mendeteksi pola shifting and scaling dalam data ekspresi gen sedangkan korelasi euclidean score tidak dapat mendeteksi pola shifting and scaling. Metode imputasi biclustering berbasis SSSim dan imputasi biclustering berbasis euclidean score diaplikasikan pada data eskpresi gen kanker usus besar dan diukur tingkat performanya bersama dua metode pembanding lain yaitu K-Nearest Neighbor Imputation (KNNimpute) dan column mean impute menggunakan nilai Root Mean Squared Error (RMSE). Berdasarkan penelitian ini, metode imputasi biclustering berbasis SSSim dan imputasi biclustering berbasis euclidean score memiliki tingkat akurasi yang hampir sama, tetapi secara konsisten lebih baik dari metode KNNimpute dan column mean impute pada data dengan missing rate (5%,10%,15%,20% dan 25%).

The need for data today is increasing along the technological advances. The use of large data sets has become a necessity in various fields, including the need for data in bioinformatics, which is generated through microarray technology and produce data’s form of a matrix containing genes type and genes observation. It is difficult to produce perfect gene expression data, due to various limitations in the data collection process. The presence of missing values in gene expression data is unavoidable, so it can interfere further analysis. In this research, the presence of missing values was handled by the biclustering based on Shifting and Scaling Similarity (SSSim) and biclustering based on euclidean score for missing values imputation. Biclustering based on Shifting and Scaling Similarity (SSSim) and biclustering based on euclidean score for missing values imputation are 2 different imputation methods combined with biclustering concepts. This two methods use the least square concept and gene weighting in the imputation process, and use the SSSim and the Euclidean score correlation in the biclustering process. This two correlation concepts have contradictory basic principles, where SSSim correlation can detect shifting and scaling patterns in gene expression data while Euclidean score correlation cannot detect. Biclustering based on Shifting and Scaling Similarity (SSSim) and biclustering based on euclidean score for missing values imputation were applied to colon cancer gene expression data and their performance level was measured by Root Mean Squared Error (RMSE) with two other comparison methods, namely K-Nearest Neighbor Imputation (KNNimpute) and column mean impute. Based on this study, biclustering based on Shifting and Scaling Similarity (SSSim) and biclustering based on euclidean score for missing values imputation has almost the same accuracy level, but consistently better than the KNNimpute method and column mean impute on data with missing rate (5%, 10%, 15%, 20% and 25%)."

Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2021

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

Rasendriya Maheswari

Imputasi Biclustering Berbasis Shifting-and-Scaling Similarity (SSSim) Menggunakan Regresi Kuantil Ke-t (NCBI-SSSim-tQR) pada Data Ekspresi Gen = Shifting-and-Scaling Similarity (SSSim)-Based Biclustering Imputation Using t-th Quantile Regression (NCBI-SSSim-tQR) on Gene Expression Data

"Teknologi microarray merupakan alat terapan ilmu bioinformatika dalam bidang biologi molekuler yang dapat menghasilkan suatu data ekspresi gen. Namun, pada data ekspresi gen sering ditemukan missing value yang dapat mengganggu proses analisis data. Untuk mengatasi masalah tersebut, missing value dapat diestimasi menggunakan teknik imputasi. Penelitian ini menggunakan metode NCBI-SSSim-QR yang merupakan metode imputasi biclustering berbasis Shifting-and-Scaling Similarity (SSSim) dan menggunakan regresi kuantil dalam mengestimasi missing values. Metode ini merupakan modifikasi dari metode NCBI-SSSim-LS yang menggunakan regresileast square dalam proses imputasinya. Regresi kuantil pada metode NCBI-SSSim-QR digunakan untuk menangani keberadaan outlier pada data karena regresi kuantil dapat menyesuaikan kemiringan distribusi data pada titik-titik kuantil tertentu. Pada penelitian ini, metode NCBI-SSSim-QR diimplementasikan pada data ekspresi gen kanker serviks yang mengandung outlier dan diujikan pada missing rate 5%, 10%, 15%, 20%, 25%, 30%, dan 35% dengan mekanisme MCAR (Missing Completely at Random) dalam pembentukan missing values. Terdapat beberapa titik kuantil yang diuji yaitu kuantil ke = 0,3, 0,4, 0,5, 0,6, 0,7 yang kemudian performanya dibandingkan dengan metode NCBI-SSSim-LS yang berbasis mean. Penelitian menunjukkan bahwa proses estimasi missing values pada data ekspresi gen kanker serviks paling baik dilakukan oleh metode NCBI-SSSim-QR dengan kuantil 0,5 berdasarkan nilai Root Mean Square Error (RMSE).

Microarray technology is a bioinformatics tools in molecular biology that capable for quantitating hundreds or thousands of gene transcripts called gene expression data. However, the presence of missing values is often found in gene expression data which can interfere the further analysis process. Therefore, imputation technique used for estimating missing values. This research used NCBI-SSSim-QR method which is a Shifting-and-Scaling Similarity (SSSim)-based biclustering imputation method using quantile regression to estimate the missing values. This method is a modification of the NCBI-SSSim-LS method that using the least square regression for imputation process. Quantile regression in the NCBI-SSSim-QR method is used to handle the presence of outliers in the data because quantile regression can follow the skewness of the data distribution at certain quantile points. In this research, the NCBI-SSSim-QR method will be implemented on cervical cancer gene expression data containing outliers and tested on missing rate of 5%, 10%, 15%, 20%, 25%, 30%, and 35% with MCAR (Missing Completely at Random) mechanism in generating missing values. There are several quantile points to be tested, = 0,3, 0,4, 0,5, 0,6, 0,7 which will then be compared with the NCBI-SSSim-LS method which is mean-based. The research shows that the estimation process for missing values in cervical cancer gene expression data is better estimated by NCBI-SSSim-QR method with a quantile of 0,5 based on the Root Mean Square Error (RMSE) value."

Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2022

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

Erlinda Muslim

Analytic hierarchy process (ahp) pairwise matrix with one missing value

"In order to obtain the results of an Analytic Hierarchy Process (AHP), all of the lower or upper triangle elements of the pairwise matrix need to be filled in. As the number of criteria of an AHP increases, the number of elements of the pairwise matrix increases quadratically. This forces an expert to answer a large number of comparisons. This paper studies and analyzes the characteristics of a pairwise matrix when one of its elements is not available. This is one of the efforts to reduce the number of comparisons that need to be provided by an expert. The results show that a complete pairwise matrix that is consistent tends to have the same characteristics (priority sequence and consistency index) as when it has one missing value. Further research is needed so that the number of comparisons can be decreased while still keeping the pairwise matrix consistent."

Depok: Faculty of Engineering, Universitas Indonesia, 2017

UI-IJTECH 8:7 (2017)

Artikel Jurnal Universitas Indonesia Library

Fenni Amalia

Metode Biclustering Terurut Berbasis k-Nearest Neighbour, Mean Square Residual, dan Jarak Euclidean dalam Imputasi Missing Values pada Data Ekspresi Gen = Sequential Biclustering Method Based on k-Nearest Neighbor, Mean Squared Residual, and Euclidean Distance in Missing Values Imputation on Gene Expression Data

"Bioinformatika merupakan ilmu yang ditujukan untuk menganalisis informasi biologis. Dalam perkembangan penelitian bioinformatika, data diperoleh salah satunya dengan menggunakan teknologi microarray. Teknologi microarray digunakan oleh lingkup biologi molekuler dalam melihat perbedaan tingkat ekspresi gen dengan cara mengonversi gambar monokromik yang berisi ratusan bahkan ribuan gen dari sampel sel dan menghasilkan data ekspresi gen. Teknologi microarray sering kali menghasilkan data ekspresi gen yang hilang atau tidak terdeteksi akibat adanya kesalahan teknis. Oleh karena itu, diperlukannya suatu metode imputasi pada data untuk mengatasi missing values. Pada penelitian ini, akan dikembangkan suatu metode imputasi yang disebut Biclustering Terurut berbasis k-Nearest Neighbor, Mean Squared Residual, dan Jarak Euclidean. Metode ini merupakan metode imputasi berbasis biclustering dimana bicluster dibentuk berdasarkan suatu kriteria yang melibatkan skor Mean Squared Residue dan Jarak Euclidean. Penggunakan k-Nearest Neighbor sebagai metode pra-imputasi didasarkan pada data ekspresi gen yang sering kali memiliki pola kompleks dan sulit terdeteksi, sehingga perlu pendekatan yang dapat memetakan struktur korelasi pada data. k-Nearest Neighbor mempertimbangkan korelasi pada data microarray dengan menyeleksi kumpulan gen yang memiliki profil ekspresi mirip dengan gen yang ingin diimputasi (gen target). Pada penelitian ini, metode SBi-kNN-MSREimpute diterapkan pada data ekspresi gen pasien penderita COVID-19 yang dilakukan tes rapid harian. Evaluasi kinerja metode SBi-kNN-MSREimpute dilakukan dengan menggunakan NRMSE, dimana hasilnya dibandingkan dengan metode SBi-MSREimpute. Berdasarkan penelitian yang dilakukan, metode SBi-kNN-MSREimpute dinilai lebih baik dibandingkan dengan SBi-MSREimpute untuk setiap missing rate pada tingkatan c berbeda. Nilai c optimal untuk imputasi missing values pada data COVID-19 adalah c = 10% untuk missing rate 25%, 30%, 40% dan c = 15% untuk missing rate 5%, 10%, 15%, 20%, dan 50%. Hasil akhir juga menunjukkan bahwa nilai NRMSE untuk SBi-kNN-MSREimpute relatif stabil bahkan untuk data dengan missing rate tinggi hingga 50%.

Bioinformatics is a study designed to analyze biological information. In the development of bioinformatics research, data was obtained using microarray technology. Microarray technology is used by the scope of molecular biology in transposing hundreds and even thousands of genes from cellular samples simultaneously and producing a gene expression data. Microarray technology often produces data that is lost or undetected as a result of technical error. Therefore, an imputation method is needed to address the missing values. In this study, a new imputation method called Sequential Biclustering based k-Nearest Neighbor, Mean Squared Residual, and Euclidean Distance (SBi-kNN-MSRE) will be developed. This method is a biclustering-based imputation method where the bicluster is formed based on a criterion involving Mean Squared Residue and Euclidean Distance. The use of k-Nearest Neighbor as a pre-imputation method is based on data on gene expression that often has a complex and difficult pattern of detection, so it requires an approach that can map correlation structures on data. K-nearest neighbor considers a correlation on a microarray data by selecting groups of genes that have an expression profile similar to a gene that wants to be imputed (the target gene). In this study, the SBi-kNN-MSRE method was applied to the data on the genes of patients with covid-19 that daily rapid tests were performed. The performance evaluation of the SBi-kNN-MSRE method is done using NRMSE, where the results are compared to the SBi-MSRE method. According to the result, the SBi-kNN-MSRE method performed better than SBi-kNN-MSRE for each missing rate on different c levels. The optimal c value on the covid-19 data is c = 10% for missing rate 25%, 30%, 40% and c = 15% for missing rate 5%, 10%, 15%, 20% and 50%. The results also showed that NRMSE scores"

Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2022

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

Vima Majesta Tingginehe

Implementasi Metode Imputasi Ganda Dynamically Ordered Attribute Trees (DOAT) untuk Estimasi Missing Values pada Data Kategorik = Implementation of Dynamically-Ordered Attribute Tree (DOAT) Multiple Imputation Method to Estimate Missing Values in Categorical Data

"ABSTRAK

Data yang tidak lengkap merupakan salah satu masalah yang sering muncul dalam penelitian medis, yang dapat mengakibatkan statistik inferensial tidak akurat. Salah satu cara yang dapat dilakukan untuk mengatasi masalah tersebut adalah dengan mengestimasi missing value yang terdapat pada data. Metode ini disebut imputasi. Beberapa metode imputasi telah dikembangkan untuk memperkirakan nilai yang hilang, dan salah satu metode imputasi yang paling sering digunakan adalah imputasi pohon keputusan. Pohon keputusan adalah salah satu metode pembelajaran mesin terawasi yang paling sederhana, yang digunakan untuk mengklasifikasikan dan meregresi data. Namun selain kepraktisan metode pohon keputusan untuk imputasi, metode ini kurang tepat jika muncul nilai-nilai yang hilang baik pada data latih maupun data pengujian secara bersamaan. Untuk mengatasi keterbatasan tersebut, metode imputasi pohon keputusan kemudian dikembangkan menjadi metode imputasi pohon atribut yang dipesan secara dinamis (DOAT). DOAT pertama kali diperkenalkan oleh Nick Street dan Jing Wang pada tahun 2009, untuk membangun sejumlah pohon keputusan yang digunakan untuk memperkirakan nilai yang hilang secara bertahap dalam data pelatihan. Selanjutnya tingkat akurasi estimasi akan digunakan untuk menentukan pohon keputusan akhir sebagai pohon keputusan terakhir yang melakukan imputasi. Setelah pohon keputusan akhir diperoleh dari data pelatihan, maka nilai-nilai yang hilang pada data pengujian akan diestimasi menggunakan sejumlah pohon keputusan yang dihasilkan dari data pelatihan, dimana pohon keputusan akhir yang dihasilkan pada data pelatihan juga merupakan pohon keputusan final. pohon keputusan yang digunakan dalam imputasi pengujian data. Pada penelitian ini dikembangkan metode imputasi DOAT dengan algoritma CART untuk membangun pohon keputusan untuk mengestimasi missing value pada data kategori penyakit. Kinerja metode imputasi DOAT akan dievaluasi berdasarkan tingkat akurasi menggunakan pohon keputusan. Hasil penelitian ini menunjukkan bahwa metode imputasi DOAT tidak mengurangi tingkat akurasi metode klasik yang sudah memiliki data lengkap.

ABSTRACT

Incomplete data is one of the problems that often arises in medical research, which can result in inaccurate inferential statistics. One way that can be done to overcome this problem is to estimate the missing value contained in the data. This method is called imputation. Several imputation methods have been developed to estimate missing values, and one of the most frequently used imputation methods is decision tree imputation. Decision trees are one of the simplest supervised machine learning methods, which are used to classify and regress data. However, in addition to the practicality of the decision tree method for imputation, this method is not appropriate if missing values appear in both training data and test data simultaneously. To overcome these limitations, the decision tree imputation method was later developed into a dynamically ordered attribute tree (DOAT) imputation method. DOAT was first introduced by Nick Street and Jing Wang in 2009, to construct a number of decision trees that are used to estimate the incrementally missing values in training data. Furthermore, the level of accuracy of the estimate will be used to determine the final decision tree as the last decision tree that performs imputation. After the final decision tree is obtained from the training data, the missing values in the test data will be estimated using a number of decision trees generated from the training data, where the final decision tree generated in the training data is also the final decision tree. decision tree used in the imputation of data testing. In this study, the DOAT imputation method with the CART algorithm was developed to build a decision tree to estimate the missing value in disease category data. The performance of the DOAT imputation method will be evaluated based on the level of accuracy using a decision tree. The results of this study indicate that the DOAT imputation method does not reduce the level of accuracy of the classical method which already has complete data."

Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2019

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

Hasil Pencarian :: Simpan CSV :: Kembali

Hasil Pencarian