Hasil Pencarian  ::  Simpan CSV :: Kembali

Hasil Pencarian

Ditemukan 100569 dokumen yang sesuai dengan query
cover
Emha Fathul Akmam
"Nilai yang hilang adalah suatu kondisi ketika ada beberapa entri yang hilang atau nilai kosong pada beberapa pengamatan dalam data. Ini dapat menyebabkan kita memiliki data yang tidak lengkap yang dapat menghambat proses analisis statistik dan dapat memberikan kesimpulan yang bias dari analisis jika tidak dapat ditangani dengan benar. Masalah ini juga dapat ditemukan dalam beberapa analisis regresi linier. Salah satu cara untuk mengatasi masalah ini adalah dengan menggunakan beberapa metode imputasi yang disebut Predictive Mean Matching (PMM). Beberapa imputasi adalah pendekatan umum untuk menangani data yang hilang yang memungkinkan ketidakpastian tentang data yang hilang dengan membuat serangkaian data imputasi yang masuk akal dan hasil analisis gabungan tepat yang diperoleh dari setiap data. Metode ini akan mencocokkan jarak rata-rata prediktif dari pengamatan tidak lengkap dengan pengamatan lengkap. Dengan demikian, pengamatan lengkap yang memiliki jarak terdekat akan menjadi nilai donor bagi yang tidak lengkap. Mean prediktif untuk pengamatan lengkap diperkirakan dengan kuadrat biasa yang paling tidak lengkap dan didekati oleh konsep Bayesian. Artikel ini akan menjelaskan tentang distribusi posterior yang memungkinkan ketidakpastian nilai yang hilang untuk memperkirakan parameter pengamatan yang tidak lengkap dan mendapatkan rata-rata prediktif mereka. Artikel ini akan memberikan hasil tentang penerapan metode PMM dalam data simulasi yang memiliki pola hilang univariat dengan mekanisme MAR dan dievaluasi dengan nilai bias dari koefisien regresi dari koefisien hasil pada dataset yang ditentukan.

Missing value is a condition when there are some missing entries or empty values ​​on some observations in the data. This can cause us to have incomplete data that can hinder the process of statistical analysis and can provide biased conclusions from the analysis if it cannot be handled properly. This problem can also be found in several linear regression analyzes. One way to overcome this problem is to use several imputation methods called Predictive Mean Matching (PMM). Some imputations are a general approach to handling missing data that allows uncertainty about missing data by making a series of reasonable imputation data and the precise combined analysis results obtained from each data. This method will match the predictive average distance from incomplete observations with complete observations. Thus, a complete observation that has the closest distance will be a donor value for the incomplete. The predictive means for complete observations are estimated with the most incomplete ordinary squares and are approached by the Bayesian concept. This article will explain posterior distributions that allow uncertainty of missing values ​​to estimate incomplete observation parameters and obtain their predictive averages. This article will provide results about the application of the PMM method in simulation data which have a univariate missing pattern with the MAR mechanism and are evaluated with a bias value of the regression coefficient of the yield coefficient on the specified dataset."
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2019
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Muhamad Ihsan
"Nilai hilang merupakan suatu masalah yang sering dijumpai di berbagai bidang dan harus diatasi untuk memperoleh inferensi statistik yang baik seperti penaksiran parameter. Nilai hilang dapat ditemukan pada setiap jenis data, salah satunya pada jenis data cacah/ count data yang berdistribusi Poisson. Solusi untuk mengatasi masalah nilai hilang berjenis data cacah tersebut dapat diatasi dengan menerapkan teknik imputasi ganda. Teknik imputasi ganda merupakan suatu cara mengatasi nilai hilang dengan mengganti setiap nilai yang hilang dengan beberapa nilai estimasi. Teknik imputasi ganda untuk kasus data cacah terdiri dari tiga tahap utama yaitu tahap imputasi berdasarkan model linier normal, tahap analisis dengan metode generalized linear model Poisson regression dan tahap penggabungan pooling parameter yang didasarkan pada aturan Rubin. Studi ini juga dilengkapi dengan simulasi numerik yang bertujuan untuk komparasi akurasi berdasarkan nilai bias yang dihasilkan. Parameter yang digunakan pada simulasi ini yaitu sebesar 5,10 dan 15 dengan jumlah sampel sebesar 200 untuk tujuan mengaproksimasi sifat kenormalan dan simulasi ini diulang untuk empat skenario yang bertingkat untuk setiap parameter berdasarkan besarnya persentase observasi nilai hilang (0%, 10%, 20% dan 30%). Berdasarkan studi literatur dan simulasi numerik yang dilakukan, solusi yang diajukan untuk mengatasi nilai hilang pada data cacah menghasilkan hasil yang cukup memuaskan terutama saat parameter bernilai besar dan persentase observasi nilai hilang yang kecil. Hal ini diindikasikan dengan ukuran bias dan variansi total dari taksiran rata-rata yang kecil. Namun nilai bias cenderung meningkat seiring meningkatnya persentase observasi nilai yang hilang dan saat nilai parameter yang kecil.

Missing values are a problem that is often encountered in various fields and must be addressed to obtain good statistical inference such as parameter estimation. Missing values can be found in any type of data, included count data that has Poisson distributed. One solution to overcome that problem is applying multiple imputation techniques. The multiple imputation technique is a way of dealing with missing values by replacing each missing value with some estimated values. The multiple imputation technique for the case of count data consists of three main stages, namely the imputation stage based on the normal linear model, the analysis stage using the generalized linear model Poisson regression and the last stage is pooling parameter based on Rubins rules. This study is also equipped with numerical simulations which aim to compare accuracy based on the resulting bias value. The parameters used in this simulation are 5, 10 and 15 with a sample size of 200 for the purpose of approximating normal properties and this simulation is repeated for four multilevel scenarios for each parameter based on the percentage of observation of missing values (0%, 10%, 20% and 30%). Based on the study of literature and numerical simulations carried out, the solutions proposed to overcome the missing values in the count data yield satisfactory results, especially when the parameters are large and the percentage of observation of the missing values is small. This is indicated by the size of the bias and the total variance of the small average estimate. But the bias value tends to increase with increasing percentage of observation of missing values and when the parameter values are small."
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2019
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Nurul Shabrina
"Microarray merupakan salah satu teknologi pada bidang biologi yang memberikan
informasi tentang ekspresi gen. Data microarray mentah berupa gambar, yang harus
diubah menjadi matriks ekspresi gen dimana baris menunjukkan gen, kolom
menunjukkan kondisi eksperimental. Namun, pada praktiknya data microarray banyak
ditemukan missing values yang tentunya akan menghambat proses dari analisis datanya.
Imputasi merupakan salah satu solusi yang dapat mengatasi adanya missing values pada
data microarray. Dengan menggunakan imputasi, nilai missing values yang terdapat pada
matriks data diprediksi atau diestimasi sehingga diperoleh matriks data yang lengkap.
Metode imputasi yang digunakan pada penelitian ini bernama bi-KNN-RLSP, yang
menggunakan konsep biclustering, principal component analysis, dan regresi kuantil.
Dalam proses pembentukan biclustering, dibutuhkan matriks lengkap sementara yang
diperoleh melalui proses praimputasi dengan KNNimpute. Percobaan bi-KNN-RLSP
dilakukan pada data ekspresi gen garis sel kanker serviks dengan menerapkan missing
rate yang berbeda, yaitu 1%, 5%, 10%, 15%, 20%, 25%, dan 30% dengan menggunakan
parameter k=10 pada proses praimputasi KNNimpute. Hasil percobaan tersebut dievaluasi
performanya menggunakan normalized root mean squared error. Nilai rata-rata NRMSE
pada percobaan yang dilakukan sebanyak lima kali memiliki nilai yang lebih rendah
dibandingkan dengan metode bi-RLSP dan row average. Waktu komputasi untuk metode bi-KNN-RLSP dan bi-RLSP tidak jauh berbeda, sehingga dengan waktu yang tidak
signifikan berbeda, metode bi-KNN-RLSP dapat menghasilkan nilai NRMSE yang lebih kecil dibandingkan dengan bi-RLSP. Oleh karena itu, dapat dikatakan bahwa modifikasi praimputasi row average pada metode bi-RLSP menjadi KNNimpute dapat menghasilkan performa imputasi yang lebih bagus. Selain itu, diperoleh hasil bahwa nilai NMRSE untuk metode bi-KNN-RLSP meningkat seiring dengan meningkatnya missing rate.

Microarray is a technology in biology that provides information about gene expression. The raw microarray data is in the form of images, which must be converted into a gene expression matrix where rows indicate genes, columns indicate experimental conditions. However, in practice, many missing values are found in microarray data, which of course
will hinder the process of data analysis. Imputation is one solution that can overcome the missing values in microarray data. By using imputation, the missing values contained in the data matrix are predicted or estimated so that a complete data matrix is obtained. The imputation method used in this study is called bi-KNN-RLSP, which uses the concept of
biclustering, principal component analysis, and quantile regression. In the process of forming biclustering, a temporary complete matrix is needed which is obtained through the pre-imputation process with KNNimpute. The bi-KNN-RLSP experiment was carried out on cervical cancer cell line gene expression data by applying different missing rates,
namely 1%, 5%, 10%, 15%, 20%, 25%, and 30% using the parameter k=10. in the KNNimpute pre-imputation process. The results of these experiments were evaluated for their performance using the normalized root mean squared error. The average value of NRMSE in the five times experiment has a lower value than the bi-RLSP and row average methods. The computation time for the bi-KNN-RLSP and bi-RLSP methods is not much different, so with the time that is not significantly different, the bi-KNN-RLSP method can produce a smaller NRMSE value compared to bi-RLSP. Therefore, it can be said that the modification of the row average preimputation in the bi-RLSP method to KNNimpute can produce better imputation performance. In addition, it was found that the NMRSE value for the bi-KNN-RLSP method increased along with the increase in the missing rate.
"
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2022
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Samuel Zico Christopher
"Salah satu metode yang populer untuk mengatasi missing value dalam sebuah survei adalah metode imputasi. Imputasi adalah solusi untuk mengganti suatu missing value dengan suatu nilai pengganti yang didapatkan dari teknik khusus tertentu, misalnya imputasi menggunakan nilai mean, nilai median, dan lain sebagainya. Pada skripsi dibahas suatu teknik imputasi yang menggabungankan dua macam teknik imputasi lain, yakni imputasi fractional dan imputasi hot deck. Imputasi fractional adalah imputasi yang punya kelebihan dalam meminimumkan suatu variansi dalam suatu data dikarenakan nilai imputasi yang dihasilkan berasal dari data set dalam survei itu sendiri, namun kekurangannya adalah bahwa nilai imputasi dari teknik fractional akan membuat jumlah observasi menjadi mengembang. Oleh karena masalah pengembangan data set yang dihasilkan teknik fractional tersebut, imputasi hot deck menjadi solusi untuk membatasi masalah jumlah observasi yang dihasilkan dengan membatasi calon nilai imputasi (donor) untuk suatu nilai hilang. Imputasi yang menggabungkan teknik imputasi fractional dan hot deck akan dikenal dengan nama imputasi fractional hot deck dengan sifat yang mirip dengan imputasi fractional , namun observasi yang dihasilkan lebih sedikit.

One of the most popular solution of missing value is imputation in a survey is imputation. Imputation is a solution to replace missing value with imputed value from a particular technique, such as mean value, median value, etc. This Thesis specifically discuss about technique that fuse fractional imputation technique and hot deck imputation technique. Fractional imputation is popular because this imputation tends to produce less variance compare to other methods. Unfortunately this method will extend the number of observations. Because fractional imputation tends to extend the number of observations, sampling becomes a solution to produce less observation. Sampling limits the numbers of imputed values (donor) in the observations that adopts hot deck imputation nature. The imputation that fuse fractional imputation and hot deck imputation is known as fractional hot deck, and produce a data set that have similar property to fractional imputation, but less observations."
Depok: Universitas Indonesia, 2019
S-Pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Fenni Amalia
"Bioinformatika merupakan ilmu yang ditujukan untuk menganalisis informasi biologis. Dalam perkembangan penelitian bioinformatika, data diperoleh salah satunya dengan menggunakan teknologi microarray. Teknologi microarray digunakan oleh lingkup biologi molekuler dalam melihat perbedaan tingkat ekspresi gen dengan cara mengonversi gambar monokromik yang berisi ratusan bahkan ribuan gen dari sampel sel dan menghasilkan data ekspresi gen. Teknologi microarray sering kali menghasilkan data ekspresi gen yang hilang atau tidak terdeteksi akibat adanya kesalahan teknis. Oleh karena itu, diperlukannya suatu metode imputasi pada data untuk mengatasi missing values. Pada penelitian ini, akan dikembangkan suatu metode imputasi yang disebut Biclustering Terurut berbasis k-Nearest Neighbor, Mean Squared Residual, dan Jarak Euclidean. Metode ini merupakan metode imputasi berbasis biclustering dimana bicluster dibentuk berdasarkan suatu kriteria yang melibatkan skor Mean Squared Residue dan Jarak Euclidean. Penggunakan k-Nearest Neighbor sebagai metode pra-imputasi didasarkan pada data ekspresi gen yang sering kali memiliki pola kompleks dan sulit terdeteksi, sehingga perlu pendekatan yang dapat memetakan struktur korelasi pada data. k-Nearest Neighbor mempertimbangkan korelasi pada data microarray dengan menyeleksi kumpulan gen yang memiliki profil ekspresi mirip dengan gen yang ingin diimputasi (gen target). Pada penelitian ini, metode SBi-kNN-MSREimpute diterapkan pada data ekspresi gen pasien penderita COVID-19 yang dilakukan tes rapid harian. Evaluasi kinerja metode SBi-kNN-MSREimpute dilakukan dengan menggunakan NRMSE, dimana hasilnya dibandingkan dengan metode SBi-MSREimpute. Berdasarkan penelitian yang dilakukan, metode SBi-kNN-MSREimpute dinilai lebih baik dibandingkan dengan SBi-MSREimpute untuk setiap missing rate pada tingkatan c berbeda. Nilai c optimal untuk imputasi missing values pada data COVID-19 adalah c = 10% untuk missing rate 25%, 30%, 40% dan c = 15% untuk missing rate 5%, 10%, 15%, 20%, dan 50%. Hasil akhir juga menunjukkan bahwa nilai NRMSE untuk SBi-kNN-MSREimpute relatif stabil bahkan untuk data dengan missing rate tinggi hingga 50%.

Bioinformatics is a study designed to analyze biological information. In the development of bioinformatics research, data was obtained using microarray technology. Microarray technology is used by the scope of molecular biology in transposing hundreds and even thousands of genes from cellular samples simultaneously and producing a gene expression data. Microarray technology often produces data that is lost or undetected as a result of technical error. Therefore, an imputation method is needed to address the missing values. In this study, a new imputation method called Sequential Biclustering based k-Nearest Neighbor, Mean Squared Residual, and Euclidean Distance (SBi-kNN-MSRE) will be developed. This method is a biclustering-based imputation method where the bicluster is formed based on a criterion involving Mean Squared Residue and Euclidean Distance. The use of k-Nearest Neighbor as a pre-imputation method is based on data on gene expression that often has a complex and difficult pattern of detection, so it requires an approach that can map correlation structures on data. K-nearest neighbor considers a correlation on a microarray data by selecting groups of genes that have an expression profile similar to a gene that wants to be imputed (the target gene). In this study, the SBi-kNN-MSRE method was applied to the data on the genes of patients with covid-19 that daily rapid tests were performed. The performance evaluation of the SBi-kNN-MSRE method is done using NRMSE, where the results are compared to the SBi-MSRE method. According to the result, the SBi-kNN-MSRE method performed better than SBi-kNN-MSRE for each missing rate on different c levels. The optimal c value on the covid-19 data is c = 10% for missing rate 25%, 30%, 40% and c = 15% for missing rate 5%, 10%, 15%, 20% and 50%. The results also showed that NRMSE scores"
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2022
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Vima Majesta Tingginehe
"ABSTRAK
Data yang tidak lengkap merupakan salah satu masalah yang sering muncul dalam penelitian medis, yang dapat mengakibatkan statistik inferensial tidak akurat. Salah satu cara yang dapat dilakukan untuk mengatasi masalah tersebut adalah dengan mengestimasi missing value yang terdapat pada data. Metode ini disebut imputasi. Beberapa metode imputasi telah dikembangkan untuk memperkirakan nilai yang hilang, dan salah satu metode imputasi yang paling sering digunakan adalah imputasi pohon keputusan. Pohon keputusan adalah salah satu metode pembelajaran mesin terawasi yang paling sederhana, yang digunakan untuk mengklasifikasikan dan meregresi data. Namun selain kepraktisan metode pohon keputusan untuk imputasi, metode ini kurang tepat jika muncul nilai-nilai yang hilang baik pada data latih maupun data pengujian secara bersamaan. Untuk mengatasi keterbatasan tersebut, metode imputasi pohon keputusan kemudian dikembangkan menjadi metode imputasi pohon atribut yang dipesan secara dinamis (DOAT). DOAT pertama kali diperkenalkan oleh Nick Street dan Jing Wang pada tahun 2009, untuk membangun sejumlah pohon keputusan yang digunakan untuk memperkirakan nilai yang hilang secara bertahap dalam data pelatihan. Selanjutnya tingkat akurasi estimasi akan digunakan untuk menentukan pohon keputusan akhir sebagai pohon keputusan terakhir yang melakukan imputasi. Setelah pohon keputusan akhir diperoleh dari data pelatihan, maka nilai-nilai yang hilang pada data pengujian akan diestimasi menggunakan sejumlah pohon keputusan yang dihasilkan dari data pelatihan, dimana pohon keputusan akhir yang dihasilkan pada data pelatihan juga merupakan pohon keputusan final. pohon keputusan yang digunakan dalam imputasi pengujian data. Pada penelitian ini dikembangkan metode imputasi DOAT dengan algoritma CART untuk membangun pohon keputusan untuk mengestimasi missing value pada data kategori penyakit. Kinerja metode imputasi DOAT akan dievaluasi berdasarkan tingkat akurasi menggunakan pohon keputusan. Hasil penelitian ini menunjukkan bahwa metode imputasi DOAT tidak mengurangi tingkat akurasi metode klasik yang sudah memiliki data lengkap.
ABSTRACT
Incomplete data is one of the problems that often arises in medical research, which can result in inaccurate inferential statistics. One way that can be done to overcome this problem is to estimate the missing value contained in the data. This method is called imputation. Several imputation methods have been developed to estimate missing values, and one of the most frequently used imputation methods is decision tree imputation. Decision trees are one of the simplest supervised machine learning methods, which are used to classify and regress data. However, in addition to the practicality of the decision tree method for imputation, this method is not appropriate if missing values ​​appear in both training data and test data simultaneously. To overcome these limitations, the decision tree imputation method was later developed into a dynamically ordered attribute tree (DOAT) imputation method. DOAT was first introduced by Nick Street and Jing Wang in 2009, to construct a number of decision trees that are used to estimate the incrementally missing values ​​in training data. Furthermore, the level of accuracy of the estimate will be used to determine the final decision tree as the last decision tree that performs imputation. After the final decision tree is obtained from the training data, the missing values ​​in the test data will be estimated using a number of decision trees generated from the training data, where the final decision tree generated in the training data is also the final decision tree. decision tree used in the imputation of data testing. In this study, the DOAT imputation method with the CART algorithm was developed to build a decision tree to estimate the missing value in disease category data. The performance of the DOAT imputation method will be evaluated based on the level of accuracy using a decision tree. The results of this study indicate that the DOAT imputation method does not reduce the level of accuracy of the classical method which already has complete data."
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2019
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Clive Nathaniel
"Missing value merupakan masalah yang sering ditemukan pada analisis data ekspresi gen. Salah satu metode yang sering digunakan untuk mengatasi masalah ini adalah dengan melakukan imputasi. Imputasi adalah proses mengganti missing value pada data dengan nilai pengganti yang didapat dari metode tertentu. Pada skripsi ini dibahas mengenai suatu metode imputasi untuk data ekspresi gen yang merupakan pengembangan dari metode imputasi robust least squares estimation dengan principal components (RLSP) dengan menggunakan konsep biclustering. Metode ini dinamakan bicluster-based robust least squares estimation dengan principal components (bi-RLSP). Metode RLSP adalah metode imputasi data ekspresi gen yang menggunakan konsep k-nearest neighbor, principal component analysis, dan regresi kuantil. Konsep biclustering ingin diterapkan untuk menggantikan k-nearest neighbor yang mencari baris yang mirip untuk semua kolom, sehingga dapat dicari baris yang mirip serta kolom yang mirip secara bersamaan. Metode bi-RLSP diaplikasikan untuk mengimputasi missing values pada data ekspresi gen, dimana metode ini ditemukan memiliki akurasi yang lebih tinggi dibandingkan metode RLSP dan metode imputasi row average dengan melihat nilai NRMSE dari estimasi missing value pada metode-metode ini.

Missing values are a common problem in gene expression data analysis. One of the methods used to overcome this problem is by performing imputation. Imputation is the process of replacing missing values in data with values obtained from certain methods. This thesis discusses an imputation method for gene expression data which is a development of the robust least squares estimation with principal components (RLSP) imputation method using the biclustering concept. This method is called bicluster-based robust least squares estimation with principal components (bi-RLSP). This RLSP method is a gene expression data imputation method that uses the concept of k-nearest neighbor, principal component analysis, and quantile regression. The concept of biclustering is applied to replace the k-nearest neighbor concept that look for similar rows under all columns, so that it can search for similar rows as well as similar columns simultaneously. The bi-RLSP method was applied to impute missing values in gene expression data, where this method was found to have a higher accuracy than the RLSP method and the row average imputation method by looking at the NRMSE value of the estimated missing values in these methods."
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2021
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Dea Kristina
"Kementrian Kesehatan menyatakan Indonesia sudah memasuki kondisi ageing population, dimana kondisi tersebut ditandai dengan kenaikan persentase penduduk lanjut usia (lansia). Kondisi tersebut tentunya memerlukan perhatian khusus dari pemerintah. Demensia adalah istilah medis untuk menggambarkan gejala penurunan memori dan fungsi kognitif pada tubuh manusia. Indonesia termasuk sepuluh negara dengan jumlah penderita orang dengan demensia (ODD) tertinggi di dunia, dan pada tahun 2050 jumlahnya diprediksi mencapai empat juta jiwa. Prediksi tersebut dibuat berdasarkan perbandingan jumlah lansia di Indonesia dengan jumlah ODD di seluruh dunia. Penelitian bertujuan untuk mengetahui peran dari masing-masing uji klinis untuk mengidentifikasi penderita ODD dan mereduksi komponen uji klinis yang memiliki peran kontribusi rendah. Data yang digunakan adalah data uji klinis NIFD (Neuroimaging in Frontotemporal Dementia). Metode yang akan digunakan adalah Principal Component Analysis (PCA), dimana metode ini bertujuan untuk melihat komponen uji klinis yang memberikan peran kontribusi dalam mengidentifikasi penderita ODD. Selain itu, akan dilakukan proses imputasi missing value dengan menggunakan algoritma pengembangan dari PCA, yaitu SVD-Impute dan PPCA. Setelah dilakukan tiga kali iterasi, pengujian menunjukan bahwa metode PPCA lebih baik dalam melakukan imputasi missing value dibandingkan dengan metode SVDImpute berdasarkan nilai NRMSE dan koefisien korelasi Pearson.

The Ministry of Health stated that Indonesia had entered a condition of an aging population, where an increase in the proportion of older people marks this condition. This condition certainly requires special attention from the government. Dementia is a medical term to describe symptoms of decreased memory and cognitive function in the human body. Indonesia is one of the ten countries with the highest number of people with dementia in the world, and by 2050 it is predicted to reach four million people. This prediction was based on comparing the number of older people in Indonesia with those with dementia worldwide. The research aims to determine each clinical trial's role in identifying people with dementia and reducing the components of clinical trials with a low role contribution. The data used is NIFD (Neuroimaging in Frontotemporal Dementia) clinical trial data. The method used is Principal Component Analysis (PCA), which aims to see clinical component tests that contribute to identifying people with dementia. In addition, the missing value imputation process will be carried out using the development algorithm from PCA, SVD-Impute and PPCA. After three iterations, the test showed that the PPCA method was better at imputing missing values than the SVDImpute method based on the NRMSE value and Pearson's correlation coefficient."
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2023
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Adib Hanafi
"Teknologi microarray merupakan salah satu teknologi yang berkembang dalam bidang bioinformatika. Salah satu teknologi microarray dalam bidang kesehatan, yaitu untuk mendeteksi adanya gen pada DNA individu yang menghasilkan data ekspresi gen. Pada data ekspresi gen, sering kali ditemukan informasi yang hilang sehingga membuat terhambatnya analisis lebih lanjut pada data ekspresi gen. Pada penelitian ini, diusulkan metode imputasi missing values Sequential Biclustering berbasis Shifting-and-Scaling Similarity dan Mean Square Residue (SSSim-MSR). Penentuan anggota bicluster dengan kesamaan sifat co-expressed dan pendeteksian pola shifting-and-scaling dilakukan berdasarkan pada skor Mean Squared Residue (MSR) dan skor Shifting-and-Scaling Similarity (SSSim) antara masing-masing gen dengan gen yang mengandung missing values. Performa metode diukur dengan skor korelasi Pearson dan skor NRMSE, lalu dibandingkan dengan metode Chronological Biclustering berbasis PCor-MSRE. Berdasarkan pada skor korelasi Pearson, metode Sequential Biclustering dengan basis SSSim-MSR merupakan metode yang cukup baik dibandingkan metode Chronological Biclustering berbasis PCor-MSRE pada missing rate sebesar 20% dan 50% untuk setiap nilai k. Untuk setiap missing rate pada nilai k lainnya, skor korelasi Pearson yang dihasilkan belum tentu bernilai lebih besar untuk nilai k yang lebih besar. Hal ini dapat terjadi karena perseberan porporsi pola shifting-and-scaling dan yang tidak berpola shifting-and-scaling pada data yang digunakan cenderung sama, sehingga pada tahap pembentukan bicluster yang didasarkan pada keserupaan pola dan pendeteksian pola shifting-and-scaling dapat memengaruhi keserupaan pola yang dibentuk.

Microarray technology is one of the emerging technologies in the field of bioinformatics. One of the microarray technologies in the health sector is to detect the presence of genes in individual DNA that produce gene expression data. In gene expression data, missing information is often found, which hinders further analysis of gene expression data. In this study, a method of imputing missing values Sequential Biclustering based on Shifting-and-Scaling Similarity and Mean Square Residue (SSSim - MSR) is proposed. Determination of bicluster members with similar co-expressed characteristics and detection of shifting-and-scaling patterns is carried out based on the score. Mean Squared Residue (MSR) and Shifting-and-Scaling Similarity (SSSim) scores between each gene and genes containing missing values. The performance of the method was measured by the Pearson correlation score and the NRMSE score, then compared with the Chronological Biclustering method on the basis of PCor – MSRE. Based on the Pearson correlation score, the Sequential Biclustering method on the basis of SSSim – MSR is a fairly good method compared to the Chronological Biclustering method at a missing rate of 20% and 50% for each value of k. For each other missing rate for k values, the resulting Pearson correlation score is not necessarily greater for larger k values. This can happen because the proportions of shifting-and-scaling and non-shifting-and-scaling patterns in the data used tend to be the same, so that at the stage of bicluster formation based on pattern similarity and detection of shifting-and-scaling patterns can detect similarity of pattern."
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2022
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Syahril Ramadhan
"Survei umumnya ditujukan untuk melakukan pendugaan parameter populasi seperti total maupun rata-rata nilai suatu domain area dengan jumlah sampel yang besar. Salah satu pendekatan dalam menduga parameter populasi dihasilkan melalui metode pendugaan langsung. Namun, pendugaan langsung seringkali kurang presisi saat ukuran sampel suatu area berukuran kecil. Selain itu, terdapat permasalahan ketika pendugaan langsung tersebut digunakan untuk suatu area dengan ukuran sampel yang kecil, yaitu akan menimbulkan standard error yang besar. Permasalahan ini kemudian diatasi dengan mengembangkan metode pendugaan parameter yang dikenal dengan metode pendugaan area kecil Small Area Estimation, SAE. Dalam skripsi ini, akan dijelaskan prosedur untuk mencari dugaan rata-rata nilai populasi pada area kecil dengan metode Spatial Empirical Best Linear Unbiased Prediction SEBLUP yang mengikuti model Simultaneously Autoregressive SAR . Secara umum, prosedur ini diawali dengan mendefinisikan model tingkat area. Kemudian, model tingkat area tersebut diperluas dengan menambahkan pengaruh spasial ke dalam pengaruh acak area. Model spasial tingkat area tersebut yang selanjutnya digunakan sebagai dasar untuk melakukan pendugaan rata-rata nilai populasi pada area kecil.

Surveys are generally intended to predict population parameters such as the total or mean value of a domain area with a large sample size. One approach in estimating population parameters is obtained through direct estimation methods. However, direct estimation are often less precise when the sample size of an area is small. In addition, there is a problem when the direct estimation is used for an area with a small sample size, which will cause a large standard error. This problem was then addressed by developing a method of parameter estimation known as the Small Area Estimation SAE method. In this mini thesis, we will describe the procedure to find the mean population value in a small area using Spatial Empirical Best Linear Unbiased Prediction SEBLUP method which follows Simultaneously Autoregressive SAR model. In general, this procedure begins with defining an area level model. Then, the area level model is expanded by adding spatial effects into the random effects of the area. The spatial model of the area level is then used as the basis for estimating the mean population value in a small area.
"
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2017
S69201
UI - Skripsi Membership  Universitas Indonesia Library
<<   1 2 3 4 5 6 7 8 9 10   >>