Hasil Pencarian  ::  Simpan CSV :: Kembali

Hasil Pencarian

Ditemukan 25476 dokumen yang sesuai dengan query
cover
Sihombing, Hobby Rajiman
Depok: Universitas Indonesia, 2003
S27453
UI - Skripsi Membership  Universitas Indonesia Library
cover
cover
Vima Majesta Tingginehe
"ABSTRAK
Data yang tidak lengkap merupakan salah satu masalah yang sering muncul dalam penelitian medis, yang dapat mengakibatkan statistik inferensial tidak akurat. Salah satu cara yang dapat dilakukan untuk mengatasi masalah tersebut adalah dengan mengestimasi missing value yang terdapat pada data. Metode ini disebut imputasi. Beberapa metode imputasi telah dikembangkan untuk memperkirakan nilai yang hilang, dan salah satu metode imputasi yang paling sering digunakan adalah imputasi pohon keputusan. Pohon keputusan adalah salah satu metode pembelajaran mesin terawasi yang paling sederhana, yang digunakan untuk mengklasifikasikan dan meregresi data. Namun selain kepraktisan metode pohon keputusan untuk imputasi, metode ini kurang tepat jika muncul nilai-nilai yang hilang baik pada data latih maupun data pengujian secara bersamaan. Untuk mengatasi keterbatasan tersebut, metode imputasi pohon keputusan kemudian dikembangkan menjadi metode imputasi pohon atribut yang dipesan secara dinamis (DOAT). DOAT pertama kali diperkenalkan oleh Nick Street dan Jing Wang pada tahun 2009, untuk membangun sejumlah pohon keputusan yang digunakan untuk memperkirakan nilai yang hilang secara bertahap dalam data pelatihan. Selanjutnya tingkat akurasi estimasi akan digunakan untuk menentukan pohon keputusan akhir sebagai pohon keputusan terakhir yang melakukan imputasi. Setelah pohon keputusan akhir diperoleh dari data pelatihan, maka nilai-nilai yang hilang pada data pengujian akan diestimasi menggunakan sejumlah pohon keputusan yang dihasilkan dari data pelatihan, dimana pohon keputusan akhir yang dihasilkan pada data pelatihan juga merupakan pohon keputusan final. pohon keputusan yang digunakan dalam imputasi pengujian data. Pada penelitian ini dikembangkan metode imputasi DOAT dengan algoritma CART untuk membangun pohon keputusan untuk mengestimasi missing value pada data kategori penyakit. Kinerja metode imputasi DOAT akan dievaluasi berdasarkan tingkat akurasi menggunakan pohon keputusan. Hasil penelitian ini menunjukkan bahwa metode imputasi DOAT tidak mengurangi tingkat akurasi metode klasik yang sudah memiliki data lengkap.
ABSTRACT
Incomplete data is one of the problems that often arises in medical research, which can result in inaccurate inferential statistics. One way that can be done to overcome this problem is to estimate the missing value contained in the data. This method is called imputation. Several imputation methods have been developed to estimate missing values, and one of the most frequently used imputation methods is decision tree imputation. Decision trees are one of the simplest supervised machine learning methods, which are used to classify and regress data. However, in addition to the practicality of the decision tree method for imputation, this method is not appropriate if missing values ​​appear in both training data and test data simultaneously. To overcome these limitations, the decision tree imputation method was later developed into a dynamically ordered attribute tree (DOAT) imputation method. DOAT was first introduced by Nick Street and Jing Wang in 2009, to construct a number of decision trees that are used to estimate the incrementally missing values ​​in training data. Furthermore, the level of accuracy of the estimate will be used to determine the final decision tree as the last decision tree that performs imputation. After the final decision tree is obtained from the training data, the missing values ​​in the test data will be estimated using a number of decision trees generated from the training data, where the final decision tree generated in the training data is also the final decision tree. decision tree used in the imputation of data testing. In this study, the DOAT imputation method with the CART algorithm was developed to build a decision tree to estimate the missing value in disease category data. The performance of the DOAT imputation method will be evaluated based on the level of accuracy using a decision tree. The results of this study indicate that the DOAT imputation method does not reduce the level of accuracy of the classical method which already has complete data."
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2019
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
"Tugas akhir ini bertujuan membahas model asosiasi yang merupakan pengembangan Model Loglinier, untuk dua variabel kategorik yang salah satu atau keduanya berskala ordinal; yaitu nominal-ordinal, ordinal-nominal dan ordinal-ordinal. Model-model yang sesuai untuk kombinasi variabel tersebut adalah Model Uniform (Model U), Model Efek Baris (Model R), dan Model Efek Kolom (Model C). Model-model asosiasi tersebut bertujuan untuk menganalisis asosiasi antara dua variabel kategorik, dengan memasukkan sifat keterurutan dari variabel berskala ordinal dalam analisis. Masing-masing model akan memuat taksiran nilai harapan dan statistik goodness of fit. Contoh penggunaan masing-masing model dilakukan pada data kategorik dengan skala pengukuran ordinal-ordinal, nominal-ordinal, dan ordinal-nominal, disertai interpretasi hasil-hasil pemodelan. "
Universitas Indonesia, 2006
S27654
UI - Skripsi Membership  Universitas Indonesia Library
cover
Emha Fathul Akmam
"Nilai yang hilang adalah suatu kondisi ketika ada beberapa entri yang hilang atau nilai kosong pada beberapa pengamatan dalam data. Ini dapat menyebabkan kita memiliki data yang tidak lengkap yang dapat menghambat proses analisis statistik dan dapat memberikan kesimpulan yang bias dari analisis jika tidak dapat ditangani dengan benar. Masalah ini juga dapat ditemukan dalam beberapa analisis regresi linier. Salah satu cara untuk mengatasi masalah ini adalah dengan menggunakan beberapa metode imputasi yang disebut Predictive Mean Matching (PMM). Beberapa imputasi adalah pendekatan umum untuk menangani data yang hilang yang memungkinkan ketidakpastian tentang data yang hilang dengan membuat serangkaian data imputasi yang masuk akal dan hasil analisis gabungan tepat yang diperoleh dari setiap data. Metode ini akan mencocokkan jarak rata-rata prediktif dari pengamatan tidak lengkap dengan pengamatan lengkap. Dengan demikian, pengamatan lengkap yang memiliki jarak terdekat akan menjadi nilai donor bagi yang tidak lengkap. Mean prediktif untuk pengamatan lengkap diperkirakan dengan kuadrat biasa yang paling tidak lengkap dan didekati oleh konsep Bayesian. Artikel ini akan menjelaskan tentang distribusi posterior yang memungkinkan ketidakpastian nilai yang hilang untuk memperkirakan parameter pengamatan yang tidak lengkap dan mendapatkan rata-rata prediktif mereka. Artikel ini akan memberikan hasil tentang penerapan metode PMM dalam data simulasi yang memiliki pola hilang univariat dengan mekanisme MAR dan dievaluasi dengan nilai bias dari koefisien regresi dari koefisien hasil pada dataset yang ditentukan.

Missing value is a condition when there are some missing entries or empty values ​​on some observations in the data. This can cause us to have incomplete data that can hinder the process of statistical analysis and can provide biased conclusions from the analysis if it cannot be handled properly. This problem can also be found in several linear regression analyzes. One way to overcome this problem is to use several imputation methods called Predictive Mean Matching (PMM). Some imputations are a general approach to handling missing data that allows uncertainty about missing data by making a series of reasonable imputation data and the precise combined analysis results obtained from each data. This method will match the predictive average distance from incomplete observations with complete observations. Thus, a complete observation that has the closest distance will be a donor value for the incomplete. The predictive means for complete observations are estimated with the most incomplete ordinary squares and are approached by the Bayesian concept. This article will explain posterior distributions that allow uncertainty of missing values ​​to estimate incomplete observation parameters and obtain their predictive averages. This article will provide results about the application of the PMM method in simulation data which have a univariate missing pattern with the MAR mechanism and are evaluated with a bias value of the regression coefficient of the yield coefficient on the specified dataset."
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2019
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Jakarta: Departemen kesehatan RI Pusat Data Kesehatan, 2000
001.64 IND t
Buku Teks SO  Universitas Indonesia Library
cover
I Gusti Ngurah Agung
Yogyakarta: Gadjah Mada University Press, 1986
519.536 IGU a
Buku Teks SO  Universitas Indonesia Library
cover
Shafira Nur Amalia
"Dalam suatu penelitian, dibutuhkan data yang dikumpulkan dan diolah untuk memecahkan permasalahan dan membuktikan hipotesis dalam penelitian. Namun, seringkali data yang diperoleh tidak menyimpan nilai untuk suatu variabel pada observasi yang diharapkan. Data yang tidak tersimpan menyebabkan data penelitian kosong dan berdampak pada penelitian. Jika peristiwa ini terjadi, maka penelitian terindikasi memiliki missing data atau missing values. Salah satu cara untuk mengatasi missing values yaitu dengan imputasi. Imputasi bekerja dengan mengisi nilai pada missing values dengan suatu nilai estimasi yang telah dianalisis dan diputuskan untuk membuat suatu dataset lengkap. Dalam proses imputasi, seringkali ditemukan bahwa data yang digunakan untuk imputasi terkadang memiliki karakteristik yang tidak jelas atau tidak konsisten, maka salah satu solusinya adalah dengan menggunakan metode Fuzzy C-Means (FCM). Estimasi nilai-nilai missing values menggunakan model FCM menghasilkan model prediksi dengan variasi parameter yang beragam sehingga dibutuhkan pendekatan lain untuk menghasilkan model terbaik dengan parameter yang optimal. Hal inilah yang mendasari diperlukannya suatu pendekatan hybrid, yaitu dengan menggabungkan beberapa model machine learning untuk memperoleh hasil estimasi missing values terbaik. Pada penelitian ini, dilakukan implementasi Hybrid Fuzzy C-Means dan Majority Vote (Hybrid FCMMV) pada data Penyakit Paru Obstruktif Kronik (PPOK) tahun 2012-2017 yang diperoleh dari Rumah Sakit Cipto Mangunkusumo (RSCM) untuk memberikan performa imputasi yang lebih baik berdasarkan akurasi, presisi, recall, dan F-Score melalui klasifikasi metode ensemble Random Forest.

In a research study, collected and processed data are needed to solve problems and prove hypotheses. However, the obtained data often do not store the value for a variable in the expected observation. Data that are not stored contribute to the emptying of research data which has an impact on the research itself. If the phenomenon occurs, it indicates that the research has missing data or missing values. One way to overcome missing values ​​is using imputation techniques. The technique works by filling in the missing values with an estimated value that has been analyzed and decided to create a complete dataset. In the process, it is often found that the data being used for imputation have unclear or inconsistent characteristics, which can be solved by implementing Fuzzy C-Means (FCM) method. The estimation of missing values ​​using the FCM model produces predictive models with a variety of parameters, hence another approach to produce the best model with optimal parameters is needed. This underlies the need for a hybrid approach, which is acquired through combining or integrating different machine learning models to earn the best estimation result of missing values. In this study, the implementation of Hybrid Fuzzy C-Means and Majority Vote (Hybrid FCMMV) was conducted on Chronic Obstructive Pulmonary Disease (COPD) data in 2012-2017 from Cipto Mangunkusumo Hospital (RSCM) ) to provide better imputation performance based on accuracy, precision, recall, and F-Score through the classification of the Random Forest ensemble method."
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2021
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Allissa Rahman
"Data ekspresi gen merupakan data yang berisi hasil proses transformasi informasi genetik dari DNA atau RNA menjadi protein (fenotipe) yang disajikan dalam bentuk matriks berisi ekspresi gen (baris) dan kondisi (kolom). Sama halnya seperti jenis data lainnya, data ekspresi gen tidak terlepas dari kemungkinan masalah missing values atau data yang hilang. Untuk menangani masalah keberadaan missing values, diperlukan imputasi, yaitu metode untuk mengisi nilai pada data yang hilang. Metode imputasi yang digunakan pada penelitian ini adalah QP_Biclustering yang merupakan kombinasi antara biclustering dengan permasalahan pemrograman kuadratik yang akan diselesaikan dengan bahasa pemrograman Python. Metode QP_Biclustering diimplementasikan pada data ekspresi gen dari pasien Covid-19 bertipe numerik dengan tipe missing values berjenis Missing Completely at Random (MCAR). Algoritma biclustering yang digunakan sebagai metode dalam penelitian ini adalah hasil modifikasi dari algoritma SwarmBCluster, yaitu constructive heuristic with local search. Metode biclustering ini menggunakan Mean Squared Residue (MSR) dalam proses pembentukan bicluster yang berperan sebagai ukuran kualitas suatu bicluster. Setelah bicluster terbentuk, missing values akan diestimasi menggunakan quadratic programming dengan cara meminimumkan nilai MSR tiap bicluster. Hasil penelitian ini menunjukkan bahwa metode QP_Biclustering memiliki performa cukup baik untuk mengimputasi missing values pada data ekspresi gen pasien Covid-19 yang dapat dilihat dari nilai Normalized Root Mean Square Error (NRMSE) yang lebih rendah dibandingkan dengan metode KNNimpute.

Gene expression data contains the results of the transformation process of genetic information from DNA or RNA into protein (phenotype) which is presented in the form of a matrix containing gene expression (rows) and conditions (columns). Just like other types of data, gene expression data can not be separated from the possibility of missing values or missing data problems. To deal with the problem of the presence of missing values, imputation is needed, which is a method to fill in the values in the missing data. The imputation method used in this research is QP_Biclustering which is a combination of biclustering with quadratic programming problems that will be solved using the Python programming language. The QP_Biclustering method is implemented on gene expression data from Covid-19 patients with numeric type and the missing values has Missing Completely at Random (MCAR) type. The biclustering algorithm used as a method in this research is a modified result of the SwarmBCluster algorithm, namely constructive heuristic with local search. This biclustering method uses Mean Squared Residue (MSR) in the bicluster formation process which will be used as a measure of the quality of a bicluster. After the bicluster is formed, the missing values will be estimated using quadratic programming by minimizing the MSR value for each bicluster. The results of this study indicate that the QP_Biclustering method has a fairly good performance to impute the missing values in gene expression data of Covid-19 patients which can be seen from the NRMSE (Normalized Root Mean Square Error) value which is lower than KNNimpute method."
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2021
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Yoel Fernando
"Penelitian biologi dengan menggunakan teknologi microarray menghasilkan data ekspresi gen berbentuk matriks di mana baris adalah gen dan kolom adalah kondisi. Analisis lanjutan dalam data ekspresi gen membutuhkan data yang lengkap. Namun, data ekspresi gen sering kali mengandung nilai hilang atau missing values. Ada berbagai cara untuk mengatasi missing values, antara lain pembuangan gen atau kondisi yang mengandung missing values, pengulangan pengambilan data, dan imputasi missing values pada data ekspresi gen. Pendekatan imputasi missing values awal hanyalah dengan mengisi nilai nol atau rata-rata baris. Namun, pendekatan ini tidak melihat informasi koheren dalam data. Pendekatan imputasi missing values terbagi menjadi empat berdasarkan informasi yang diperlukan pada algoritmanya, yaitu pendekatan lokal, pendekatan global, pendekatan hybrid, dan pendekatan knowledge assisted. Pada penelitian ini peneliti menggunakan algoritma pendekatan lokal dan global. Metode imputasi missing values paling popular untuk pendekatan global adalah Bayesian Principal Component Analysis (BPCA), sedangkan untuk pendekatan lokal adalah Local Least Square (LLS). Pada metode LLS, pemilihan similaritas gen dilakukan dengan teknik clustering dimana seluruh kondisi dalam data digunakan. Kenyataanya, terkadang gen-gen similar hanya dalam beberapa kondisi eksperimental saja. Maka, diperlukan teknik biclustering untuk dapat menemukan subset gen dan subset kondisi yang similar sebagai informasi lokal. Penerapan ide biclustering dalam LLS dinamakan sebagai Iterative Bicluster-Based Least Square (bi-iLS). Salah satu tahapan awal dalam bi-iLS adalah pembentukan matriks komplit sementara yang didapat dengan cara mengisi missing values dengan row average. Namun, row average dinilai kurang bagus karena hanya menggunakan informasi satu baris tersebut. Kekurangan ini diperbaiki dalam penelitian ini. Penggunaan metode BPCA untuk menemukan matriks komplit sementara dinilai lebih baik karena BPCA menggambarkan struktur keseluruhan data. Penggantian row average menjadi BPCA menjadi dasar masalah penelitian ini. Metode iterative Bicluster-based Bayesian Principal Component Analysis dan Least Square (bi-BPCA- iLS) pun diajukan. Penerapan bi-BPCA-iLS terhadap data ekspresi gen yang dihasilkan teknologi microarray terbukti menghasilkan penurunan nilai Normalzied Root Mean Square Error (NRMSE) sebesar 10,6% dan 0,58% secara rata-rata dalam beberapa missing rate (1%, 5%, 10%, 15%, 20%, 25%, dan 30%) jika dibandingkan dengan metode LLS dan bi-iLS.

Biological research using microarray technique produce some important gene expression datasets. These data can be expressed as a matrix in which rows are genes and columns are different conditions. Further analysis of these datasets requires a complete dataset or matrix. However, gene expression datasets often contain missing values. There are some ways to handle missing values, such as deletion of genes or conditions that contain missing values, repeat the process of acquiring data, and impute the missing values. Early approaches in missing values imputation are simply to replace missing values with zeros or row averages, but these methods do not use the coherence inside the data. Later, approaches in missing values imputations are categorized into four groups based on the required information, such as local, global, hybrid, and knowledge assisted approaches. In this paper, local and global approaches are used. Bayesian Principal Component Analysis (BPCA) is a well-known global based method, while the most popular local based method is Local Least Square (LLS). In LLS, selection of similar genes uses clustering technique where all conditions in the data are included. The reality is genes sometimes only correlate under some experimental conditions only. So, a technique that can find subset of genes under subset of experimental conditions for local information is needed. This technique is called biclustering. The usage of biclustering in LLS is called the Iterative Bicluster-based Least Square (bi-iLS). One of the early steps in bi-iLS is to find a temporary complete matrix. Temporary complete matrix is obtained by applying row averages to impute missing values. However, row average cannot reflect the real structure of the dataset because row average only uses the information of an individual row. The missing values in a target gene do not only rely on the known values of its own row. In this research, row average in bi-iLS is replaced with BPCA. The benefit of using BPCA is that it uses global structure of the dataset. This update will be the basic problem of this research. The proposed method is called Iterative Bicluster-based Bayesian Principal Component Analysis and Least Square (bi-BPCA-iLS). This new proposed method is applied to gene expression datasets from microarray technique. It shown a decrease in values of Normalized Root Mean Square Error (NRMSE) about 10.6% from LLS and about 0.58% from bi-iLS based on different missing rates (1%, 5%, 10%, 15%, 20%, 25%, and 30%)."
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2021
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
<<   1 2 3 4 5 6 7 8 9 10   >>