Hasil Pencarian

Hasil Pencarian  ::  Simpan CSV :: Kembali

Hasil Pencarian

Ditemukan 11 dokumen yang sesuai dengan query
cover
Iasha Zahra Nabila
"Abstrak. Imputasi missing values berperan penting dalam pre-processing data untuk menghasilkan data yang lengkap dan berkualitas. Dalam penelitian ini, dilakukan kombinasi dari Decision Tree dan algoritma Expectation Maximization (EM) sebagai metode imputasi dalam mengestimasi missing values. Namun, terdapat kekurangan pada metode ini, yaitu algoritma Expectation Maximization (EM) cenderung memberikan hasil imputasi yang lebih akurat jika terdapat banyak kemiripan antar atribut. Hal ini dapat diatasi dengan mempartisi segmen horisontal menggunakan algoritma Decision Tree. EM diterapkan pada berbagai segmen horisontal dari data set agar diperoleh banyak kemiripan antar atribut. Metode yang diusulkan ini kemudian dievaluasi dengan membandingkan kinerjanya dengan imputasi menggunakan mean dalam mengestimasi missing values data numerik dan dipilih Decision Tree sebagai classifier. Data yang digunakan untuk simulasi dalam penelitian ini yaitu data set PPOK-OSA. Penelitian ini menunjukkan bahwa metode imputasi missing values yang
diusulkan menghasilkan akurasi yang lebih tinggi jika dibandingkan menggunakan nilai mean dalam mengestimasi missing values. Hasil akurasi tertinggi dari metode ini yaitu83.3%, diperoleh pada saat persentase data training 10% dan rata-rata akurasi pada berbagai persentase data training sebesar 70.3%, sedangkan hasil akurasi tertinggi menggunakan nilai mean yaitu 58.3%, diperoleh pada saat persentase data training 20% dengan rata-rata akurasi
pada berbagai persentase data training sebesar 50.5%.

Abstract. Missing values imputation plays a vital role in data pre-processing for ensuring good quality of data. In this study, we present a combination of Decision Tree and
Expectation Maximization (EM) algorithm as imputation method to estimate missing values. However, there are shortcomings of method, where the Expectation Maximization algorithm tends to give more accurate imputation results if there are many similarities among attributes. Therefore, this can be overcome by partitioning the horizontal segments using the Decision
Tree algorithm. We applied EM on various horizontal segments of a data set where there are many similarities among attributes. Besides, we evaluate our proposed method by comparing its performance with mean values to impute missing values, and we choose the Decision Tree
as a classifier. Data used in this research is COPD-OSA data set. In this study shows that ourproposed method leads to higher accuracy than mean imputation. The highest accuracy results obtained from our proposed method is 83.3% when the percentage of training data is
10% and average accuracy in various percentage of training data is 70.3%, while the highest accuracy results using the mean value is 58.3% when the training data percentage is 20% and the average accuracy in various percentage of training data is 50.5%.
"
Lengkap +
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2019
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Deandra Aulia Rusdah
"Prediksi klaim dan prediksi risiko asuransi dilakukan untuk mengklasifikasikan klaim dan tingkat risiko dalam industri asuransi. Dari sudut pandang pembelajaran mesin, masalah prediksi klaim merupakan klasifikasi dua kelas dan masalah prediksi risiko adalah klasifikasi multi-kelas. Untuk mengklasifikasikan klaim dan risiko, model pembelajaran mesin akan memprediksi berdasarkan data historis. Dalam data historis pemohon asuransi, akan ada kemungkinan nilai yang hilang (missing values) sehingga perlu untuk mengatasi masalah tersebut agar memberikan kinerja yang lebih baik. XGBoost adalah metode pembelajaran mesin yang banyak digunakan untuk masalah klasifikasi dan dapat menangani nilai yang hilang (missing values) tanpa dilakukan proses imputasi terlebih dahulu. Penelitian ini menganalisis kinerja metode XGBoost dalam menangani nilai-nilai yang hilang (missing values) untuk prediksi klaim dan prediksi risiko dalam asuransi dan kinerja tersebut juga dibandingkan dengan metode imputasi standard lainnya, yaitu metode mean dan k-nearest neighbors (KNN). Simulasi menunjukkan bahwa model XGBoost tanpa dilakukan proses imputasi memberikan hasil yang sebanding dengan model XGBoost dengan imputasi

Claim prediction and risk prediction of insurance is carried out to classify claims and the levels of risk in insurance industries. From the machine learning point of view, the problem of claim prediction is a two-class classification, and the problem of risk level prediction is a multi-class classification. To classify the claims and risk, a machine learning model will predict based on historical data. In the insurance applicant's historical data, there will be the possibility of missing values so that it is necessary to deal with these problems to provide better performance. XGBoost is a machine learning method that is widely used for classification problems and can handle missing values without an imputation preprocessing. This study analyzed the performance of the XGBoost model in handling missing values for claim prediction and risk prediction in insurance and the performance is also compared with other standard imputation methods, i.e the mean and k-nearest neighbors (KNN) method. The simulations show that the XGBoost model without any imputation preprocessing gives a comparable result to one of the XGBoost models with an imputation preprocessing."
Lengkap +
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2020
T-pdf
UI - Tesis Membership  Universitas Indonesia Library
cover
Rasendriya Maheswari
"Teknologi microarray merupakan alat terapan ilmu bioinformatika dalam bidang biologi molekuler yang dapat menghasilkan suatu data ekspresi gen. Namun, pada data ekspresi gen sering ditemukan missing value yang dapat mengganggu proses analisis data. Untuk mengatasi masalah tersebut, missing value dapat diestimasi menggunakan teknik imputasi. Penelitian ini menggunakan metode NCBI-SSSim-QR yang merupakan metode imputasi biclustering berbasis Shifting-and-Scaling Similarity (SSSim) dan menggunakan regresi kuantil dalam mengestimasi missing values. Metode ini merupakan modifikasi dari metode NCBI-SSSim-LS yang menggunakan regresileast square dalam proses imputasinya. Regresi kuantil pada metode NCBI-SSSim-QR digunakan untuk menangani keberadaan outlier pada data karena regresi kuantil dapat menyesuaikan kemiringan distribusi data pada titik-titik kuantil tertentu. Pada penelitian ini, metode NCBI-SSSim-QR diimplementasikan pada data ekspresi gen kanker serviks yang mengandung outlier dan diujikan pada missing rate 5%, 10%, 15%, 20%, 25%, 30%, dan 35% dengan mekanisme MCAR (Missing Completely at Random) dalam pembentukan missing values. Terdapat beberapa titik kuantil yang diuji yaitu kuantil ke = 0,3, 0,4, 0,5, 0,6, 0,7 yang kemudian performanya dibandingkan dengan metode NCBI-SSSim-LS yang berbasis mean. Penelitian menunjukkan bahwa proses estimasi missing values pada data ekspresi gen kanker serviks paling baik dilakukan oleh metode NCBI-SSSim-QR dengan kuantil 0,5 berdasarkan nilai Root Mean Square Error (RMSE).

Microarray technology is a bioinformatics tools in molecular biology that capable for quantitating hundreds or thousands of gene transcripts called gene expression data. However, the presence of missing values is often found in gene expression data which can interfere the further analysis process. Therefore, imputation technique used for estimating missing values. This research used NCBI-SSSim-QR method which is a Shifting-and-Scaling Similarity (SSSim)-based biclustering imputation method using quantile regression to estimate the missing values. This method is a modification of the NCBI-SSSim-LS method that using the least square regression for imputation process. Quantile regression in the NCBI-SSSim-QR method is used to handle the presence of outliers in the data because quantile regression can follow the skewness of the data distribution at certain quantile points. In this research, the NCBI-SSSim-QR method will be implemented on cervical cancer gene expression data containing outliers and tested on missing rate of 5%, 10%, 15%, 20%, 25%, 30%, and 35% with MCAR (Missing Completely at Random) mechanism in generating missing values. There are several quantile points to be tested, = 0,3, 0,4, 0,5, 0,6, 0,7 which will then be compared with the NCBI-SSSim-LS method which is mean-based. The research shows that the estimation process for missing values in cervical cancer gene expression data is better estimated by NCBI-SSSim-QR method with a quantile of 0,5 based on the Root Mean Square Error (RMSE) value."
Lengkap +
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2022
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Taufik Anwar
"Pembersihan data merupakan salah satu langkah dalam preprocessing yang dalam prosesnya sering menemukan nilai yang hilang dalam dataset. Nilai yang hilang adalah suatu kondisi di mana tidak ada nilai untuk pengamatan. Langkah cepat yang dapat diambil untuk menangani nilai yang hilang adalah menghapus pengamatan yang mengandung nilai yang hilang, tetapi ini dapat mengurangi informasi dalam data. Cara lain untuk menangani nilai yang hilang adalah dengan menggunakan imputasi dengan mean, median, atau mode nilai dalam variabel di mana nilai-nilai yang hilang berada, dan beberapa metode imputasi seperti imputasi dengan pendekatan clustering. Imputasi dengan pendekatan clustering adalah fokus dari penelitian ini, di mana penelitian ini menggunakan K-Harmonic Means yang telah disesuaikan untuk menangani data numerik dan kategorik campuran. K-Harmonic Means adalah perpanjangan dari K-Means dengan mengurangi masalah sensitivitas inisialisasi centroid acak. Imputasi nilai-nilai yang hilang dilakukan dengan mendistribusikan pengamatan yang memiliki nilai-nilai yang hilang ke cluster dan mengganti nilai-nilai yang hilang dengan informasi centroid pada cluster yang sama. Simulasi menggunakan data dengan nilai-nilai yang hilang yang dibuat menggunakan mekanisme yang hilang sepenuhnya secara acak dengan proporsi 10%, 15%, dan 20% dari total pengamatan. Hasil simulasi dievaluasi menggunakan root mean square error (RMSE) dan nilai akurasi masing-masing nilai imputasi untuk data numerik dan kategorikal. Dalam penelitian ini, hasil imputasi optimal diperoleh pada data dengan proporsi nilai yang hilang 10%, yang memiliki nilai RMSE rendah dan nilai akurasi tinggi.

Data cleaning is one step in preprocessing which in the process often finds missing values ​​in the dataset. Missing value is a condition where there is no value for observation. A quick step that can be taken to handle missing values ​​is to delete observations that contain missing values, but this can reduce the information in the data. Another way to handle missing values ​​is to use imputations with the mean, median, or value modes in the variable where the missing values ​​are located, and some imputation methods such as imputation with the clustering approach. Imputation with the clustering approach is the focus of this study, where this study uses K-Harmonic Means that have been adjusted to handle numerical and mixed categorical data. K-Harmonic Means is an extension of K-Means by reducing the sensitivity problem of random centroid initialization. The imputation of missing values ​​is carried out by distributing observations that have missing values ​​to the cluster and replacing the missing values ​​with centroid information on the same cluster. The simulation uses data with missing values ​​that are made using a completely random missing mechanism with a proportion of 10%, 15%, and 20% of the total observations. Simulation results are evaluated using the root mean square error (RMSE) and the accuracy value of each imputation value for numerical and categorical data. In this study, the optimal imputation results are obtained on data with a proportion of missing values ​​of 10%, which has a low RMSE value and a high accuracy value."
Lengkap +
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2019
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Kiki Aristiawati
"Penyakit Paru Obstruktif Kronik (PPOK) merupakan salah satu penyebab kematian terbanyak dengan jumlah kematian sekitar 3 juta jiwa atau setara dengan 5,2% dari jumlah
kematian di seluruh dunia. Untuk itu diperlukan penelitian lebih lanjut mengenai PPOK, namun data yang dikumpulkan dalam penelitian biasanya tidak memuat semua data yang diinginkan. Hilangnya informasi dalam data dikenal dengan istilah missing values yang dapat menjadi masalah untuk semua jenis analisis data. Salah satu cara untuk menangani missing values yaitu dengan melakukan proses imputasi data pada tahap preprocessing untuk mendapatkan data lengkap yang diharapkan mampu meningkatkan akurasi dari analisis data yang dilakukan. Pada penelitian ini dilakukan imputasi menggunakan mean dan Fuzzy C-Means (FCM). FCM merupakan metode pengelompokan yang memungkinkan satu bagian data menjadi milik dua atau lebih kelompok berdasarkan nilai keanggotaannya. Data lengkap hasil imputasi diuji menggunakan metode klasifikasi Decision Tree dengan persentase data training 50%-90% untuk melihat performa dari metode mean dan FCM. Berdasarkan penelitian ini diperoleh nilai akurasi, presisi, dan recall tertinggi untuk klasifikasi data PPOK yang diimputasi menggunakan mean masing-masing sebesar 64,7%, 71%, dan 65%. Sedangkan nilai akurasi, presisi, dan recall tertinggi untuk klasifikasi data PPOK yang diimputasi menggunakan FCM
masing-masing sebesar 78,9%, 85%, dan 79%. Hasil ini menunjukkan bahwa FCM membantu Decision Tree untuk mengklasifikasikan data lebih baik dengan nilai imputasi yang lebih baik untuk menggantikan missing values.

Chronic Obstructive Pulmonary Disease (COPD) is one of the most causes of death in the world with around 3 million deaths, equivalent to 5.2% of deaths worldwide. For this reason, further research needs to be done on CPOD, but the data collected in the study often does not contain all the desired data. Loss information in data is called as a missing values which can be a problem for all types of data analysis. One way to handle missing values is by doing the imputation process at the preprocessing stage to obtain complete data which is expected to increase the accuracy of the data analysis performed. In this study, imputation was done using mean and FCM. FCM is a clustering method that allows one part of the data to belong to two or more groups based on their membership function. The complete dataset was trained with Decision Tree classifier with the percentage of data training 50%-90% to observe the performance in terms of accuracy, precision, and recall for mean and FCM method. Based on this study, the highest value of accuracy, precision,
and recall for classification of COPD data imputed using mean of 64.7 %, 71 % and 65 % respectively. While the highest value of accuracy, precision, and recall for classification of COPD data imputed using FCM is 78.9 %, 85 %, and 79 % respectively. These results indicate that FCM helps Decision Tree to classify data better with better imputation values to replace missing values."
Lengkap +
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2019
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Nurzaman
"Pada setiap analisis statistik memungkinkan berhadapan dengan missing values atau missing data karena pada saat survei kemungkinan ada responden yang tidak dapat menjawab pertanyaan atau tidak ingin menjawab pertanyaan pada saat wawancara survei. Missing values tidak dapat langsung dilakukan analisis menggunakan analisis data lengkap, oleh karena itu missing values telah menjadi masalah yang sering dihadapi oleh para peneliti. Dataset survei biasanya terdiri dari sejumlah besar variabel kontinu salah satunya berdistribusi multivariat normal. Salah satu cara untuk menangani missing values dapat dilakukan dengan imputasi, yaitu proses pengisian atau penggantian missing values pada dataset dengan nilai-nilai yang mungkin berdasarkan informasi yang didapatkan pada dataset tersebut. Penelitian ini akan menerapkan metode sequence regression multivariate imputation (SRMI) untuk imputasi missing values pada data multivariat normal.
SRMI merupakan metode imputasi ganda yang nilai imputasinya didapatkan dari model sequence of regression yaitu setiap variabel yang mengandung missing values diregresikan terhadap semua variabel lain yang tidak mengandung missing values sebagai variabel prediktor. Cara mendapatkan nilai imputasi digunakan pendekatan iterasi untuk menarik nilai dari distribusi posterior prediktif pada missing values di bawah masing-masing model regresi secara beruntun. Penelitian ini menggunakan data multivariat normal yang telah dibangkitkan sebanyak 500 observasi dengan menggunakan lima nilai imputasi ganda dan hasil evaluasi kualitas imputasi menggunakan Root Mean Square Error (RMSE). Hasil evaluasi kualitas imputasi dapat dikatakan baik jika nilai RMSE semakin kecil, maka eror semakin kecil atau nilai estimasi mendekati nilai sebenarnya (Chai & Draxler, 2014) dan hasil yang didapatkan nilai RMSE kecil sehingga SRMI dapat diterapkan untuk melakukan imputasi terhadap data multivariat normal.

Missing values are the absence of data items for an observation or more observations that can result in the loss of certain information. During surveys, there are often missing values or missing data because there are likely respondents who cannot answer the question or do not want to answer the question. That is a problem for researchers because, with missing values, the results of observation cannot be analyzed properly. Survey datasets usually consist of continuous variables, one of which is a normal multivariate distribution. One way to deal with missing values ​​can be done by imputation, which is the process of filling or replacing missing values ​​in a dataset with possible values ​​based on the information obtained in the dataset. This study will apply the sequence regression multivariate imputation (SRMI) method for missing values ​​imputation in normal multivariate data.
SRMI is a multiple imputation method whose implication value is obtained from the sequence of regression model, that is, every variable containing missing values ​​is regressed on all other variables that do not contain missing values ​​as predictor variables. The method of obtaining imputation values ​​is used by the iterative approach to drawing values ​​from the predictive posterior distribution in the missing values ​​below each successive regression model. This study uses multivariate normal data that has been generated a total of 500 observations using five multiple imputation values ​​and the evaluation results using Root Mean Square Error (RMSE) which have little value in applying to normal multivariate data so SRMI can be applied to impute normal multivariate data.
"
Lengkap +
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2019
S-Pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Muhammad Arief Fauzan
"Tren kenaikan frekuensi dan severitas klaim untuk klaim asuransi kendaraan bermotor menyebabkan dibutuhkannya metode otomatisasi baru untuk memprediksi probabilitas seorang pemegang asuransi kendaraan akan mengajukan klaim jika diberikan data historis mengenai pemegang asuransi tersebut, agar perusahaan asuransi dapat memilah dan memproses lebih lanjut para pemegang polis yang kemungkinan mengajukan klaimnya tinggi. Masalah ini dapat diselesaikan dengan berbagai metode, salah satunya dengan machine learning, yang mengkategorisasikan masalah tersebut sebagai masalah supervised learning. Volume data yang besar dan banyaknya kemungkinan adanya missing values pada data pemegang asuransi menjadi dua aspek yang mempengaruhi pemilihan model machine learning yang tepat. XGBoost merupakan model gradient boosting machine learning baru yang dapat mengatasi missing value dan volume data besar sehingga XGBoost diklaim merupakan metode yang tepat untuk digunakan pada masalah tersebut. Dalam skripsi ini akan diaplikasikan metode XGBoost kepada masalah ini, dan akan dibandingkan hasilnya dengan berbagai metode machine learning lainnya, seperti AdaBoost, Stochastic Gradient Boosting, Random Forest, Neural Network, dan Logistic Regression.

The increasing trend of claim frequency and claim severity for auto-insurance result in a need of new methods to predict whether a policyholder will file an auto-insurance claim or not, given historical data about said policyholder, so that insurance industries can further process policyholders with high claim probability. This problem can be solved with many methods, one of which is machine learning, which categorizes this problem as a supervised learning problem. The high data volume and the existence of missing values on a policyholders historical data are aspects that the chosen machine learning model must be able to handle. XGBoost is a novel gradient boosting machine learning problem that is able to inherently handle missing values and high volume of data, which should make the model suitable for this problem. In this thesis, XGBoost will be applied to this problem, and its performance will be compared by other machine learning models, such as AdaBoost, Stochastic Gradient Boosting, Random Forest, Neural Network, and Logistic Regression."
Lengkap +
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2018
S-Pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Vima Majesta Tingginehe
"ABSTRAK
Data yang tidak lengkap merupakan salah satu masalah yang sering muncul dalam penelitian medis, yang dapat mengakibatkan statistik inferensial tidak akurat. Salah satu cara yang dapat dilakukan untuk mengatasi masalah tersebut adalah dengan mengestimasi missing value yang terdapat pada data. Metode ini disebut imputasi. Beberapa metode imputasi telah dikembangkan untuk memperkirakan nilai yang hilang, dan salah satu metode imputasi yang paling sering digunakan adalah imputasi pohon keputusan. Pohon keputusan adalah salah satu metode pembelajaran mesin terawasi yang paling sederhana, yang digunakan untuk mengklasifikasikan dan meregresi data. Namun selain kepraktisan metode pohon keputusan untuk imputasi, metode ini kurang tepat jika muncul nilai-nilai yang hilang baik pada data latih maupun data pengujian secara bersamaan. Untuk mengatasi keterbatasan tersebut, metode imputasi pohon keputusan kemudian dikembangkan menjadi metode imputasi pohon atribut yang dipesan secara dinamis (DOAT). DOAT pertama kali diperkenalkan oleh Nick Street dan Jing Wang pada tahun 2009, untuk membangun sejumlah pohon keputusan yang digunakan untuk memperkirakan nilai yang hilang secara bertahap dalam data pelatihan. Selanjutnya tingkat akurasi estimasi akan digunakan untuk menentukan pohon keputusan akhir sebagai pohon keputusan terakhir yang melakukan imputasi. Setelah pohon keputusan akhir diperoleh dari data pelatihan, maka nilai-nilai yang hilang pada data pengujian akan diestimasi menggunakan sejumlah pohon keputusan yang dihasilkan dari data pelatihan, dimana pohon keputusan akhir yang dihasilkan pada data pelatihan juga merupakan pohon keputusan final. pohon keputusan yang digunakan dalam imputasi pengujian data. Pada penelitian ini dikembangkan metode imputasi DOAT dengan algoritma CART untuk membangun pohon keputusan untuk mengestimasi missing value pada data kategori penyakit. Kinerja metode imputasi DOAT akan dievaluasi berdasarkan tingkat akurasi menggunakan pohon keputusan. Hasil penelitian ini menunjukkan bahwa metode imputasi DOAT tidak mengurangi tingkat akurasi metode klasik yang sudah memiliki data lengkap.
ABSTRACT
Incomplete data is one of the problems that often arises in medical research, which can result in inaccurate inferential statistics. One way that can be done to overcome this problem is to estimate the missing value contained in the data. This method is called imputation. Several imputation methods have been developed to estimate missing values, and one of the most frequently used imputation methods is decision tree imputation. Decision trees are one of the simplest supervised machine learning methods, which are used to classify and regress data. However, in addition to the practicality of the decision tree method for imputation, this method is not appropriate if missing values ​​appear in both training data and test data simultaneously. To overcome these limitations, the decision tree imputation method was later developed into a dynamically ordered attribute tree (DOAT) imputation method. DOAT was first introduced by Nick Street and Jing Wang in 2009, to construct a number of decision trees that are used to estimate the incrementally missing values ​​in training data. Furthermore, the level of accuracy of the estimate will be used to determine the final decision tree as the last decision tree that performs imputation. After the final decision tree is obtained from the training data, the missing values ​​in the test data will be estimated using a number of decision trees generated from the training data, where the final decision tree generated in the training data is also the final decision tree. decision tree used in the imputation of data testing. In this study, the DOAT imputation method with the CART algorithm was developed to build a decision tree to estimate the missing value in disease category data. The performance of the DOAT imputation method will be evaluated based on the level of accuracy using a decision tree. The results of this study indicate that the DOAT imputation method does not reduce the level of accuracy of the classical method which already has complete data."
Lengkap +
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2019
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Faisal Khafie Alam
"Stunting adalah kondisi gagal tumbuh pada balita akibat dari kekurangan gizi kronis,
sehingga anak terlalu pendek pada usianya. Stunting memiliki dampak yang buruk
terhadap pertumbuhan dan perkembangan anak serta berpengaruh terhadap kualitas
sumber daya manusia di masa depan. Dalam rangka menurunkan angka stunting di
Indonesia, pada tahun 2018, pemerintah menetapkan 100 kabupaten/kota sebagai daerah
prioritas penanganan kasus stunting di Indonesia. Penetapan 100 kabupaten/kota prioritas
tersebut ditentukan berdasarkan indikator jumlah balita stunting, prevalensi stunting, dan
tingkat kemiskinan. Penelitian ini bertujuan untuk mengetahui variabel-variabel yang
memengaruhi status daerah prioritas penanganan stunting di Indonesia agar pemerintah
lebih fokus dalam menangani kasus stunting di setiap daerah. Model yang digunakan
dalam penelitian ini adalah Geographically Weighted Logistic Regression (GWLR).
Untuk variabel respon, kategori 0 adalah daerah bukan prioritas penanganan stunting
(prevalensi stunting kurang dari rata-rata prevalensi stunting Indonesia tahun 2018
sebesar 32,01%) dan kategori 1 adalah daerah prioritas penanganan stunting (prevalensi
stunting lebih besar dari rata-rata prevalensi stunting Indonesia tahun 2018 sebesar
32,01%). Model Geographically Weighted Logistic Regression (GWLR) merupakan
pengembangan dari model regresi logistik dengan memperhitungkan pengaruh spasial.
Pengaruh spasial tersebut digambarkan melalui matriks pembobot di setiap lokasi
pengamatan sehingga menghasilkan pendugaan parameter model yang bersifat lokal
untuk setiap lokasi pengamatan. Metode penaksiran parameter yang digunakan adalah
metode Maximum Likelihood Estimation (MLE) dengan fungsi pembobot spasial adalah
fungsi pembobot kernel Fixed Gaussian dan Fixed Bisquare. Pada penelitian ini data
yang digunakan mengandung missing values sehingga diperlukan penanganan lebih
lanjut. Penanganan missing values yang digunakan pada penelitian ini adalah metode
imputasi data menggunakan Classification and Regression Tree (CART). Model GWLR
terbaik pada pemodelan kasus stunting di Indonesia tahun 2018 adalah model GWLR
dengan pembobot fungsi kernel Fixed Bisquare dengan nilai AIC sebesar 622,806477
dan akurasi klasifikasi model sebesar 0,7257.

Stunting is a condition of failure to thrive in children under five because of chronic
malnutrition so that the child is too short for his/her age. Stunting has bad effect on
children's growth and the quality of human resources in the future. To reduce the number
of stunting in Indonesia, in 2018, the government determined 100 districts/cities as
priority areas for handling stunting cases in Indonesia. The 100 priority districts/cities are
determined based on the number of stunting children, stunting prevalence, and poverty
level. This study aims to determine the variables that affect the status of priority areas for
stunting handling in Indonesia so the government can be more focused on handling
stunting cases in each region. The model used in this study is Geographically Weighted
Logistic Regression (GWLR) with 0 as the category of a non-priority area for handling
stunting cases (stunting prevalence is less than the average stunting prevalence of
Indonesia in 2018) and 1 as the category of a priority area for handling cases stunting (the
prevalence of stunting is greater than the average stunting prevalence of Indonesia in
2018). The average stunting prevalence of Indonesia in 2018 that used in this study is
32,01%. The Geographically Weighted Logistic Regression (GWLR) model is a
development of the logistic regression model which considers spatial influence. The
spatial influence is illustrated through a weighting matrix at each observation location to
produce an estimation of the local model parameters for each observation location. The
parameter estimation method used is the Maximum Likelihood Estimation (MLE) method
with the spatial weighting function is the Fixed Gaussian and Fixed Bisquare kernel
weighting function. There are missing values in the study data so Classification and
Regression Tree (CART) method used to handle the missing values. The results showed
that the best GWLR model on stunting cases modeling in Indonesia in 2018 is the GWLR
model with Fixed Bisquare kernel function weighting with AIC value of 622,806477 and
accuracy of model classification of 0,7257.
"
Lengkap +
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2020
S-Pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Nurul Shabrina
"Microarray merupakan salah satu teknologi pada bidang biologi yang memberikan
informasi tentang ekspresi gen. Data microarray mentah berupa gambar, yang harus
diubah menjadi matriks ekspresi gen dimana baris menunjukkan gen, kolom
menunjukkan kondisi eksperimental. Namun, pada praktiknya data microarray banyak
ditemukan missing values yang tentunya akan menghambat proses dari analisis datanya.
Imputasi merupakan salah satu solusi yang dapat mengatasi adanya missing values pada
data microarray. Dengan menggunakan imputasi, nilai missing values yang terdapat pada
matriks data diprediksi atau diestimasi sehingga diperoleh matriks data yang lengkap.
Metode imputasi yang digunakan pada penelitian ini bernama bi-KNN-RLSP, yang
menggunakan konsep biclustering, principal component analysis, dan regresi kuantil.
Dalam proses pembentukan biclustering, dibutuhkan matriks lengkap sementara yang
diperoleh melalui proses praimputasi dengan KNNimpute. Percobaan bi-KNN-RLSP
dilakukan pada data ekspresi gen garis sel kanker serviks dengan menerapkan missing
rate yang berbeda, yaitu 1%, 5%, 10%, 15%, 20%, 25%, dan 30% dengan menggunakan
parameter k=10 pada proses praimputasi KNNimpute. Hasil percobaan tersebut dievaluasi
performanya menggunakan normalized root mean squared error. Nilai rata-rata NRMSE
pada percobaan yang dilakukan sebanyak lima kali memiliki nilai yang lebih rendah
dibandingkan dengan metode bi-RLSP dan row average. Waktu komputasi untuk metode bi-KNN-RLSP dan bi-RLSP tidak jauh berbeda, sehingga dengan waktu yang tidak
signifikan berbeda, metode bi-KNN-RLSP dapat menghasilkan nilai NRMSE yang lebih kecil dibandingkan dengan bi-RLSP. Oleh karena itu, dapat dikatakan bahwa modifikasi praimputasi row average pada metode bi-RLSP menjadi KNNimpute dapat menghasilkan performa imputasi yang lebih bagus. Selain itu, diperoleh hasil bahwa nilai NMRSE untuk metode bi-KNN-RLSP meningkat seiring dengan meningkatnya missing rate.

Microarray is a technology in biology that provides information about gene expression. The raw microarray data is in the form of images, which must be converted into a gene expression matrix where rows indicate genes, columns indicate experimental conditions. However, in practice, many missing values are found in microarray data, which of course
will hinder the process of data analysis. Imputation is one solution that can overcome the missing values in microarray data. By using imputation, the missing values contained in the data matrix are predicted or estimated so that a complete data matrix is obtained. The imputation method used in this study is called bi-KNN-RLSP, which uses the concept of
biclustering, principal component analysis, and quantile regression. In the process of forming biclustering, a temporary complete matrix is needed which is obtained through the pre-imputation process with KNNimpute. The bi-KNN-RLSP experiment was carried out on cervical cancer cell line gene expression data by applying different missing rates,
namely 1%, 5%, 10%, 15%, 20%, 25%, and 30% using the parameter k=10. in the KNNimpute pre-imputation process. The results of these experiments were evaluated for their performance using the normalized root mean squared error. The average value of NRMSE in the five times experiment has a lower value than the bi-RLSP and row average methods. The computation time for the bi-KNN-RLSP and bi-RLSP methods is not much different, so with the time that is not significantly different, the bi-KNN-RLSP method can produce a smaller NRMSE value compared to bi-RLSP. Therefore, it can be said that the modification of the row average preimputation in the bi-RLSP method to KNNimpute can produce better imputation performance. In addition, it was found that the NMRSE value for the bi-KNN-RLSP method increased along with the increase in the missing rate.
"
Lengkap +
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2022
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
<<   1 2   >>