Hasil Pencarian  ::  Simpan CSV :: Kembali

Hasil Pencarian

Ditemukan 10 dokumen yang sesuai dengan query
cover
Kuning Tiadi
Abstrak :
ABSTRAK
Keberhasilan pembangunan dibidang kesehatan adalah cermin ketepatan setiap pimpinan kesehatan didalam mengambil keputusan dan merumuskan kebijaksanaan. Keputusan dan kebijaksanaan merupakan pemecahan masalah yang terstruktur dimana bentukan strukturnya terdiri dari berbagai informasi yang terkait dengan permasalahan yang dihadapi.

Informasi merupakan hasil olahan dan analisa terhadap data yang dihimpun melalui suatu sistem yang dibangun baik dalam bentuk survey atau laporan rutin. Salah satu kriteria Informasi yang baik adalah yang On time dan On demand , oleh karenanya data hasil laporan rutin menjadi penting artinya didalam menjalankan manajemen suatu organisasi.

Rentang organisasi Departemen Kesehatan, yang lebar dan berjenjang, menghendaki suatu sistem informasi yang handal. Keberadaan Puskesmas yang relatif dekat dan merata ditengah-tengah masyarakat, adalah sumber informasi yang baik bagi Departemen Kesehatan. Oleh karena itu sejak dikembangkannya Konsep Pembangunan Puskesmas, Departemen Kesehatan telah mengembangkan sistem informasi dengan bentuk pencatatan dan pelaporan Puskesmas. Yang pada akhirnya disebut Sistem Pencatatan dan Pelaporan Terpadu Puskesmas ( SP2TP).

Luas wilayah dan heterogenitas letak geografi mengakibatkan tidak terjaminnya kelengkapan laporan yang diterima oleh jenjang administrasi yang lebih tinggi seperti di Propinsi dan di Pusat.

Untuk dapat memenuhi kebutuhan informasi dengan mengoptimalkan pemanfaatan data yang tersedia, perlu mengganti atau mengisi data yang tidak lengkap dengan menggunakan metode statistik yang dikenal yaitu Metode Imputasi. Agar hasil pengolahan dan analisa dapat menjadi informasi yang representatif harus ada batasan - batasan yang digunakan.

Bertitik tolak dari permasalahan tersebut, peneliti mencoba untuk menggali batasan-batasan data yang masih layak untuk dilakukan Imputasi agar diperoleh informasi yang baik dengan memanfaatkan data yang tersedia. Untuk itu, dilakukan simulasi imputasi dengan menggunakan data yang lengkap dari laporan SP2TP dari Propinsi Daerah Istimewa Yogyakarta tahun 1998.

Dengan diperolehnya batasan-batasan data yang layak untuk dilakukan imputasi, diharapkan kebutuhan informasi dapat terpenuhi sesuai dengan dengan kriteria yang diharapkan.
ABSTRACT
Application Imputation Method on Health Center Data Processing Collected through SP2TP in 1998Reliable information is an information, which is supported by accurate, timely, actual, inter-related and continuing data. To obtain information that meet the above criteria the existence of health center dosed to the community is suitable to be the source of good health information.

in line with the increasing health problems faced by health sectors, the role of information is becoming more important in detection and prioritizing the problems and developing intervention policy to be applied. in order to provide health information, in 1981 Ministry of Health endorsed SP2TP. With the SP2TP, it is expected that the responsible person in every level of administration will obtain reliable and correct health information.

However, in the implementation of SP2TP, the management has not yet integrated with other health center program, both in provision of resources and utilization. Therefore, the activity is considered as an additional burden for the health personnel. Planning system is dominated by top down policy creating less concern and low compliance of health center in recording and reporting the activity and the result. As a consequence, the data collected through SP2TP is becoming in complete and less accurate.

Health center contributions in providing information on health situation in the working area is indicated through extend of community's reliability toward health center, which is reflected through number of community visit to health center.

Criteria required on the presentation of information are uon time" and "on demand". Incompleteness of health center data collected through SP2TP indicated a barrier in fulfilling the criteria. Basic statistic method used in collecting and analyzing the data usually with an assumption that the data iscomplete. Incompleteness of health center data as a big influence in the result of processing and analyzing data.

To obtain health information timely and in representatively by using available data, a statistic method which can accommodate data in completeness is required. One of the statistic methods to be used is by filling or changing of the missing data with imputation method. Data variable used in this thesis are antenatal data (Ki and K4) in 1998 based on the report of Yogyakarta Province submitted to the central level.
2000
T-Pdf
UI - Tesis Membership  Universitas Indonesia Library
cover
Edvin Nur Febrianto
Abstrak :
ABSTRAK
Penelitian ini bertujuan untuk mempelajari pengaruh otonomi perempuan dalam rumah tangga terhadap kelahiran bayi BBLR di Indonesia dengan menggunakan data SDKI 2017. Unit analisis dalam penelitian ini adalah wanita usia subur yang dalam 5 tahun yang lalu melahirkan anak lahir hidup tunggal (kelahiran tunggal). Otonomi perempuan diukur menggunakan pertanyaan mengenai keterlibatan perempuan dalam penentuan keputusan dalam rumah tangga serta sikap perempuan terhadap pemukulan oleh suami/pasangan. Skor otonomi perempuan yang diperoleh menggunakan Principal Component Analysis (PCA) selanjutnya dikelompokkan menjadi kategori tinggi dan rendah. Data SDKI 2017 dianalisis menggunakan regresi logistik biner dengan Multiple Imputation karena cukup besarnya persentase sampel yang memiliki missing data, yaitu mencapai 15,37 persen dari total unit analisis. Hasil penelitian menunjukkan bahwa otonomi perempuan dalam rumah tangga berpengaruh signifikan terhadap kelahiran bayi BBLR. Perempuan dengan otonomi rendah memiliki kecenderungan yang lebih tinggi untuk melahirkan bayi BBLR. Selain otonomi perempuan dalam rumah tangga, variabel yang secara statistik berpengaruh signifikan terhadap kelahiran bayi BBLR, yaitu umur ibu saat melahirkan, lama sekolah ibu, indeks kekayaan, daerah tempat tinggal, paritas, perawatan kesehatan antenatal, serta konsumsi pil zat besi selama kehamilan. Sedangkan variabel status kehamilan, status kerja ibu, interval kelahiran, dan perilaku merokok ibu tidak signifikan secara statistik memengaruhi kelahiran bayi BBLR.
ABSTRACT
This study aims to study the effect of womens autonomy on LBW births in Indonesia using the 2017 IDHS data. The unit analysis in this study is women in childbearing age (15-19 years old) who in the past 5 years gave birth to a single live born child (single birth). Womens autonomy is measured using questions about womens involvement in decision making in the household and womens atitudes toward beating by their husbands spouses. Womens autonomy scores obtained using Principal Component Analysis (PCA) are further grouped into 2 categories (high and low). The 2017 IDHS data were analyzed using binary logistic regression with Multiple Imputation because of the large percentage of samples that had missing data, which reached 15.37 percent. The results showed that womens autonomy had a significant effect on birth of LBW babies. Women with low autonomy have a higher tendency to give birth to LBW babies. Beside womens autonomy, variables that have a statistically significant effect on LBW babies, namely mothers age at birth, mothers years of schooling, wealth index, area of residence, parity, antenatal health care, and consumption of iron pills during pregnancy. While the variables of pregnancy status, mothers work status, birth intervals, and mothers smoking behavior did not have statistically significant effect to birth of LBW babies.
2020
T-Pdf
UI - Tesis Membership  Universitas Indonesia Library
cover
Iasha Zahra Nabila
Abstrak :
Abstrak. Imputasi missing values berperan penting dalam pre-processing data untuk menghasilkan data yang lengkap dan berkualitas. Dalam penelitian ini, dilakukan kombinasi dari Decision Tree dan algoritma Expectation Maximization (EM) sebagai metode imputasi dalam mengestimasi missing values. Namun, terdapat kekurangan pada metode ini, yaitu algoritma Expectation Maximization (EM) cenderung memberikan hasil imputasi yang lebih akurat jika terdapat banyak kemiripan antar atribut. Hal ini dapat diatasi dengan mempartisi segmen horisontal menggunakan algoritma Decision Tree. EM diterapkan pada berbagai segmen horisontal dari data set agar diperoleh banyak kemiripan antar atribut. Metode yang diusulkan ini kemudian dievaluasi dengan membandingkan kinerjanya dengan imputasi menggunakan mean dalam mengestimasi missing values data numerik dan dipilih Decision Tree sebagai classifier. Data yang digunakan untuk simulasi dalam penelitian ini yaitu data set PPOK-OSA. Penelitian ini menunjukkan bahwa metode imputasi missing values yang diusulkan menghasilkan akurasi yang lebih tinggi jika dibandingkan menggunakan nilai mean dalam mengestimasi missing values. Hasil akurasi tertinggi dari metode ini yaitu83.3%, diperoleh pada saat persentase data training 10% dan rata-rata akurasi pada berbagai persentase data training sebesar 70.3%, sedangkan hasil akurasi tertinggi menggunakan nilai mean yaitu 58.3%, diperoleh pada saat persentase data training 20% dengan rata-rata akurasi pada berbagai persentase data training sebesar 50.5%.
Abstract. Missing values imputation plays a vital role in data pre-processing for ensuring good quality of data. In this study, we present a combination of Decision Tree and Expectation Maximization (EM) algorithm as imputation method to estimate missing values. However, there are shortcomings of method, where the Expectation Maximization algorithm tends to give more accurate imputation results if there are many similarities among attributes. Therefore, this can be overcome by partitioning the horizontal segments using the Decision Tree algorithm. We applied EM on various horizontal segments of a data set where there are many similarities among attributes. Besides, we evaluate our proposed method by comparing its performance with mean values to impute missing values, and we choose the Decision Tree as a classifier. Data used in this research is COPD-OSA data set. In this study shows that ourproposed method leads to higher accuracy than mean imputation. The highest accuracy results obtained from our proposed method is 83.3% when the percentage of training data is 10% and average accuracy in various percentage of training data is 70.3%, while the highest accuracy results using the mean value is 58.3% when the training data percentage is 20% and the average accuracy in various percentage of training data is 50.5%.
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2019
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Silvia
Abstrak :
Teknologi microarray merupakan analisis terhadap tingkat ekspresi puluhan ribu gen secara paralel untuk melihat perbedaan ekspresi gen. Penelitian microarray menghasilkan suatu nilai yang dirangkum dalam sebuah data yang disebut sebagai data ekspresi gen. Data ekspresi gen umumnya memiliki ukuran yang besar dan penggunaannya luas. Akan tetapi, data ekspresi gen sering mengalami masalah missing values. Data ekspresi gen umumnya mengandung persentase missing values sebesar 10% atau bahkan hingga 90% gen memiliki satu hingga lebih missing values. Salah satu solusi untuk mengatasi adanya missing values adalah dengan menggunakan teknik imputasi.  Pada penelitian ini, diajukan metode imputasi missing values Chronological Biclustering dengan basis PCor-MSRE yang berdasarkan pada konsep biclustering. Penentuan anggota bicluster dengan kesamaan sifat co-expressed dan ukuran magnitude dilakukan berdasarkan pada skor Mean Squared Residue (MSR), jarak Euclidean, dan ukuran jarak korelasi Pearson antara masing-masing gen dengan gen yang mengandung missing values. Dilakukan perhitungan skor MSR, jarak Euclidean, dan ukuran jarak korelasi Pearson pada setiap gen, kemudian dipilih k gen yang memberikan skor terkecil untuk masing-masing kriteria. Selanjutnya, dibentuk bicluster yang digunakan untuk mengimputasi nilai observasi yang missing. Metode ini merupakan pengembangan dari metode SBi-MSREimpute yang cocok digunakan pada data ekspresi gen non-time series atau time series. Metode diimplementasikan pada data ekspresi gen lengkapnon-time series GSE142693 mengenai sel tumor 12 pasien Glioblastoma. Pada data GSE142693, dilakukan konstruksi missing values MCAR dengan missing rate sebesar 5%, 10%, 20%, 30%, 40%, 50%, dan 60%. Performa metode diukur dengan skor NRMSE dan korelasi Pearson, kemudian dibandingkan dengan metode SBi-MSREimpute. Berdasarkan pada skor korelasi Pearson, metode Chronological Biclustering dengan basis PCor-MSRE merupakan metode yang cukup baik dibanding SBi-MSREimpute dalam mengimputasi missing values pada data GSE142693 jika missing rate-nya cukup besar (40%, 50% dan 60%) dengan penggunaan nilai yaitu  dan. Untuk nilai k yang lebih kecil dari 25, metode Chronological Biclustering dengan basis PCor-MSRE cukup baik digunakan (dibanding SBi-MSREimpute) jika jumlah observasi yang missing sebanyak 50% dan 60%. Performa metode Chronological Biclustering dengan basis PCor-MSRE semakin baik seiring dengan membesarnya nilai k yang digunakan. Artinya, performa metode Chronological Biclustering dengan basis PCor-MSRE dapat dipengaruhi oleh penentuan nilai k di awal. ......Microarray technology is an analysis of the expression levels of tens of thousands of genes in parallel to see differences in gene expression. Microarray research produces a value that is summarized in a data called gene expression data. Gene expression data are generally large in size and widely used. However, gene expression data often suffer from missing values problems. Gene expression data generally contain a percentage of missing values of 10% or even up to 90% of genes having one or more missing values. One solution to overcome the missing values is to use the imputation technique. In this research, the method of imputing missing values Chronological Biclustering is proposed on the PCor - MSRE basis which is based on the biclustering concept. Determination of bicluster members with similar co-expressed traits and magnitude measures was carried out based on the Mean Squared Residue (MSR) score, the Euclidean distance, and the measure of the Pearson correlation distance between each gene and the gene containing missing values. The MSR score, Euclidean distance, and Pearson correlation distance measures were calculated for each gene, then k genes were selected that gave the smallest score for each criterion. Next, a bicluster is formed which is used to impute the missing observation values. This method is a development of the SBi-MSRE impute method which is suitable for use in non-time series or time series gene expression data. The method was implemented on the complete non-time series gene expression data GSE142693 regarding tumor cells of 12 Glioblastoma patients. In the GSE142693 data, MCAR missing values were constructed with a missing rate of 5%, 10%, 20%, 30%, 40%, 50%, and 60%. The performance of the method was measured by the NRMSE score and Pearson correlation, then compared with the SBi-MSREimpute method. Based on the Pearson correlation score, the Chronological Biclustering method with PCor - MSRE basis is a method that is quite good compared to SBi-MSRE impute in imputing missing values in GSE142693 data if the missing rate is large enough (40%, 50% and 60%) with the use of namely k=25,k=45,k=65,k=105,k=335, and k=375. For k values less than 25, the Chronological Biclustering method on the basis of PCor - MSRE is quite good to use (compared to SBi-MSRE impute) if the number of missing observations are 50% and 60%. The performance of the Chronological Biclustering method on the PCor - MSRE basis is getting better as the value of k used increases. This means that the performance of the Chronological Biclustering method on the PCor-MSRE basis can be affected by determining the initial k value.
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2021
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Fenni Amalia
Abstrak :
Bioinformatika merupakan ilmu yang ditujukan untuk menganalisis informasi biologis. Dalam perkembangan penelitian bioinformatika, data diperoleh salah satunya dengan menggunakan teknologi microarray. Teknologi microarray digunakan oleh lingkup biologi molekuler dalam melihat perbedaan tingkat ekspresi gen dengan cara mengonversi gambar monokromik yang berisi ratusan bahkan ribuan gen dari sampel sel dan menghasilkan data ekspresi gen. Teknologi microarray sering kali menghasilkan data ekspresi gen yang hilang atau tidak terdeteksi akibat adanya kesalahan teknis. Oleh karena itu, diperlukannya suatu metode imputasi pada data untuk mengatasi missing values. Pada penelitian ini, akan dikembangkan suatu metode imputasi yang disebut Biclustering Terurut berbasis k-Nearest Neighbor, Mean Squared Residual, dan Jarak Euclidean. Metode ini merupakan metode imputasi berbasis biclustering dimana bicluster dibentuk berdasarkan suatu kriteria yang melibatkan skor Mean Squared Residue dan Jarak Euclidean. Penggunakan k-Nearest Neighbor sebagai metode pra-imputasi didasarkan pada data ekspresi gen yang sering kali memiliki pola kompleks dan sulit terdeteksi, sehingga perlu pendekatan yang dapat memetakan struktur korelasi pada data. k-Nearest Neighbor mempertimbangkan korelasi pada data microarray dengan menyeleksi kumpulan gen yang memiliki profil ekspresi mirip dengan gen yang ingin diimputasi (gen target). Pada penelitian ini, metode SBi-kNN-MSREimpute diterapkan pada data ekspresi gen pasien penderita COVID-19 yang dilakukan tes rapid harian. Evaluasi kinerja metode SBi-kNN-MSREimpute dilakukan dengan menggunakan NRMSE, dimana hasilnya dibandingkan dengan metode SBi-MSREimpute. Berdasarkan penelitian yang dilakukan, metode SBi-kNN-MSREimpute dinilai lebih baik dibandingkan dengan SBi-MSREimpute untuk setiap missing rate pada tingkatan c berbeda. Nilai c optimal untuk imputasi missing values pada data COVID-19 adalah c = 10% untuk missing rate 25%, 30%, 40% dan c = 15% untuk missing rate 5%, 10%, 15%, 20%, dan 50%. Hasil akhir juga menunjukkan bahwa nilai NRMSE untuk SBi-kNN-MSREimpute relatif stabil bahkan untuk data dengan missing rate tinggi hingga 50%. ......Bioinformatics is a study designed to analyze biological information. In the development of bioinformatics research, data was obtained using microarray technology. Microarray technology is used by the scope of molecular biology in transposing hundreds and even thousands of genes from cellular samples simultaneously and producing a gene expression data. Microarray technology often produces data that is lost or undetected as a result of technical error. Therefore, an imputation method is needed to address the missing values. In this study, a new imputation method called Sequential Biclustering based k-Nearest Neighbor, Mean Squared Residual, and Euclidean Distance (SBi-kNN-MSRE) will be developed. This method is a biclustering-based imputation method where the bicluster is formed based on a criterion involving Mean Squared Residue and Euclidean Distance. The use of k-Nearest Neighbor as a pre-imputation method is based on data on gene expression that often has a complex and difficult pattern of detection, so it requires an approach that can map correlation structures on data. K-nearest neighbor considers a correlation on a microarray data by selecting groups of genes that have an expression profile similar to a gene that wants to be imputed (the target gene). In this study, the SBi-kNN-MSRE method was applied to the data on the genes of patients with covid-19 that daily rapid tests were performed. The performance evaluation of the SBi-kNN-MSRE method is done using NRMSE, where the results are compared to the SBi-MSRE method. According to the result, the SBi-kNN-MSRE method performed better than SBi-kNN-MSRE for each missing rate on different c levels. The optimal c value on the covid-19 data is c = 10% for missing rate 25%, 30%, 40% and c = 15% for missing rate 5%, 10%, 15%, 20% and 50%. The results also showed that NRMSE scores
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2022
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Kiki Aristiawati
Abstrak :
Penyakit Paru Obstruktif Kronik (PPOK) merupakan salah satu penyebab kematian terbanyak dengan jumlah kematian sekitar 3 juta jiwa atau setara dengan 5,2% dari jumlah kematian di seluruh dunia. Untuk itu diperlukan penelitian lebih lanjut mengenai PPOK, namun data yang dikumpulkan dalam penelitian biasanya tidak memuat semua data yang diinginkan. Hilangnya informasi dalam data dikenal dengan istilah missing values yang dapat menjadi masalah untuk semua jenis analisis data. Salah satu cara untuk menangani missing values yaitu dengan melakukan proses imputasi data pada tahap preprocessing untuk mendapatkan data lengkap yang diharapkan mampu meningkatkan akurasi dari analisis data yang dilakukan. Pada penelitian ini dilakukan imputasi menggunakan mean dan Fuzzy C-Means (FCM). FCM merupakan metode pengelompokan yang memungkinkan satu bagian data menjadi milik dua atau lebih kelompok berdasarkan nilai keanggotaannya. Data lengkap hasil imputasi diuji menggunakan metode klasifikasi Decision Tree dengan persentase data training 50%-90% untuk melihat performa dari metode mean dan FCM. Berdasarkan penelitian ini diperoleh nilai akurasi, presisi, dan recall tertinggi untuk klasifikasi data PPOK yang diimputasi menggunakan mean masing-masing sebesar 64,7%, 71%, dan 65%. Sedangkan nilai akurasi, presisi, dan recall tertinggi untuk klasifikasi data PPOK yang diimputasi menggunakan FCM masing-masing sebesar 78,9%, 85%, dan 79%. Hasil ini menunjukkan bahwa FCM membantu Decision Tree untuk mengklasifikasikan data lebih baik dengan nilai imputasi yang lebih baik untuk menggantikan missing values.
Chronic Obstructive Pulmonary Disease (COPD) is one of the most causes of death in the world with around 3 million deaths, equivalent to 5.2% of deaths worldwide. For this reason, further research needs to be done on CPOD, but the data collected in the study often does not contain all the desired data. Loss information in data is called as a missing values which can be a problem for all types of data analysis. One way to handle missing values is by doing the imputation process at the preprocessing stage to obtain complete data which is expected to increase the accuracy of the data analysis performed. In this study, imputation was done using mean and FCM. FCM is a clustering method that allows one part of the data to belong to two or more groups based on their membership function. The complete dataset was trained with Decision Tree classifier with the percentage of data training 50%-90% to observe the performance in terms of accuracy, precision, and recall for mean and FCM method. Based on this study, the highest value of accuracy, precision, and recall for classification of COPD data imputed using mean of 64.7 %, 71 % and 65 % respectively. While the highest value of accuracy, precision, and recall for classification of COPD data imputed using FCM is 78.9 %, 85 %, and 79 % respectively. These results indicate that FCM helps Decision Tree to classify data better with better imputation values to replace missing values.
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2019
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Nurzaman
Abstrak :
Pada setiap analisis statistik memungkinkan berhadapan dengan missing values atau missing data karena pada saat survei kemungkinan ada responden yang tidak dapat menjawab pertanyaan atau tidak ingin menjawab pertanyaan pada saat wawancara survei. Missing values tidak dapat langsung dilakukan analisis menggunakan analisis data lengkap, oleh karena itu missing values telah menjadi masalah yang sering dihadapi oleh para peneliti. Dataset survei biasanya terdiri dari sejumlah besar variabel kontinu salah satunya berdistribusi multivariat normal. Salah satu cara untuk menangani missing values dapat dilakukan dengan imputasi, yaitu proses pengisian atau penggantian missing values pada dataset dengan nilai-nilai yang mungkin berdasarkan informasi yang didapatkan pada dataset tersebut. Penelitian ini akan menerapkan metode sequence regression multivariate imputation (SRMI) untuk imputasi missing values pada data multivariat normal. SRMI merupakan metode imputasi ganda yang nilai imputasinya didapatkan dari model sequence of regression yaitu setiap variabel yang mengandung missing values diregresikan terhadap semua variabel lain yang tidak mengandung missing values sebagai variabel prediktor. Cara mendapatkan nilai imputasi digunakan pendekatan iterasi untuk menarik nilai dari distribusi posterior prediktif pada missing values di bawah masing-masing model regresi secara beruntun. Penelitian ini menggunakan data multivariat normal yang telah dibangkitkan sebanyak 500 observasi dengan menggunakan lima nilai imputasi ganda dan hasil evaluasi kualitas imputasi menggunakan Root Mean Square Error (RMSE). Hasil evaluasi kualitas imputasi dapat dikatakan baik jika nilai RMSE semakin kecil, maka eror semakin kecil atau nilai estimasi mendekati nilai sebenarnya (Chai & Draxler, 2014) dan hasil yang didapatkan nilai RMSE kecil sehingga SRMI dapat diterapkan untuk melakukan imputasi terhadap data multivariat normal. ......Missing values are the absence of data items for an observation or more observations that can result in the loss of certain information. During surveys, there are often missing values or missing data because there are likely respondents who cannot answer the question or do not want to answer the question. That is a problem for researchers because, with missing values, the results of observation cannot be analyzed properly. Survey datasets usually consist of continuous variables, one of which is a normal multivariate distribution. One way to deal with missing values ​​can be done by imputation, which is the process of filling or replacing missing values ​​in a dataset with possible values ​​based on the information obtained in the dataset. This study will apply the sequence regression multivariate imputation (SRMI) method for missing values ​​imputation in normal multivariate data. SRMI is a multiple imputation method whose implication value is obtained from the sequence of regression model, that is, every variable containing missing values ​​is regressed on all other variables that do not contain missing values ​​as predictor variables. The method of obtaining imputation values ​​is used by the iterative approach to drawing values ​​from the predictive posterior distribution in the missing values ​​below each successive regression model. This study uses multivariate normal data that has been generated a total of 500 observations using five multiple imputation values ​​and the evaluation results using Root Mean Square Error (RMSE) which have little value in applying to normal multivariate data so SRMI can be applied to impute normal multivariate data.
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2019
S-Pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Gabriela Patricia Winny Gracia
Abstrak :
Clustering merupakan metode untuk mengidentifikasi kelompok natural pada data berdasarkan ukuran kemiripan seperti jarak Eucledian. Clustering bertujuan untuk mengelompokkan data, dengan kriteria observasi yang berada dalam satu klaster memiliki tingkat kemiripan yang sangat signifikan, sedangkan observasi yang berada dalam cluster yang berbeda, memiliki perbedaan yang sangat signifikan. Pada tahun 2021, Chowdhury, Bhattacharyya, & Kalita mengembangkan metode User-Input-Free Density-Based Clustering (UIFDBC) berdasarkan dari metode density-based clustering yang telah ada sebelumnya. Seperti namanya, metode UIFDBC ini tidak memerlukan input dari pengguna untuk menemukan cluster. Maka dari itu, metode UIFDBC ini berhasil menjawab permasalahan metode clustering sebelumnya yang bergantung pada input dari pengguna. Tujuan dari penelitian ini adalah untuk membahas lebih dalam terkait metode User-Input-Free Density-Based Clustering (UIFDBC), menerapkan metode UIFDBC pada data real, yaitu data konsumen kartu kredit untuk melakukan segmentasi konsumen, serta mengkaji performa metode ini pada data yang mengandung missing values di dalamnya. Dari hasil penelitian, metode UIFDBC berhasil diterapkan pada data konsumen kartu kredit, dan diperoleh sebanyak delapan cluster pengguna, dimana setiap cluster memiliki karakteristik masing-masing. Selain itu, dari hasil pengkajian metode UIFDBC terhadap data dengan missing values diketahui bahwa performa metode UIFDBC dinilai cukup baik untuk proporsi missing values ≤ 5%. Namun perlu menjadi catatan bahwa data hasil dari setiap iterasi akan bersifat acak, dikarenakan metode UIFDBC sangat bergantung pada densitas data, sedangkan densitas data bergantung pada missing values yang mana dibangkitkan secara acak sepenuhnya. ......Clustering is a method to identify natural groups in data based on similarity measures such as Eucledian distance. Clustering aims to group data, with the criteria for observations in one cluster having a very significant level of similarity, while observations in different clusters have very significant differences. In 2021, Chowdhury, Bhattacharyya, & Kalita developed the User-Input-Free Density-Based Clustering (UIFDBC) method based on the previous density-based clustering method. As the name suggests, this UIFDBC method does not require input from the user to find the cluster. Therefore, this UIFDBC method has succeeded in answering the problems of the previous clustering method which depended on input from the user. The purpose of this study is to discuss more deeply the User-Input-Free Density-Based Clustering (UIFDBC) method, to apply the UIFDBC method to real data, namely credit card consumer data to segment consumers, and to examine the performance of this method on data containing missing values in it. From the results of the study, the UIFDBC method was successfully applied to credit card consumer data, and obtained as many as eight user clusters, where each cluster has its own characteristics. In addition, from the results of the study of the UIFDBC method on data with missing values, it is known that the performance of the UIFDBC method is considered quite good for the proportion of missing values ≤ 5%. However, it should be noted that the resulting data from each iteration will be random, because the UIFDBC method is very dependent on data density, while data density depends on missing values which are generated completely randomly.
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2021
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Alexander Anindito Setyono
Abstrak :
Transportation has been a significant industry for big cities for hundreds of years. It is a part of our everyday lives and contributes considerably to a country’s economy. As the population of a certain country keep on increasing as time flies by, the demand for the innovation in the transportation world kept on increasing to keep up with the exponential growth of the industry. One of the technology that is used to handle the increasing demand for transportation analytics is by using big data analytics as it can handle humongous amount of data that are too large or complex to be dealt with traditional data processing application software. Big data analytics has been used through many different kind of applications in the modern era and it has achieve a great number of success in different field of work. A traffic data imputation is proposed in order to solve this problem and there are several imputation methods that are available which has their own plus and minuses. There are traditional data imputation methods that are already used from many years ago such as linear interpolation and regression but it has been proved that this traditional methos still have a low accuracy rating. Hence, a more modernized and more accurate method is introduced which is called the Generative Adversarial Network (GAN). ......Transportasi telah menjadi industri yang signifikan bagi kota-kota besar selama ratusan tahun. Ini merupakan bagian dari kehidupan kita sheari-hari dan berkontribusi besar terhadap perekonomian suatu negara. Seiring dengan bertambahnya jumlah penduduk suatu negara, permintaan akan inovasi dalam dunia transportasi terus meningkat untuk mengikuti pertumbuhan industri yang eksponensial. Salah satu teknologi yang digunakan untuk menangani peningkatan permintaan ini adalah dengan menggunakan analitik data besar karena dapat menangani data dalam jumlah yang terlalu besar dan kompleks untuk ditangani dengan aplikasi perangkat lunak pengolah data tradisional. Dalam menjalankan Analisa menggunakan analisis data besar, ada masalahnya yang muncul yaiu hadirnya data data yang tidak lengkap. Sebuah metode imputasi data diusulkan untuk mengatasi masalah ini seperti interpolasi linier dan metode yang lebih modern dan akurat digunakan pada skripsi ini yang disebut jaringan berlawanan generatif.
Depok: Fakultas Teknik Universitas Indonesia, 2022
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Achmad Faiz Siraj
Abstrak :
PM2.5 merupakan salah satu penyebab tingginya angka polusi di Jakarta. Skripsi ini akan membahas penerapan Recurrent Neural Network jenis Long Short-Term Memory (RNN-LSTM) dan Autoregressive Integrated Moving Average (ARIMA), dua metode yang dapat digunakan untuk melakukan prediksi pada dataset jenis time series, sebagai algoritma untuk melakukan prediksi pada kandungan polutan PM2.5 di Jakarta. Terdapat dua jenis preprocessing yang diujicoba pada pengujian ini, yaitu dengan imputation menggunakan mean dan linear interpolation. Saat pembuatan model pada ARIMA, dilakukan pengaturan order untuk mencari model terbaik yang dapat melakukan prediksi dengan akurasi tertinggi. Sementara untuk RNN-LSTM, pencarian model terbaik dilakukan dengan melakukan serangkaian ujicoba dengan perubahan pada beberapa parameter seperti ukuran dari rolling window, batch size, dan optimizer. Berdasarkan hasil akurasi, didapatkan model dengan ARIMA order (2,0,1) sebagai model paling baik ketika dilakukan ujicoba dengan imputation jenis mean dengan RMSE sebesar 17,84. Lebih baik dari hasil yang didapatkan RNN-LSTM pada metode imputation tersebut yang hanya mendapat RMSE 18,00. Namun RNN-LSTM memiliki hasil akurasi yang lebih baik ketika dilakukan ujicoba dengan metode imputation dengan linear interpolation dimana RMSE yang didapatkan sebesar 17,47. Lebih baik dari ARIMA yang hanya mendapat RMSE sebesar 17,66. ......PM2.5 is one of the causes of Jakarta’s high pollution level. This thesis will discuss the implementation of Recurrent Neural Network type Long Short-Term Memory (RNN-LSTM) and Autoregressive Integrated Moving Average (ARIMA), two algorithm that are able to predict a time series dataset, as two algorithms used to do a forecasting in PM2.5 pollutant level in Jakarta. There are two preprocessing used in this test, mean imputation and linear interpolation. In ARIMA, tweaking to find model with best accuracy was done by altering its order. While in RNN-LSTM, the search for the best model was done by tweaking several parameters such as the size of its rolling window, batch size, and optimizer. Based on its accuracy, an ARIMA model with order of (2,0,1) was found as the best model during the test with mean imputation with RMSE of 17,84 compared to RNN-LSTM’s 18,00. But RNNLSTM has better accuracy when tested with linear interpolation, where it got RMSE of 17,47. Where ARIMA only has RMSE of 17,66.
Depok: Fakultas Teknik Universitas Indonesia, 2021
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library