Hasil Pencarian  ::  Simpan CSV :: Kembali

Hasil Pencarian

Ditemukan 10 dokumen yang sesuai dengan query
cover
Natalia Aji Yuwanti
Abstrak :
Metode machine learning sangat banyak digunakan dalam membantu pekerjaan manusia. Tidak semua data seperti yang diharapkan. Kebanyakan data memiliki missing value. Data yang memiliki missing value harus ditangani dulu pada tahap pra pengolahan, salah satunya adalah dengan cara imputasi missing value. Pada penelitian ini, dilakukan analisis kinerja One-Dimensional Naïve Bayes sebagai metode imputasi data masalah asuransi mobil dan keselamatan berkendara. Berdasarkan hasil simulasi menggunakan SVM didapatkan hasil yang sama untuk imputasi menggunakan modus dan One-Dimensional Naïve Bayes pada data Car Insurance yaitu 1,00. Setelah itu dilakukan telaah lebih lanjut ternyata imputasi setiap missing value dengan modus dan prediksi imputasi dengan One-Dimensional Naïve Bayes persis sama. Pada data Safe Driver, imputasi dengan modus menghasilkan akurasi 0,86 sedangkan imputasi dengan One-Dimensional Naïve Bayes menghasilkan akurasi 0,85. Hasil ini menunjukkan bahwa metode imputasi missing value dengan modus masih sangat direkomendasikan untuk tahap pra pengolahan data pada machine learning. ......Machine learning methods are very widely used in helping human work. Not all data is as expected. Most data have missing values. Data which has a missing value must be handled first at the pre-processing stage, one of which is by imputation of the missing value. In this study, a One-Dimensional Naïve Bayes performance analysis was performed as a data imputation method for car insurance and safe driver problems. Based on simulation results by using SVM obtained the same results for imputation using mode and One-Dimensional NaA ve Bayes on Car Insurance data that is 1,00. After that, a further study is carried out, apparently the imputation of each missing value by mode and the prediction of imputation with One-Dimensional NaAve Bayes are the same. In Safe Driver data, imputation with mode produces 0.86 accuracy while imputation with One-Dimensional NaAve Bayes produces accuracy of 0.85. These results indicate that the method of missing value imputation with mode is still highly recommended for the pre-processing data stage in machine learning.
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2020
T-pdf
UI - Tesis Membership  Universitas Indonesia Library
cover
Dea Kristina
Abstrak :
Kementrian Kesehatan menyatakan Indonesia sudah memasuki kondisi ageing population, dimana kondisi tersebut ditandai dengan kenaikan persentase penduduk lanjut usia (lansia). Kondisi tersebut tentunya memerlukan perhatian khusus dari pemerintah. Demensia adalah istilah medis untuk menggambarkan gejala penurunan memori dan fungsi kognitif pada tubuh manusia. Indonesia termasuk sepuluh negara dengan jumlah penderita orang dengan demensia (ODD) tertinggi di dunia, dan pada tahun 2050 jumlahnya diprediksi mencapai empat juta jiwa. Prediksi tersebut dibuat berdasarkan perbandingan jumlah lansia di Indonesia dengan jumlah ODD di seluruh dunia. Penelitian bertujuan untuk mengetahui peran dari masing-masing uji klinis untuk mengidentifikasi penderita ODD dan mereduksi komponen uji klinis yang memiliki peran kontribusi rendah. Data yang digunakan adalah data uji klinis NIFD (Neuroimaging in Frontotemporal Dementia). Metode yang akan digunakan adalah Principal Component Analysis (PCA), dimana metode ini bertujuan untuk melihat komponen uji klinis yang memberikan peran kontribusi dalam mengidentifikasi penderita ODD. Selain itu, akan dilakukan proses imputasi missing value dengan menggunakan algoritma pengembangan dari PCA, yaitu SVD-Impute dan PPCA. Setelah dilakukan tiga kali iterasi, pengujian menunjukan bahwa metode PPCA lebih baik dalam melakukan imputasi missing value dibandingkan dengan metode SVDImpute berdasarkan nilai NRMSE dan koefisien korelasi Pearson. ......The Ministry of Health stated that Indonesia had entered a condition of an aging population, where an increase in the proportion of older people marks this condition. This condition certainly requires special attention from the government. Dementia is a medical term to describe symptoms of decreased memory and cognitive function in the human body. Indonesia is one of the ten countries with the highest number of people with dementia in the world, and by 2050 it is predicted to reach four million people. This prediction was based on comparing the number of older people in Indonesia with those with dementia worldwide. The research aims to determine each clinical trial's role in identifying people with dementia and reducing the components of clinical trials with a low role contribution. The data used is NIFD (Neuroimaging in Frontotemporal Dementia) clinical trial data. The method used is Principal Component Analysis (PCA), which aims to see clinical component tests that contribute to identifying people with dementia. In addition, the missing value imputation process will be carried out using the development algorithm from PCA, SVD-Impute and PPCA. After three iterations, the test showed that the PPCA method was better at imputing missing values than the SVDImpute method based on the NRMSE value and Pearson's correlation coefficient.
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2023
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Samuel Zico Christopher
Abstrak :
Salah satu metode yang populer untuk mengatasi missing value dalam sebuah survei adalah metode imputasi. Imputasi adalah solusi untuk mengganti suatu missing value dengan suatu nilai pengganti yang didapatkan dari teknik khusus tertentu, misalnya imputasi menggunakan nilai mean, nilai median, dan lain sebagainya. Pada skripsi dibahas suatu teknik imputasi yang menggabungankan dua macam teknik imputasi lain, yakni imputasi fractional dan imputasi hot deck. Imputasi fractional adalah imputasi yang punya kelebihan dalam meminimumkan suatu variansi dalam suatu data dikarenakan nilai imputasi yang dihasilkan berasal dari data set dalam survei itu sendiri, namun kekurangannya adalah bahwa nilai imputasi dari teknik fractional akan membuat jumlah observasi menjadi mengembang. Oleh karena masalah pengembangan data set yang dihasilkan teknik fractional tersebut, imputasi hot deck menjadi solusi untuk membatasi masalah jumlah observasi yang dihasilkan dengan membatasi calon nilai imputasi (donor) untuk suatu nilai hilang. Imputasi yang menggabungkan teknik imputasi fractional dan hot deck akan dikenal dengan nama imputasi fractional hot deck dengan sifat yang mirip dengan imputasi fractional , namun observasi yang dihasilkan lebih sedikit.
One of the most popular solution of missing value is imputation in a survey is imputation. Imputation is a solution to replace missing value with imputed value from a particular technique, such as mean value, median value, etc. This Thesis specifically discuss about technique that fuse fractional imputation technique and hot deck imputation technique. Fractional imputation is popular because this imputation tends to produce less variance compare to other methods. Unfortunately this method will extend the number of observations. Because fractional imputation tends to extend the number of observations, sampling becomes a solution to produce less observation. Sampling limits the numbers of imputed values (donor) in the observations that adopts hot deck imputation nature. The imputation that fuse fractional imputation and hot deck imputation is known as fractional hot deck, and produce a data set that have similar property to fractional imputation, but less observations.
Depok: Universitas Indonesia, 2019
S-Pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Saskia Oktavia Zarfa
Abstrak :
Kematian balita merupakan indikator utama kesehatan anak dan pembangunan bangsa secara keseluruhan, karena mencerminkan kondisi sosial, ekonomi, dan lingkungan. Angka kematian balita sebagai barometer sosial ekonomi dan kesehatan telah dimasukkan dalam Sustainable Development Goals (SDGs) dengan target baru untuk menurunkan angka kematian balita di dunia secara keseluruhan menjadi kurang dari 25 per 1000 kelahiran hidup di tahun 2030. Tujuan penelitian ini adalah untuk mengetahui faktor apa yang memengaruhi jumlah kasus kematian balita di Pulau Jawa. Variabel respon penelitian ini adalah jumlah kasus kematian balita yang merupakan data diskrit  dengan kondisi overdispersi. Penelitian ini menggunakan model Geographically Weighted Negative Binomial Regression (GWNBR) yang merupakan pengembangan regresi Binomial Negatif dengan memperhitungkan pengaruh spasial. Data yang digunakan pada penelitian ini mengandung missing value sehingga dilakukan penanganan dengan imputasi data menggunakan Classification and Regression Tree (CART). Model yang digunakan untuk menganalisis jumlah kasus kematian balita adalah model GWNBR dengan fungsi pembobot kernel Adaptive Gaussian. Hasil dari analisis tersebut menunjukkan bahwa terdapat 5 variabel prediktor yang secara signifikan memengaruhi jumlah kasus kematian balita di seluruh Kabupaten/Kota di pulau Jawa yaitu variabel kecukupan air bersih (AIRB), proporsi diare pada balita (DIARE), kecukupan jumlah dokter (DOK), cakupan penimbangan balita (CPB) dan cakupan Imunisasi Dasar Lengkap (IDL). ......Under-five mortality is the main indicator of child health and the development of the nation as a whole, because it reflects social, economic and environmental conditions. The under-five mortality rate as a socio-economic and health barometer has been included in the Sustainable Development Goals (SDGs) with a new target to reduce the world under-five mortality rate as a whole to less than 25 per 1000 live births in 2030. The purpose of this study was to determine what factors which affects the number of under-five mortality cases in Java. The response variable of this research is the number of under-five mortality cases which are discrete data with overdispersion conditions. This study uses a Geographically Weighted Negative Binomial Regression (GWNBR) model which is the development of Negative Binomial regression by taking into account the spatial effect. The data used in this study contains missing values ​​so that it is handled by imputing data using the Classification and Regression Tree (CART). The model used to analyze the number of under-five mortality cases is the GWNBR model with the Adaptive Gaussian kernel weighting function. The results of the analysis show that there are 5 predictor variables that significantly affect the number of cases of under-five mortality in all districts/cities on the island of Java, namely the clean water adequacy variable (AIRB), the proportion of diarrhea in children under five (DIARE), the adequacy of the number of doctors (DOK), coverage of under-five weighing (CPB) and coverage of Complete Basic Immunization (IDL).
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2022
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Nurul Annisa
Abstrak :
Dalam upaya meminimalisir penyebaran virus COVID-19, pemerintah di berbagai negara memberlakukan berbagai kebijakan untuk membatasi mobilitas masyarakat yang berdampak pada berbagai aspek, salah satunya aspek psikologis. Banyak orang yang merasa kesepian, gelisah, dan tertekan karena situasi sulit dan tidak pasti akibat pandemi COVID-19 sehingga mengakibatkan terganggunya kesejahteraan mental dan meningkatnya tingkat stres masyarakat. Penelitian ini bertujuan untuk mengidentifikasi faktor-faktor yang dapat menjelaskan tingkat stres masyarakat selama pandemi COVID- 19. Data yang digunakan pada penelitian ini merupakan data survei terkait dampak psikologis dan sosial yang ditimbulkan akibat kondisi pandemi COVID-19 pada masyarakat dari berbagai negara di dunia yang diperoleh dari survei global COVIDiSTRESS. Survei ini diselenggarakan mulai dari 30 Maret hingga 30 Mei 2020 dengan total responden sebanyak 173.426 responden dari 179 negara yang berbeda. Data yang digunakan memiliki permasalahan missing value yang ditangani secara khusus dengan menggunakan metode imputasi Predictive Mean Matching (PMM). Setelah seluruh missing value pada data berhasil ditangani, dilakukan analisis faktor- faktor yang menjelaskan tingkat stres selama pandemi COVID-19 menggunakan metode Partial Least Square (PLS). Dari penelitian ini, diperoleh bahwa metode imputasi PMM memiliki performa yang baik dalam menangani permasalahan missing value pada data survei global COVIDiSTRESS yang selanjutnya dianalisis dengan model PLS. Selain itu, berdasarkan hasil nilai signifikansi path coefficient dari model diperoleh bahwa seluruh variabel prediktor yang terlibat dalam penelitian ini merupakan faktor yang signifikan dalam menjelaskan tingkat stres masyarakat dari berbagai negara di dunia selama menghadapi pandemi COVID-19. Melalui nilai path coefficient dari model, arah hubungan yang terbentuk antara tingkat stres masyarakat selama pandemi COVID-19 dengan faktor-faktor yang dapat menjelaskannya juga teridentifikasi pada penelitian ini. ......In an effort to minimize the spread of COVID-19 virus, governments in various countries have implemented various policies to restrict public mobility which has had an impact on various aspects, including psychological well-being. Many people feel lonely, anxious, and depressed because of the difficult and uncertain situation due to the COVID-19 pandemic, which has disrupted mental well-being and increased stress levels in society. This study aims to identify factors that can explain the level of stress in society during the COVID-19 pandemic. The data used in this study is survey data related to the psychological and social impacts caused by the COVID-19 pandemic conditions on people from various countries in the world obtained from the COVIDiSTRESS global survey. This survey was conducted from 30 March to 30 May 2020 with a total of 173.426 respondents from 179 different countries. The data used has a missing value problem which is handled specifically by using the Predictive Mean Matching (PMM) imputation method. After all the missing values in the data have been successfully handled, analysis of factors that explain the stress level during the COVID- 19 pandemic is carried out using the Partial Least Square (PLS) method. From this study, it was found that the PMM imputation method had good performance in dealing with missing value problem in the COVIDiSTRESS global survey data which was then analyzed using the PLS model. Furthermore, based on the significance values of the path coefficients obtained from the model, it was found that all predictor variables involved in this study were significant factors in explaining the level of stress in society from various countries worldwide during the COVID-19 pandemic. Through the path coefficients of the model, the direction of the relationships formed between the level of stress in society and the factors that can explain it were also identified in this research.
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2023
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Kevin Prawira
Abstrak :
Studi mengenai kesehatan terus dikembangkan untuk meneliti dan mengetahui struktur penyusun makhluk hidup dalam dunia ini. Salah satunya adalah studi mengenai gen yang telah dikembangkan melalui teknologi microarray yang dapat menghasilkan data ekspresi gen. Namun sayangnya, studi ini sering terhambat akibat banyaknya informasi yang hilang pada data ekspresi gen tersebut, sehingga analisis lebih lanjut mengenai data ekspresi gen sulit dilanjutkan. Oleh karena itu, dibutuhkan suatu metode imputasi untuk mengisi hilangnya informasi tersebut sehingga analisis dapat dilanjutkan dan dikembangkan dengan lebih luas lagi. Pada penelitian ini, dikembangkan sebuah metode imputasi baru bernama SBi-BPCA-MSREimpute yang menggunakan perpaduan Bayesian Principal Component Analysis (BPCA), Biclustering serta jarak Euclidean dalam melakukan prediksi nilai imputasi. Metode ini menggunakan pendekatan hybrid dalam imputasinya, yaitu dengan metode BPCA (global) sebagai metode pra-imputasi, serta penggunaan metode nearest neighbour (lokal) dalam penentuan bicluster untuk memetakan gen yang memiliki pola sama dengan gen target. Penggunaan BPCA didasarkan pada struktur korelasi data yang besar, sehingga BPCA cocok digunakan untuk mereduksi dimensi data. Adapun penentuan nearest neighbour sebagai bentuk bicluster didasarkan pada nilai mean squared residual serta jarak Euclidean terhadap gen target. Akibatnya, bicluster yang terpilih merupakan gen kandidat yang memiliki sifat sama dengan gen target. Perhitungan nilai imputasi akhir dihitung menggunakan rata-rata terboboti pada anggota bicluster, serta normalized root mean squared error digunakan sebagai pengukuran evaluasi. Percobaan imputasi menggunakan metode SBi-BPCA-MSREimpute dilakukan pada data ekspresi gen sel kanker usus besar dengan percobaan tingkat missing rate 5%, 10%, 15%, 20%, 25%, 30%, 40%, serta 50%. Terdapat beberapa k neighbour gen yang diuji yaitu pada tingkat k = 5%,10%,15%,20%,25% dari banyaknya baris pada data. Pengujian menunjukkan bahwa SBi-BPCA-MSREimpute merupakan metode imputasi yang lebih baik daripada SBi-MSREimpute. Pengujian juga mendapatkan hasil bahwa nilai k = 5%,10%,15%,25% paling optimal digunakan pada data dengan missing rates 15% serta k = 20% paling optimal digunakan pada data dengan missing rate 10%. Berdasarkan missing rates, data dengan missing rates 5%, 10%, 15%, 20%, 25%, 30%, 40% paling optimal diimputasi menggunakan tingkat k = 5%, sedangkan data dengan missing rates 50% paling optimal diimputasi menggunakan tingkat k = 10%. ......
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2021
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Erlinda Muslim
Abstrak :
In order to obtain the results of an Analytic Hierarchy Process (AHP), all of the lower or upper triangle elements of the pairwise matrix need to be filled in. As the number of criteria of an AHP increases, the number of elements of the pairwise matrix increases quadratically. This forces an expert to answer a large number of comparisons. This paper studies and analyzes the characteristics of a pairwise matrix when one of its elements is not available. This is one of the efforts to reduce the number of comparisons that need to be provided by an expert. The results show that a complete pairwise matrix that is consistent tends to have the same characteristics (priority sequence and consistency index) as when it has one missing value. Further research is needed so that the number of comparisons can be decreased while still keeping the pairwise matrix consistent.
Depok: Faculty of Engineering, Universitas Indonesia, 2017
UI-IJTECH 8:7 (2017)
Artikel Jurnal  Universitas Indonesia Library
cover
Geraldine Immanuel Tangyong
Abstrak :
Clustering merupakan salah satu metode pengolahan data yang bekerja dengan mengelompokkan objek-objek yang memiliki kemiripan ke dalam beberapa kelompok. Salah satu metode dari clustering adalah metode Ordering Points to Identify the Clustering Structure (OPTICS) yang adalah metode turunan dari metode Density Based Spatial Clustering of Application with Noise (DBSCAN). DBSCAN memiliki dua parameter, yaitu epsilon dan MinPts. Parameter ini mengakibatkan DBSCAN kurang bisa beradaptasi terhadap variasi densitas data. Karena itu, OPTICS hadir untuk mengatasi masalah tersebut dengan parameter core distance dan reachability distance. Tujuan dari penelitian ini adalah mengkaji metode OPTICS dan menerapkannya pada data sintetis dengan missing value serta pada data real, dengan data yang digunakan adalah data Socio-Economic dengan 167 observasi. Dari hasil pengkajian diketahui bahwa jika suatu data memiliki proporsi missing value lebih dari 15%, maka nilai akurasi dianggap tidak baik. Selanjutnya, dilakukan penerapan terhadap data Socio-Economic dan diperoleh 3 cluster. Cluster 1 memiliki jumlah anggota terbanyak dan cenderung memiliki skor terendah pada banyak variabel dibanding cluster lainnya dan dapat dilihat bahwa anggota dari cluster 1 banyak terdiri dari negara-negara berkembang. Cluster 2 cenderung memiliki skor tertinggi dan negara-negara di cluster 2 merupakan negara-negara maju. Cluster 3 banyak berisi negara campuran, baik negara berkembang maupun negara maju. ......Clustering is a data processing technique that works by grouping objects that have similarities into different groups. One method of clustering is the Ordering Points to Identify the Clustering Structure (OPTICS) method, a derivative method of the Density Based Spatial Clustering of Application with Noise (DBSCAN) method. DBSCAN has two kinds of parameters, epsilon and MinPts. These parameters cause DBSCAN to not be able to adapt fully to arbitrary data forms. Therefore, OPTICS is here to solve this problem with the parameters of core distance and reachability distance. The purpose of this study is to examine the OPTICS method and apply it to synthetic with missing value and real data, using the Socio-Economic data with 167 observations. We can conclude that if a data has a missing value proportion of more than 15%, then the accuracy value is considered not good. Furthermore, the Socio-Economic data was applied and obtained 3 clusters. Cluster 1 has the largest number of members and have the lowest scores on many variables, which consists mostly of developing countries. Cluster 2 tends to have the highest score whereas most coming from developed countries. Cluster 3 contains many mixed countries, both developing and developed countries.
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2022
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Ahmad Syukron Alimudin
Abstrak :
Data Indeks Standar Pencemaran Udara di Jakarta tahun 2019 menunjukkan seberapa jauh kualitas udara yang dihasilkan tiap pengamatan harian. Variabel Indeks Standar Pencemaran Udara berdasarkan KEP-45/MENLH/10/1997 adalah partikulat berukuran 10 µm (PM10), Sulfur Dioksida (SO2), Karbon Monoksida (CO), Oksidan dalam bentuk Ozon (O3), dan Nitrogen Dioksida (NO2). Unit observasi berdasarkan SPKU yang terdiri dari SPKU DKI1 Bundaran HI, SPKU DKI2 Kelapa Gading, SPKU DKI3 Jaga Karsa, SPKU DKI4 Lubang Buaya, dan SPKU DKI5 Kebon Jeruk. Adanya missing value pada data ISPU, maka dilakukan imputasi nol dan mean untuk mengganti missing value. Observasi harian ISPU tiap SPKU memiliki tiga tipe data, kemudian dikelompokkan menggunakan K-Means Clustering. Tiga tipe data tiap SPKU tersebut, meliputi data tanpa imputasi, data dengan imputasi nol, dan data dengan imputasi mean, kemudian diperoleh 5 cluster tiap masing-masing tipe data. Pada akhirnya, metode imputasi mean dapat diimplementasikan sebagai metode imputasi missing values pada data ISPU dengan proporsi missing values 3,83%, 4,10%, 10,68 %, 11,78 %, dan 15,06 %, sedangkan penerapan imputasi nol kurang cocok pada data ISPU, karena jaraknya terlalu jauh dari nilai ISPU terhitung serta dipengaruhi oleh missing value. Di sisi lain, hasil penelitian juga menunjukan bahwa metode K-Means Clustering ini optimal dalam pengelompokkan data berdasarkan Between SS/Total SS berkisar antara 67,5 %-85,2 %. ......Air Pollution Standard Index data in Jakarta in 2019 shows how far each daily observation produces the air quality. Air Pollution Standard Index Variables based on KEP-45/MENLH/10/1997 are particulates measuring 10 m (PM10), Sulfur Dioxide (SO2), Carbon Monoxide (CO), Oxidants in the form of Ozone (O3), and Nitrogen Dioxide (NO2). The observation unit based on the SPKU consists of SPKU DKI1 Bundaran HI, SPKU DKI2 Kelapa Gading, SPKU DKI3 Jaga Karsa, SPKU DKI4 Lubang Buaya, and SPKU DKI5 Kebon Jeruk. If there is a missing value in ISPU data, zero and mean imputation is carried out to replace the missing value. ISPU daily observations of each SPKU have three data types, then grouped using K-Means Clustering. The three data types for each SPKU, including data without imputation, data with zero imputation, and data with mean imputation, then obtained 5 clusters for each data type. In the end, the mean imputation method can be implemented as a method for imputing missing values on ISPU data with the proportion of missing values being 3.83%, 4.10%, 10.68%, 11.78%, and 15.06%, while the implementation of imputation is zero does not match the ISPU data, because the distance is too far from the calculated ISPU value and is influenced by the missing value. On the other hand, the results also show that the K-Means Clustering method is optimal in grouping data based on Between SS/Total SS ranging from 67.5%-85.2%.
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2021
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Abstrak :
There are two categories of well-known approach (as basic principle of classification process) for leraning structure of Bayesian Neywork (BN) in data mining (DM): ....
ITJOICT
Artikel Jurnal  Universitas Indonesia Library