Ditemukan 3 dokumen yang sesuai dengan query
Rani Nooraeni
"clustering adalah salah metode utama pada data mining yang berguna untuk mengeksplorasi data. membagi suatu data set berukuran besar ke dalam cluster yang sehomogen mungkin adalah tujuan dalam metode data mining. salah satu metode clustering konvensional yaitu algoritma K-Means efesien untuk data set berukuran besar dan tipe data numerik tapi tidak untuk data kategorikal. algoritma K-Prototype menghilangkan keterbatasan pada data numerik tapi dapat juga digunakan pada data kategorikal. namun solusi yang dihasilakn oleh kedua algoritma tersebut merupakan solusi lokal optimal dimana salah satu penyebabnya adalah penentuan pusat cluster awal. untuk menghadapi masalah tersebut maka algoritma genetika menjadi salah satu usulan yang dapat digunakan untuk mengoptimalkan hasil penglcusteran dengan K-Prototype. hasil dari penelitian menunjukkan optimasi pusat cluster dengan algoritma genetika berhasil meningkatkan akurasi hasil cluster dengan K-Prototype."
Sekolah Tinggi Ilmu Statistik, {s.a.}
315 JASKS 7:2 (2015)
Artikel Jurnal Universitas Indonesia Library
Mansyur M
"Kabupaten Pangkajene dan Kepulauan Pangkep merupakan daerah yang berada pada wilayah Provinsi Sulawesi Selatan. Pengelolaan pegawai negeri sipil PNS lingkup pemerintah Kabupaten Pangkep dilakukan oleh Badan Kepegawaian Pendidikan dan Pelatihan Daerah BKPPD Kabupaten Pangkep. BKPPD Kabupaten Pangkep memberikan layanan kepada pegawai mulai dari perekrutan, penempatan, mutasi, pendidikan dan pelatihan, kedisiplinan, pemberhentian, dan pensiun. BKPPD dalam melakukan mutasi masih mengalami kesulitan dalam menentukan pegawai yang sebaiknya dipindahkan karena tidak adanya pola yang menjadi acuan.
Penelitian ini bertujuan untuk mendapatkan pola mutasi dengan menggunakan data mining mengacu pada metodologi CRISP-DM berdasarkan data riwayat mutasi pada sistem aplikasi layanan kepegawaian SAPK . Teknik klasifikasi dengan algoritme Decision Tree, Na ve Bayes, dan Support Vector Machine SVM diterapkan pada data riwayat mutasi untuk mengetahui algoritme terbaik.Algoritme yang memiliki tingkat akurasi paling baik yaitu decision tree dengan nilai sebesar 72,76 . Pola mutasi dapat diimplementasikan oleh BKPPD untuk merancang dokumen redistribusi pegawai lingkup Pemerintah Kabupaten Pangkep.
Pangkajene and Kepulauan Pangkep District is an area located in South Sulawesi Province. The management of civil servants PNS scope of government of Pangkep District is done by Regional Civil Servants, Education, and Training BKPPD of Pangkep District. BKPPD provides services to civil servants ranging from recruitment, placement, transfer, education and training, discipline, dismissal, and retirement. BKPPD in conducting mutations still have difficulty in determining which civil servants should be moved because of the absence of a reference pattern. This study aims to obtain mutation patterns using data mining refers to the CRISP-DM methodology based on historical data on the employment service application system SAPK . Classification techniques with Decision Tree, Na ve Bayes, and Support Vector Machine SVM algorithms are applied to the mutation history data to find the best algorithm.Algorithm that has the best accuracy is the decision tree with a value of 72,76 . The mutation pattern can be implemented by BKPPD to design the redistribution document of Pangkep District Government civil servants."
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2018
TA-Pdf
UI - Tugas Akhir Universitas Indonesia Library
Favian Sulthan Wafi
"Class imbalance atau ketidakseimbangan jumlah kelas pada dataset merupakan permasalahan yang kerap muncul pada salah satu teknik data mining, yaitu klasifikasi. Hal ini menyebabkan kinerja dari model klasifikasi menjadi buruk karena model menjadi bias terhadap kelas mayoritas. Terdapat beberapa metode untuk menangani permasalahan ini, salah satunya dengan melakukan resampling. Resampling menyeimbangkan jumlah kelas pada dataset dengan membentuk instance (data point) minoritas baru melalui oversampling ataupun menghapus instance mayoritas melalui undersampling. Akan tetapi, pengaplikasian teknik oversampling atau undersampling dapat memunculkan permasalahan baru. Teknik oversampling berisiko mengamplifikasi noise dari kelas minoritas, sedangkan teknik undersampling berisiko menghilangkan informasi penting dari kelas mayoritas. Untuk mengatasi kekurangan satu sama lain, kedua teknik ini dapat digabungkan menjadi hybrid sampling. Penelitian ini akan menggunakan teknik hybrid sampling ADASYN-Tomek Links, yaitu penggabungan antara teknik oversampling ADASYN dan undersampling Tomek Links. ADASYN, sama seperti SMOTE, membentuk instance sintetis minoritas baru di sekitar instance minoritas yang ada, tetapi memfokuskan pembentukannya di daerah kelas minoritas yang lebih sulit untuk dipelajari model. Di sisi lain, Tomek Links menghapus pasangan instance, disebut dengan pasangan Tomek Link, yang dianggap sebagai noise. Dengan begitu, noise yang dihasilkan dari oversampling ADASYN dapat dikurangi melalui Tomek Links. ADASYN-Tomek Links akan diaplikasikan pada 2 dataset, dengan total instance dan derajat class imbalance berbeda, menggunakan model klasifikasi random forest dengan teknik optimalisasi hyperparameter random search. Hasilnya, teknik ADASYN-Tomek Links memberikan performa terbaik dalam memprediksi kedua kelas dengan nilai balanced accuracy tertinggi pada kedua dataset, melebihi teknik ADASYN dan SMOTE.
Class imbalance, or the imbalance in the number of classes in a dataset, is a problem that often arises in one of the data mining techniques, namely classification. This causes the performance of the classification model to be poor because the model becomes biased towards the majority class. There are several methods to handle this problem, one of which is by performing resampling. Resampling balances the number of classes in the dataset by forming new minority instances (data points) through oversampling or deleting majority instances through undersampling. However, the application of oversampling or undersampling techniques can give rise to new problems. The oversampling technique risks amplifying noise from the minority class. On the other hand, the undersampling technique risks eliminating important information from the majority class. Therefore, to overcome each other’s shortcomings, these two techniques can be combined, which is called hybrid sampling. This research will use the ADASYN-Tomek Links hybrid sampling technique, which is a combination of the ADASYN oversampling technique and the Tomek Links undersampling technique. ADASYN, similar to SMOTE, generates new synthetic minority instances around the existing minority instances, but focuses their formation in areas of the minority class that are more difficult for the model to learn. On the other hand, Tomek Links removes pairs of instances, called Tomek Link pairs, which are considered as noise. Thus, noise that might be generated from ADASYN oversampling can be reduced through Tomek Links. ADASYN-Tomek Links will be applied to 2 datasets , with different total instances and degrees of class imbalance, using a random forest classification model with random search hyperparameter optimization. As a result, the ADASYN-Tomek Links technique provides the best performance in predicting both classes with the highest balanced accuracy value on both datasets, surpassing the ADASYN and SMOTE techniques."
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2025
S-pdf
UI - Skripsi Membership Universitas Indonesia Library