Hasil Pencarian  ::  Simpan CSV :: Kembali

Hasil Pencarian

Ditemukan 25 dokumen yang sesuai dengan query
cover
Sinaga, Bona Revano
Abstrak :
ABSTRAK
Klasifikasi data kanker dilakukan untuk mendapatkan terapi yang spesifik dengan hasil efektivitas yang maksimal dan toksisitas yang minimal. Pada tugas akhir ini, data yang digunakan berbasis micrroarray data yang berisi kumpulan ekspresi gen. Fitur pada micrroarray data tersebut diseleksi oleh feature selection guna meningkatkan keakuratan, sensitivitas, kekhususan. Pada feature selection, setiap fitur pada microarray data dilakukan clustering dengan metode k-means clustering. Fitur yang terseleksi membentuk micorarray baru. Sampel pada microarray baru tersebut diklasifikasi menggunakan metode optimisasi baru yaitu Cuckoo Optimization Algorithm yang terinsipirasi dari cara hidup burung Cuckoo. Metode ini juga disesuaikan dengan metode Cuckoo Search.
ABSTRAK
Classification of cancer data is performed to obtain specific treatment with the results have maximum effectiveness and minimum toxicity. In this thesis, the data is microarray data that contains a collection of gene expression. Features on these micrroarray data selected by the feature selection to improve the accuracy, sensitivity, specificity. In the feature selection, each feature on the microarray data were clustering with k-means clustering method. Selected features form to the new micorarray data. The new samples on the microarray are classified using new optimization methods that Cuckoo Optimization Algorithm which is inspired by the way of life of the Cuckoo. This method is also adapted from Cuckoo Search
2016
S64957
UI - Skripsi Membership  Universitas Indonesia Library
cover
Adawiyah Ulfa
Abstrak :
Pengembangan inhibitor Dipeptidyl Peptidae-4 (DPP-4) sangat diperlukan dalam pengobatan Diabetes Mellitus tipe 2 dengan efek samping yang rendah. Pemodelan hubungan kuantitatif struktur aktivitas (QSAR) merupakan pendekatan analisis hubungan struktur kimia dengan aktivitasnya yang banyak digunakan dalam desain obat penyakit Diabetes. Pada tesis ini, model QSAR klasifikasi dibangun untuk memprediksi struktur aktivitas senyawa pada inhibitor DPP-4 yang dapat memblokir kerja enzim DPP-4. Dalam representasi molekul digunakan circular fingerprint ECFP dan FCFP yang menyajikan notasi SMILES dalam format vektor biner. Fingerprint ECFP dan FCFP yang berdiameter 4 dan 6 sebagai input data dalam membangun model QSAR klasifikasi. Pada QSAR klasifikasi dengan pendekatan deep learning memberikan waktu yang cepat dalam proses virtual screening senyawa aktif atau tidak aktif dalam inhibitor DPP-4. Penelitian ini menggunakan model Hybrid Deep Learning 1D CNN-LSTM untuk memprediksi aktivitas senyawa inhibitor dalam kelas aktif atau tidak aktif berdasarkan nilai aktivitas biologis dengan proporsi data latih dan data uji yang berbeda. Dalam arsitektur 1D CNN-LSTM terdiri dari model 1D CNN sebagai tahap ektraksi fitur dan output dari lapisan konvolusi 1D CNN digunakan dalam lapisan LSTM. Selain itu, pemilihan fitur dengan metode Random Forest-Recursive Feature Elimination (RF-RFE) digunakan untuk memperoleh fitur yang optimal dari dataset ECFP dan FCFP. Selanjutnya, penelitian ini membandingkan performa model dengan menerapkan pemilihan fitur RF-RFE dan tanpa pemilihan fitur RF-RFE. Hasil penelitian ini menunjukkan bahwa model QSAR klasifikasi menggunakan Hybrid Deep Learning yaitu 1D CNN-LSTM dengan pemilihan fitur RF-RFE memperoleh performa model yang lebih baik dibandingkan model tanpa pemilihan fitur optimal. Performa model 1D CNN-LSTM dengan pemilihan fitur RF-RFE menggunakan data ECFP_4 dengan proporsi data latih 80% memiliki akurasi sebesar 0.9075, sensitivitas 0.9008, spesifisitas 0.9142, dan nilai MCC 0.8151. ......The development of Dipeptidyl Peptidase-4 (DPP-4) inhibitors is urgently needed in the treatment of Type 2 Diabetes Mellitus with low side effects. Activity structure quantitative relationship modeling (QSAR) is an analytical approach to the relationship between chemical structure and activity which is widely used in diabetes drug design. In this thesis, a classification QSAR model was built to predict the structure of the activity of the DPP-4 inhibitor compound that can block the action of the DPP-4 enzyme. In molecular representation, ECFP and FCFP circular fingerprints are used which present SMILES notation in binary vector format. ECFP and FCFP fingerprints with diameters of 4 and 6 as input data in building a classification QSAR model. The QSAR classification with a deep learning approach provides fast time in the virtual screening process for active or inactive compounds in DPP-4 inhibitors. This study uses the Hybrid Deep Learning 1D CNN-LSTM model to predict the activity of inhibitor compounds inactive or inactive classes based on the value of biological activity with different proportions of training data and test data. The 1D CNN-LSTM architecture consists of a 1D CNN model as the feature extraction stage and output of 1D CNN convolution layer is used in the LSTM layer. In addition, feature selection using the Random Forest-Recursive Feature Elimination (RF-RFE) method was used to obtain optimal features from the ECFP and FCFP datasets. Furthermore, this study compares the performance of the model by applying the RF-RFE feature selection and without the RF-RFE feature selection. The results of this study indicate that the classification QSAR model using Hybrid Deep Learning, namely 1D CNN-LSTM with RF-RFE feature selection, obtains better model performance than the model without optimal feature selection. The performance of the CNN-LSTM 1D model with RF-RFE feature selection using ECFP_4 data with a proportion of 80% training data has an accuracy of 0.9075, sensitivity of 0.9008, specificity of 0.9142, and an MCC value of 0.8151.
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2021
T-Pdf
UI - Tesis Membership  Universitas Indonesia Library
cover
Yuri Prihantono
Abstrak :

Pemanfaatan Intrusion Detection System (IDS) untuk mengamankan infrastruktur jaringan internet masih memiliki masalah yang belum terselesaikan, yaitu kurangnya akurasi deteksi serangan sehingga mengakibatkan terjadinya permasalahan false positif dan banyaknya alarm palsu. Salah satu pendekatan yang banyak digunakan untuk mengatasi permasalahan yang terjadi dalam implementasi IDS adalah dengan menggunakan pendekatan machine learning. Pada penelitian ini, penulis mengusulkan sistem yang menggunakan pendekatan machine learning untuk mendeteksi serangan jaringan dan mengirim peringatan serangan. Dataset CSE-CICIDS2018 dan Model-Based Feature Selection digunakan untuk mengevaluasi kinerja delapan algoritma klasifikasi dalam mengidentifikasi serangan jaringan guna menentukan algoritma terbaik. Hasilnya, Model XGBoost dipilih sebagai model yang memberikan hasil kinerja algoritma terbaik dalam perbandingan model machine learning ini, dengan tingkat akurasi untuk klasifikasi two-class sebesar 99%, dan multi-class sebesar 98,4%.


Utilization of the Intrusion Detection System (IDS) to secure internet network infrastructure still has unresolved problems, namely the lack of attack detection accuracy, resulting in false positives and many false alarms. One approach that is widely used to overcome the problems that occur in the implementation of IDS is to use a machine learning approach. In this study, the authors propose a system that uses a machine learning approach to detect network attacks and send attack warnings. The CSE-CICIDS2018 dataset and Model-Based Feature Selection were used to evaluate the performance of eight classifier algorithms in identifying network attacks to determine the best algorithm. As a result, the XGBoost model was chosen as the model that gives the best algorithm performance results in this machine learning model comparison, with an accuracy rate of 99% for two-class classification and 98.4% for multi-class.

Depok: Fakultas Teknik Universitas Indonesia, 2022
T-Pdf
UI - Tesis Membership  Universitas Indonesia Library
cover
Intan Primasari
Abstrak :
ABSTRAK
Kanker merupakan salah satu penyakit yang paling mematikan bagi manusia. Menurut WHO 2015 , kanker adalah penyebab kematian nomor 2 di dunia sebesar 13 setelah penyakit kardiovaskular. Salah satu hal yang dapat dilakukan untuk penelitian kanker menggunakan machine learning adalah melakukan pendeteksian jenis kanker dengan memanfaatkan microarray data. Microarray data yang memiliki banyak fitur. Itu merupakan salah satu kendala dalam penerapan teknik machine learning. Hal ini akan mempengaruhi perfoma atau keakuratan dari hasil klasifikasi pada data kanker. Oleh karena itu, metode pemilihan fitur diperlukan untuk meningkatkan perfoma dalam pendeteksian kanker. Dalam tugas akhir ini dilakukan perbandingan pemilihan fitur menggunakan Genetic Algorithm dan Laplacian Score. Fitur-fitur yang sudah terpilih pada data kanker kemudian digunakan dalam proses klasifikasi Support Vector Machines. Hasilnya, didapatkan akurasi terbaik saat dengan metode pemilihan fitur menggunakan Genetic Algorithm yaitu 98,69 dengan penggunaan 40 fitur untuk data kanker prostat dan 98,97 dengan penggunaan 30 fitur untuk data kanker kolon.
ABSTRACT
Cancer is one of the most deadly diseases for humans. According to the WHO 2015 , cancer is the causes of the death number two in the world by 13 after cardiovascular disease. Taking advantage from microarray data, machine learning methods can be applied to help cancer prediction according to its types. Microarray data has many features. It is one of the obstacles in the machine learning techniques. This will affect the performance or accuracy of the classification results on cancer data. Therefore, feature selection methods are required to increase performance in cancer prediction. This research proposed comparison of feature selection using Genetic Algorithm and Laplacian Score. Features that are already selected in the cancer data then used in the Support Vector Machines classification. The results show that the best accuracy obtained when using Genetic Algorithm with percentage of 98,69 by using 40 features for prostate cancer data and 98,97 by using 30 features for colon cancer data.
2017
S68354
UI - Skripsi Membership  Universitas Indonesia Library
cover
Nurul Maghfirah
Abstrak :
Kematian yang disebabkan oleh kanker diperkirakan akan terus meningkat, padahal jumlah kematian ini dapat dikurangi dengan adanya deteksi dini. Salah satunya adalah dengan klasifikasi data kanker. Data kanker yang digunakan merupakan data kanker berdimensi tinggi dengan ribuan fitur, tetapi tidak semua fitur yang ada merupakan fitur yang relevan. Oleh karena itu, perlu adanya proses seleksi fitur. Untuk meningkatkan tingkat akurasi yang dihasilkan, digunakan sebuah metode seleksi fitur yang meninjau adanya korelasi antar gen, yaitu CSVM-RFE. Pada metode tersebut, data yang ada diproyeksikan dan diubah menjadi sebuah data baru dengan ekstraksi fitur, dan kemudian dilakukan proses seleksi fitur. Penggunaan dua metode tersebut pada klasifikasi tiga data kanker yang ada terbukti menghasilkan tingkat akurasi yang tinggi, pada data kanker kolon tingkat akurasi yang didapatkan adalah sebesar 96.6, pada kanker prostat sebesar 98.9, dan pada kanker lymphoma sebesar 98,6. ......The number of death caused by cancer expected to rise over two decades, whereas the number of death can be reduced by early detection. One of them is cancer classification. Cancer dataset is a high dimensional dataset that consist of thousands of features, but not all of these features are relevant. Therefore, it is necessary to remove the redundant features using feature selection. Feature selection can also improve the accuracy of classification. Many feature selection methods do not consider the correlated genes, so we need a new feature selection method that consider the correlated genes. It is CSVM RFE, in this method the existing data is projected and converted into a new data with feature extraction. These two methods are applied to the cancer datasets, and produce the accuracy of 96.6 using colon cancer dataset, 98.9 using prostate cancer dataset, and 98.6 using lymphoma cancer dataset.
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2017
S69588
UI - Skripsi Membership  Universitas Indonesia Library
cover
Zahra Rubena Putri
Abstrak :
Meningkatnya jumlah pengguna internet saat ini memberikan banyak dampak pada kehidupan manusia, karena internet menghubungkan banyak perangkat setiap hari. Perkembangan ini membawa berbagai dampak positif maupun dampak negatif. Salah satu dampak negatifnya adalah adanya aktivitas berbahaya yang dapat menyerang jaringan. Intrusion detection system merupakan sebuah sistem manajemen keamanan pada jaringan komputer. Data yang dimiliki intrusion detection system mempunyai fitur yang cukup banyak tetapi tidak semua fitur yang ada relevan dengan data yang digunakan dan jika data tersebut diolah akan memakan waktu yang cukup lama. Oleh karena itu, diperlukan pemilihan fitur untuk meningkatkan akurasi serta memperpendek waktu pembelajaran. Beberapa metode pembelajaran sudah pernah diterapkan untuk menyelesaikan masalah intrusion detection system, seperti Na ? ve Bayes, Decision Tree, Support Vector Machines dan Neuro-Fuzzy Methods. Metode pemilihan fitur yang digunakan untuk skripsi ini adalah metode Chi-Square. Setelah dilakukan pemilihan fitur, akan didapatkan hasil berupa sebuah dataset baru yang kemudian akan diklasifikasi menggunakan metode Extreme Learning Machines. Hasilnya menunjukkan setelah dilakukan pemilihan fitur dengan metode Chi-Square, tingkat akurasi akan meningkat serta waktu yang dibutuhkan algoritma pembelajaran untuk menyelesaikan metode tersebut menjadi semakin singkat. ...... The increasing rates of internet users nowadays must be give much impacts to our lifes, because the internet things can connect more devices every day. This growth carriers several benefits as well as can attack the network. Intrusion detection system IDS are used as security management system. IDS can be used to detect suspicious activity or alert the system. IDS involves large number of data sets with several different features but not all features are relevant with the data sets and it takes long computational time to solve IDS data sets. Therefore, it has to do feature selection to remove the irrelevant features, to increase the accuracy and to shorten the computational time for the learning methods. Many researches about learning method to solve intrusion detection system problem have been done to develop and test the best model from various classifiers, such as Na ve Bayes, Decision Tree, Support Vector Machines, and Neuro Fuzzy Methods. For this thesis, the feature selection methods will be used is Chi Square methods to reduce dimentionality of IDS data sets. The new IDS data sets with the best selected features are obtained afterwards, and then these new data sets will be classified with Extreme Learning Machines methods. The result denotes that Extreme Learning Machines classification methods provides better accuracy level while combined with Chi Square feature selection.
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2017
S-Pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Nadisa Karina Putri
Abstrak :
Diabetes mellitus atau biasa disebut sebagai diabetes adalah penyakit metabolik yang disebabkan oleh penderita memiliki kadar gula darah yang tinggi dan organ pankreas tidak dapat memproduksi hormon insulin secara efektif. Diabetes dapat mengakibatkan penyakit yang lebih parah seperti kebutaan, gagal ginjal, dan penyakit jantung. Oleh karena itu, pendeteksian sejak dini dibutuhkan agar pasien dapat mencegah penyakitnya sebelum menjadi lebih parah. Karena data medis biasanya berukuran besar dan tidak berdistribusi normal, beberapa peneliti menggunakan metode klasifikasi untuk memprediksi gejala penyakit atau mendiagnosa penyakit. Pada penelitian ini, digunakan algoritma Learning Vector Quantization (LVQ) untuk klasifikasi data set diabetes dengan seleksi fitur Chi-Square. Pada penelitian ini digunakan dua data set diabetes yaitu data set I dengan 8 fitur dan data set II dengan 19 fitur. Hasil dari penelitian ini menunjukkan bahwa untuk data set dengan 8 fitur, akurasi dan performa model tertinggi diperoleh ketika data set mengandung hampir seluruh fiturnya yaitu 7 fitur dengan akurasi sebesar 76,55%. Sedangkan untuk data set dengan 19 fitur, akurasi dan performa model tertinggi diperoleh ketika data set telah melewati proses seleksi fitur dengan menggunakan metode Chi-Square yaitu pada model dengan 10 fitur dengan akurasi sebesar 78,96%. ......Diabetes mellitus or commonly referred as diabetes is a metabolic disorder caused by high blood sugar level and the pancreas that does not produce insulin effectively. Diabetes can lead to more relentless disease such as blindness, kidney failure, and heart attacks. Therefore, early detection is needed in order for the patients to prevent the disease for being more severe. According to the non-normality and huge size of data in medical field, some researchers use classification methods to predict symptoms or diagnose patients. In this study, Learning Vector Quantization (LVQ) is used to classify the diabetes data set with Chi-Square Feature Selection. This study adopted two kinds of diabetes data set which are, data set I that contains 8 features and data set II that contains 19 features. The result of the experience shows that for data set I, the highest accuracy and model performance is achieved when the model contains most of its features which is the model that contains 7 features with 76,55% of accuracy. Moreover, for data set II, the highest accuracy and model performance is achieved when the model contains features that has been selected with the Chi-Square feature selection which is the model with 10 features and the accuracy achieved is 78,96%.
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2019
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Adib Muhammad Prawirahutama
Abstrak :
Air merupakan sumber daya yang paling penting bagi kehidupan, oleh karena itu perlu diperhatikan dan dijaga kualitasnya. Dalam studi air, ML menawarkan banyak peluang untuk mengklasifikasikan kualitas air. Hasil akurasi klasifikasi kualitas air bergantung pada model yang digunakan, ukuran kumpulan data, dan parameter air yang digunakan untuk melatih model pembelajaran. Dalam makalah ini, model SVM, NB, DT, RF, dan CATBoost digunakan untuk memodelkan proses klasifikasi kualitas air. Metode feature selection: filter, wrapped, dan embeded akan dibandingkan, bersama dengan model dengan pemilihan parameter manual yang dipilih berdasarkan kemudahan pengukurannya. Menggunakan embedded feature selection dan DT classifier dengan SMOTE sebagai metode penyeimbangan kelas, model ini dapat mencapai akurasi 99,33%, presisi 99,43%, daya ingat 99,33%, dan skor F1 99,34%. Model untuk indikasi kualitas air secara realtime juga diperoleh dengan classifier CatBoost, dengan akurasi 92,31%, presisi 91,72%, recall 92,31%, dan skor F1 91,75%. ......Water is the most important resource for life, hence it’s quality needs to be checked and maintained. In water studies, ML offers numerous opportunities for classifying Water Quality (WQ) indicators. Results of WQ classification accuracy depend on the model used, the size of the data set, and the water parameters used to train the learning models. In this paper, SVM, NB, DT, RF, and CATBoost models are used to model a WQ classification. Filter, wrapped, and embedded feature selection methods will be compared, along with a model with a manual selection of parameters that are selected based on their ease of measurement. Using embedded feature selection and DT classifier with SMOTE as class balancing method, the model can achieve 99.33% accuracy, 99.43% precision, 99.33% recall, and 99.34% F1-score. Model for realtime water quality indication is also obtained with CatBoost classifier, it achieve 92.31% accuracy, 91.72% precision, 92.31% recall, and 91.75% F1-score.
Depok: Fakultas Teknik Universitas Indonesia, 2022
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Slamet Darmawan
Abstrak :
Mutasi dan promosi pegawai merupakan hal yang biasa terjadi dalam pengelolaan sumber daya manusia, untuk melakukan pengisian jabatan sehingga organisasi dapat berjalan dengan efektif. Saat ini Direktorat Jenderal Perbendaharaan (DJPb) Kementerian Keuangan Republik Indonesia memiliki kesulitan dalam penyusunan draft keputusan mutasi dan promosi jabatan pengawas. Penyusunan draft keputusan mutasi dan promosi jabatan pengawas baru dapat dilakukan pada tahun berjalan setelah selesainya seleksi manajemen talenta untuk mencari pelaksana yang akan dipromosikan sehingga waktu yang tersedia pada tahun berjalan menjadi kurang memadai dalam penyusunan draft keputusan mutasi dan promosi serta sering terjadinya kekurangan jumlah pelaksana yang dapat dipromosikan menjadi pejabat pengawas. DJPb perlu untuk memprediksi pelaksana yang dapat promosi jabatan pada periode berikutnya sehingga dapat merencanakan penyusunan draft keputusan mutasi lebih awal dan mengantisipasi kurangnya pelaksana yang direkomendasikan untuk promosi. Salah satu teknik untuk memprediksi promosi jabatan adalah menggunakan data mining berdasarkan data historis promosi jabatan pegawai. Data mining dapat menemukan pola yang terjadi dalam data dengan membangun sebuah model prediktif berdasarkan data. Namun, seluruh data yang tersedia belum tentu efektif digunakan untuk memprediksi promosi jabatan menggunakan teknik data mining. Pada penelitian digunakan beberapa teknik feature selection serta analisis multivariat menggunakan logistic regression untuk menentukan kombinasi data dari 22 atribut berdasarkan correlation coefficient, information gain, dan gain ratio, sebagai masukan terhadap klasifikasi dalam data mining, yaitu decision tree, logistic regression, support vector machine, naïve bayes, random forest, dan neural networks untuk mengetahui kinerjanya. Kombinasi data berdasarkan correlation coefficient dengan classifier random forest yang memiliki evaluasi yang terbaik sehingga diusulkan sebagai data yang paling efektif digunakan untuk memprediksi promosi jabatan, yaitu usia, masa kerja, jenis kelamin, mode pendidikan, unit kerja, golongan awal, tipe unit kerja, tingkat pendidikan, kesamaan provinsi lahir dan unit, status ibukota unit, jumlah pengalaman kota, jumlah pengalaman jabatan, golongan provinsi unit kerja, jumlah anggota keluarga, bidang pendidikan, nilai kinerja pegawai, nilai perilaku, jumlah diklat, provinsi lahir, status perkawinan, dan status kepegawaian. ......Employee mutations and promotions are common in human resource management, to fill positions so that the organization can run effectively. Currently, the Directorate General of Treasury (DJPb) of the Ministry of Finance of the Republic of Indonesia has difficulties in drafting a decision on mutations and promotions to supervisory positions. The preparation of the draft decision on mutation and promotion of new supervisory positions can be carried out in the current year after the completion of the talent management selection to find implementers to be promoted so that the time available in the current year becomes insufficient in preparing the draft mutation and promotion decisions and there is often a shortage of staffs who can be promoted to supervisory officer. DJPb needs to predict the staffs who can be promoted in the next period so that they can plan the preparation of a draft transfer decision earlier and anticipate the lack of staffs recommended for promotion. One technique to predict promotions is to use data mining based on historical data on employee promotions. Data mining can find patterns that occur in the data by building a predictive model based on the data. However, all available data is not necessarily effective in predicting promotions using data mining techniques. In this study, several feature selection techniques and multivariate analysis using logistic regression were used to determine the combination of data from 22 attributes based on the correlation coefficient, information gain, and gain ratio, as input to the classification in data mining, namely decision tree, logistic regression, support vector machine, naive Bayes, random forest, and neural networks to determine their performance. The combination of data based on the correlation coefficient with the random forest classifier that has the best evaluation is proposed as the most effective data used to predict promotions, namely age, years of service, gender, mode of education, work unit, entry-level, type of work unit, education, similarity in the province of birth and unit, the status of unit capital, number of city experience, number of position experience, provincial group of work units, number of family members, education field, employee performance value, behavior value, number of education and training, province of birth, marital status, and employee status
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2022
TA-pdf
UI - Tugas Akhir  Universitas Indonesia Library
cover
Jayanti Yusmah Sari
Abstrak :
Curse of dimensionality merupakan masalah yang sering dihadapi pada proses klasifikasi. Trans-formasi fitur dan seleksi fitur sebagai metode dalam reduksi fitur bisa diterapkan untuk mengatasi masalah ini. Terlepas dari performanya yang baik, transformasi fitur sulit untuk diinterpretasikan ka-rena ciri fisik dari fitur-fitur yang asli tidak dapat diperoleh kembali. Di sisi lain, seleksi fitur dengan proses komputasinya yang sederhana bisa mereduksi fitur-fitur yang tidak diperlukan dan mampu me-representasikan data untuk memudahkan pemahaman terhadap data. Pada penelitian ini diajukan metode seleksi fitur baru yang berdasarkan pada dua pendekatan filter, yaitu similarity (kemiripan) dan entropi untuk mengatasi masalah data berdimensi tinggi. Tahap awal metode ini adalah meng-hitung nilai similarity antara fitur dengan vektor kelas dari 6 data berdimensi tinggi. Kemudian diperoleh nilai similarity maksimum yang digunakan untuk menghitung nilai entropi untuk setiap fitur. Fitur yang dipilih adalah fitur yang memiliki nilai entropi lebih tinggi daripada entropi rata-rata seluruh fitur. Fuzzy k-NN diterapkan untuk tahap klasifikasi data hasil seleksi fitur. Hasil percobaan menunjukkan bahwa metode yang diajukan mampu mengklasifikasi data berdimensi tinggi dengan rata-rata akurasi 80.5%. ......Curse of dimensionality is a major problem in most classification tasks. Feature transformation and feature selection as a feature reduction method can be applied to overcome this problem. Despite of its good performance, feature transformation is not easily interpretable because the physical meaning of the original features cannot be retrieved. On the other side, feature selection with its simple com-putational process is able to reduce unwanted features and visualize the data to facilitate data understanding. We propose a new feature selection method using similarity based entropy to over-come the high dimensional data problem. Using 6 datasets with high dimensional feature, we com-puted the similarity between feature vector and class vector. Then we find the maximum similarity that can be used for calculating the entropy values of each feature. The selected features are features that having higher entropy than mean entropy of overall features. The fuzzy k-NN classifier was im-plemented to evaluate the selected features. The experiment result shows that proposed method is able to deal with high dimensional data problem with mean accuracy of 80.5%.
Surabaya: Faculty of Information and Technology, Department of Informatics Institut Teknologi Sepuluh Nopember, 2014
AJ-Pdf
Artikel Jurnal  Universitas Indonesia Library
<<   1 2 3   >>