Hasil Pencarian  ::  Simpan CSV :: Kembali

Hasil Pencarian

Ditemukan 16 dokumen yang sesuai dengan query
cover
Anas Bachtiar
"Kematian yang disebabkan oleh kanker diperkirakan akan terus meningkat, terutama untuk kanker prostat. Penyakit ini adalah jenis kanker yang paling umum untuk pria di dunia. Jumlah kematian dapat dikurangi dengan deteksi dini menggunakan machine learning. Salah satunya adalah klasifikasi data kanker prostat. Data kanker yang digunakan memiliki berbagai fitur, tetapi tidak semua fitur adalah fitur penting. Dalam penelitian ini, kami menggunakan Support Vector Machine-Recursive Feature Elimination (SVM-RFE) dan One Dimensional Naïve Bayes Classifier (1-DBC) sebagai metode seleksi fitur. Dalam kedua metode itu akan mendapatkan peringkat untuk setiap fitur. Penggunaan kedua metode ini dalam klasifikasi data kanker prostat menghasilkan tingkat evaluasi yang tinggi. Kedua metode ini dapat menghasilkan tingkat akurasi 100%, precision 100%, dan recall 100% pada metode klasifikasi Random Forest. Dan menghasilkan tingkat akurasi 95%, precision 100%, dan recall 94,11% pada metode klasifikasi SVM. Dalam evaluasi tambahan, SVM-RFE memiliki running time lebih rendah dari 1-DBC.

Death caused by cancer is expected to continue to increase, especially for prostate cancer. This disease is the most common type of cancer for men in the world. The number of deaths can be reduced by early detection using machine learning. One of them is the classification of prostate cancer data. Cancer data used has various features, but not all features are essential features. In this study, we use Support Vector Machine-Recursive Feature Elimination (SVM-RFE) and One Dimensional Naïve Bayes Classifier (1-DBC) as a feature selection method. In both methods, it will get a rating for each feature. The use of these two methods in the classification of prostate cancer data produces a high level of evaluation. Both of these methods can produce 100% accuracy, 100% precision, and 100% recall in the Random Forest classification method. And it produces 95% accuracy, 100% precision, and 94.11% recall in the SVM classification method. In the additional evaluation, SVM-RFE has a running time lower than 1-DBC."
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2019
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Farah Nadhifa
"Bank berperan penting dalam sistem perekonomian karena memberikan kontribusi yang signifikan melalui fasilitasi kegiatan usaha. Oleh karena itu, kegagalan dari bank bisa mengakibatkan kerusakan pada sistem keuangan tidak hanya pada suatu negara tetapi juga secara global. Meskipun begitu, kebangkrutan tidak terjadi secara tiba-tiba, tapi terdapat indikasi awal yang dapat diketahui dengan cara meneliti laporan keuangan dari sebuah bank secara cermat. Penelitian ini bertujuan untuk mencari model prediksi kebangkrutan bank terbaik untuk memberi peringatan dini kepada regulator agar efek negatif yang diakibatkan oleh kebangkrutan bank pada sistem perekonomian dapat dikurangi atau bahkan dihindari. Akan digunakan metode berupa supervised machine learninghasil modifikasi dari Support Vector Machinesdengan menambahkan fungsi fuzzy membershipyang biasa disebut Fuzzy Support Vector Machines FSVM . Akan digunakan dua jenis kernel, yaitu kernel RBF dan kernel polinomial sebagai pembanding dalam pembentukan model. Machine learningdipilih sebagai metode untuk prediksi kebangkrutan karena hasil yang didapatkan dapat jauh lebih cepat jika dibandingkan dengan menggunakan metode statistika tradisional. Pembentukan model dan penghitungan nilai akurasi prediksi akan dilakukan dengan menggunakan dataset berisikan 65 bank di Turki dari publikasi tahunan ldquo;Banks in Turkey rdquo; yang diterbitkan oleh Banks Association of Turkey BAT . Tiap data dari 65 bank yang dikumpulkan dari tahun 1997 mdash;2004 memiliki informasi berupa 20 rasio keuangan yang dikelompokkan ke dalam enam kelompok fitur berdasarkan sistem penilaian CAMELS. Selain itu, untuk meningkatkan nilai akurasi dari prediksi, akan digunakan seleksi fitur chi-squareuntuk menyaring fitur-fitur yang tidak relevan dari ke-20 fitur dalam dataset.

The bank plays a big role on economic system as they significantly contribute through the facilitation of business. Hence, the collapse of several banks can cause a huge damage to financial systems not only in a country but also globally. Nonetheless, bankruptcy doesn rsquo t happen suddenly, but there are early indications that can be seen by investigating the financial statement of a bank. In this research, we aim to find the best bankruptcy prediction model to give an early warning for regulators so that it can help them to prevent or lessen the negative effects on economic systems. This research will be performing supervised based machine learning that is a modification of SVM by adding fuzzy membership function called Fuzzy Support Vector Machines FSVM . The experiment will also be using kernel RBF and kernel polynomial to construct the model. We chose machine learning for bankruptcy prediction because it can give faster result rather than traditional statistical method. We will be measuring prediction accuracy using a dataset that consists of 65 Turkish banks from the annual publication ldquo Banks in Turkey rdquo issued by the Banks Association of Turkey BAT . Each of the 65 banks that we collected from 1997 mdash 2004 has information of a total of 20 financial ratios with six feature groups based on CAMELS rating system. Furthermore, to improve the accuracy prediction, we also perform chi square feature selection to filter any irrelevant features of total 20 features in our dataset.
"
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2018
S-Pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Amanda Rizki Bagasta
"ABSTRAK

Infark Serebri adalah kondisi dari suatu jaringan otak yang tidak teralirkan darah sehingga sel-sel otak tersebut kekurangan oksigen dan nutrisi. Hal ini dapat mengakibatkan kerusakan bahkan kematian sel-sel otak dan perlu dengan segera mendapatkan penanganan. Keadaan ini sering dikenal sebagai Stroke, dimana pada penulisan ini akan berfokus pada data stroke nonhemoragik (stroke tidak berdarah) yang diakibatkan penyumbatan pembuluh darah di otak. Biasanya penyakit ini dapat dikenali dari gejala kelumpuhan suatu bagian tubuh atau kesulitan menggunakan suatu alat indra. Menurut para ahli, penyakit ini harus dicegah sejak dini karena dapat berakibat fatal bagi keseluruhan fungsional tubuh. Salah satu tindakan yang dapat dilakukan sejak dini adalah mendeteksi kemungkinan penyakit agar dapat dilakukan penanganan secara tepat dan cepat. Dalam penelitian ini, Infark Serebri dideteksi dengan mengklasifikasi ada atau tidaknya sel abnormal pada jaringan otak pada hasil CT Scan otak pasien menggunakan Support Vector Machine dengan Seleksi Fitur RELIEF. Data yang digunakan berupa data numerik dari pasien yang melakukan pemeriksaan di RSUPN dr. Cipto Mangunkusumo Jakarta dalam bentuk hasil CT Scan otak. Terdapat Sembilan fitur indikator yang digunakan dan diproses dengan membandingkan Support Vector Machine dengan dan tanpa seleksi fitur RELIEF. Berdasarkan hasil uji coba, metode yang diusulkan mampu mencapai akurasi sebesar 95,23%. Sehingga, penggunaan seleksi fitur RELIEF pada SVM merupakan metode yang baik untuk menklasifikasi infark serebri.


ABSTRACT

 


The Cerebrovascular Infarction is a condition of an inflowed blood of brain tissue so that the brain cells lack oxygen and nutrients. This can cause the damage and even the death of brain cells and needed to get immediate treatment. This situation is often known as stroke, which at this writing will fokus on data on non-hemoragic strokes (non-bleeding strokes) caused by blockage of blood vessels in the brain. Usually this disease can be identified by symptoms of paralysis of some body part or difficulty using a human sensory. According to the experts, this disease must be prevented early because it can be fatal to the overall functional body. One of the actions that can be done early is to detect the possibility of a disease so that it can be handled appropriately and quickly. In this study, the cerebral infarction was detected by classifying the presence or absence of abnormal cells in brain tissue in the results of a CT brain scan of patients using Support Vector Machine with the RELIEF Selection Feature. The data used in the form of numerical data reports from patients who performed examinations at the RSUPN dr. Cipto Mangunkusumo Jakarta in the form of brain CT Scan. There are nine indicator features that are used and processed by comparing Support Vector Machine with and without RELIEF feature selection. Based on the results, the proposed method is able to achieve accuracy value of 95,23%. Thus, the use of RELIEF feature selection with SVM is a good method for classifying cerebral infarction.

 

"
2019
S-Pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Wanda Puspita Hati
"Kanker menjadi penyebab utama kematian global yang menyebabkan hampir 10 juta kematian atau hampir seperenam kasus kematian pada tahun 2020. Tindakan pencegahan primer yang efektif dapat mencegah setidaknya 40% kasus kanker. Tingkat kematian akibat kanker di negara berkembang lebih tinggi dibandingkan dengan negara maju, mencerminkan kesenjangan dalam menangani faktor risiko, keberhasilan deteksi, dan pengobatan. Wanita di negara berkembang paling sering menderita kanker serviks. Masyarakat terutama wanita memerlukan pengetahuan mengenai faktor risiko kanker serviks. Salah satu solusi potensial untuk masalah ini peran machine learning dalam mempelajari data pasien kanker serviks. Penelitian ini menggunakan algoritma clustering K-Prototypes, yang dapat mengelompokkan data campuran, baik numerik maupun kategorik. Data faktor risiko kanker serviks dari pasien di RSUPN X digunakan dalam penelitian ini. Seleksi fitur dilakukan untuk meningkatkan kinerja algoritma KPrototypes, dengan membandingkan seleksi fitur menggunakan Variance Threshold dan Correlation Coefficient. Kinerja algoritma K-Prototypes terbaik didapatkan dengan menggunakan Correlation Coefficient yang ditinjau berdasarkan Silhouette Coefficient sebesar 0,6; Davies-Bouldin Index sebesar 0,6; dan Callinzki-Harabasz Index sebesar 1.080. Interpretasi cluster yang terbentuk dari simulasi menghasilkan perbedaan utama karakteristik faktor risiko dari dua cluster, yaitu umur, menopause, dan kondisi kesehatan seperti keputihan, pendarahan, nyeri perut bawah, dan penurunan nafsu makan. Sementara, faktor terkait riwayat terdahulu, kesehatan reproduksi, dan masalah gizi tidak menunjukkan perbedaan yang signifikan. Algoritma K-Prototypes diharapkan dapat menjadi solusi dalam mengidentifikasi kelompok berdasarkan faktor risiko kanker serviks untuk membantu tenaga medis dalam mengambil keputusan dan tindakan selanjutnya, serta pengetahuan bagi masyarakat.

Cancer is a leading cause of death worldwide, resulting in nearly 10 million deaths, or almost one-sixth of all deaths, in 2020. Effective primary prevention measures can prevent at least 40% of cancer cases. Cancer mortality rates are higher in developing countries compared to developed countries, reflecting disparities in addressing risk factors, detection success, and available treatments. Women in developing countries most frequently suffer from cervical cancer. It is crucial for communities, especially women, to have knowledge about the risk factors for cervical cancer. One potential solution to this issue is the role of machine learning in analyzing cervical cancer patient data. This study uses the K-Prototypes clustering algorithm, which can cluster mixed data, both numerical and categorical. Cervical cancer risk factor data from patients at X National General Hospital were used in this research. Feature selection was performed to improve the performance of the K-Prototypes algorithm, comparing feature selection using Variance Threshold and Correlation Coefficient. The best performance of the K-Prototypes algorithm was obtained using the Correlation Coefficient, as reviewed based on a Silhouette Coefficient of 0,6; a Davies-Bouldin Index of 0,6; and a Callinzki-Harabasz Index of 1.080. Interpretation of the clusters formed from the simulation revealed major differences in the characteristics of risk factors between two clusters, namely age, menopause, and health conditions such as leukorrhea, bleeding, lower abdominal pain, and loss of appetite. Meanwhile, factors related to previous history, reproductive health, and nutritional issues did not show significant differences. The K-Prototypes algorithm is expected to be a solution in identifying groups based on cervical cancer risk factors to assist medical professionals in decision-making and subsequent actions, as well as to provide knowledge to the public."
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2024
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Muslar Alibasya
"Kanker paru-paru merupakan jenis kanker yang dimulai dan tumbuh di dalam paru-paru. Kanker paru-paru terjadi ketika sel-sel yang melapisi bronkus dan bronkiolus tumbuh secara tidak terkendali. Hal ini dapat menyebabkan kematian jika tidak ditangani dengan cepat dan tepat. Pengklasifikasian dini merupakan salah satu solusi yang tepat untuk mengurangi jumlah kematian yang disebabkan oleh kanker paru-paru. Pendekatan machine learning dapat digunakan untuk mengklasifikasi kanker paru-paru. Dalam penelitian ini, pengklasifikasian dilakukan dengan menggunakan data microarray. Data microarray memiliki fitur yang sangat banyak. Oleh karena itu, dibutuhkan seleksi fitur agar proses klasifikasi berlangsung optimal. Pada penelitian ini, penulis mengusulkan metode Support Vector Machine-Recursive Feature Elimination (SVM-RFE) untuk metode seleksi fitur. Data microarray yang digunakan diambil dari National Center for Biotechnology Information (NCBI) yang merupakan sebuah website online database. Pada penelitian ini, penulis menggunakan SVM-RFE sebagai metode seleksi fitur untuk mengeliminasi fitur yang kurang relevan. Setelah itu pendekatan k-fold cross-validation digunakan sebagai pembagian data, dan beberapa machine learning classifier yaitu Support Vector Machine (SVM), Random Forest (RF), Decision Tree (DT), dan Extreme Gradient Boosting (XGBoost) digunakan sebagai metode klasifikasi. Dari hasil simulasi menunjukkan bahwa hasil terbaik berdasarkan nilai akurasi, precision, recall dan running time diperoleh oleh metode klasifikasi SVM dengan nilai akurasi 100%, precision 100%, recall 100% dan running time 5,42 detik.

Lung cancer is a type of cancer that begins in the lungs. Lung cancer occurs when the cells that cover the bronchi and bronchioles grow uncontrollably. This can lead to death if not treated quickly and appropriately. Early classification is one of the appropriate solution to reduce the number of deaths caused by lung cancer. Machine learning approach can be used to classify lung cancer. In this research, classification is done using microarray data which has a lot of features. Therefore, feature selection is applied such that the classification process used the optimal number of features. In this study, the researcher proposes the Support Vector Machine-Recursive Feature Elimination (SVM- RFE) method for the feature selection method. The microarray data was taken from the National Center for Biotechnology Information (NCBI), which is an online database website. In this study, the researcher used SVM-RFE as a feature selection method to eliminate irrelevant features. Afterwards, the k-fold cross-validation method and several machine learning classifiers, namely Support Vector Machine (SVM), Random Forest (RF), Decision Tree (DT), and Extreme Gradient Boosting (XGBoost) will be used as classification methods. In the final stage, the researcher will analyze the performance results of the proposed method based on the accuracy and running time of each classifier. The simulation results show that the best results based on the values of accuracy, precision, recall and running time are obtained by the SVM classification method with a value of 100% accuracy, 100% precision, 100% recall and running time of 5.42 seconds."
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2021
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Dilla Fadlillah Salma
"Kepemilikan dan penggunaan kendaraan mobil memiliki berbagai risiko negatif, seperti terjadinya kecelakaan. Untuk mengurangi beban risiko tersebut, perusahaan menjual produk asuransi mobil. Asuransi mobil merupakan salah satu produk perusahaan asuransi kendaraan yang bertujuan sebagai upaya perlindungan pemilik kendaraan mobil dari kerugian finansial yang terjadi pada kendaraan yang diasuransikannya. Untuk menawarkan produk asuransi, beberapa perusahaan menggunakan teknik penjualan dengan cara cold calling. Teknik penjualan tersebut akan lebih efektif menjual produk asuransi jika terlebih dahulu data nasabah calon pembeli asuransi diprediksi atau diklasifikasi ke dalam kelas membeli atau tidak membeli.
Pada skripsi ini, dilakukan klasfikasi dengan metode Support Vector Machine (SVM), Random Forest (RF),dan Logistic Regression (LR) dengan implementasi metode seleksi fitur One Dimensional Naïve Bayes Classifier (1-DBC). Data yang diperoleh berjumlah 4000 data dengan total 18 fitur. Diperoleh hasil bahwa akurasi SVM lebih tinggi dibandingkan dengan kedua metode lainnya. Selain itu, mplementasi metode seleksi fitur telah berhasil meningkatkan akurasi dari metode Random Forest, dan Logistic Regression. Dengan implementasi 1-DBC, ketiga metode klasifikasi memperoleh hasil akurasi tertinggi pada penggunaan 15 fitur.

Ownership and use of car vehicles have a variety of negative risks, such as accidents. To reduce the risk burden, the company sells car insurance products. Car insurance is one of the products of a vehicle insurance company that aims to protect vehicle owners from financial losses that occur on their insured vehicles. To offer insurance products, some companies use sales techniques using cold calling. The sales technique will be more effective in selling insurance products if first the prospective customer buyer data is predicted or classified into the class of buying or not buying.
In this paper, classification is done using the method of Support Vector Machine (SVM), Random Forest (RF), and Logistic Regression (LR) by implementing the One Dimensional NaA-ve Bayes Classifier (1-DBC) feature selection method. The data obtained amounted to 4000 data with a total of 18 features. The results were obtained that the accuracy of SVM was higher compared to the other two methods. In addition, the implementation of the feature selection method has succeeded in increasing the accuracy of the Random Forest, and Logistic Regression. With the implementation of 1-DBC, the three classification methods obtained the highest accuracy results with the use of 15 features.
"
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2018
S-Pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Ira Salsabila Rohadatul ‘Aisy
"Mata kering merupakan penyakit yang beredar pada masyarakat umum. Mata kering menyebabkan rasa tidak nyaman dan mengganggu aktivitas sehari-hari. Faktanya, lebih dari 85% penderita penyakit mata kering disebabkan kerusakan kelenjar meibom (meibomian gland dysfunction, MGD). Akibatnya mata yang memilki MGD menjadi kering karena intensitas evaporasi air mata meningkat. Untuk mendeteksi tingkat MGD dilakukanmeibography. Dari hasil meibography, klinisi (dokter spesialis mata) menilai tingkat MGD yang disebut meiboscore. Namun realitanya, penilaian meiboscore masih sangat subjektif antar para klinisi. Alat yang digunakan juga mahal dan tidak seluruh klinik mata memiliki alat tersebut. Oleh karena itu pada tugas akhir ini dilakukan deteksi tingkat kerusakan kelenjar meibom dengan pendekatan faktor-faktor potensi MGD dan machine learning. Metode machine learning yang digunakan dalam tugas akhir ini ini adalah radial basis function neural network (RBFNN). Metode machine learning dalam studi ini dilakukan Teknik SMOTE terelebih dahulu untuk menyeimbangkan jumlah data antar kelas, lalu data dibagi menjadi data training dan data testing dengan rasio sebesar 90%: 10%, 80%: 20%, 70%: 30%, dan 60%: 40% . Selain itu dilakukan pengurangan fitur-fitur yang kurang relevan menggunakan seleksi fitur Chi square. Hasil evaluasi metode RBFNN memperoleh nilai rata-rata akurasi, presisi, recall dan f1-score terbaik dicapai menggunakan data testing 20% dengan masing-masing mencapai nilai 96%, 95%, 100%, dan 95% secara berurut

Dry eye is a common disease happened among the public. Dry eye causes discomfort and distracts daily activities. More than 85% dry eye suffers are caused by meibomian gland dysfunction (MGD). As a result, eyes with MGD becomes dry due to high tear evaporation intensity. Detecting MGD can be done by meibography. The MGD level is scored by clinicians which is called meiboscore. However, scoring the meiboscore is still very subjective among the clinicians. The tool that is used are expensive and not all eye clinics have this tool. Therefore, this study aims to detect the MGD level with the approach of MGD potential factors and machine learning. In this study radial basis function neural network (RBFNN) is used. The machine learning method performs SMOTE technique to balance the amount of data in each class, then all data is divided into training data and testing data by90%: 10%, 80%: 20%, 70%: 30%, and 60%: 40% respectively. Moreover, irrelevant features are reduced to optimize using feature selection, Chi Square. To reduce the features that are less relevant, Chi square feature selection is performed. RBFNN method obtained the best average accuracy 96%, average precision 95%, average recall 100%, and average f1-score 95% using the 20% data testing."
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2022
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Dian Puspita Sari
"Coronavirus yaitu kelompok virus yang menginfeksi sistem pernapasan yang dapat menyebabkan infeksi pernapasan ringan maupun berat. Salah satu virus yang termasuk ke dalam coronavirus adalah SARS-CoV-2. Penyakit yang disebabkan oleh virus SARS-CoV-2 disebut COVID-19. COVID-19 pertama kali terdeteksi pada tahun 2019 di Wuhan, China. Penyebaran COVID-19 sangat cepat dengan tingkat kematian yang tinggi terus terjadi di berbagai negara sehingga penyakit ini berstatus pandemi. Skripsi ini menyelesaikan masalah klasifikasi virus SARS-CoV-2 dengan menggunakan data sekuens protein coronavirus. Seleksi fitur pada data sekuens protein coronavirus menggunakan metode seleksi fitur Random Forest-Recurisive Feature Elimination (RF-RFE). Setelah dilakukan seleksi fitur, dilakukan klasifikasi menggunakan pendekatan machine learning dengan metode Support Vector Machine (SVM) dan Particle Swarm Optimization-Support Vector Machine (PSO-SVM). Hasil terbaik performa rata-rata akurasi, spesifisitas, dan sensitivitas untuk metode SVM berturut-turut adalah 93,43%, 98,06%, dan 88,84% pada data pelatihan sebesar 80%. Untuk metode PSO-SVM, hasil terbaik rata-rata akurasi dan spesifisitas adalah 98,48% dan 98,57% pada data pelatihan sebesar 80%, sedangkan hasil terbaik rata-rata sensitivitas adalah 98,96% pada data pelatihan sebesar 90%. Oleh karena itu, pada penelitian ini dapat disimpulkan bahwa metode PSO-SVM menghasilkan performa yang lebih baik dibandingkan dengan metode SVM.

Coronaviruses are a group of viruses that infect the respiratory system that can cause mild or severe respiratory infections. One of the viruses that belongs to the coronavirus is SARS-CoV-2. The disease caused by the SARS-CoV-2 virus is called COVID-19. COVID-19 was first detected in 2019 in Wuhan, China. The spread of COVID-19 is very fast with a high mortality rate that continues to occur in various countries so that this disease has a pandemic status. This thesis solves the problem of classifying the SARS-CoV-2 virus using coronavirus protein sequence data. Feature selection on coronavirus protein sequence data used the Random Forest-Recursive Feature Elimination (RF-RFE) feature selection method. After feature selection, classification is carried out using a machine learning approach with the Support Vector Machine (SVM) and Particle Swarm Optimization-Support Vector Machine (PSO-SVM) methods. The best results of the average performance of accuracy, specificity, and sensitivity for the SVM method are 93.43%, 98.06%, and 88.84%, respectively, for training data of 80%. For the PSO-SVM method, the best results on average accuracy and specificity are 98.48% and 98.57% on training data of 80%, while the best results on average sensitivity are 98.96% on training data of 90%. Therefore, in this study it can be concluded that the PSO-SVM method produces better performance than the SVM method."
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2021
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Ferry Astika Saputra
"

Ancaman keamanan cyber berupa aktivitas Botnet merupakan salah satu ancaman berbahaya yang dihadapi oleh komunitas internet. Para peneliti telah mengusulkan sistem deteksi intrusi (IDS) yang bekerja dengan menggunakan algoritma machine learning sebagai solusi alternatif dari IDS yang menggunakan metode signature dan metode anomali untuk mendeteksi aktivitas Botnet.

Permasalahan yang dihadapi adalah sulitnya membedakan antara trafik normal dengan trafik Botnet. Perlu adanya pemilihan fitur dari data set jaringan sehingga trafik Botnet dapat dideteksi dengan akurat. Dalam penelitian ini diusulkan metode baru yang meningkatkan kinerja IDS dalam mendeteksi Botnet. Metode yang diusulkan adalah dengan menggabungkan dua metode statistik yaitu low variance filter yang dikombinasikan dengan Pearson Correlation Filter yang selanjutnya disebut dengan  Hybrid Pearson Correlation Filter (HPCF) untuk diterapkan dalam tahap  pemilihan fitur. Pemilihan fitur dengan metode yang diajukan yaitu HPCF (Hybrid Pearson Correlation Filter) terbukti dapat meningkatkan efektifitas dan efisiensi dari IDS. Efektivitas diukur dengan menggunakan metrik performasi. Dari hasil eksperimen offline maupun reatime detection, DT lebih unggul dari tujuh model ML lainnya. Model DT-15 merupakan kombinasi terbaik dengan performasi diatas 95% untuk offline detection, 99% untuk Real-time detection.

Pemilihan fitur juga berpengaruh terhadap efisiensi yang diukur dari waktu komputasi pembelajaran mode dan waktu komputasi deteksi di jaringan sebenarnya. Model DT-15 merupakan kombinasi terbaik dengan rata-rata waktu 6,3 detik untuk pembelajaran model (offline detection) and 350 detik untuk waktu deteksi di jaringan sebenarnya (Real-time detection).

Tantangan untuk membuat arsitektur IDS yang dapat beradaptasi dengan  tekonologi komputasi awan juga menjadi topik dalam penelitian ini. Perubahan dinamis dalam arsitektur komputasi awan membutuhkan kemudahan dan fleksibilitas didistribusikan dan dikonfigurasi, dan sarana transportasi data yang paling andal ke defense center. Selain itu teknologi komputasi awan secara signifikan meningkatkan volume, kecepatan, dan variasi data yang harus diproses di pusat pertahanan. Ini berarti bahwa defense center membutuhkan teknologi big data. Snort adalah sistem deteksi dan pencegahan intrusi jaringan berbasis signature yang populer dan berpengaruh di komunitas Internet. Kekurangan dari Snort adalah keterbatasannya dalam menempatkan sensor dengan defense center yang harus terhubung dalam satau sama lain dalam satu jaringan. Hal ini bertolak belangkang dengan kebutuhan dari teknologi komputasi awan. Pada penelitian ini digunakan referensi arsitektur lambda. Dalam pengembangannya arsitektur terbagi menjadi tiga bagian: data source, data collecting dan data serving. Untuk data source dikembangkan aplikasi docker yang didalamnya terdapat aplikasi Snort IDS. Sedangkan untuk collecting data ddigunakan protokol MQTT sebagai saluran pengirimannya. MQTT lebih unggul dalam kemampuan pengirimanya dengan message rate 12 kali lebih besar dan latensi 62 kali lebih rendah dibandingkan dengan protokol Kafka Pub/Sub. Secara keseluruhan penelitian menghasilkan arsitektur baru big data penerapan sistem deteksi intrusi jaringan berbasis Snort di lingkungan komputasi awan.  Aplikasi NIDS Snort yang dibangun dengan merujuk dari arsitektur yang telah dibangun dapat diakses di https://github.com/Mata-Elang-Stable/MataElang-Platform/wiki.


Cyber security threats in the form of botnet activities are one of the dangerous threats faced by the internet community. Researchers have proposed an intrusion detection system (IDS) that works using machine learning algorithms as an alternative solution to IDS that uses signature and anomaly methods to detect botnet activity.

The problem faced is the difficulty of distinguishing between normal traffic and Botnet traffic. There needs to be a selection feature from the network data set to detect Botnet traffic accurately. This study proposes a new method to improve IDS performance in detecting botnets. The proposed method combines two statistical methods, namely the low variance filter and the Pearson Correlation Filter, referred to as the Hybrid Pearson Correlation Filter (HPCF), to be applied in the feature selection stage. Feature selection with the proposed method, namely HPCF (Hybrid Pearson Correlation Filter), is proven to increase the effectiveness and efficiency of IDS. Effectiveness is measured using performance metrics. From the results of offline and real-time detection experiments, DT is superior to the other seven ML models. The DT-15 model is the best combination, with over 95% performance for offline detection and 99% for real-time detection.

The selection of features also affects the efficiency measured by the computational time of mode learning and the computational time of detection in the real network. The DT-15 model is the best combination, with an average time of 6.3 seconds for the learning model (offline detection) and 350 seconds for detecting in the real network (real-time detection).

Developing an IDS architecture that can adapt to cloud computing technology is also a topic in this research. Dynamic changes in cloud architecture require the flexibility of configuring and the most reliable means of data transportation for the defense center. In addition, cloud computing significantly increases the volume, speed, and variety of data that must be centralized in the defense center. So this means that the defense center needs big data technology. Snort is a signature-based network intrusion detection and prevention system that is popular and influential in the Internet community. The drawback of Snort is its limitation in placing sensors with central defenses that must be connected to a single network, which is contrary to the needs of cloud computing technology.

In this study,  we refer to lambda architecture, which consists of three parts: data source, data collecting and serving. A docker application for the data source is developed, including the Snort IDS application. Meanwhile, the MQTT protocol is used as the delivery channel for collecting data. MQTT is superior in its delivery capabilities, with a message rate of 12 times more significant and latency 62 times lower than the Kafka Pub/Sub protocol. Overall, the research resulted in a new big data architecture for implementing a Snort-based network intrusion detection system in a cloud computing environment. Our proposed design and implementation can be accessed at https://github.com/Mata-Elang-Stable/MataElang-Platform/wiki.

"
Depok: Fakultas Teknik Universitas Indonesia, 2022
D-pdf
UI - Disertasi Membership  Universitas Indonesia Library
cover
Revania Rismarini
"Soft Tissue Tumor atau tumor jaringan lunak adalah suatu benjolan atau pembengkakan abnormal yang disebabkan pertumbuhan sel baru. Tumor jaringan lunak dapat terjadi di seluruh bagian tubuh mulai dari ujung kepala sampai ujung kaki. Penyakit tersebut dapat terjadi disemua kelompok umur. Menurut beberapa dokter setiap benjolan/tumor yang ada haruslah diperiksa sejak dini sehingga pasien dapat mendapatkan pengobatan yang tepat dan tidak terjadinya perkembangan kanker. Pada penelitian ini, metode machine learning yang digunakan untuk mengklasifikasi soft tissue tumor. Dengan data Soft Tissue Tumor yang memiliki beragam fitur, maka akan direduksi dengan seleksi fitur signal to noise ratio. Pada penelitian ini, penyakit Soft Tissue Tumor dideteksi dengan mengklasifikasikan pasien tersebut mengidap Soft Tissue Tumor atau tidak menggunakan Deep Neural Network dengan implementasi metode seleksi fitur signal to noise ratio dan akan dibandingkan nilai akurasi klasifikasi yang dihasilkan dari Deep Neural Network tanpa seleksi fitur dan Deep Neural Network dengan seleksi fitur signal to noise ratio. Data yang diperoleh berjumlah 76 data dengan total 17 fitur. Diperoleh hasil bahwa akurasi menggunakan seleksi fitur lebih tinggi dibandingkan tanpa seleksi fitur. Metode klasifikasi mendapat akurasi tertinggi pada jumlah fitur 14.

Soft tissue tumor is an abnormal lump or swelling caused by the growth of new cells. They can occur in all parts of the body from head to toe. Some types of this disease are more common in children, while some others are more common in adults. Though initially benign, this tumor can become aggressive if not treated. The more the tumor has invaded nearby tissues, the harder it is to completely remove. Sometimes, patients underestimate lumps because there are no distinctive clinical signs between malignant and benign tumors. Therefore, doctors suggest patients to immediately examine any existing lump so that it can be treated early and not develop into cancer. The usage of machine learning method to classify the diagnosis is very beneficial. High-dimensional soft tissue tumor data will be reduced using signal to noise ratio feature selection method. In this study, soft tissue tumor disease is detected by classifying soft tissue tumor patients and non-patients data using Deep Neural Network with the implementation of signal-to-noise feature selection. The accuracy will then be compared to Deep Neural Network classification without the implementation of feature selection. The data obtained amounted to 76 data with a total of 17 features. It is found that the accuracy of Deep Neural Network with feature selection is higher compared to the one without feature selection. The highest accuracy result is obtained with the use of 14 features."
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2019
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
<<   1 2   >>