Hasil Pencarian  ::  Simpan CSV :: Kembali

Hasil Pencarian

Ditemukan 9 dokumen yang sesuai dengan query
cover
Nurlia Angie Darmawan
Abstrak :
Di dunia kesehatan, tenaga medis dituntut untuk mengatasi berbagai jenis penyakit dengan gejala yang beragam. Oleh karena itu, diperlukan suatu teknologi untuk membantu mereka menyelesaikannya dengan baik. Penelitian ini mendukung mereka dengan menggunakan machine learning sebagai pemecah masalah. Metode machine learning yang digunakan pada penelitian ini adalah metode klasifikasi. Penulis membahas tentang stroke yang merupakan salah satu penyakit dengan angka kematian tertinggi di dunia. Penelitian ini mengamati perubahan densitas pada otak penderita stroke iskemik. Stroke iskemik merupakan salah satu jenis stroke yang terjadi ketika pembuluh darah tersumbat oleh trombus atau emboli. Penelitian ini menggunakan data CT scan dari Departemen Radiologi, Rumah Sakit Cipto Mangunkusumo, Jakarta, Indonesia. Data yang berupa citra CT scan diubah menjadi data numerik dengan metode Gray Level Co-Occurrence Matrix dan Local Binary Pattern yang dibandingkan performanya pada saat melakukan proses klasifikasi. Penelitian ini menerapkan Support Vector Machines sebagai metode klasifikasi. Didapatkan hasil bahwa Support Vector Machines dengan Local Binary Pattern menghasilkan performa yang lebih baik dibandingkan Support Vector Machines dengan Gray Level Co-Occurrence Matrix.
In the health sector, the medical staffs are challenged to overcome many types of diseases with various symptoms. Therefore, a technology is needed to help them solving it well. This study is supporting them by using a machine learning as the problem solver. The machine learning method that is used in this study is classification method. The author discusses about stroke which is one of the diseases with the highest mortality rate in the world. This study observed the density changes in the brain of ischemic stroke sufferers. Ischemic stroke is one of the stroke types that occurs when the arteries are blocked by thrombus or embolism. This study used data of CT scan from Department of Radiology, Cipto Mangunkusumo Hospital, Jakarta, Indonesia. The image data of the CT scan is changed into a numerical data by using the Gray Level Co-Occurrence Matrix method and the Local Binary Pattern which is being compared when processing the classification. This study applies Support Vector Machines as the classification method. The results showed that Support Vector Machines with Local Binary Pattern has a better performance than Support Vector Machines with Gray Level Co-Occurrence Matrix.
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2020
S-Pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Herry Susanto
Abstrak :
ABSTRAK
Di Indonesia, salah satu penyebab tingginya biaya BBM adalah adanya tindak pencurian dan penyelewengan BBM yang sering kali terjadi di tengah lautan. Hal ini bisa terjadi karena pada saat di tengah lautan, segala kegiatan kapal tersebut tidak bisa dipantau oleh pusat operasional manajemen kapal. Selain upaya hukum, upaya pengawasan kapal melalui teknologi terbaru juga terus dilakukan, salah satunya adalah teknologi Vessel Monitoring System (VMS) berbasis Machine to machine (M2M). Perkembangan teknologi VMS dan telemetri telah memungkinkan pengawasan kondisi mesin dan pemakaian BBM kapal yang sedang berlayar secara online dan real time. Dengan menambah perangkat pengukuran pemakaian bahan bakar tersebut, diharapkan meningkatkan kecepatan koordinasi dan penanganan di lapangan saat terjadi ketidakwajaran pemakaian BBM. Kecepatan dalam mengetahui adanya ketidakwajaran ini sangat penting, karena proses pencurian minyak sering kali dilakukan dalam waktu singkat. Pencurian minyak dengan modus ilegal tapping di darat hanya memerlukan waktu 15 menit untuk 2000 liter (2 ton) BBM, sementara di laut diperlukan sekitar 5 jam untuk memindahkan 12 ton BBM, atau sekitar 2.4 ton per jam untuk sebuah kapal saja. Masalahnya untuk mengetahui ketidakwajaran tersebut masih tergantung pada analisa tenaga ahli yang memerlukan waktu yang lama untuk melakukan analisa berbagai parameter telemetri yang ada. Berdasarkan kondisi di atas, penelitian ini melakukan analisis statistik terhadap data telemetri terutama data pergerakan kapal dan aktivitas mesin untuk menentukan koefisien pergerakan kapal, lalu merancang sistem pengklasifikasi kewajaran pemakaian BBM dengan metode Naive Bayes dan Logistic Regression. Metode ini dipilih karena bisa memberikan hasil yang baik untuk prediksi data-­data numerik maupun diskrit. Hasil penelitian ini menunjukkan bahwa data telemetri dari sistem VMS dapat digunakan untuk mendeteksi adanya ketidakwajaran pemakaian BBM. Untuk kebutuhan klasifikasi kewajaran pemakaian BBM pada data telemetri kapal, algoritma pengklasifikasi Naive Bayes memiliki akurasi hingga 92% pada data sampel dan Logistic Regression mampu mendeteksi dengan akurasi hingga 96% pada data sampel.
ABSTRACT
In Indonesia, one of the causes of high fuel costs is the occurrence of theft and misuse of fuel which often occurs in the middle of the ocean. This can happen because when in the middle of the ocean, all the activities of the ship cannot be monitored by the ship management operational center. In addition to legal efforts, efforts to monitor ships through the latest technology are also being carried out, one of which is the Machine to Machine (M2M) Vessel Monitoring System (VMS) technology. The development of VMS and telemetry technology has enabled monitoring of engine conditions and fuel consumption of ships that are sailing online and real time. By adding the fuel consumption measurement device, it is expected to increase the speed of coordination and handling in the field when there is an irregularity in the use of fuel. Speed in knowing the existence of this irregularity is very important, because the process of oil theft is often done in a short time. Theft of oil by illegal tapping on land only takes 15 minutes for 2000 liters (2 tons) of fuel, while at sea it takes around 5 hours to move 12 tons of fuel, or around 2.4 tons per hour for a ship. The problem is to find out the irregularities that still depend on the analysis of experts who need a long time to analyze various parameters of existing telemetry. Based on the above conditions, this study conducted a statistical analysis of telemetry data, especially ship movement data and machine activity to determine the coefficient of ship movements, then designed the fuel usage irregularity classification system with the Naive Bayes and Logistics Regression. This method was chosen because it can provide good results for predicting numerical and discrete data. The results of this study indicate that telemetry data from the VMS system can be used to detect any irregularities in using BBM. For the needs of the fairness classification of BBM usage on ship telemetry data, the Naive Bayes classification algorithm has an accuracy of up to 92% in sample data and Logistic Regression is able to detect with accuracy up to 96% in sample data.
2019
T53091
UI - Tesis Membership  Universitas Indonesia Library
cover
Muhammad Arief Fauzan
Abstrak :
Tren kenaikan frekuensi dan severitas klaim untuk klaim asuransi kendaraan bermotor menyebabkan dibutuhkannya metode otomatisasi baru untuk memprediksi probabilitas seorang pemegang asuransi kendaraan akan mengajukan klaim jika diberikan data historis mengenai pemegang asuransi tersebut, agar perusahaan asuransi dapat memilah dan memproses lebih lanjut para pemegang polis yang kemungkinan mengajukan klaimnya tinggi. Masalah ini dapat diselesaikan dengan berbagai metode, salah satunya dengan machine learning, yang mengkategorisasikan masalah tersebut sebagai masalah supervised learning. Volume data yang besar dan banyaknya kemungkinan adanya missing values pada data pemegang asuransi menjadi dua aspek yang mempengaruhi pemilihan model machine learning yang tepat. XGBoost merupakan model gradient boosting machine learning baru yang dapat mengatasi missing value dan volume data besar sehingga XGBoost diklaim merupakan metode yang tepat untuk digunakan pada masalah tersebut. Dalam skripsi ini akan diaplikasikan metode XGBoost kepada masalah ini, dan akan dibandingkan hasilnya dengan berbagai metode machine learning lainnya, seperti AdaBoost, Stochastic Gradient Boosting, Random Forest, Neural Network, dan Logistic Regression. ......The increasing trend of claim frequency and claim severity for auto-insurance result in a need of new methods to predict whether a policyholder will file an auto-insurance claim or not, given historical data about said policyholder, so that insurance industries can further process policyholders with high claim probability. This problem can be solved with many methods, one of which is machine learning, which categorizes this problem as a supervised learning problem. The high data volume and the existence of missing values on a policyholders historical data are aspects that the chosen machine learning model must be able to handle. XGBoost is a novel gradient boosting machine learning problem that is able to inherently handle missing values and high volume of data, which should make the model suitable for this problem. In this thesis, XGBoost will be applied to this problem, and its performance will be compared by other machine learning models, such as AdaBoost, Stochastic Gradient Boosting, Random Forest, Neural Network, and Logistic Regression.
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2018
S-Pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Naufal Alfarisi
Abstrak :
Demam Berdarah Dengue (DBD) masih menjadi masalah kesehatan yang utama di Indonesia.  Berdasarkan data dari Kemenkes RI, pada tahun 2022 jumlah insiden DBD dicatat sebanyak 131.265 yang mana sekitar 40% adalah anak-anak usia 0 sampai 14 tahun dengan jumlah kasus kematian mencapai 1.135 jiwa dengan 73% terjadi pada anak-anak usia 0 sampai 14 tahun. DBD disebabkan oleh virus dengue yang disebarkan melalui gigitan nyamuk Aedes aegypti  dan Aedes albopictus.. Selain faktor kebersihan lingkungan dan kebiasaan masyarakat, tingginya insiden DBD di Indonesia juga dipengaruhi oleh beberapa faktor iklim seperti curah hujan, temperatur, dan kelembapan. Memaksimalkan proses pencegahan DBD oleh pemerintah dan masyarakat dapat menekan tingginya kasus DBD di Indonesia. Salah satu cara untuk memaksimalkan proses pencegahan DBD adalah dengan melakukan prediksi jumlah insiden DBD yang akan terjadi kedepannya. Dengan mengetahui hasil prediksi jumlah insiden DBD, diharapkan masyarakat dan pemerintah dapat memaksimalkan proses pencegahan DBD. Pada tugas akhir ini, dilakukan prediksi jumlah insiden DBD menggunakan convolutional neural network dan extreme gradient boosting, dengan jumlah insiden sebelumnya dan faktor cuaca sebelumnya yang terdiri dari temperatur, curah hujan, dan kelembapan relatif sebagai variabel prediktor. Variabel prediktor yang digunakan ditentukan berdasarkan time lag dari masing-masing variabel prediktor terhadap jumlah insiden DBD menggunakan korelasi silang. Model convolutinal neural network dan extreme gradient boosting yang dibentuk dievaluasi dan dibandingkan berdasarkan nilai Root Mean Square Error (RMSE), Mean Absolute Error (MAE), dan waktu simulasi. Pada tugas akhir ini, convolutional neural network memberikan performa yang lebih baik dibandingkan dengan extreme gradient boosting berdasarkan nilai RMSE dan MAE dengan rata-rata 13,3586 untuk RMSE dan 9,2249 untuk MAE. Berdasarkan waktu simulasi, extreme gradient boosting memberikan performa yang lebih cepat dibandingkan convolutional neural network. ......Dengue Hemorrhagic Fever (DHF) remains a major health problem in Indonesia. Based on data from the Ministry of Health of Indonesia, in 2022, the number of DHF incidents recorded was 131,265, of which approximately 40% were children aged 0 to 14 years, with a total of 1,135 deaths, 73% of which occurred in children aged 0 to 14 years. DHF is caused by the dengue virus, which is transmitted through the bites of Aedes aegypti and Aedes albopictus mosquitoes. In addition to environmental cleanliness and societal habits, the high incidence of DHF in Indonesia is also influenced by several climate factors such as rainfall, temperature, and humidity. Maximizing the DHF prevention process by the government and the community can help reduce the number of DHF cases in Indonesia. One way to maximize the DHF prevention process is by predicting the future number of DHF incidents. By knowing the predicted number of DHF incidents, it is hoped that the community and the government can maximize the DHF prevention process. In this final project, the prediction of the number of DHF incidents is carried out using convolutional neural network and extreme gradient boosting, with the previous incident counts and previous weather factors consisting of temperature, rainfall, and relative humidity as predictor variables. The predictor variables used are determined based on the time lag of each predictor variable on the number of DHF incidents using cross-correlation. In this final project, the convolutional neural network outperforms extreme gradient boosting based on the RMSE and MAE values, with an average of 13.3586 for RMSE and 9.2249 for MAE. However, in terms of simulation time, extreme gradient boosting demonstrates faster performance compared to the convolutional neural network.
Depok: Fakultas Matematika Dan Ilmu Pengetahuan Alam Universitas Indonesia, 2023
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Nafizatus Salmi
Abstrak :
ABSTRACT
Kanker telah dikenal sebagai penyakit yang terdiri dari beberapa jenis berbeda. Kanker adalah penyakit yang mengancam jiwa di dunia saat ini. Ada begitu banyak jenis kanker di dunia, salah satunya adalah kanker usus besar, di mana kanker ini adalah salah satu pembunuh nomor satu di dunia. Banyak pembelajaran mesin telah diterapkan dalam klasifikasi kanker. Penulis membandingkan model Naïve Bayes Classifier dan Support Vector Machine (SVM) dalam klasifikasi kanker usus besar. Naïve Bayes Classifier adalah teknik prediksi berbasis probabilitas sederhana berdasarkan pada penerapan teorema Bayes (atau aturan Bayes) dengan asumsi kemandirian yang kuat. Sedangkan konsep dasar metode SVM adalah membentuk bidang atau hyperplane optimal yang memisahkan data menjadi bidang-bidang yang memisahkan data ke dalam setiap kelas. Kedua metode menghasilkan akurasi tinggi hingga 95,24% untuk Naïve Bayes Classifier dan 94,05% untuk SVM dengan kernel linier.
ABSTRACT
Cancer has been known as a disease that consists of several different types. Cancer is a life-threatening disease in the world today. There are so many types of cancer in the world, one of which is colon cancer, where this cancer is one of the number one killers in the world. Much machine learning has been applied in the classification of cancer. The author compares the Naïve Bayes Classifier and Support Vector Machine (SVM) models in the classification of colon cancer. Naïve Bayes Classifier is a simple probability-based prediction technique based on the application of the Bayes theorem (or Bayes rule) with a strong assumption of independence. While the basic concept of the SVM method is to form an optimal plane or hyperplane that separates data into fields that separate data into each class. Both methods produce high accuracy up to 95.24% for Naïve Bayes Classifier and 94.05% for SVM with linear kernels.
2019
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Carlo Johan Nikanor
Abstrak :
Perkembangan pesat teknologi telah memberikan akses kepada masyarakat untuk mengemukakan opini dan evaluasi pribadi di media sosial dan berbagai penjuru dunia digital. Hal ini menjadi pemicu berkembangnya ilmu analisis sentimen atau sering disebut juga opinion mining yang merupakan pengaplikasian dari ilmu machine learning. Umumnya, metode machine learning mempelajari satu domain untuk menghasilkan suatu model, tetapi dengan pengembangan lanjut dihasilkan lifelong learning dimana pembelajaran model berlangsung secara kontinu menggunakan berbagai source domain. Pada tahun 2022, Osmardifa melakukan penelitan mengenai perbandingan kinerja model Bidirectional Encoding Representation from Transformers (BERT) terhadap kinerja model Convolutional Neural Network (CNN) dan model Long Short-Term Memory (LSTM) untuk lifelong learning. Namun, dari perbandingan kinerja tersebut hanya menggunakan satu kombinasi urutan domain dari total 120 kombinasi dari urutan 5 source domain. Dalam skripsi ini, kombinasi semua kombinasi urutan source domain menggunakan dataset penelitian Osmardifa disimulasikan untuk mengukur kinerja model menggunakan urutan pembelajaran yang berbeda dari simulasi yang dijalankan Osmardifa. Hasil simulasi urutan source domain lainnya menggunakan metode BERT menunjukkan banyak kombinasi urutan source domain yang menghasilkan kinerja lebih baik dibandingkan penelitian sebelumnya. Didapat bahwa urutan pembelajaran Capres – Jenius – Shopback – Ecom- Grab menghasilkan akurasi tertinggi 82,49% untuk retain of knowledge bagi source domain yang menggunakan dataset Capres sebagai Source Domain 1 dan urutan Capres – Jenius – Grab – Ecom – Shopback menghasilkan akurasi tertinggi 91,32% untuk transfer of knowledge. Hasil ini menunjukkan kenaikan sebesar 1,53% dan 1,72% dibandingkan simulasi awal yang dilakukan oleh Osmardifa. Analisis lanjut dilaksanakan untuk melihat apakah ada pola atau alasan yang dapat menjelaskan perbedaan kinerja pada model ketika urutan source domain digantikan akan tetapi tidak ditemukan pola atau atau alasan tersebut tidak ditemukan pada penelitian. ......Technological advancements have given the public more of an opportunity to share opinions and personal evaluations within public spaces through social media and other domains on the internet.This phenomenon sparked an interest to develop a field of study under machine learning called opinion mining which specializes in analyzing sentiments found within texts. Generally, machine learning models have one domain or dataset which is used to develop the model, however with further developments a lifelong learning was developed which aims to develop models through continual learning with multiple domains or datasets. In 2022, Osmardifa underwent a study to compare the results of the Bidirectional Encoding Representations from Transfomers (BERT) model with the Convolutional Neural Network (CNN) model and the Long Short-Term Memory (LSTM) model when all of the above are used for lifelong learning. However, the comparison that was used within the study only used one combination of the sequence of source domains available using 5 source domains when there are in fact 120 possible sequences of source domains when using 5 source domains. Therefore, this study aims to further analyze the accuracy of the model in Osmardifa’s research when tested and trained using the other 120 possible learning orders of the model. Further simulations on the previously unused sequences using the BERT model showed better results than the sequence of source domains that was used in previous studies. The Capres – Jenius – Shopback – Ecom- Grab sequence showed the best resulting accuracy for the retain of knowledge tests which used the Capres dataset as the first source domain (Source Domain 1), said sequence of source domains had a final accuracy of 82.49% which is a 1.53% increase compared to previous results. The transfer of knowledge tests also showed that the Capres – Jenius – Grab – Ecom – Shopback sequence gave the best overall results with a final accuracy of 91.32% which is an increase of 1.72% compared to the previous study. Further analysis on the results of the simulations were done to check whether or not there was an underlying pattern or reason for this difference in accuracy, however no conclusive pattern or reasons were found.
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2023
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Aji Bimantoro
Abstrak :
Tanaman padi merupakan salah satu tanaman pangan terpenting di dunia terutama di negara-negara bagian Southeast Asia. Jumlah penduduk di dunia pun semakin meningkat setiap tahunnya sehingga kebutuhan akan makanan pokok seperti beras juga akan semakin meningkat. Namun karena adanya serangan hama dan penyakit pada tanaman padi menyebabkan kualitas dan kuantitas pada tanaman padi menurun sehingga terjadi kerugian besar dalam produksi beras. Untuk mengatasi masalah tersebut, pendeteksian penyakit pada tanaman padi menjadi sangat penting karena dapat mencegah terjadinya penurunan produksi beras. Oleh karena ini, pemrosesan data citra dan machine learning bisa menjadi salah satu cara untuk membantu mempercepat diagnosis penyakit pada tanaman padi. Pada penelitian ini, penulis menggunakan pendekatan deep learning yaitu metode Convolutional Neural Network (CNN) dengan arsitektur Xception untuk mengklasifikasi penyakit pada tanaman padi menggunakan citra daun. Data citra daun tanaman padi yang digunakan dalam penelitian ini adalah Rice Leaf Disease Image Samples yang diambil dari online database mendeley yang berisi 5932 data citra yang terdiri dari empat jenis penyakit daun padi yaitu penyakit hawar daun (Bacterial leaf blight), penyakit blas (Blast), penyakit bercak daun cokelat (brown spot), dan penyakit Tungro. Penulis melakukan tahap preprocessing sepeti crop dan resize agar ukuran citra sesuai dengan input pada model. Selanjutnya, Model akan dibangun melalui data tersebut, yang dilatih menggunakan metode CNN dengan arsitektur Xception. Data di split dengan perbandingan data latih dan data uji 70:30 dan 80:20. Kinerja model dievaluasi dengan nilai accuracy, recall, precision, dan running time. Rata-rata Accuracy, recall, dan precision yang dilakukan dalam 5 kali percobaan didapatkan pada split data 70:30 adalah masing-masing 99.708%, 99.707 %, dan 99.728% dan pada split data 80:20 masingmasing 99,662%, 99,688%, dan 99,687%. Running time yang didapatkan pada split data 70:30 adalah 43 menit dan pada split data 80:20 adalah 49 menit. ......Rice is one of the most important food crops in the world, especially in Southeast Asian countries. The world's population is increasing every year so that the need for staple foods such as rice will also increase. However, due to pest and disease attacks on rice plants, the quality and quantity of rice plants decreases, resulting in huge losses in rice production. To overcome this problem, disease detection in rice plants is very important because it can prevent a decrease in rice production. For this reason, looking at image data and machine learning can be one way to help encourage disease diagnosis in rice plants. In this study, the author uses a deep learning approach, namely the Convolutional Neural Network (CNN) method with Xception architecture to classify diseases in rice plants using leaf imagery. The rice leaf image data used in this study is the Rice Leaf Disease Image Sample taken from the online mendeley database which contains 5932 image data consisting of four types of rice leaf disease, namely bacterial leaf blight and blast disease. , brown leaf spot disease (brown spot), and Tungro disease. The author performs preprocessing stages such as cropping and resizing so that the image size matches the input in the model. Furthermore, the model that will be built through the data uses the CNN method with the Xception architecture. The data is split with a comparison of training data and test data of 70:30 and 80:20. Value Performance Model with values of accuracy, recall, precision, and running time. The average accuracy, recall, and precision carried out in 5 trials at the 70:30 data split were 99.708%, 99.707%, and 99.728%, respectively, and in the 80:20 data split they were 99.662%, 99.688%, respectively, and 99.687%. The running time obtained in the 70:30 data split is 43 minutes and the 80:20 data split is 49 minutes.
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2022
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Hilmi Tito Shalahudin
Abstrak :
Demam Berdarah Dengue (DBD) adalah penyakit yang disebabkan oleh virus dengue yang termasuk anggota genus Flavivirus dan keluarga Flaviviridae yang menyebar melalui nyamuk Aedes (Stegomyia). Jumlah kasus DBD di seluruh dunia dilaporkan meningkat lebih dari 8 kali lipat selama dua dekade terakhir, dari 505.430 kasus pada tahun 2000, menjadi lebih dari 2,4 juta pada tahun 2010, dan 5,2 juta pada tahun 2019. Peningkatan insiden DBD dipengaruhi oleh berbagai faktor, baik itu faktor alam, kebiasaan manusia, hingga jenis virus penyebab DBD itu sendiri. Faktor alam yang dimaksud disini antara lain faktor iklim, seperti curah hujan (mm), temperatur rata-rata (℃), dan kelembapan rata-rata (%). Peningkatan insiden DBD dapat dicegah dengan upaya pencegahan yang dilakukan sedini mungkin oleh pemerintah dan masyarakat. Informasi prediksi tren insiden DBD dapat menjadi masukan bagi masyarakat dan pemerintah untuk meningkatkan kewaspadaan terhadap peningkatan insiden DBD di DKI Jakarta. Dalam melakukan prediksi tren insiden DBD, dapat dilakukan dengan berbagai pendekatan, salah satu diantaranya adalah machine learning. Pada tugas akhir ini, implementasi machine learning menggunakan model The Attention Mechanism-Enhanced LSTM (LSTM-ATT) dan Poisson Regression, akan digunakan untuk memprediksi tren insiden DBD dari waktu ke waktu. LSTM-ATT adalah sebuah model machine learning yang digunakan untuk memproses data sequence. Poisson Regression adalah model regresi yang dapat digunakan pada data yang variabel responnya berdistribusi Poisson dan bertipe diskrit. Prediksi yang akan dilakukan didasarkan pada jumlah insiden DBD sebagai variabel respon, serta faktor iklim seperti curah hujan, suhu, dan kelembapan sebagai variabel prediktor. Untuk proporsi data, kedua model tersebut menggunakan proporsi data training sebesar 80% dan data testing sebesar 20%. Model yang dibentuk ini dievaluasi dengan nilai dari Root Mean Square Error (RMSE) dan Mean Absolute Error (MAE). Hasil implementasi terbaik pada skrips ini dihasilkan oleh model LSTM-ATT dengan evaluasi di setiap wilayah DKI Jakarta: Jakarta Pusat RMSE: 9,5727, MAE: 6,6946; Jakarta Timur RMSE: 21,5288, MAE: 15,6365; Jakarta Barat RMSE: 16,3683, MAE: 12,4908; Jakarta Utara RMSE: 23,5911, MAE: 15,2969; Jakarta Selatan RMSE: 18,3811, MAE: 14,0262. ......Dengue Hemorrhagic Fever (DHF) is a disease caused by the dengue virus, which belongs to the Flavivirus genus and Flaviviridae family, transmitted through Aedes mosquitoes (Stegomyia). The number of DHF cases worldwide has reported an increase of more than 8 times over the past two decades, from 505,430 cases in 2000 to over 2.4 million in 2010 and 5.2 million in 2019. The increase in DHF incidence is influenced by various factors, including natural factors, human behavior, and the type of dengue virus itself. Natural factors include climate factors such as rainfall (mm), average temperature (℃), and average humidity (%). The increase in DHF incidence can be prevented through early prevention efforts by the government and the community. Predicting the trend of DHF incidence can provide input for the community and the government to increase vigilance against the increasing incidence of DHF in Jakarta. Various approaches can be used for predicting the trend of DHF incidence, one of which is machine learning. In this final project, the implementation of machine learning using the LSTM-ATT and Poisson Regression models will be used to predict the trend of DHF incidence over time. LSTM-ATT is a machine learning model used to process sequential data, such as time series data. On the other hand, Poisson Regression is a regression model that can be used for data with Poisson-distributed response variables and discrete types. The prediction will be based on the number of DHF incidents as the dependent variable, and climate factors such as rainfall, temperature, and humidity as independent variables. The performance of the models will be evaluated using the Root Mean Square Error (RMSE) and Mean Absolute Error (MAE). The best implementation results in this thesis were produced by the LSTM-ATT model with evaluation in each area of DKI Jakarta: Central Jakarta RMSE: 9.5727, MAE: 6.6946; East Jakarta RMSE: 21.5288, MAE: 15.6365; West Jakarta RMSE: 16.3683, MAE: 12.4908; North Jakarta RMSE: 23.5911, MAE: 15.2969; South Jakarta RMSE: 18.3811, MAE: 14.0262.
Depok: Fakultas Matematika Dan Ilmu Pengetahuan Alam Universitas Indonesia, 2023
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Nadya Asanul Husna
Abstrak :
Inhibitor DPP-4 adalah pendekatan baru yang menjanjikan untuk pengobatan diabetes tipe-2 dengan risiko rendah hipoglikemia. Pemodelan hubungan kuantitatif struktur-aktivitas (QSAR) adalah pemodelan yang digunakan untuk menyaring basis data besar suatu senyawa untuk menentukan sifat biologis molekul kimia berdasarkan struktur kimianya. Pada tesis ini pemodelan QSAR yang digunakan adalah QSAR klasifikasi dan QSAR regresi. Sebelum membuat model QSAR akan melakukan esktraksi ciri pada struktur molekul (SMILES). Hasil ekstraksi ciri tersebut kemudian akan digunakan sebagai masukan untuk metode rotation forest kasus klasifikasi dan kasus regresi. Model QSAR klasifikasi akan memprediksi molekul aktif dan tidak aktif pada inhibitor DPP-IV. Sedangkan model QSAR regresi akan memprediksi nilai aktivitas IC50 inhibitor DPP-IV. Pada penelitian ini untuk kasus klasifikasi dan regresi juga membandingkan performa model rotation forest menggunakan matriks rotasi PCA dengan rotation forest menggunakan matriks rotasi Sparse PCA. Hasil penelitian ini menunjukkan bahwa model QSAR regresi menggunakan rotation forest dengan matriks rotasi PCA (RFR(PCA)) memperoleh koefisien korelasi kuadrat 29.2% dengan RMSE 45%. Sementara itu, menggunakan rotation forest dengan matriks rotasi Sparse PCA (RFR(SPCA)) memperoleh koefisien korelasi kuadrat 27.1% dengan RMSE 45.6%. Pada QSAR klasifikasi persentase banyaknya molekul yang aktif sangat besar dibandingkan yang molekul tidak aktif, hal ini dapat menyebabkan nilai evaluasi berbeda. SMOTE (Synthetic Minority Oversampling Technique) merupakan salah satu metode untuk menangani data tidak seimbang tersebut dengan cara membangkitkan data buatan. Hasil penelitian ini menunjukkan bahwa model QSAR klasifikasi menggunakan rotation forest dengan matriks rotasi PCA (RFC(PCA)) memperoleh performa tertinggi dalam memprediksi molekul aktif dan tidak aktif, yaitu nilai MCC 77.7% dengan nilai akurasi sebesar 89%, sensitivitas 89.6%, dan spesifisitas 88.1%. Sementara itu, model QSAR klasifikasi menggunakan rotation forest dengan matriks rotasi SPCA (RFC(SPCA)) memperoleh performa tertinggi, yaitu nilai MCC 80.9% dengan nilai akurasi sebesar 90.5%, sensitivitas 90.8%, dan spesifisitas 90.2%. ......DPP-4 inhibitors are a new approach for the treatment of type 2 diabetes with a low risk of hypoglycemia. The Quantitative Structure-Activity Relationship (QSAR) model is a model used to filter large databases of compounds to determine the biological properties of chemical molecules based on their chemical structure. The QSAR modeling that is used in this research is QSAR classification and QSAR regression. Before creating the model, QSAR will perform feature extraction on the molecular structure (SMILES). The results of the feature extraction will be used as inputs for the rotation forest method of the classification and regression cases. The QSAR classification model predicts active and inactive molecules in DPP-IV inhibitors, while the regression QSAR model predicts the value of IC50 DPP-IV inhibitor activity. In this study, the classification and regression cases are also comparing the performances between the rotation forest model using the PCA rotation matrix and the rotation forest model using the Sparse PCA rotation matrix.  The results of this study indicate that the QSAR regression model using rotation forest with the rotation matrix PCA (RFR (PCA)) obtained a squared correlation coefficient of 29.2% with RMSE 45%. Meanwhile, using rotation forest regression with the Sparse PCA (RFR (SPCA)) rotation matrix obtained a quadratic correlation coefficient of 27.1% with RMSE 45.6%. In the QSAR classification, the percentage of active molecules is very large compared to inactive molecules, this can cause different evaluation values. SMOTE (Synthetic Minority Oversampling Technique) is one method for handling such unbalanced data by generating artificial data. The results of this study indicate that the classification QSAR model using rotation forest classification with PCA (RFC (PCA)) rotation matrix obtained the highest performance in predicting active and inactive molecules as follows: MCC value of 77.7% with an accuracy value of 89%, sensitivity value of 89.6% and specificity value of 88.1%. Meanwhile, the QSAR classification model using rotation forest classification with the SPCA rotation matrix (RFC (SPCA)) obtained the highest performance as follows: MCC value of 80.9% with an accuracy value of 90.5%, sensitivity value of 90.8%, and specificity value of 90.2%.
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2020
T-pdf
UI - Tesis Membership  Universitas Indonesia Library