Hasil Pencarian  ::  Simpan CSV :: Kembali

Hasil Pencarian

Ditemukan 21 dokumen yang sesuai dengan query
cover
Qusyairi Ridho Saeful Fitni
"Dalam beberapa tahun terakhir, keamanan data pada sistem informasi organisasi telah menjadi perhatian serius. Banyak serangan menjadi kurang terdeteksi oleh firewall dan perangkat lunak antivirus. Untuk meningkatkan keamanan, intrusion detection systems (IDS) digunakan untuk mendeteksi serangan dalam lalu lintas jaringan. Saat ini, teknologi IDS memiliki masalah kinerja mengenai akurasi deteksi, waktu deteksi, pemberitahuan alarm palsu, dan deteksi jenis serangan baru atau belum diketahui. Beberapa studi telah menerapkan pendekatan pembelajaran mesin (machine learning) sebagai solusi, dan mendapat beberapa peningkatan. Penelitian ini menggunakan pendekatan pembelajaran ensemble (ensemble learning) yang dapat mengintegrasikan manfaat dari setiap algoritma pengklasifikasi tunggal. Pada penelitian ini, dibandingkan tujuh pengklasifikasi tunggal untuk mengidentifikasi pengklasifikasi dasar yang digunakan untuk model ensemble learning. Kemudian dataset IDS terbaru dari Canadian Institute for Cybersecurity yaitu CSE-CIC-IDS2018 digunakan untuk mengevaluasi model ensemble learning. Hasil percobaan menujukan bahwa implementasi metode ensemble learning khususnya majority voting dengan tiga algoritma dasar (gradient boosting, decision tree dan logistic regression) dapat meningkatkan nilai akurasi lebih baik dibandingkan implementasi algoritma klasifikasi tunggal, yaitu 0,988. Selanjutnya, implementasi teknik pemilihan fitur spearman-rank order correlation pada dataset CSE-CIC-IDS2018 menghasilkan 23 dari 80 fitur, dan dapat meningkatkan waktu pelatihan model, yaitu menjadi 11 menit 4 detik dibanding sebelumnya 34 menit 2 detik.

In recent years, data security in organizational information systems has become a serious concern. Many attacks are becoming less detectable by firewall and antivirus software. To improve security, intrusion detection systems (IDSs) are used to detect anomalies in network traffic. Currently, IDS technology has performance issues regarding detection accuracy, detection times, false alarm notifications, and unknown attack detection. Several studies have applied machine learning approaches as solutions. This study used an ensemble learning approach that integrates the benefits of each single classifier algorithms. We made comparisons with seven single classifiers to identify the most appropriate basic classifiers for ensemble learning. Then the latest IDS dataset from the Canadian Institute for Cybersecurity, CSE-CIC-IDS2018, was used to evaluate the ensemble learning model. The experimental results show that the implementation of the ensemble learning method, especially majority voting with three basic algorithms (gradient boosting, decision tree and logistic regression) can increase the accuracy rate better than the implementation of a single classification algorithm, which is 0.988. Furthermore, the implementation of the spearman-rank order correlation feature selection technique in the CSE-CIC-IDS2018 dataset produced 23 of the 80 features, and could increase the model training time, which was 11 minutes 4 seconds compared to 34 minutes 2 seconds before."
Depok: Fakultas Teknik Universitas Indonesia, 2020
T-pdf
UI - Tesis Membership  Universitas Indonesia Library
cover
Reja Aji Saputra
"

Kemacetan merupakan salah satu masalah yang belum bisa terselesaikan di kota-kota besar di Indonesia. Salah satu cara untuk mengatasi masalah ini, yaitu dengan memanfaatkan teknologi yang dapat memantau lalu lintas secara otomatis, agar dapat dimonitor dan dianalisis untuk pengembangan fasilitas serta kebijakan guna menyelesaikan masalah ini. Teknologi yang dapat diterapkan untuk masalah ini, yaitu teknologi image processing yang dikolaborasikan dengan machine learning dan dengan bantuan library OpenCV. Pendeteksian objek menggunakan MobileNet-SSD dan Caffe model, objek yang dideteksi merupakan kendaraan yang melintas di jalan, pengambilan input menggunakan kamera CCTV yang diakses oleh publik. Kecepatan, performa, akurasi, dan kepadatan jalanan merupakan variabel yang dianalisis pada penulisan ini. Hasil dari pendeteksian memiliki akurasi yang tidak cukup baik sekitar 43% untuk keseluruhan, dan 68% untuk pendeteksian mobil. Terdapat penambahan fitur pada penelitian ini, yaitu pendeteksian motor yang memiliki akurasi 51%


Traffic jam is one of many problems that cannot be solved in various cities in Indonesia. One way to overcome this problem is to use technology that can monitor traffic automatically, so that traffic conditions can be monitored, and analyzed for the development of facilities and policies to solve this problem. One of the technologies that can be applied to this problem is image processing technology in collaboration with machine learning, and OpenCV. This research use Mobilenet-SSD and Caffe models for objects detection, objects detected are vehicles that cross the road, input is taken from CCTV cameras that can accessed by public. Speed, performance, accuracy, and road density are the variables analyzed in this paper. The results of the detection have an accuracy that is not good enough only about 43% for the whole detection, and 68% for the detection of the car, and 51% for the detection of the motorcycle

"
Depok: Fakultas Teknik Universitas Indonesia, 2020
S-Pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Bisyron Wahyudi
"ABSTRAK
Salah satu komponen penting dalam Sistem Monitoring Keamanan Jaringan adalah Intrusion Detection System IDS yang berfungsi untuk mendeteksi setiap potensi serangan yang mengancam keamanan jaringan. Keunggulan sebuah IDS ditentukan oleh kemampuannya untuk mendeteksi serangan siber secara akurat dan mudah beradaptasi terhadap perubahan lingkungan sistem yang terus berkembang. Sebuah IDS yang akurat mampu mendeteksi berbagai jenis serangan secara tepat dengan sedikit kesalahan deteksi false alarm .Penelitian ini merancang dan mengimplementasikan metode machine learning ke dalam IDS yang digunakan untuk mendeteksi serangan dalam jaringan sebenarnya secara akurat dan cepat. Dalam pengembangan model machine learning untuk IDS ini digunakan dataset KDDCUP rsquo;99 dan NSL-KDD. Dengan melakukan analisis pemilihan fitur diperoleh subset 28 fitur dari total 41 fitur dataset KDD yang paling relevan dan dapat diimplementasikan dalam jaringan sebenarnya. Dalam pengembangan model machine learning diperoleh hasil bahwa metode terbaik adalah menggunakan SVM.Pada tahap implementasi digunakan metode multi-stage detection yang memberikan hasil deteksi serangan yang lebih cepat dan akurat. Hasil ujicoba model IDS yang telah dikembangkan menggunakan metode machine learning dengan implementasi multi-stage detection mampu mendeteksi serangan dengan tingkat akurasi sampai 99,37 . Lebih jauh lagi, kecepatan proses deteksi meningkat dengan rata-rata 24 pada data testing dan rata-rata 10 pada lingkungan jaringan sebenarnya.

ABSTRACT
An important component in Network Security Monitoring System is Intrusion Detection System IDS . IDS serves to detect any potential attacks that threaten network security. The reliability of an IDS is determined by its ability to detect cyber attacks accurately, and to dynamically adapt to ever-evolving system environment changes. An accurate IDS is able to detect different types of attacks appropriately with minimum false alarm.This research designs and implements machine learning method into IDS to detect actual network attacks accurately and quickly. In the development of machine learning model for IDS, KDDCUP 39;99 and NSL-KDD dataset are used. By performing feature selection analysis, a subset of 28 most relevant features of a total of 41 features of KDD dataset is obtained and can be implemented in the actual network. In the development of machine learning model it is found that the best method for our approach is by using SVM.In the implementation phase the proposed multi-stage detection method provides faster and more accurate attack detection. The experiments also show that combining machine learning method with multi-stage detection implementation improves detection accuracy up to 99.37 . Further, the proposed method increases the average speed of detection process up to 24 in data testing and up to 10 average in the real network environment."
Depok: Fakultas Teknik Universitas Indonesia, 2018
D2498
UI - Disertasi Membership  Universitas Indonesia Library
cover
Dessy Ana Laila Sari
"ABSTRAK
Klasifikasi emosi manusia merupakan salah satu topik hangat yang dapat dimanfaatkan dalam berbagai bidang, baik medis maupun militer. Emosi manusia sendiri dapat diklasifikasi dengan berbagai metode, salah satunya adalah Machine Learning (ML). Machine learning merupakan proses pembelajaran computer untuk menyelesaikan task tertentu, dengan menggunakan metode ini hasil yang didapatkan akan lebih akurat dan konstan. Dalam tesis ini akan dikembangkan sistem klasifikasi emosi manusia berdasarkan sinyal EEG dari DEAP yang berbasis ML dengan berbagai studi metode ML, seperti Backpropagation Neural Network (BPNN), k-Nearest Neighbor (k-NN), Support Vector Machine (SVM) hingga Random Forest (RF). Sistem klasifikasi kemudian akan dikembangkan kembali menggunakan metode Convolutional Neural Network (CNN). Dari penelitian ini didapatkan bahwa nilai recognition rate yang dihasilkan hanya berkisar 50% dengan nilai maksimal 62%. Sistem juga diberikan feature selection layer untuk memaksimalkan recognition rate, namun penambahan ini tidak memberikan hasil yang signifikan. Dengan demikian recognition rate pada sistem klasifikasi menggunakan sinyal EEG sangat bergantung pada pemrosesan sinyal raw.

ABSTRACT
The classification of human emotions is a hot topic that can be utilized in various fields, both medical and military. Human emotions themselves can be classified by various methods, one of which is Machine Learning (ML). Machine learning is a process of learning computers to complete certain tasks, using this method the results obtained will be more accurate and constant. In this thesis a human emotion classification system will be developed based on EEG signals from DEAP dataset using various ML method studies, such as Backpropagation Neural Network (BPNN), k-Nearest Neighbor (k-NN), Support Vector Machine (SVM) to Random Forest (RF). The classification system will be developed again using the Convolutional Neural Network (CNN) method. From this study it was found that the value of the recognition rate produced is only around 50% with a maximum value of 62%. The system is also given a feature selection layer to maximize recognition rate, but this addition does not provide significant results. Thus the recognition rate in the classification system using EEG signals is very dependent on raw signal processing."
Depok: Fakultas Teknik Universitas Indonesia, 2020
T-Pdf
UI - Tesis Membership  Universitas Indonesia Library
cover
Deandra Aulia Rusdah
"Prediksi klaim dan prediksi risiko asuransi dilakukan untuk mengklasifikasikan klaim dan tingkat risiko dalam industri asuransi. Dari sudut pandang pembelajaran mesin, masalah prediksi klaim merupakan klasifikasi dua kelas dan masalah prediksi risiko adalah klasifikasi multi-kelas. Untuk mengklasifikasikan klaim dan risiko, model pembelajaran mesin akan memprediksi berdasarkan data historis. Dalam data historis pemohon asuransi, akan ada kemungkinan nilai yang hilang (missing values) sehingga perlu untuk mengatasi masalah tersebut agar memberikan kinerja yang lebih baik. XGBoost adalah metode pembelajaran mesin yang banyak digunakan untuk masalah klasifikasi dan dapat menangani nilai yang hilang (missing values) tanpa dilakukan proses imputasi terlebih dahulu. Penelitian ini menganalisis kinerja metode XGBoost dalam menangani nilai-nilai yang hilang (missing values) untuk prediksi klaim dan prediksi risiko dalam asuransi dan kinerja tersebut juga dibandingkan dengan metode imputasi standard lainnya, yaitu metode mean dan k-nearest neighbors (KNN). Simulasi menunjukkan bahwa model XGBoost tanpa dilakukan proses imputasi memberikan hasil yang sebanding dengan model XGBoost dengan imputasi

Claim prediction and risk prediction of insurance is carried out to classify claims and the levels of risk in insurance industries. From the machine learning point of view, the problem of claim prediction is a two-class classification, and the problem of risk level prediction is a multi-class classification. To classify the claims and risk, a machine learning model will predict based on historical data. In the insurance applicant's historical data, there will be the possibility of missing values so that it is necessary to deal with these problems to provide better performance. XGBoost is a machine learning method that is widely used for classification problems and can handle missing values without an imputation preprocessing. This study analyzed the performance of the XGBoost model in handling missing values for claim prediction and risk prediction in insurance and the performance is also compared with other standard imputation methods, i.e the mean and k-nearest neighbors (KNN) method. The simulations show that the XGBoost model without any imputation preprocessing gives a comparable result to one of the XGBoost models with an imputation preprocessing."
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2020
T-pdf
UI - Tesis Membership  Universitas Indonesia Library
cover
Aldo Sultan Manneken
"Dalam pelaksanaan distribusi listrik yang dilakukan PT.”X” terhadap pelanggan PT. “X”, terdapat susut energi listrik yang terjadi baik secara teknis maupun non teknis. Susut energi listrik ini mengakibatkan kerugian yang cukup besar bagi PT.”X” setiap tahunnya. Dalam upaya untuk mengatasi dan mengurangi susut energi non teknis, PT.”X” mengadakan kegiatan P2TL dimana pada kegiatan ini, petugas P2TL akan melakukan pengecekan pada pelanggan PT.”X” yang terindikasi melakukan susut energi non teknis. Namun, dalam pelaksanaan kegiatan P2TL, PT.”X” masih melakukan proses penentuan target operasi P2TL secara manual. Untuk membantu kinerja PT.”X” dalam melakukan kegiatan P2TL, diperlukan pendekatan lain dalam melakukan penentuan target operasi P2TL. Penelitian ini akan melakukan pendekatan berbasis machine learning dengan metode supervised learning untuk melakukan deteksi pencurian tenaga listrik. Terdapat tiga algoritma yang akan digunakan dalam penelitian ini, yaitu: Naïve bayes, Naïve bayes dengan AdaBoost, dan logistic regression. Dalam penelitian ini, dataset yang digunakan adalah dataset pemakaian bulanan 423.216 pengguna listrik PT.”X” pascabayar selama 49 bulan yaitu sejak bulan Agustus tahun 2018 hingga bulan Agustus tahun 2022. Hasil penelitian ini menunjukkan rata-rata akurasi model yaitu Naïve bayes sebesar 53%, Naïve bayes dengan AdaBoost sebesar 64%, dan logistic regression sebesar 75%. Algoritma logistic regression menunjukkan performa paling baik dibandingkan dengan kedua algoritma lainnya yaitu rata-rata precision score 74%, rata-rata F1 score 59% dan rata-rata recall score adalah 60%.

In the implementation of electricity distribution carried out by PT. “X”-to-PT.”X” customers, there are losses in electrical energy that occur both technically and non-technically. This loss of electrical energy results in substantial losses for PT.”X” every year. To overcome and reduce non-technical energy losses, PT.”X” holds P2TL activities where in this activity, P2TL officers will check PT.”X” customers who are suspected of carrying out non-technical energy losses. However, in carrying out P2TL activities, PT.”X” is still carrying out the process of determining P2TL operational targets manually. To assist PT. “X”'s performance in carrying out P2TL activities, another approach is needed in determining P2TL operational targets. This research will use a machine learning-based approach using supervised learning method to detect electricity theft. There are three algorithms that will be used in this study, namely: naïve bayes, naïve bayes with AdaBoost, and logistic regression. In this study, the dataset used is the monthly usage dataset of 423,216 postpaid PT.”X” electricity users for 49 months, from August 2018 to August 2022. The results of this study show that the average accuracy of the model by naïve bayes is 53%, naïve bayes with AdaBoost is 64%, and logistic regression is 75%. The logistic regression algorithm shows the best performance compared to the other two algorithms, where the average precision score is 74%, the average F1 score is 59% and the average recall score is 60%."
Depok: Fakultas Teknik Universitas Indonesia, 2022
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Eko Satria
"Dengan berkembangnya teknologi pada saat sekarang, kemampuan mesin terutama pada bidang deteksi wajah semakin berkembang. Kemampuan deteksi wajah ini dapat diimplemenentasikan dalam beberapa bidang seperti camera cctv, absensi automatis, dll. Kemampuan deteksi wajah dapat juga memprediksi emosi yang terlihat pada wajah.Kemampuan-kemampuan tersebut muncul dari hasil penelitian banyak orang. Peneliatan tersebut menghasilkan suatu algoritma yang berfungsi untuk mendeteksi wajah dan mengenali wajah serperti Haarcascade, MTCNN, dan RetinaFace. Dalam tahap implementasiannya, ketiga algoritma tersebut masih membutuhkan teknisi khusus untuk menghubungkannya. Untuk mengatasi masalah tersebut, dibuatlah suatu framework bernama DeepFace. Algoritma Haarcascade, MTCNN dan RetinaFace diterintergrasi kedalam framework DeepFace. Di bahas pada skripsi ini bagaimana cara kerja algoritma-algoritma tersebut dan bagaimana perbandingan performa antara algoritma-algoritma yang ada. Setelah melakukan percobaan, diketahui algoritma Retinaface dengan nilai precision 56.05% merupakan algoritma yang terbaik dalam mendeteksi wajah.

With the development of technology at this time, machine capabilities, especially in the field of face detection, are growing. This face detection capability can be implemented in several fields such as CCTV cameras, automatic attendance, etc. Face detection capabilities can also predict the emotions shown on faces. These abilities emerged
from the results of research by many people. This research produces an algorithm that functions to detect faces and recognize faces such as Haarcascade, MTCNN, and RetinaFace. In the implementation stage, the three algorithms still require a special technician to connect them. To overcome this problem, a framework called DeepFace was created. The Haarcascade, MTCNN and RetinaFace algorithms are integrated into the DeepFace framework. This thesis discusses how these algorithms work and how the performance is compared between existing algorithms. After conducting experiments, it is known that the Retinaface algorithm with precision of 56.05% is the best algorithm for detecting faces."
Depok: Fakultas Teknik Universitas Indonesia, 2023
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Widyo Jatmoko
"Memprediksi penjualan produk sangatlah penting bagi perusahaan FMCG terutama pada kondisi ekonomi yang tak menentu saat ini. Kemampuan untuk mencapai efisiensi dalam pembuatan, pendistribusian, dan pemasaran barang, sangatlah bergantung pada seberapa akurat perkiraan penjualan. Pengaruh prediksi penjualan yang salah dapat menyebabkan perubahan perilaku konsumen terhadap produk, persediaan berlebih, dan kurangnya stok di pasar. Banyak penelitian yang menunjukkan bahwa metoda machine learning saat ini adalah metoda terbaik untuk memprediksi penjualan, namun, banyak perusahaan masih kesulitan untuk menggunakan metoda machine learning ini dikarenakan banyak variabel yang dibutuhkan untuk memprediksi penjualan agar hasilnya menjadi lebih akurat. Penelitian ini mengusulkan kerangka sederhana untuk memprediksi penjualan produk menggunakan metoda machine learning regresi linear, decision tree, random forest serta support vector machine dalam variabel seperti harga produk, tingkat distribusi, pemasaran dan variabel eksternal seperti inflasi, indeks kepercayaan konsumen dan tingkat bunga. Hasilnya menunjukkan bahwa menggabungkan regresi random forest untuk meramalkan Indeks kepercayaan Konsumen dan kemudian menggunakan regresi support vector dalam variabel-variabel ini cukup akurat untuk memprediksi penjualan.

Predicting the sales of the product is becoming more critical for fast-moving consumer goods company especially during unprecedented times. The ability to achieve efficiency for manufacturing, distributing, and marketing for the goods, are really dependent on how accurate the sales forecast is. The effect of wrong sales prediction could lead to consumer behavior changes towards the product, excessive inventory, and out of stocks in the market. Many papers show that machine learning techniques are currently the best practice to predict sales, however, many companies are still struggling to use these machine learning techniques due to many variables that are being needed to forecast the sales for the result to become more accurate. This study proposed a simple framework to forecast the sales of products using the combined supervised machine learning technique between multiple linear regression, decision tree regression, random forest regression, and support vector regression within internal marketing variables such as product price, distribution level, and marketing spends and external variables such as inflation, consumer confidence index and interest rate. The results show that combining random forest regression to forecast the Consumer Confidence Index and then using support vector regression within these variables is quite accurate to predict the sales."
Depok: Fakultas Teknik Universitas Indonesia, 2021
T-pdf
UI - Tesis Membership  Universitas Indonesia Library
cover
Toto Haryanto
"Kanker merupakan salah satu penyakit yang memiliki angka kematian tergolong tinggi di dunia. Analisis dengan menggunakan citra histopatologi merupakan gold standar yang dilakukan untuk diagnosa kanker. Kehadiran machine learning dan deep learning memanfaatkan data untuk dilatih dan kemudian akan menghasilkan metode untuk memprediksi atau identifikasi kanker. Kebutuhan data di dalam machine learning terlebih lagi deep learning sudah seharusnya tersedia. Namun, permasalahan yang kerap kali terjadi jika melakukan penelitian dengan data medis histopatologi adalah keterdiaan data yang terbatas. Salah satu kebaruan dari disertasi ini adalah telah berhasil melakukan modifikasi dan algoritma sliding window untuk mengatasi keterbatasan data citra histopatologi yang disebut dengan conditional sliding windows. Selain itu, disertasi ini juga telah berhasil merancang arsitektur deep learning untuk menghasilkan metode identifikasi status kanker dengan citra histopatologi dengan akurasi dapat dibandingkan dengan metode terkini yang berkembang. Penggunaan conditional sliding window mampu menghasilkan beberapa skenario dataset citra histopatologi yang akan digunakan sebagai dataset untuk proses pelatihan. Arsitektur yang dikembangkan adalah convolutional neural network (CNN) yang kami sebut dengan CNN-7-5-7. Dibandingkan dengan arsitektur deep learning seperti Alexnet dan DenseNet, CNN 7-5-7 menghasilkan performa yang lebih konsisten dan juga relatif lebih cepat dalam pelatihan. Apabila dibandingkan dengan model dengan data hasil pembangkitan Generative Adversarial Network (GAN).

Cancer is a disease that has a relatively high mortality rate in the world. Analysis using histopathological images is the gold standard for cancer diagnosis. The presence of machine learning and deep learning utilizes data to be trained and will produce methods to predict or identify cancer. The data needs in machine learning, especially deep learning, should be available. However, the problem that often occurs when conducting research with histopathological medical data is the limited availability of data. One of the novelties of this research is the successful modification and sliding window algorithm to overcome the limitations of histopathological image data which is called conditional sliding windows. In addition, this dissertation has also succeeded in designing a deep learning architecture to produce a method of identifying cancer status with histopathological images with an accuracy comparable to the latest developed methods. The use of conditional sliding windows is able to produce several scenarios of histopathological image datasets that will be used as datasets for the training process. The architecture developed is a convolutional neural network (CNN) which we call CNN-7-5-7. Compared to deep learning architectures such as Alexnet and DenseNet, CNN 7-5-7 delivers more consistent performance and is also relatively faster in training. When compared with the model with the generated Generative Adversarial Network (GAN) data."
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2020
D-pdf
UI - Disertasi Membership  Universitas Indonesia Library
cover
Yudhistira Erlandinata
"Korpus relasi semantik dapat menunjang berbagai penelitian di bidang pengolahan bahasa manusia. Untuk Bahasa Indonesia, korpus relasi semantik yang berukuran besar dan berkualitas baik masih belum tersedia. Korpus relasi semantik dapat dibuat secara manual dengan melibatkan anotator dan juga dapat dihasilkan secara otomatis menggunakan algoritma rule-based atau machine learning. Penelitian ini bertujuan untuk mengevaluasiseberapa baik kualitas korpus relasi semantik Bahasa Indonesia, khususnya relasi hiponim-hipernim, apabila dibangun dengan pendekatan machine learning dan metode crowdsourcing yang menerapkan gamifikasi. Algoritma pattern-based yang sebelumnya pernah diteliti untuk Bahasa Indonesia akan digunakan untuk menghasilkan data training algoritma machine learning dan kandidat entri korpus untuk dianotasi dengan metode crowdsourcing. Kualitas korpus hasil metode crowdsourcing diukur berdasarkan tingkat persetujuan antar anotator dan diperoleh hasil yang cukup baik walaupun belum sempurna. Untuk pendekatan machine learning, beberapa model
machine learning yang diterapkan masih belum memberikan hasil optimal karena
keterbatasan resource.
Kata kunci: relasi semantik, hiponim-hipernim, crowdsourcing, gamifikasi, machine
learning, pattern-based

Semantic relations corpus is vital to support research in the field of Natural Language
Processing. Currently, there is no existing corpus of semantic relations in Indonesian
language which is enormous and high-quality. The corpus can be constructed manually
by employing human annotators or built automatically using rule-based or machine
learning algorithms. This research aims to evaluate the quality of Indonesian hyponym-
hypernym semantic relations corpus that is produced by crowdsourcing mechanism with
gamification, and to test the model for semantic relations prediction using machine
learning algorithms. The pattern-based method is applied to obtain the training data for
machine learning experiments and corpus entry candidates to be annotated using the
crowdsourcing method. The quality of the crowdsourced corpus is measured using inter-
annotator agreement. The experimental result shows that the gamification-based
crowdsourcing method is promising to produce the corpus. On the other hand, machine
learning models tested in this research have not given optimal results yet due to the
limitations of the lexical resources in Indonesian language.
"
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2021
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
<<   1 2 3   >>