Hasil Pencarian  ::  Simpan CSV :: Kembali

Hasil Pencarian

Ditemukan 75845 dokumen yang sesuai dengan query
cover
Galangkangin Gotera
"Singlish adalah sebuah bahasa informal yang sering digunakan warga Singapura. Karena informal, bahasa Singlish jarang ditemukan di media umum seperti majalah, koran, dan artikel internet. Meski demikian, bahasa ini sangat sering digunakan oleh warga Singapu- ra pada percakapan sehari-hari, baik daring maupun luring. Banyak campuran bahasa lain (code-mixing) merupakan tantangan lain dari Singlish. Keterbatasan GPU juga menjadi tantangan dalam mendapatkan model yang baik. Mempertimbangkan semua tantangan ini, penulis telah melatih sebuah model Efficiently Learning an Encoder that Classifies Token Replacements Accurately (ELECTRA) pada data berbahasa Singlish. ELECTRA merupakan sebuah model baru yang menawarkan waktu training lebih cepat sehingga menjadi pilihan baik jika memiliki keterbatasan GPU. Data Singlish didapatkan melalui web scraping pada reddit dan hardwarezone. Penulis membuat sebuah dataset benchmark pada dua buah permasalahan yaitu sentiment analysis dan singlish identification dengan anotasi manual sebagai metode untuk mengukur kemampuan model dalam Singlish. Penulis melakukan benchmarking pada model yang dilatih dengan beberapa model yang tersedia secara terbuka dan menemukan bahwa model ELECTRA yang dilatih memiliki perbedaan akurasi paling besar 2% dari model SINGBERT yang dilatih lebih lama dengan data yang lebih banyak.

Singlish is an informal language frequently used by citizens of Singapore (Singaporeans). Due to the informal nature, Singlish is rarely found on mainstream media such as magazines, news paper, or internet articles. However, the language is commonly used on daily conversation, whether it be online or offline. The frequent code-mixing occuring in the language is another tough challenge of Singlish. Considering all of these challenges, we trained an Efficiently Learning an Encoder that Classifies Token Replacements Accurately (ELECTRA) model on a Singlish corpus. Getting Singlish data is hard, so we have built our own Singlish data for pre-training and fine-tuning by web scraping reddit and hardwarezone. We also created a human-annotated Singlish benchmarking dataset of two downstream tasks, sentiment analysis and singlish identification. We tested our models on these benchmarks and found out that the accuracy of our ELECTRA model which is trained for a short time differ at most 2% from SINGBERT, an open source pre-trained model on Singlish which is trained with much more data."
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2021
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Mochammad Shaffa Prawiranegara
"Skripsi ini bertujuan untuk mengembangkan model klasifikasi teks berbasis Convolutional Neural Network (CNN) dan BERT Language Model untuk mendeteksi SQL Injection pada Apache Web Server. Skripsi ini melibatkan pengumpulan dan pemrosesan dataset, literasi teori dasar, perancangan sistem, implementasi sistem, dan evaluasi kinerja model deep learning. Dengan menggunakan dataset publik dari Kaggle, model yang dikembangkan berhasil mendeteksi SQL Injection dengan akurasi yang tinggi. Hasil eksperimen menunjukkan bahwa model BERT memberikan performa yang lebih baik dibandingkan dengan CNN dalam hal accuracy, precision, recall, dan F1-score. Implementasi teknik deep learning pada sistem SQL Injection Detection juga mempermudah log file analysis pada Apache Web Server. Kesimpulan dari skripsi ini adalah berhasilnya pengembangan sistem SQL Injection Detection berbasis Convolutional Neural Network (CNN) dan BERT Language Model dengan akurasi masing-masing sebesar 95.99% dan 99.84%.

This undergraduate thesis aims to develop a text classification model based on Convolutional Neural Network (CNN) and BERT Language Model to detect SQL Injection on the Apache Web Server. The research involves data collection and preprocessing, basic theory literature review, system design, system implementation, and evaluation of deep learning model performance. By using a public dataset from Kaggle, the developed model successfully detects SQL Injection with high accuracy. The experimental results show that the BERT model outperforms CNN in terms of accuracy, precision, recall, and F1-score. The implementation of deep learning techniques in the SQL Injection Detection system also simplifies log file analysis on the Apache Web Server. The conclusion of this undergraduate thesis is the successful development of an SQL Injection detection system based on Convolutional Neural Network (CNN) and BERT Language Model with accuracies of 95.99% and 99.84% respectively."
Depok: Fakultas Teknik Universitas Indonesia, 2024
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Inigo Ramli
"Model bahasa dapat mempelajari struktur suatu bahasa manusia menggunakan korpus yang tidak terstruktur. Namun, model bahasa secara umum belum dapat mempelajari pengetahuan faktual yang direpresentasikan oleh knowledge graph. Terdapat beberapa usaha untuk membuat model bahasa yang dapat mempelajari pengetahuan faktual seperti KEPLER. Sayangnya, belum terdapat penelitian yang komprehensif mengenai integrasi pengetahuan faktual terhadap pelatihan model bahasa Indonesia. Penelitian ini mengajukan model bahasa Indonesia baru bernama IndoKEPLER yang melatih model bahasa Indonesia yang sudah ada dengan korpus Wikipedia Bahasa Indonesia dan memanfaatkan pengetahuan faktual dari Wikidata. Selain itu, penelitian ini juga mengajukan metode knowledge probing baru untuk menguji pemahaman faktual suatu model bahasa Indonesia. Hasil eksperimen penelitian ini menunjukkan bahwa pelatihan model IndoKEPLER dapat meningkatkan pemahaman faktual suatu model bahasa Indonesia.

Pretrained language models have the ability to learn the structural representation of a natural language by processing unstructured textual data. However, the current language model design lacks the ability to learn factual knowledge from knowledge graphs. Several attempts have been made to address this issue, such as the development of KEPLER. Unfortunately, such knowledge enhanced language model is not yet available for the Indonesian language. In this experiment, we propose IndoKEPLER: a pretrained language model trained using Wikipedia Bahasa Indonesia and Wikidata. We also create a new knowledge probing benchmark named IndoLAMA to test the ability of a language model to recall factual knowledge. This experiment shows that IndoKEPLER has a higher ability to recall factual knowledge compared to the text encoder it’s based on."
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2021
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Ahmad Aufar Husaini
"Tugas akhir ini merupakan penelitian yang ditujukan untuk mengembangkan model dinamik pertumbuhan tanaman dengan metode Artificial Neural Network (ANN), dimana model ini memetakan hubungan antara input (massa tanaman sebelum, nutrisi, usia, serta lingkungan) dan output (pertambahan massa tanaman periode berikutnya). Metode ini dipilih berdasar pertimbangan bahwa tanaman bisa dilihat sebagai satu sistem, dimana sistem ini cukup rumit karena bersifat dinamik, non-linear, dan time-variant. Penelitian yang akan dilakukan meliputi penanaman tanaman dengan metode deep water culture (DWC), pengambilan data tanaman dan lingkungan baik secara manual atau dengan sensor yang dikirim ke server, dan pelatihan ANN untuk menemukan model yang paling tepat.
Data-data yang diambil selanjutnya diolah dan dipilah menjadi data pelatihan dan validasi. Data-data pelatihan dikumpulkan dalam database yang terdiri dari input dan output yang digunakan untuk melatih model. Terdapat beberapa model yang memiliki variasi gaya, arsitektur, dan kedalaman pelatihan (skor cost). Hasil akhir menunjukkan bahwa pemodelan pertumbuhan tanaman dengan ANN dapat dilakukan dan memiliki performa yang lebih baik daripada dengan pendekatan persamaan linear. Performa terbaik ditunjukkan oleh arsitektur residual dua sisi dengan rerata error mutlak 7.7634%.


This final project is a research aimed at developing a dynamic model of plant growth using the Artificial Neural Network (ANN) method, where this model maps the relationship between inputs (prior plant mass, nutrition, age, and environment) and output (increase in plant mass for the next period) . This method was chosen based on the consideration that plants can be seen as a system, where the system is quite complicated because it is dynamic, non-linear, and time-variant. The research that will be carried out includes planting plants with a deep water culture (DWC) method, taking plant and environmental data either manually or with sensors sent to the server, and ANN training to find the most appropriate model.
The data taken is then processed and sorted into training and validation data. Training data is collected in a database consisting of inputs and outputs used to train the model. There are several models that have variations in style, architecture, and depth of training (cost score). The final results show that modeling of plant growth with ANN can be done and has better performance than the linear equation approach. The best performance is shown by the two-sided residual architecture with an average absolute error of 7.7634%.
"
Depok: Fakultas Teknik Universitas Indonesia, 2020
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Theresia Gowandi
"Analisis sentimen adalah salah satu bidang dari Pemrosesan Bahasa Alami yang membangun sistem untuk mengenal opini dalam teks dan mengelompokkan ke dalam sentimen positif atau negatif. Banyak peneliti telah membangun model yang menghasilkan akurasi terbaik dalam melakukan analisis sentimen. Tiga diantaranya adalah Convolutional Neural Network (CNN), Long Short-Term Memory (LSTM), dan Gated Recurrent Unit (GRU), yang merupakan bagian dari deep learning. CNN digunakan karena kemampuannya dalam mengekstrak fitur penting dalam penggalan kalimat, sedangkan LSTM dan GRU digunakan karena kemampuannya yang memiliki memori akan input yang telah diproses sebelumnya. GRU memiliki struktur yang lebih sederhana dibandingkan dengan LSTM. Ketiga model tersebut dapat digabungkan menjadi model gabungan LSTM-CNN, CNN-LSTM, GRU-CNN, dan CNN-GRU. Penelitian sebelumnya telah membuktikan bahwa model gabungan tersebut memiliki akurasi yang lebih baik dibandingkan dengan model dasar LSTM, GRU, dan CNN. Implementasi model dilakukan pada data ulasan aplikasi berbahasa Indonesia. Hasilnya, didapatkan bahwa hampir seluruh model gabungan memiliki akurasi yang lebih baik dibandingkan dengan model dasar.

Sentiment analysis is one of the fields of Natural Language Processing that builds a system to recognize and extract opinion in the form of text into positive or negative sentiment. Nowadays, many researchers have developed methods that yield the best accuracy in performing analysis sentiment. Three particular models are Convolutional Neural Network (CNN), Long Short-Term Memory (LSTM), and Gated Recurrent Unit (GRU), which are part of deep learning architectures. CNN is used because of its ability to extract important features from each sentence fragment, while LSTM and GRU are used because of their ability to have a memory of prior inputs. GRU has a simpler and more practical structure compared to LSTM. These models can be combined into combined LSTM-CNN, CNN-LSTM, GRU-CNN, and CNN-GRU model. Former researches have proved that these models have better accuracy compared to standard models. This research is focused on the performance of all the combined LSTM-CNN, CNN-LSTM, GRU-CNN, CNN-GRU models and will be compared to the standard LSTM, GRU, CNN models. Implementation of the model is performed on a collection of application review data in Indonesian text. As a result, almost all of the combined models have better accuracy than the standard models."
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2021
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Yumna Pratista Tastaftian
"Speech Emotion Recognition adalah teknologi yang mampu bisa mendeteksi emosi lewat data suara yang diproses oleh sebuah mesin. Media yang sering digunakan untuk menjadi media interaksi antara 2 orang atau lebih yang saat ini sedang digunakan oleh banyak orang adalah Podcast, dan Talkshow. Seiring berkembangya SER, penelitian terakhir menunjukkan bahwa penggunaan metode Deep Learning dapat memberikan hasil yang memuaskan terhadap sistem SER. Pada penelitian ini akan diimplementasikan model Deep Learning yaitu dengan Recurrent Neural Network (RNN) variasi Long Short Term Memory (LSTM) untuk mengenali 4 kelas emosi (marah, netral, sedih, senang). Penelitian ini menguji model yang digunakan untuk mengenali emosi dari fitur akustik pada data secara sekuensial. Skenario training dan testing dilakukan dengan metode one-against-all dan mendapatkan hasil (1) Dataset talkshow mengungguli dataset podcast untuk tipe 1 dan 2 dan untuk semua emosi yang dibandingkan; (2) Untuk dataset podcast pada emosi marah, senang, dan sedih didapatkan akurasi optimal pada dataset tipe 1 yaitu 67.67%, 71.43%, dan 68,29%, sedangkan untuk emosi netral didapatkan akurasi terbaik pada dataset tipe 2 dengan 77.91%; (3) Untuk dataset talkshow pada emosi marah, netral, dan sedih didapatkan akurasi terbaik pada dataset tipe 2 yaitu 78.13%, 92.0%, dan 100%. Dapat disimpulkan bahwa dataset talkshow secara garis besar memberikan hasil yang lebih optimal namun memiliki variasi data yang lebih sedikit dari dataset podcast. Dari sisi panjang data, pada penelitian ini didapatkan akurasi yang lebih optimum pada dataset dengan tipe 2.

Speech Emotion Recognition is a technology that is able to detect emotions through voice data that is processed by a machine. Media that is often used to be a medium of interaction between two or more people who are currently being used by many people are Podcasts, and Talkshows. As SER develops, recent research shows that the use of the Deep Learning method can provide satisfactory results on the SER system. In this study a Deep Learning model will be implemented, this study uses Long Short Term Memory (LSTM) as one of the variation of Recurrent Neural Network (RNN) to recognize 4 classes of emotions (angry, neutral, sad, happy). This study examines the model used to recognize emotions from acoustic features in sequential data. Training and testing scenarios are conducted using the one-against-all method and get results (1) The talkshow dataset outperforms the podcast dataset for types 1 and 2 and for all emotions compared; (2) For the podcast dataset on angry, happy, and sad emotions, the optimal accuracy in type 1 dataset is 67.67%, 71.43%, and 68.29%, while for neutral emotions the best accuracy is obtained in type 2 dataset with 77.91%; (3) For the talkshow dataset on angry, neutral, and sad emotions the best accuracy is obtained for type 2 datasets, namely 78.13%, 92.0%, and 100%. It can be concluded that the talkshow dataset in general gives more optimal results but has fewer data variations than the podcast dataset. In terms of data length, this study found more optimum accuracy in dataset with type 2."
Depok: Fakultas Ilmu Kompter Universitas Indonesia, 2020
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Amanda Nur Oktaviani
"Skripsi ini membahas mengenai rancangan untuk pengembangan sistem penilaian esai otomatis (SIMPLE-O) menggunakan Convolutional Neural Network dan Manhattan Distance sebagai penilaian pada ujian esai Bahasa Jepang yang sedang dikembangkan oleh Departemen Teknik Elektro Universitas Indonesia. Sistem ini menggunakan Convolutional Neural Network (CNN) untuk memberikan nilai pada esai Bahasa Jepang. Dari beberapa variasi yang diuji, model yang paling stabil adalam model yang memiliki layer CNN, Manhattan Distance, dan dropout dengan dropout rate sebesar 0.1, di-train selama 32 epochs dengan loss function cross-categorical entropy dan optimizer RMSprop dengan input model ditokenisasi per karakter dengan rata-rata akurasi sebesar 59.48%.

This thesis discusses the design for the development of an automatic essay scoring system (SIMPLE-O) using the Convolutional Neural Network and Manhattan Distance as an assessment of the Japanese essay exam which is being developed by the Department of Electrical Engineering, University of Indonesia. This system uses Convolutional Neural Network (CNN) to score Japanese essays. Of the several variations tested, the most stable model is a model that has CNN, Manhattan Distance, and dropout layers with a dropout rate of 0.1, trained for 32 epochs with a loss function cross-categorical entropy and an RMSprop optimizer with model input tokenized per character on average. the average accuracy is 59.48%."
Depok: Fakultas Teknik Universitas Indonesia, 2021
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Machffud Tra Harana Vova
"Indonesia merupakan negara yang wilayahnya sering mengalami bencana alam. Salah satu penanganan bencana alam adalah pengumpulan informasi berita bencana seperti artikel atau koran, yang mana berguna untuk meningkatkan readability. Meskipun be- gitu, sekadar pengumpulan artikel saja cukup sulit karena identfikasinya dapat memakan waktu serta makna yang termuat pada berita juga masih perlu diserap. Oleh karena itu perlu dilakukan klasifikasi dokumen untuk memilih teks dokumen yang relevan dengan bencana alam, kemudian dari teks dokumen yang relevan dilakukan ekstraksi informasi. Penelitian mengenai klasifikasi teks bencana alam serta ekstraksi informasi yang sudah dilakukan masih menggunakan pendekatan pemelajaran mesin tradisional serta belum memanfaatkan pre-trained model berbasis bahasa Indonesia. Penggunaan pre-trained model dan pendekatan deep learning sendiri sering memperoleh performa yang lebih baik, sehingga ada kemungkinan performa yang dihasilkan dapat ditingkatkan. Dalam penelitian ini dilakukan eksperimen menggunakan pre-trained word embedding seperti Word2Vec dan fastText, pendekatan deep learning seperti BERT dan BiLSTM untuk task klasifikasi. Hasil dengan pendekatan pemelajaran mesin tradisional dengan BoW yang sudah direproduksi menjadi yang terbaik hampir secara keseluruhan, meskipun jenis classifier yang digunakan adalah MLP yang mana sudah menerapkan deep learning karena memiliki beberapa neuron. Kemudian pada penggunaan model pre-trained seperti BERT, terdapat keterbatasan panjang masukan. Keterbatasan ini dapat ditangani dengan membuat representasi dokumen menjadi lebih pendek menggunakan metode peringkasan teks. Hasil representasi ringkasan dokumen dalam penelitian ini mampu meningkatkan performa akurasi klasifikasi baik pada pendekatan pemelajaran mesin tradisional maupun deep learning. Penelitian ini juga melakukan ekperimen penggunaan pre-trained model yang sudah fine-tuned untuk task ekstraksi lokasi seperti NER dan dependency parsing berbasis bahasa Indonesia, meskipun belum dihasilkan performa yang cukup baik.

Indonesia is a country whose often experiences natural disasters. One way to deal with natural disasters is to collect disaster news information such as articles or newspapers, which are useful for increasing readability. Even so, just collecting articles is quite difficult because identification can take time and the meaning contained in the news still needs to be absorbed. Therefore, it is necessary to classify documents to select document texts that are relevant to natural disasters, then extract information from the relevant document texts. Research on natural disaster text classification and information extraction that has been carried out still uses the traditional machine learning approach and has not yet utilized Indonesian language-based pre-trained models. The use of pre- trained models and deep learning approaches themselves often get better performance, so there is a possibility that the resulting performance can be improved. In this study, experiments were carried out using pre-trained word embedding such as Word2Vec and fastText, deep learning approaches such as BERT and BiLSTM for classification tasks. The results with traditional machine learning approaches with reproducible BoW are the best almost overall, even though the type of classifier used is MLP which already implements deep learning because it has few neurons. Then in the use of pre-trained models such as BERT, there are limitations to the length of the input. This limitation can be overcome by making the document representation shorter using the text summary method. The results of the document summary representation in this study were able to improve the performance of classification accuracy in both traditional and deep learning machine learning approaches. This study also conducted experiments using pre-trained models that had been fine-tuned for location extraction tasks such as NER and Indonesian language-based dependency parsing, although they did not produce sufficiently good performance."
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2023
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Farhatun Nurhaniifah
"Analisis sentimen dilakukan untuk menganalisis pendapat atau pandangan seseorang terhadap suatu masalah tertentu. Analisis sentimen dapat dilakukan secara manual, tetapi jika menggunakan data berskala besar akan lebih mudah dilakukan secara otomatis yaitu dengan menggunakan machine learning. Namun, machine learning hanya efektif digunakan pada satu domain saja sehingga dikembangkanlah lifelong learning. Lifelong learning merupakan machine learning yang dapat melakukan pembelajaran secara berkelanjutan. Pada penelitian ini, model yang digunakan adalah model CNN-LSTM dan LSTM-CNN. Pada kinerja transfer of knowledge, model CNN-LSTM dan LSTM-CNN menunjukkan hasil lebih baik dibanding model LSTM, tetapi kedua model gabungan tersebut kinerjanya lebih buruk dibanding model CNN. Sedangkan, pada kinerja loss of knowledge, model model CNN-LSTM dan LSTM-CNN menunjukkan hasil lebih baik dibanding model CNN, tetapi lebih buruk dibanding model LSTM. Pada penelitian ini, diimplementasikan juga lifelong learning dengan pembaruan vocabulary. Penambahan pembaruan vocabulary pada lifelong learning meningkatkan kinerja model CNN, LSTM, CNN-LSTM, dan LSTM-CNN pada transfer of knowledge dan loss of knowledge

Sentiment analysis is done to analyze a person's opinion or views on a particular problem. Sentiment analysis can be done manually, but if you use large-scale data it will be easier to do it automatically by using machine learning. However, machine learning is only effective in one domain, so lifelong learning is developed. Lifelong learning is machine learning that can carry out continuous learning. In this study, the models used are the CNN-LSTM and LSTM-CNN models. In the transfer of knowledge performance, the CNN-LSTM and LSTM-CNN models showed better results than the LSTM model, but the two combined models performed worse than the CNN model. Meanwhile, for the loss of knowledge performance, the CNN-LSTM and LSTM-CNN models showed better results than the CNN model, but worse than the LSTM model. In this study, lifelong learning with vocabulary updates was also implemented. The addition of vocabulary updates to lifelong learning improves the performance of the CNN, LSTM, CNN-LSTM, and LSTM-CNN models on transfer of knowledge and loss of knowledge"
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2021
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Maranatha Florensia Wijaya
"Analisis sentimen merupakan bidang studi yang menganalisis pendapat seseorang terhadap suatu entitas untuk mencari polaritas sentimennya. Potensi manfaat yang besar didukung dengan ketersediaan data teks beropini yang melimpah di internet memicu dikembangkannya model yang mampu melakukan analisis sentimen secara otomatis dan seakurat mungkin. Dua diantaranya adalah Long Short-Term Memory (LSTM) dan Convolutional Neural Network (CNN) yang merupakan arsitektur deep learning. LSTM digunakan karena dapat menangkap aliran informasi pada kalimat, sedangkan CNN digunakan karena kemampuannya dalam mengekstrak fitur penting dari tiap penggalan kalimat atau region. Kedua model ini dapat digabungkan menjadi model gabungan LSTM-CNN yang telah terbukti mampu meningkatkan akurasi model. Penelitian ini kemudian akan mengajukan modifikasi pada model gabungan LSTM-CNN dengan mengganti LSTM menjadi Bidirectional LSTM (BiLSTM) dan CNN menjadi CNN Multi Region Size CNNMRS sehingga terbentuk tiga model modifikasi yaitu BiLSTM-CNN, LSTM-CNNMRS, dan BiLSTM-CNNMRS. Implementasi model, baik untuk model gabungan LSTM-CNN standar maupun model modifikasi, dilakukan pada data tweets berbahasa Indonesia. Hasilnya, didapatkan kesimpulan bahwa penggunaan BiLSTM untuk menggantikan LSTM pada model gabungan LSTM CNN tidak meningkatkan akurasi dari model. Hal berbeda didapatkan dari penggunaan CNNMRS untuk menggantikan CNN yang memberikan peningkatan akurasi pada model."
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2020
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
<<   1 2 3 4 5 6 7 8 9 10   >>