Hasil Pencarian  ::  Simpan CSV :: Kembali

Hasil Pencarian

Ditemukan 88528 dokumen yang sesuai dengan query
cover
Yogi Lesmana Sulestio
"Penelitian Part-of-Speech tagger (POS tagger) untuk bahasa Indonesia telah banyak dikembangkan. Sayangnya, sejauh ini baru Polyglot yang menggunakan POS tag menurut pedoman anotasi Universal Dependencies (UD). Namun, Polyglot sendiri masih mempunyai kekurangan karena belum dapat mengatasi klitik dan kata ulang yang terdapat dalam bahasa Indonesia. Tujuan penelitian ini adalah mengembangkan POS tagger untuk bahasa Indonesia yang tidak hanya sesuai dengan ketentuan anotasi UD, tapi juga sudah mengatasi kekurangan Polyglot. POS tagger ini akan dikembangkan dengan metode deep learning menggunakan arsitektur yang merupakan versi modifikasi dari Recurrent Neural Network (RNN), yaitu Bidirectional Long Short-Term Memory (Bi-LSTM). Dataset yang digunakan untuk mengembangkan POS tagger adalah sebuah dependency treebank bahasa Indonesia yang terdiri dari 1.000 kalimat dan 19.401 token. Hasil eksperimen dengan menggunakan Polyglot sebagai pembanding menunjukkan bahwa POS tagger yang dikembangkan lebih baik dengan tingkat akurasi POS tagging yang meningkat sebesar 6,69% dari 84,82% menjadi 91,51%.

There have been many studies that have developed Part-of-Speech tagger (POS tagger) for Indonesian language. Unfortunately, so far only Polyglot that has used POS tag according to Universal Dependencies (UD) annotation guidelines. However, Polyglot itself still has shortcomings since it has not been able to overcome clitics and reduplicated words in Indonesian language. The purpose of this study is to develop POS tagger for Indonesian language which is not only in accordance with UD annotation guidelines, but also has overcome Polyglot’s shortcomings. This POS tagger will be developed under deep learning method by using modified version of Recurrent Neural Network (RNN) architecture, Bidirectional Long Short-Term Memory (Bi-LSTM). The dataset used to develop POS tagger is an Indonesian dependency treebank consisting of 1.000 sentences and 19.401 tokens. Result of experiment using Polyglot as baseline shows that the developed POS tagger is better. This is indicated by increased accuracy POS tagging by 6,69% from 84,82% to 91,51%."
Depok: Fakultas Ilmu Kompter Universitas Indonesia, 2020
TA-pdf
UI - Tugas Akhir  Universitas Indonesia Library
cover
Stanley Pratama
"Parafrasa merupakan suatu cara untuk menuliskan kalimat dengan kata-kata lain dengan maksud atau tujuan yang sama. Pendeteksian parafrasa otomatis dapat dilakukan dengan menggunakan Natural Language Sentence Matching (NLSM) yang merupakan bagian dari Natural Language Processing (NLP). NLP merupakan teknik komputasi untuk memproses teks secara umum, sedangkan NLSM dikhususkan untuk mencari hubungan antar dua kalimat. Dengan adanya perkembangan neural network (NN), maka saat ini NLP dapat lebih mudah dilakukan oleh komputer.Model untuk mendeteksi maupun membuat parafrasa Bahasa Inggris sudah banyak dikembangkan dibandingkan dengan Bahasa Indonesia yang data pelatihannya lebih sedikit. Penelitian ini mengusulkan Model SPratama yang memodelkan deteksi parafrasa untuk Bahasa Indonesia menggunakan recurrent neural network (RNN) yaitu bidirectional long short-term memory (BiLSTM) dan bidirectional gated recurrent unit (BiGRU). Data yang digunakan adalah “Quora Question Pairs” yang diambil dari Kaggle dan diterjemahkan ke Bahasa Indonesia menggunakan Google Translate. Hasil penelitian ini menunjukkan bahwa model-model yang diusulkan mendapatkan akurasi sekitar 80% untuk pendeteksian kalimat parafrasa.

Paraphrasing is a way to write sentences with other words with the same intent or purpose. Automatic paraphrase detection can be done using Natural Language Sentence Matching (NLSM) which is part of Natural Language Processing (NLP). NLP is a computational technique for processing text in general, while NLSM is used specifically to find the relationship between two sentences. With the development neural network (NN), nowadays NLP can be done more easily by computers. Many models for detecting and paraphrasing in English have been developed compared to Indonesian, which has less training data. This study proposes SPratamaModel, which models paraphrase detection for Indonesian using a recurrent neural network (RNN), namely bidirectional long short-term memory (BiLSTM) and bidirectional gated recurrent unit (BiGRU). The data used is "Quora Question Pairs" taken from Kaggle and translated into Indonesian using Google Translate. The results of this study indicate that the proposed models have the accuracy of around 80% for the detection of paraphrased sentences."
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2021
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Jakarta: Suluh Indonesia, 1955
R 499.221 KAS
Buku Referensi  Universitas Indonesia Library
cover
Abdul Rajak Husain
Solo: Aneka, 1995
R 411.03 ABD s
Buku Referensi  Universitas Indonesia Library
cover
cover
Fathia Amira Nuramalia
"Twitter adalah platform media sosial microblogging yang memungkinkan komunikasi dua arah untuk mengutarakan opini dan komentar. Komentar-komentar yang beragam ini dapat memperlihatkan sentimen-sentimen masyarakat apabila dilakukan analisis sentimen. Analisis sentimen adalah studi yang menganalisis opini orang terhadap suatu produk, organisasi, individu, atau jasa tertentu. Machine learning merupakan metode yang dapat mempermudah proses klasifikasi sentimen. Penelitian ini dilakukan pada cuitan berbahasa Indonesia terkait Kampus Merdeka yang diambil dari Twitter menggunakan package tweepy sebanyak 1.651 cuitan terhitung dari tanggal 5 Maret 2022 hingga 13 Maret 2022. Model machine learning yang digunakan pada penelitian ini adalah Bidirectional Long Short-Term Memory (BiLSTM), dengan dua model hybrid LSTM-based, yaitu CNN-LSTM dan LSTM-CNN sebagai pembanding. Kinerja model diukur dengan metrik kinerja accuracy, precision, recall, dan F1-score. Implementasi dilakukan pada data yang telah dilakukan oversampling untuk mendapatkan hasil yang optimal. Penelitian menunjukkan bahwa model BiLSTM memiliki kinerja yang lebih unggul dibandingkan dengan dua model pembanding lainnya pada seluruh metrik dengan besar metrik, yaitu: accuracy dan recall sebesar 79,577%; precision sebesar 73,097%; dan F1-score sebesar 75,634%.

Twitter is a microblogging social media platform that allows two-way communication to express opinion and comments. These various comments can show us sentiment of the public when we perform a sentiment analysis. Sentiment analysis is a study that analyze the opinion of people towards a specific product, organization, individual, or service. Machine learning is a method that will help perform sentiment classification easier. This study performs analysis on 1.651 data tweets about Kampus Merdeka taken from Twitter using a package called tweepy since March 5th 2022 until March 13th 2022. The machine learning model used in this study is Bidirectional Long Short-Term Memory (BiLSTM), with two LSTM-based hybrid model, CNN-LSTM and LSTM-CNN as comparison models. Model performance is measured by performance metrics accuracy, precision, recall, and F1-score. Implementation was done on data that has been going through oversampling to achieve the best result. The study shows that BiLSTM performs better than the other two comparison models for all the metrics with the percentage of the each metric being: 79.577% for accuracy and recall; 73,097% for precision; and 75,634% for F1-score."
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2022
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Agung Firmansyah
"Jurnal ini membahas tentang pengembangan Sistem Penilaian Esai Otomatis (SIMPLE-O) untuk Bahasa Indonesia menggunakan BERT (Bidirectional Encoder Representations from Transformers) dan Bidirectional LSTM. BERT digunakan untuk melakukan sentence embedding pada jawaban mahasiswa dan dosen, yang kemudian diproses oleh Bidirectional LSTM. Kemiripan antara jawaban diukur dengan menggunakan Manhattan Distance dan Cosine Similarity. Hasil pengujian menunjukkan bahwa rata-rata selisih absolut antara nilai model dengan nilai human rater adalah 22.83 dengan error MAE dan RMSE sebesar 0.2462 dan 0.2850 untuk Manhattan Distance, dan 12.88 dengan error MAE dan RMSE sebesar 0.1614 dan 0.1946 untuk Cosine Similarity.

This paper presents the development of an Automatic Essay Scoring System (SIMPLE-O) for the Indonesian using BERT (Bidirectional Encoder Representations from Transformers) and Bidirectional LSTM. BERT is used to perform sentence embedding on both student and lecturer answers, which are then processed by Bidirectional LSTM. The similarity between the answers is measured using Manhattan Distance and Cosine Similarity. The test results show that the average absolute difference between the model score and the human rater score is 22.83 with MAE and RMSE error of 0.2462 and 0.2850 for Manhattan Distance, and 12.88 with MAE and RMSE error of 0.1614 and 0.1946 for Cosine Similarity."
Depok: Fakultas Teknik Universitas Indonesia, 2024
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Akmal Ramadhan Arifin
"Sistem Penilaian Esai Otomatis (SIMPLE-O) dikembangkan oleh Departemen Teknik Elektro Fakultas Teknik Universitas Indonesia untuk ujian bahasa Indonesia. Skripsi ini akan membahas mengenai pengembangan SIMPLE-O untuk penilaian ujian bahasa Indonesia menggunakan metode Siamese Manhattan Long Short-Term Memory (LSTM) dan bahasa pemrograman Python. Terdapat dua dokumen yang akan menjadi input, yaitu jawaban esai dari peserta ujian dan jawaban referensi dari penguji. Kedua jawaban diproses dengan layer LSTM yang sama. Selanjutnya, kemiripan antara keduanya dihitung dengan fungsi persamaan. Pengujian dengan dataset jawaban dummy mendapatkan nilai MAE dan RMSE sebesar 0.0254 dan 0.0346. Kemudia, pengujian dengan dataset jawaban asli mendapatkan nilai MAE dan RMSE terbaik sebesar 0.1596 dan 0.2190. Rata-rata nilai akurasi yang didapatkan adalah 92.82 untuk fase training dan 84.03 untuk validasi.


The Automatic Essay Assessment System (SIMPLE-O) was developed by the Department of Electrical Engineering, Faculty of Engineering, University of Indonesia for the Indonesian language test. This thesis will discuss the development of SIMPLE-O for the assessment of Indonesian language tests using the Siamese Manhattan Long Short-Term Memory (LSTM) method and the Python programming language. There are two documents that will be input, essay answers from examinees and answer answers from examiners. Both answers are processed with the same LSTM layer. Next, the similarity between the two is calculated by the similarity function. Testing with dummy answer dataset produces MAE and RMSE values of 0.0254 and 0.0346. Then, testing with the real answer dataset produces MAE and RMSE values of 0.1596 and 0.2190. The average accuracy value obtained was 92.82 for the training phase and 84.03 for validation.

"
Depok: Fakultas Teknik Universitas Indonesia, 2020
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Angga Prasetyawan
"Dalam penelitian skripsi ini, penulis membahas seperti apakah tipe-tipe kependekan bahasa Indonesia yang terdapat dalam media komunikasi Short Message Service (SMS). Selain itu, penulis juga membahas persebaran tipe-tipe pembentukan kependekan bahasa Indonesia dalam setiap jenis kependekan kata yang ada. Penulis menggunakan metode penelitian kualitatif dalam penelitian skripsi ini.
Setelah penulis melakukan analisis terhadap 299 kependekan kata yang digunakan dalam penelitian skripsi ini berdasarkan pengekalan huruf dan suku kata, penulis menemukan 42 tipe pembentukan kependekan. Ada 5 tipe pembentukan kependekan kata yang paling sering muncul, yaitu pengekalan huruf I suku kata I serta pengekalan huruf I dan III suku kata II, pengekalan huruf I suku kata I dan pengekalan suku kata II, pengekalan huruf I setiap suku kata, pengekalan huruf I dan III setiap suku kata, dan pengekalan huruf I suku kata I dan II serta pengekalan suku kata III.
Selanjutnya, penulis memasukkan ke-42 tipe pembentukan kependekan tersebut ke dalam 5 jenis kependekan kata, yaitu singkatan, penggalan, bentuk khusus, kontraksi, dan lambang huruf. Sebagian besar dari tipe dapat dikategorikan ke dalam jenis singkatan. Beberapa tipe yang dapat dikategorikan ke dalam jenis singkatan, yaitu pengekalan huruf I suku kata I serta pengekalan huruf I dan III suku kata II, pengekalan huruf I setiap suku kata, dan pengekalan huruf I suku kata I dan pengekalan suku kata II.

In this research, I discuss about the types of abbreviation in Indonesian found in Short Message Service (SMS). In addition, I also elaborate the distribution of shortness formation in Indonesian language in every type of the existing shortness. I utilize qualitative method in this research.
After I analyzed 299 word shortness that are used in this research based on the letter and syllable perpetuation, I found 42 types of shortness formation. Out of the 42, 5 types occur most often, i.e. perpetuation of letter I syllable I and perpetuation of letter I and III syllable II, perpetuation of letter I syllable I and perpetuation of syllable II, perpetuation of letter I of every syllable, perpetuation of letter I and III of every syllable, and perpetuation of letter I syllable I and II and perpetuation of syllable III.
Afterwards, I include 42 types of the formation of those shortness into five types of word shortness, namely abbreviation, clipping, special form, contraction, and letter symbol. Most of the types can be categorized into types of syllable. Some of the types that can be categorized into types of abbreviation are perpetuation of letter I syllable I and perpetuation of letter I and III syllable II, perpetuation of letter I of every syllable, and perpetuation of letter I syllable I and perpetuation of syllable II.
"
Depok: Fakultas Ilmu Pengetahuan dan Budaya Universitas Indonesia, 2010
S10759
UI - Skripsi Open  Universitas Indonesia Library
cover
Gita Kartika Suriah
"Analisis sentimen merupakan suatu proses untuk menentukan sikap atau sentimen dari penulis mengenai hal tertentu. Proses pengelompokan sentimen secara manual membutuhkan waktu cukup lama, sehingga diusulkan untuk menggunakan machine learning. Pada penelitian ini, model machine learning yang digunakan merupakan model CNN-BiLSTM (Convolutional Neural Network - Bidirectional Long Short-Term Memory) dan BiLSTM-CNN (Bidirectional Long Short-Term Memory - Convolutional Neural Network) yang menghasilkan kinerja yang lebih baik dibandingkan model CNN dan BiLSTM pada permasalahan analisis sentimen. Supaya model dapat belajar secara berkelanjutan dari beberapa domain data, model tersebut juga diimplementasikan lifelong learning. Hasilnya, model CNN-BiLSTM menunjukkan kinerja transfer of knowledge yang lebih baik dibandingkan oleh model BiLSTM-CNN maupun model dasarnya. Di sisi lain, model BiLSTM-CNN menunjukkan kinerja yang lebih buruk dibandingkan model dasarnya. Sedangkan, hasil loss of knowledge menunjukkan bahwa kinerja model CNN- BiLSTM lebih buruk dari BiLSTM-CNN. Selain itu, kedua model gabungan tersebut menunjukkan kinerja yang lebih baik dibandingkan model CNN, tetapi lebih buruk dibandingkan model BiLSTM. Untuk pengembangan lebih lanjut, diimplementasikan pula lifelong learning dengan pembaruan vocabulary. Dengan implementasi tersebut, model mampu mempelajari vocabulary dari domain data 2, 3, 4, dan 5. Pembaruan vocabulary ternyata meningkatkan kinerja model pada transfer of knowledge dan loss of knowledge.

Sentiment analysis is a process to determine the attitude or sentiment of the author regarding certain matters. The process of classifying sentiments manually takes a long time, so it is proposed to use machine learning. In this study, the machine learning model used is the CNN-BiLSTM (Convolutional Neural Network - Bidirectional Long Short-Term Memory) and BiLSTM-CNN (Bidirectional Long Short-Term Memory - Convolutional Neural Network) models which produce better performance than the CNN and BiLSTM models on the problem of sentiment analysis. In order for the model to learn continuously from several data domains, the model is also implemented lifelong learning. As a result, the CNN-BiLSTM model shows better transfer of knowledge performance compared to the BiLSTM-CNN model and its base model. On the other hand, the BiLSTM-CNN model shows a worse performance than its base model. Meanwhile, the results of loss of knowledge show that the performance of the CNN-BiLSTM model is worse than the BiLSTM-CNN model. In addition, the two combined models show better performance than the CNN model, but worse than the BiLSTM model. For further development, lifelong learning is also implemented with an update to vocabulary. With this implementation, the model is able to learn vocabulary from data domain 2, 3, 4, and 5. In fact, the vocabulary update has an effect in increasing the performances of transfer of knowledge and loss of knowledge.
"
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2021
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
<<   1 2 3 4 5 6 7 8 9 10   >>