Hasil Pencarian

Ditemukan 180311 dokumen yang sesuai dengan query

Harakan Akbar

Pengembangan Metode Ekstraksi Sumber Daya NLP dari Kamus Dwibahasa Indonesia dan Bahasa Daerah = Extracting NLP Resources from Bilingual Dictionaries for Regional Languages in Indonesia

"Perkembangan NLP bahasa daerah di Indonesia masih tergolong lambat. Banyak faktor yang melatarbelakangi hal tersebut, seperti dokumentasi bahasa yang buruk, penutur bahasa yang sedikit, dan kurangnya sumber daya untuk mempelajari NLP bahasa daerah. Penelitian ini bertujuan untuk mengembangkan metode ekstraksi kamus dwibahasa Indonesia dan bahasa daerah yang umum untuk menghasilkan sumber daya NLP. Sistem yang dihasilkan mampu mengolah banyak kamus dwibahasa sekaligus menjadi sumber daya NLP. Kamus terlebih dahulu dikonversi ke dalam bentuk machine readable dan diolah ke bentuk korpus entri sebelum dilakukan ekstraksi. Korpus entri adalah korpus yang mengandung informasi lengkap setiap entri di dalam kamus beserta jenis font, ukuran, dan posisi setiap kata pada entri di dalam kamus dwibahasa. Proses ekstraksi dilakukan dengan memperhatikan pola entri sehingga perlu dilakukan tahap standardisasi entri terlebih dahulu sebelum sumber daya dibentuk. Selain pembentukan sumber daya, dilakukan pula perbaikan ejaan khusus untuk sumber daya korpus paralel. Dalam mengevaluasi hasil ekstraksi, diambil beberapa kamus dwibahasa sebagai sampel. Evaluasi dilakukan dengan memperhatikan ketepatan peletakan setiap komponen entri di dalam hasil ekstraksi. Tim peneliti menemukan bahwa sistem yang dibangun telah berhasil mengekstrak sumber daya NLP berupa leksikon bilingual, kamus morfologi, dan korpus paralel dengan optimal pada 32 kamus dwibahasa Indonesia dan bahasa daerah. Masih terdapat beberapa kekurangan pada sistem yang berhasil dibangun karena proses ekstraksi sangat bergantung dengan ketepatan pendeteksian font sehingga kualitas kamus masih memberikan pengaruh yang besar pada kualitas hasil ekstraksi.

The development of regional language NLP in Indonesia is still relatively slow. There are several factors behind this, such as poor language documentation, a small number of speakers of the language, and lack of the resources needed to study regional language NLP. This research aims to develop a general extraction method for Indonesian and regional bilingual dictionaries to produce NLP resources. The resulting system is able to process multiple bilingual dictionaries at once into NLP resources. Dictionaries are converted to machine readable form and processed to the form of a corpus of entries in advance before extraction is carried out. A corpus of entries means corpus that contains full information of each entry in the dictionary as well as font style, font size, and the position of each word of the entry in the bilingual dictionary. The extraction process is carried out by observing the entry's pattern resulting in the entry standardization phase having to be done prior before resources are produced. Besides resource production, spell checking is also carried out specifically for parallel corpus resources. In order to evaluate the extraction results, several bilingual dictionaries are taken to be samples. Evaluation process is carried out by observing the accuracy of each entry component’s placement in the extraction results. Research team found that the resulting system has succeeded in extracting NLP resources optimally in the form of bilingual lexicon, morphology, and parallel corpus on 32 Indonesian and regional bilingual dictionaries. There are still some deficiencies in the developed system since the extraction process is highly dependent on the accuracy of font detection such that the qualities of dictionaries still have a big impact on the quality of extraction results."

Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2023

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

Julian Fernando

Pengembangan Metode Ekstraksi Sumber Daya NLP dari Kamus Dwibahasa Indonesia dan Bahasa Daerah = Extracting NLP Resources from Bilingual Dictionaries for Regional Languages in Indonesia

Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2023

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

Raden Fausta Anugrah Dianparama

Pengembangan Metode Ekstraksi Sumber Daya NLP dari Kamus Dwibahasa Indonesia dan Bahasa Daerah = Extracting NLP Resources from Bilingual Dictionaries for Regional Languages in Indonesia

Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2023

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

Muhammad Arief Fauzan

Analisis dan Mitigasi Religion Bias pada Dataset dan Embedding NLP Berbahasa Indonesia = Analysis and Mitigation of Religion Bias in Indonesian NLP Datasets and Embeddings

"Riset terdahulu menunjukkan adanya misrepresentasi identitas agama pada media Indonesia. Menurut studi sebelumnya, misrepresentasi identitas marjinal pada dataset dan word embedding untuk natural language processing dapat merugikan identitas marjinal tersebut, dan karenanya harus dimitigasi. Riset ini menganalisis keberadaan bias agama pada beberapa dataset dan word embedding NLP berbahasa Indonesia, dampak bias yang ditemukan pada downstream performance, serta proses dan dampak debiasing untuk dataset dan word embedding. Dengan menggunakan metode uji Pointwise Mutual Information (PMI ) untuk deteksi bias pada dataset dan word similarity untuk deteksi bias pada word embedding, ditemukan bahwa dua dari tiga dataset, serta satu dari empat word embedding yang digunakan pada studi ini mengandung bias agama. Model machine learning yang dibentuk dari dataset dan word embedding yang mengandung bias agama memiliki dampak negatif untuk downstream performance model tersebut, yang direpresentasikan dengan allocation harm dan representation harm. Allocation harm direpresentasikan oleh performa false negative rate (FNR) dan false positive rate (FPR) model machine learning yang lebih buruk untuk identitas agama tertentu, sedangkan representation harm direpresentasi oleh kesalahan model dalam mengasosiasikan kalimat non-negatif yang mengandung identitas agama sebagai kalimat negatif. Metode debiasing pada dataset dan word embedding mampu memitigasi bias agama yang muncul pada dataset dan word embedding, tetapi memiliki performa yang beragam dalam mitigasi allocation dan representation harm. Dalam riset ini, akan digunakan lima metode debiasing: dataset debiasing dengan menggunakan sentence templates, dataset debiasing dengan menggunakan kalimat dari Wikipedia, word embedding debiasing dengan menggunakan Hard Debiasing, joint debiasing dengan sentence templates, serta joint debiasing menggunakan kalimat dari Wikipedia. Dari lima metode debiasing, joint debiasing dengan sentence templates memiliki performa yang paling baik dalam mitigasi allocation harm dan representation harm.

Previous research has shown the existence of misrepresentation regarding various religious identities in Indonesian media. Misrepresentations of other marginalized identities in natural language processing (NLP) resources have been recorded to inflict harm against such marginalized identities, and as such must be mitigated. This research analyzes several Indonesian language NLP datasets and word embeddings to see whether they contain unwanted bias, the impact of bias on downstream performance, the process of debiasing datasets or word embeddings, and the effect of debiasing on them. By using the Pointwise Mutual Test (PMI) test to detect dataset bias and word similarity to detect word embedding bias, it is found that two out of three datasets and one out of four word embeddings contain religion bias. The downstream performances of machine learning models which learn from biased datasets and word embeddings are found to be negatively impacted by the biases, represented in the form of allocation and representation harms. Allocation harm is represented by worse false negative rate (FNR) and false positive rate (TPR) of models with respect to certain religious identities, whereas representation harm is represented by the misprediction of non-negative sentences containing religious identity terms as negative sentences. Debiasing at dataset and word embedding level was found to correctly mitigate the respective biases at dataset and word embedding level. Nevertheless, depending on the dataset and word embedding used to train the model, the performance of each debiasing method can vary highly at downstream performance. This research utilizes five debiasing methods: dataset debiasing using sentence templates, dataset debiasing using sentences obtained from Wikipedia, word embedding debiasing using Hard Debiasing, joint debiasing using sentence templates, as well as joint debiasing using sentences obtained from Wikipedia. Out of all five debiasing techniques, joint debiasing using sentence templates performs the best on mitigating both allocation and representation harm."

Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2023

T-pdf

UI - Tesis Membership Universitas Indonesia Library

Luqman Maulana Rizki

Penambangan kamus dwibahasa : studi percontohan pada Bahasa Indonesia dan Bahasa-Bahasa Daerah = Bilingual dictionary mining : a pilot study on Indonesian and Local Languages in Indonesia

"Pengembangan NLP di Indonesia terbilang lambat, terutama penelitian terkait bahasa daerah Indonesia. Alasannya adalah sumber data bahasa daerah tidak terdokumentasikan dengan baik sehingga sumber daya NLP yang ditemukan juga sedikit. Penelitian ini membahas metode ekstraksi kamus-kamus bahasa daerah di Indonesia untuk menghasilkan suatu sumber daya NLP yang dapat dibaca oleh mesin. Tahap penelitian dimulai dari pengumpulan data kamus, perancangan dan eksperimen metode ekstraksi, serta evaluasi hasil ekstraksi. Hasil penelitian berupa korpus paralel, leksikon bilingual, dan pasangan kata dasar-kata berimbuhan dalam format CSV dari beberapa kamus dwibahasa di Indonesia. Beberapa bahasa di antaranya adalah bahasa Minangkabau, Sunda, Mooi, Jambi, Bugis, Bali, dan Aceh. Perancangan metode ekstraksi berfokus pada kamus Minangkabau yang kemudian dilakukan eksperimen pada kamus-kamus bahasa daerah lainnya. Evaluasi dilakukan terhadap hasil ekstraksi kamus Minangkabau dengan melakukan anotasi data. Perhitungan akurasi dilakukan terhadap penempatan kelompok kata dari hasil anotasi. Hasil perhitungan menunjukkan 99% hasil ekstraksi sudah tepat untuk penentuan kelompok kata pada leksikon bilingual dan 88% untuk korpus paralel. Tim peneliti menemukan bahwa struktur dalam kamus bahasa daerah Indonesia sangat beragam, sehingga menuntut perlakuan yang berbeda pada setiap kamus, seperti perihal penomoran halaman. Selain itu, tim peneliti menemukan banyak kamus bahasa daerah Indonesia dengan kualitas yang kurang baik. Kualitas yang kurang baik ditunjukan dengan banyaknya kesalahan baca akibat noise yang terdapat pada tampilan berkas kamus.

The development of NLP in Indonesia is relatively slow, especially for Indonesian local languages. Indonesian local language data sources are not well-documented so that there are only few NLP resources found. This study discusses the extraction method of Indonesian local language dictionaries to produce a machine-readable NLP resource. Starting from collecting dictionary data, designing and experimentation of the extraction method, and evaluating the extraction results. The extraction results are parallel corpus, bilingual lexicon, and words’ morphological form in CSV format from several Indonesian Local Language bilingual dictionaries that are Baso Minangkabau, Sundanese, Moi, Jambinese, Buginese, Balinese, and Acehnese. The designed method is also applied to some other local language dictionaries. Data annotation has been done to evaluate the extraction results so that we can calculate its accuracy of word classification for parallel corpus and bilingual lexicon. Extraction method design focuses on the Minangkabau dictionary which is then applied to other dictionaries. Data annotation has been done to evaluate the extraction results.The evaluation results show that 99% of the extraction results are correct for word classifying in the bilingual lexicon and 88% correct for parallel corpus. We found that the structure of dictionaries varies, so it requires different approaches for each dictionary, for example regarding page numbering. We also found many dictionaries with poor quality. The poor quality is indicated by the number of reading errors due to noise contained in the original dictionary file."

Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2022

TA-pdf

UI - Tugas Akhir Universitas Indonesia Library

Adi Sunaryo

Pedoman penyusunan kamus dwibahasa

Jakarta: Departemen Pendidikan dan Kebudayaan RI, 1990

R 413.03 ADI p

Buku Referensi Universitas Indonesia Library

Alif Ahsanil Satria

Pengenalan entitas bernama pada Dokumen Wikipedia dan Berita Bahasa Indonesia dengan Pendekatan Conditional Random Field = Named-Entity Recognition On Indonesian Wikipedia and News Document Using Conditional Random Field Approach

"Pengenalan entitas bernama (named-entity recognition atau NER) adalah salah satu topik riset di bidang pemrosesan bahasa alami (natural language processing atau NLP). Pen- genalan entitas bernama merupakan langkah awal mengubah unstructured text menjadi structured text. Pengenalan entitas bernama berguna untuk mengerjakan NLP task yang lebih high-level seperti ekstraksi informasi (information extraction atau IE), Question Answering (QA), dan lain-lain. Penelitian ini memanfaatkan data berita dan wikipedia masing-masing sebanyak 200 dokumen yang digunakan untuk proses pengujian dan pelatihan. Penelitian ini mencoba mengeksplorasi entitas bernama baru yang tidak sebatas Person, Location, dan Organization. Named entity baru tersebut adalah Event, Product, Nationalities Or Religious or Political groups (NORP), Art, Time, Language, NonHuman or Fictional Character (NHFC), dan Miscellaneous. Jadi, penelitian ini menggunakan 11 entitas bernama. Dalam penelitian ini, permasalahan tersebut dipandang sebagai se- quence labelling. Penelitian ini mengusulkan penggunaan model conditional random field sebagai solusi permasalahan ini. Penelitian ini mengusulkan penggunaan fitur tambahan seperti kata sebelum, kata sesudah, kondisi huruf kapital di awal kata, dan lain-lain, serta word embedding. Penelitian ini menghasilkan performa dengan nilai F-measure terbaik sebesar 67.96% untuk data berita dan 67.09% untuk data wikipedia.

Named Entity Recognition or NER is one of research topics in Natural Language Pro- cessing (NLP) subject. NER is the first step to transform unstructured text to structured text. NER is used for doing more high-level NLP task such as Information Extraction (IE), Question Answering (QA), etc. This research uses news and wikipedia data with 200 documents of each, which is used for training and testing process. This research tries exploring new named entities in addition to Person, Location, and Organization. These named entities are Event, Product, Nationalities Or Religious or Political groups (NORP), Art, Time, Language, NonHuman or Fictional Character (NHFC), and Miscellaneous. Therefore, this research uses 11 named entities. This research views this problem as sequence labelling. This research proposes conditional random field model as the solution for this problem. This research proposes some features, for example additional features such as previous word, next word, initial capital letter condition, etc, and word embedding. This research results p1qerformance with the best F-Measure of 67.09% for wikipedia data and 67.96% for news data."

Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2020

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

Monica Lestari Paramita

Sistem perolehan informasi geografis untuk dokumen berbahasa Indonesia

"Pesatnya perkembangan informasi menuntut dikembangkannya suatu sistem pencarian data yang baik, yang memberikan kemudahan untuk menemukan informasi yang diinginkan. Sistem pencarian data yang umum digunakan saat ini adalah sistem pencarian data berbasiskan kata. Masukan dari pengguna yang berupa pertanyaan (query) dalam bahasa natural (natural language) akan digunakan oleh sistem pencari informasi untuk menemukan dokumen yang mengandung kata-kata pada query tersebut. Pencarian ini menyebabkan jumlah dokumen yang ditemukan umumnya terlalu banyak karena dokumendokumen yang hanya mengandung sebagian kata dalam query juga akan ikut ditemukan. Jika ditinjau dari isinya, baik query maupun dokumen hampir selalu memiliki keterkaitan dengan lokasi di dalamnya. Hal-hal tersebut mendasari pengembangan sistem pencarian data yang berbasiskan kepada data-data geografis. Sistem bertujuan untuk mengambil nama lokasi dalam query dan membatasi pencarian data pada dokumendokumen yang memiliki lokasi representatif sesuai dengan query saja. Sistem yang dikembangkan dalam penelitian ini dinamakan Sistem Perolehan Informasi Geografis (Geographic Information Retrieval - GIR). Sistem GIR dikembangkan dengan 2 metode utama, yaitu metode pemilihan satu lokasi representatif (metode SLR) dan metode pemilihan banyak lokasi representatif (metode BLR) dalam dokumen. Evaluasi dilakukan dengan membandingkan nilai average precision tiap metode dengan Sistem Bahasa Natural (Natural Language - NL). Hasil metode SLR mengalami penurunan sebesar 15.67% sedangkan hasil metode BLR mengalami penurunan sebesar 6.54%. Untuk memperbaiki hasil tersebut, diimplementasikan 2 metode proses perluasan lokasi yaitu perluasan lokasi ke tingkat lebih tinggi dan lebih rendah (metode QE_S); dan perluasan lokasi ke tingkat yang lebih tinggi, lebih rendah dan tingkat yang sama (metode QE_ETS). Hasil metode SLR dengan QE_S (SLR_QE_S) mengalami peningkatan sebesar 29.23% dan hasil metode SLR dengan QE_ETS (SLR_QE_ETS) mengalami peningkatan sebesar 30.57%. Saat perluasan lokasi diimplementasikan dengan metode BLR, hasil yang diperoleh justru menurun, yaitu hasil metode BLR dengan QE_S (BLR_QE_S) memiliki penurunan sebesar 22.47% dan metode BLR dengan QE_ETS (BLR_QE_ETS) memiliki penurunan sebesar 34.36%. Berdasarkan hasil tersebut, dapat disimpulkan bahwa sistem GIR yang memberikan hasil terbaik adalah metode SLR_QE_ETS sedangkan sistem GIR yang memberikan hasil terburuk adalah metode BLR_QE_ETS."

Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2006

S-Pdf

UI - Skripsi Membership Universitas Indonesia Library

Princessa Victory Cintaqia

Do Kost Reviews and Subjective Perceptions Go Hand-in-Hand with Actual City Amenities?: An Indonesian Cross-City Study = Apakah Ulasan Kost dan Persepsi Subjektif Sejalan dengan Amenitas Lokal Kota Sesungguhnya?: Sebuah Penelitian Antar Kota di Indonesia

"Penelitian ini bertujuan untuk melihat apakah review Kost yang merupakan daya subjektif dapat menggambarkan kualitas amenitas lokal yang sebenarnya. Penelitian ini menggunakan metode Natural Language Processing (NLP) di mana setiap review Kost di 10 kota di Indonesia diberikan nilai VADER sentiment score serta dimasukan ke dalam Infranodus untuk ditemukan topik utama dari masing-masing kota. Setelah itu, juga dilihat korelasi antara nilai VADER sentiment score dan nilai kualitas amenitas lokal penelitian terdahulu untuk melihat hubungan antara review Kost dengan amenitas lokal yang sebenarnya. Ditemukan bahwa topik-topik Comfortable Stay, Kost Facilities, Affordability, dan Convenient Location merupakan topik-topik utama yang tenan Kost di mayoritas kota anggap penting. Namun, juga ditemukan bahwa arti dari topik-topik utama ini berbeda – subjektif – untuk setiap kota, menekankan kembali pentingnya data subjektif sebagai pelengkap data objektif walau hasil korelasi dari Spearman termasuk lemah.

This research aims to see whether Kost reviews, which are subjective, can describe the actual quality of local amenities. This research uses the Natural Language Processing (NLP) method where each Kost review in 10 cities in Indonesia is given a VADER sentiment score and entered into Infranodus to find the main topics of each city. After that, the correlation between the VADER sentiment score and the quality of local amenities in previous research was also looked at to see the relationship between Kost reviews and actual local amenities. It was found that the topics Comfortable Stay, Kost Facilities, Affordability, and Convenient Location are the main topics that Kost tenants in the majority of cities consider important. However, it was also found that the meanings of these main topics were different – subjective – for each city, re-emphasizing the importance of subjective data as a complement to objective data even though Spearman's correlation results were weak."

Depok: Fakultas Ekonomi dan Bisnis Universitas Indonesia, 2024

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

Kevin Ahmad Faisal

Pengembangan Framework Grammar Error Correction Bahasa Indonesia Menggunakan Gated Recurrent Unit = Development of Indonesian Grammar Error Correction Framework Using Gated Recurrent Unit

"Grammatical Error Correction (GEC) merupakan salah satu topik yang menarik dalam penelitian Natural Language Processing (NLP). Sudah banyak penelitian mengenai GEC untuk bahasa universal seperti Inggris dan Cina, namun sedikit penelitian mengenai GEC untuk bahasa Indonesia. Pada penelitian ini penulis mengembangkan framework GEC untuk memperbaiki kesalahan 10 jenis Part of Speech (POS) bahasa Indonesia dengan arsitektur Gated Recurrent Unit (GRU). Dataset yang digunakan adalah Indonesian POS Tagged Corpus yang disusun oleh Ruli Manurung dari Universitas Indonesia. Hasil penelitian ini berhasil memberikan rata-rata Macro-Average F0.5 Score sebesar 0.4882 dan meningkatkan kecepatan prediksi sebesar 30.1%.

Grammatical Error Correction (GEC) is one of the exciting topics in Natural Language Processing (NLP) research. There have been many studies on GEC for universal languages such as English and Chinese, but little research on GEC for indonesian. In this study, the authors developed a GEC framework to correct ten Indonesian Part of Speech (POS) errors with the Gated Recurrent Unit (GRU) architecture. The dataset used is the Indonesian POS Tagged Corpus compiled by Ruli Manurung from the University of Indonesia. The results of this study succeeded in providing an average Macro-Average F0.5 Score of 0.4882 and increase prediction time by 30.1% "

Depok: Fakultas Teknik Universitas Indonesia, 2021

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

<< 1 2 3 4 5 6 7 8 9 10 >>

Hasil Pencarian :: Simpan CSV :: Kembali

Hasil Pencarian