Hasil Pencarian

Ditemukan 7 dokumen yang sesuai dengan query

Mirnasari Dewi

Pengembangan use case scenario berdasarkan deskripsi tekstual use case menggunakan pengenalan entitas bernama

"Testing merupakan tahap penting yang harus dilakukan dalam setiap pengembangan perangkat lunak. Testing bertujuan untuk menjaga kualitas dari perangkat lunak. Testing dilakukan dengan cara menguji test case yang telah disusun. Langkah awal penyusunan test case adalah membuat use case scenario berdasarkan deskripsi tekstual use case. Untuk mendapatkan use case scenario secara otomatis, titik-titik percabangan pada deskripsi tekstual use case harus dapat dikenali. Pemrosesan bahasa alami dapat digunakan untuk mengenali titik-titik percabangan pada deskripsi tekstual use case. Penelitian ini membahas pembuatan use case scenario dengan melakukan pemrosesan bahasa alami terhadap deskripsi tekstual use case. Pemrosesan bahasa alami yang dilakukan adalah pengenalan entitas bernama atau name entity recognition (NER), dengan pendekatan machine learning. Metode dalam machine learning yang digunakan adalah Association Rule. Pengenalan entitas bernama digunakan untuk mendapatkan titik-titik percabangan pada deskripsi tekstual use case. Selanjutnya use case scenario dapat disusun berdasarkan titik-titik percabangan tersebut. Akurasi use case scenario yang dihasilkan bergantung pada ketepatan pengenalan entitas bernama dalam mengenali titik-titik percabangan pada deskripsi tekstual use case. Berdasarkan hasil uji coba didapat bahwa pengenalan entitas bernama dengan Fmeasure sebesar 96,34% mendapatkan use case scenario dengan akurasi senilai 96,53%. Sedangkan dengan F-measure 100% yang berarti bahwa sistem mengenali semua titik-titik percabangan dengan tepat, didapatkan use case scenario dengan akurasi 100%."

Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2005

S-Pdf

UI - Skripsi Membership Universitas Indonesia Library

Gusman Dharma Putra

Ekstraksi Informasi Bencana Alam di Indonesia dari Berita di Media Siber = Information Extraction on Natural Disaster Event in Indonesia from Cyber Media News

"Jenis bencana alam, lokasi, dan waktu kejadian adalah informasi minimal bisa mengindikasi terjadinya sebuah bencana alam. Salah satu sumber informasi kejadian bencana alam adalah dari berita di media siber. Suatu sistem informasi tentang bencana alam bisa memanfaatkan berita di media siber sebagai sumber data, namun harus mengubah data teks berita menjadi bentuk data terstruktur. Teknik penambangan teks yang bisa digunakan untuk mendapatkan data terstruktur dari suatu kumpulkan teks. Penelitian ini melakukan eksplorasi efektivitas teknik penambangan data untuk mengekstrak informasi jenis bencana alam, lokasi, dan waktu kejadian. Metode web scraping digunakan untuk mengumpulkan data teks berita dari media siber dan anotasi manual dilakukan untuk membuat data gold standard. Penelitian ini menggunakan klasifikasi teks dengan machine learning untuk mengetahui jenis bencana alam yang diberitakan. Klasifikasi biner diterapkan untuk mengetahui pemberitaan tentang bencana angin topan, banjir, erupsi, gempa, karhutla, kekeringan, longsor, dan tsunami. Algoritma yang diuji untuk klasifikasi teks adalah Multinomial Naive Bayes, Support Vector Machine, Random Forest, Linear Regression dan Adaboost. Penelitian ini memanfaatkan aplikasi Stanford NER untuk mengetahui entitas lokasi di suatu teks, kemudian gazetteer digunakan untuk pemetaan wilayah administrasi. Penelitian ini menggunakan pencocokan pola teks dengan regular expression untuk mengekstrak informasi tanggal kejadian bencana alam. Nilai F1 dari model klasifikasi penelitian ini untuk berita bencana angin topan, banjir, erupsi, gempa, karhutla, kekeringan, longsor, dan tsunami adalah 0,731, 0,767, 0,760, 0,761, 0,749, 0,680, 0,763, dan 0,600. Sedangkan Nilai F1 untuk hasil ekstraksi lokasi dan waktu adalah 0,795 dan 0,881.

The minimal information to notice the occurrence of a natural disaster is its type, location, and event time. News in the cyber media can be a source of information to discover disaster events. Furthermore, natural disaster information systems can utilize that news as the data source. The news needs to be converted into structured data to be processed by system information. Text mining is a method to extract structured information from a text collection. This research explored the effectiveness of data mining to extract natural disaster type, location, and event time reported by news in cyber media. The web scraping method was used to collect news in cyber media and manual annotation was performed to create gold-standard data. This study used text classification with a machine learning approach to identify the types of natural disasters reported. Binary classification was applied to label news for following disaster types: hurricanes, floods, eruptions, earthquakes, forest and land fires, droughts, landslides, and tsunami. This research evaluated Multinomial Naive Bayes, Support Vector Machines, Random Forests, Linear Regression, and AdaBoost algorithm for text classification tasks. This study utilized the Stanford NER application to recognize location entities in a text, then the gazetteer was used to get administrative area information. This study applied text patterns with regular expressions to extract date information of disaster events. The F1 value of 8 classification model in this research for following disaster news type: hurricanes, floods, eruptions, earthquakes, forest and land fires, droughts, landslides, and tsunami, are 0.731, 0.767, 0.760, 0.761, 0.749, 0.780, 0.680, 0.763, and 0.600. The F1 value of method to extract location and event time information are 0.795 and 0.881.

"

Depok: Fakultas Ilmu Komputer Universitas Indonesia , 2020

TA-Pdf

UI - Tugas Akhir Universitas Indonesia Library

Sultan Daffa Nusantara

Pendekatan Rule-based Menggunakan Kamus dan Named Entity Recognizer untuk Mendeteksi dan Mengoreksi Kesalahan Penulisan Huruf Kapital pada Teks Berbahasa Indonesia = A Rule-based Approach Using Dictionary and Named Entity Recognizer for Detecting and Correcting Capitalization Errors in Indonesian Text

"Penggunaan huruf kapital merupakan aspek penting dalam menulis bahasa Indonesia yang baik dan benar. Aturan penggunaan huruf kapital dalam bahasa Indonesia telah dijelaskan dalam Pedoman Umum Ejaan Bahasa Indonesia (PUEBI) yang terdiri dari 23 aturan. Penelitian sebelumnya telah memulai mengembangkan pendeteksi dan pengoreksi kesalahan huruf kapital untuk bahasa Indonesia menggunakan pendekatan rule-based dengan kamus dan komponen Named Entity Recognition (NER). Namun, penelitian tersebut hanya mencakup 9 dari 23 aturan huruf kapital yang tercantum dalam PUEBI dan dataset uji yang digunakan tidak dipublikasikan sehingga tidak dapat digunakan untuk penelitian selanjutnya. Penelitian ini bertujuan untuk mengusulkan metode untuk mendeteksi dan mengoreksi 14 dari 23 aturan PUEBI menggunakan pendekatan yang mirip dengan penelitian sebelumnya. Model NER dikembangkan menggunakan pretrained language model IndoBERT yang dilakukan fine-tuning dengan dataset NER. Untuk menguji metode rule-based yang diusulkan, dibuat sebuah dataset sintesis yang terdiri dari 5.000 pasang kalimat. Setiap pasang terdiri dari kalimat benar secara aturan huruf kapital dan padanan kalimat salahnya. Kalimat salah dibuat dengan mengubah beberapa huruf kapital di kalimat yang awalnya benar. Sebelum dilakukan perbaikan terhadap kalimat yang salah, didapatkan akurasi sebesar 83,10%. Namun, setelah menggunakan metode ini, tingkat akurasi meningkat 12,35% menjadi 95,45%.

The correct use of capital letters plays a vital role in writing well-formed and accurate Indonesian sentences. Pedoman Umum Ejaan Bahasa Indonesia (PUEBI) provide a comprehensive set of 23 rules that explain how to use capital letters correctly. Previous research has attempted to develop a rule-based system to detect and correct capital letter errors in Indonesian text using dictionaries and Named Entity Recognition (NER). However, this study only covered 9 out of the 23 capital letter rules specified in PUEBI, and the test dataset used was not publicly available for further analysis. In this study, we aim to propose a method that can identify and rectify 14 out of the 23 PUEBI rules, following a similar approach to previous research. The NER model was trained using the IndoBERT pretrained language model and fine-tuned with a specific NER dataset. To evaluate the effectiveness of our rule-based method, we created a synthetic dataset comprising 5,000 sentence pairs. Each pair consists of a correctly capitalized sentence and an equivalent sentence with incorrect capitalization. Before applying our method, the baseline accuracy was 83.10%. However, after implementing our approach, the accuracy improved by 12.35% to reach 95.45%."

Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2023

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

Deden Ade Nurdeni

Penggalian Informasi Untuk Identifikasi Permintaan Bantuan Korban Bencana Alam Menggunakan Data Twitter = Extracting Information to Identify Assistance for Natural Disaster Victims Using Twitter Data

"Kajian risiko bencana di Indonesia oleh BNPB menunjukkan jumlah jiwa terpapar risiko bencana tersebar di seluruh Indonesia dengan total potensi jiwa terpapar lebih dari 255 juta jiwa. Hasil kajian ini menunjukkan bahwa dampak bencana di Indonesia terbilang sangat tinggi. Sistem penanggulangan khususnya pada masa tanggap darurat menjadi hal yang krusial untuk dapat meminimalisir risiko. Namun, pemberian bantuan kepada korban bencana terkendala beberapa hal, antara lain keterlambatan dalam penyaluran, kurangnya informasi lokasi korban, dan distribusi bantuan yang tidak merata. Untuk memberikan informasi yang cepat dan tepat, BNPB telah membangun beberapa sistem informasi seperti DIBI, InAware, Geospasial, Petabencana.id dan InaRisk. Akan tetapi tidak secara realtime menampilkan wilayah terdampak bencana dengan memnunjukkan jenis kebutuhan bantuan apa yang dibutuhkan korban pada saat itu. Untuk memberikan solusi atas permasalah tersebut, penelitian ini membangun model yang mampu mengklasifikasikan data teks dari Twitter terkait bencana kedalam jenis bantuan yang diminta oleh korban bencana secara realtime. Selain itu visualisasi berupa dashboard dibangun dalam bentuk aplikasi berbasis peta untuk menampilkan lokasi korban yang terdampak. Penelitian ini mengunakan teknik text mining mengolah data Twitter dengan pendekatan metode klasifikasi multi label dan ekstraksi informasi lokasi menggunakan metode Stanford NER. Algoritme yang digunakan adalan Naive Bayes, Support Vector Machine, dan Logistic Regression dengan kombinasi metode tranformasi data multi label OneVsRest, Binary Relevance, Label Power-set, dan Classifier Chain. Representasi teks menggunakan N-Grams dengan pembobotan TF-IDF. Model terbaik untuk klasifikasi multi label pada penelitian ini adalah kombinasi Support Vector Machine dan Clasifier Chain dengan fitur UniGram+BiGram dengan nilai precision 82%, recall 70%, dan F1-score 75%. Stanford NER menghasilkan F1-score 83% untuk klasifikasi lokasi yang menjadi masukan untuk teknik geocoding. Hasil geocoding berupa informasi spasial ditampilkan dalam bentuk dashboard berbasis peta.

The study of disaster risk in Indonesia by BNPB shows the number of people exposed to disaster risk throughout Indonesia with a total potential life of 255 million people. The results of this study indicate that the impact of disasters in Indonesia is quite high. The response system, especially during the emergency response period, is crucial to be able to minimize risks. However, providing assistance to disaster victims is hampered by several things, including delays in providing assistance, lack of information on the location of victims, and uneven distribution of aid. To provide fast and accurate information, BNPB has built several information systems such as DIBI, InAware, Geospatial, Petabencana.id and InaRisk. However, it does not display the disaster area in real-time by showing what kind of assistance needs the victim needs at that time. To provide a solution to these problems, this study builds a model that is able to classify text data from Twitter related to the type of assistance requested by disaster victims in real-time. In addition, a dashboard is built in the form of a map-based application to display the location of the realized victim. This study uses text mining techniques to process Twitter data with a multi-label classification approach and location information extraction using the Stanford NER method. The algorithms used are Naive Bayes, Support Vector Machine, and Logistic Regression with a combination of OneVsRest, Binary Relevance, Power-set Label, and Classifier Chain. Text representation using N-Grams with TF-IDF weighting. The best model for multi-label classification in this study is a combination of Support Vector Machine and Classifier Chain with UniGram+BiGram features with 82% precision, 70% recall, and 75% F1-score. Stanford NER produces an F1-score of 83% for location classification which is the input for geocoding techniques. Geocoding results in the form of spatial information are displayed in a map-based dashboard."

Jakarta: Fakultas Ilmu Komputer Universitas Indonesia, 2021

TA-pdf

UI - Tugas Akhir Universitas Indonesia Library

Ageng Anugrah Wardoyo Putra

Peninjauan Kembali Modul-Modul Pemrosesan Bahasa Indonesia dan Pemanfaatannya dalam Membangun Sistem Tanya Jawab = Review of Indonesian NLP Modules and Their Utilization in Question-Answering System

Walaupun belum semaju dan sekomprehensif bahasa-bahasa lainnya, penelitian NLP bahasa Indonesia telah mengalami perkembangan yang cukup signifikan. Penelitian NLP tersebut mencakup POS-Tagging, Named Entity Recognition, dependency parsing, coreference resolution, dan lain sebagainya. Dari penelitian-penelitian NLP bahasa Indonesia yang telah ada, perlu dilakukan validasi dan verifikasi apakah modul NLP pada penelitian tersebut masih relevan atau tidak. Hal tersebut perlu dilakukan karena mungkin saja terjadi kesalahan pada penelitian sebelumnya atau terdapat model yang lebih baik dari penelitian tersebut. Proses tersebut dapat dilakukan melalui evaluasi intrinsik maupun ekstrinsik. Evaluasi intrinsik dapat dilakukan dari reproduksi atau replikasi penelitian yang telah ada, sementara itu evaluasi ekstrinsik dilakukan dengan membangun sistem tanya jawab dari modul-modul NLP tersebut. Hasilnya, didapatkan beberapa modul seperti POS-Tagging dan NER masih cukup relevan dan memiliki dataset yang berkualitas. Namun, beberapa modul lain seperti coreference resolution, constituency parsing, dan dependency parsing masih perlu perkembangan lebih lanjut. Berdasarkan hasil evaluasi, sistem yang dibangun memiliki performa terbaik untuk metrik exact match dan F1 berturut-turut di angka 0,108 dan 0,151 untuk dataset SQuAD, 0,063 dan 0,191 untuk dataset TyDiQA, serta 0,127 dan 0,173 untuk dataset IDK-MRC. Dari evaluasi tersebut diketahui juga bahwa sistem tanya jawab yang dibangun menggunakan pipeline modul-modul NLP tidak sebaik model tanya jawab end-to-end menggunakan BERT yang telah di-finetuning. Meskipun begitu, dari hasil penelitian ini ditunjukkan bahwa kita dapat membangun suatu sistem tanya jawab berdasarkan modul-modul NLP bahasa Indonesia yang tersedia.

Although not as advanced and comprehensive as in other languages, research in Indonesian NLP has experienced significant development. This NLP research encompasses POS-Tagging, Named Entity Recognition, dependency parsing, coreference resolution, and other related areas. From the existing NLP studies conducted in the Indonesian language, it is essential to validate and verify whether the NLP modules used in the research are still relevant. This is important because there might have been errors in previous research or there might be better models available. This process can be accomplished through both intrinsic and extrinsic evaluations. Intrinsic evaluation can be conducted by reproducing or replicating existing research, while extrinsic evaluation involves building a question answering system using these NLP modules. The results show that some modules, such as POS-Tagging and NER, are still quite relevant and have high-quality datasets. However, other modules like coreference resolution, constituency parsing, and dependency parsing still require further development. Based on the evaluation results, the constructed system performs best in terms of exact match and F1 metrics, with scores of 0.108 and 0.151 for the SQuAD dataset, 0.063 and 0.191 for the TyDiQA dataset, and 0.127 and 0.173 for the IDK-MRC dataset, respectively. The evaluation also reveals that the question-answering system built using a pipeline of NLP modules does not perform as well as the end-to-end question-answering model using fine-tuned BERT. Nevertheless, this research demonstrates the feasibility of building a question-answering system based on the available Indonesian NLP modules.
"

Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2023

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

Machffud Tra Harana Vova

Klasifikasi Dokumen dan Ekstraksi Lokasi pada Berita Bencana Alam dengan Pendekatan Neural Network dan Pre-Trained Language Model = Document Classification and Location Extraction in Natural Disaster News with Neural Network Approach and Pre-Trained Language Model

"Indonesia merupakan negara yang wilayahnya sering mengalami bencana alam. Salah satu penanganan bencana alam adalah pengumpulan informasi berita bencana seperti artikel atau koran, yang mana berguna untuk meningkatkan readability. Meskipun be- gitu, sekadar pengumpulan artikel saja cukup sulit karena identfikasinya dapat memakan waktu serta makna yang termuat pada berita juga masih perlu diserap. Oleh karena itu perlu dilakukan klasifikasi dokumen untuk memilih teks dokumen yang relevan dengan bencana alam, kemudian dari teks dokumen yang relevan dilakukan ekstraksi informasi. Penelitian mengenai klasifikasi teks bencana alam serta ekstraksi informasi yang sudah dilakukan masih menggunakan pendekatan pemelajaran mesin tradisional serta belum memanfaatkan pre-trained model berbasis bahasa Indonesia. Penggunaan pre-trained model dan pendekatan deep learning sendiri sering memperoleh performa yang lebih baik, sehingga ada kemungkinan performa yang dihasilkan dapat ditingkatkan. Dalam penelitian ini dilakukan eksperimen menggunakan pre-trained word embedding seperti Word2Vec dan fastText, pendekatan deep learning seperti BERT dan BiLSTM untuk task klasifikasi. Hasil dengan pendekatan pemelajaran mesin tradisional dengan BoW yang sudah direproduksi menjadi yang terbaik hampir secara keseluruhan, meskipun jenis classifier yang digunakan adalah MLP yang mana sudah menerapkan deep learning karena memiliki beberapa neuron. Kemudian pada penggunaan model pre-trained seperti BERT, terdapat keterbatasan panjang masukan. Keterbatasan ini dapat ditangani dengan membuat representasi dokumen menjadi lebih pendek menggunakan metode peringkasan teks. Hasil representasi ringkasan dokumen dalam penelitian ini mampu meningkatkan performa akurasi klasifikasi baik pada pendekatan pemelajaran mesin tradisional maupun deep learning. Penelitian ini juga melakukan ekperimen penggunaan pre-trained model yang sudah fine-tuned untuk task ekstraksi lokasi seperti NER dan dependency parsing berbasis bahasa Indonesia, meskipun belum dihasilkan performa yang cukup baik.

Indonesia is a country whose often experiences natural disasters. One way to deal with natural disasters is to collect disaster news information such as articles or newspapers, which are useful for increasing readability. Even so, just collecting articles is quite difficult because identification can take time and the meaning contained in the news still needs to be absorbed. Therefore, it is necessary to classify documents to select document texts that are relevant to natural disasters, then extract information from the relevant document texts. Research on natural disaster text classification and information extraction that has been carried out still uses the traditional machine learning approach and has not yet utilized Indonesian language-based pre-trained models. The use of pre- trained models and deep learning approaches themselves often get better performance, so there is a possibility that the resulting performance can be improved. In this study, experiments were carried out using pre-trained word embedding such as Word2Vec and fastText, deep learning approaches such as BERT and BiLSTM for classification tasks. The results with traditional machine learning approaches with reproducible BoW are the best almost overall, even though the type of classifier used is MLP which already implements deep learning because it has few neurons. Then in the use of pre-trained models such as BERT, there are limitations to the length of the input. This limitation can be overcome by making the document representation shorter using the text summary method. The results of the document summary representation in this study were able to improve the performance of classification accuracy in both traditional and deep learning machine learning approaches. This study also conducted experiments using pre-trained models that had been fine-tuned for location extraction tasks such as NER and Indonesian language-based dependency parsing, although they did not produce sufficiently good performance."

Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2023

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

Alif Ahsanil Satria

Pengenalan entitas bernama pada Dokumen Wikipedia dan Berita Bahasa Indonesia dengan Pendekatan Conditional Random Field = Named-Entity Recognition On Indonesian Wikipedia and News Document Using Conditional Random Field Approach

"Pengenalan entitas bernama (named-entity recognition atau NER) adalah salah satu topik riset di bidang pemrosesan bahasa alami (natural language processing atau NLP). Pen- genalan entitas bernama merupakan langkah awal mengubah unstructured text menjadi structured text. Pengenalan entitas bernama berguna untuk mengerjakan NLP task yang lebih high-level seperti ekstraksi informasi (information extraction atau IE), Question Answering (QA), dan lain-lain. Penelitian ini memanfaatkan data berita dan wikipedia masing-masing sebanyak 200 dokumen yang digunakan untuk proses pengujian dan pelatihan. Penelitian ini mencoba mengeksplorasi entitas bernama baru yang tidak sebatas Person, Location, dan Organization. Named entity baru tersebut adalah Event, Product, Nationalities Or Religious or Political groups (NORP), Art, Time, Language, NonHuman or Fictional Character (NHFC), dan Miscellaneous. Jadi, penelitian ini menggunakan 11 entitas bernama. Dalam penelitian ini, permasalahan tersebut dipandang sebagai se- quence labelling. Penelitian ini mengusulkan penggunaan model conditional random field sebagai solusi permasalahan ini. Penelitian ini mengusulkan penggunaan fitur tambahan seperti kata sebelum, kata sesudah, kondisi huruf kapital di awal kata, dan lain-lain, serta word embedding. Penelitian ini menghasilkan performa dengan nilai F-measure terbaik sebesar 67.96% untuk data berita dan 67.09% untuk data wikipedia.

Named Entity Recognition or NER is one of research topics in Natural Language Pro- cessing (NLP) subject. NER is the first step to transform unstructured text to structured text. NER is used for doing more high-level NLP task such as Information Extraction (IE), Question Answering (QA), etc. This research uses news and wikipedia data with 200 documents of each, which is used for training and testing process. This research tries exploring new named entities in addition to Person, Location, and Organization. These named entities are Event, Product, Nationalities Or Religious or Political groups (NORP), Art, Time, Language, NonHuman or Fictional Character (NHFC), and Miscellaneous. Therefore, this research uses 11 named entities. This research views this problem as sequence labelling. This research proposes conditional random field model as the solution for this problem. This research proposes some features, for example additional features such as previous word, next word, initial capital letter condition, etc, and word embedding. This research results p1qerformance with the best F-Measure of 67.09% for wikipedia data and 67.96% for news data."

Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2020

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

Hasil Pencarian :: Simpan CSV :: Kembali

Hasil Pencarian