Hasil Pencarian  ::  Simpan CSV :: Kembali

Hasil Pencarian

Ditemukan 200746 dokumen yang sesuai dengan query
cover
Jeremy Reeve Kurniawan
"Penelitian ini bertujuan untuk mengembangkan alat ekstraksi informasi yang efisien, akurat, dan interaktif untuk menganalisis teks berita menggunakan pendekatan gabungan antara LLM dan KG. Metode ini menggabungkan keunggulan kedua teknik tersebut untuk meningkatkan pemahaman dan ekstraksi informasi dari teks berita yang kompleks. Tujuannya adalah agar pembaca dapat memahami informasi yang terdapat pada teks berita dengan lebih interaktif. Penulis memanfaatkan LLM yang telah terlatih secara luas dalam memahami dan menghasilkan teks untuk mengidentifikasi informasi penting dalam teks berita, seperti entitas, sentimen, kutipan, relasi antar entitas, dan unsur 5W1H (Who, What, Where, When, Why, How), urutan kronologis kejadian, dan hubungan bagian-keseluruhan (mereology) dalam teks berita. Untuk mengekstraksi informasi tersebut, prompt dimodifikasi dengan menggunakan pendekatan one-shot prompting untuk memberikan konteks dan contoh kepada LLM dalam memahami teks berita. Kemudian, informasi yang diekstraksi divisualisasikan dalam bentuk KG yang merepresentasikan pengetahuan terstruktur tentang entitas dan hubungannya di dalam teks. Selain itu, penelitian melibatkan pembuatan sebuah website yang akan menyediakan antarmuka untuk sistem agar pengguna dapat melakukan analisis teks berita secara langsung dan interaktif. Evaluasi utama yang dilakukan pada penelitian ini adalah mengukur akurasi jawaban yang dihasilkan oleh LLM pada setiap bagian informasi yang diekstraksi dan bagaimana visualisasi KG yang baik untuk informasi yang didapat. Penelitian ini menunjukkan bahwa LLM mampu mengekstraksi informasi yang diinginkan dengan cukup akurat dan visualisasi KG dapat menyajikan informasi dengan lebih interaktif dan mudah dimengerti. Penelitian ini telah menunjukkan bahwa LLM dan KG dapat dimanfaatkan sebagai alat ekstraksi dan visualisasi informasi yang ada pada teks berita.

This research aims to develop an effective, interactive, and accurate information extraction tool for analyzing news texts using a combined approach between LLM and KG. This method combines the advantages of both techniques to improve the understanding and extraction of information from complex news texts. The goal is for readers to understand the information contained in the news text interactively. The author utilizes LLMs who have been extensively trained in understanding and generating texts to identify important information in news texts, such as entities, sentiments, quotes, relations between entities, and 5W1H (Who, What, Where, When, Why, How), chronological order of events, and part-whole relationships (mereology) elements in news texts. To extract that information, the prompt was modified by using a one-shot-prompting approach to provide context and examples to LLMs in understanding the news text. Then, the extracted information is used to build a KG that represents structured knowledge about entities and relationships in the text. In addition, the development plan involves creating a website that will provide an interface for this system to allow users to perform live and interactive news text analysis. The main evaluation conducted in this research is to measure the accuracy of the answers generated by LLM on each piece of information extracted and how good KG visualization is for the information obtained. This research shows that LLM is able to extract the desired information quite accurately and KG visualization can present information in a more interactive and easy to understand manner. This research has shown that LLM and KG can be used as information extraction and visualization tools in news texts."
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2024
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Fransisco William Sudianto
"Perkembangan Large Language Model (LLM) terjadi secara cepat dan mengalami kemajuan yang signifikan.Hal ini mendorong penggunaandanpemanfaatan LLM pada berbagai bidang. Disisilain, Knowledge Graph (KG) menyediakan cara yang terstruktur dan bermakna untuk menyimpan informasi. KG sudah banyak digunakan secara luas di berbagai aplikasi, seperti mesin pencari,system rekomendasi, dan sistem penjawab pertanyaan. Salah satu pemanfaatan LLM dan KG yang masih jarang adalah pada bidang jurnalistik, khususnya untuk menganalisis dan memvisualisasikan berita. Penelitian ini bertujuan untuk mengembangkan alat ekstraksi informasi yang efisien, akurat, dan interaktif untuk menganalisis teks berita menggunakan pendekatan gabungan antara LLM dan KG. Metode ini menggabungkan keunggulan kedua teknik tersebut untuk meningkatkan pemahaman dan ekstraksi informasi dari teks berita yang kompleks. Tujuannya adalah agar pembaca dapat memahami informasi yang terdapat pada teks berita dengan lebih interaktif. Penulis memanfaatkan LLM yang telah terlatih secara luas dalam memahami dan menghasilkan teks untuk mengidentifikasi informasi penting dalam teks berita, seperti entitas, sentimen, kutipan, relasi antar entitas, dan unsur 5W1H (Who, What, Where, When, Why, How), urutan kronologis kejadian, dan hubungan bagian-keseluruhan (mereology) dalam teks berita. Untuk mengekstraksi informasiterse- but, prompt dimodifikasi dengan menggunakan pendekatan one-shot-prompting untuk memberikan konteks dan contoh kepada LLM dalam memahami teks berita. Kemudian, informasi yang diekstraksi di visualisasikan dalam bentuk KG yang merepresentasikan pengetahuan terstruktur tentang entitas dan hubungannya didalam teks. Selainitu, penelitian melibatkan pembuatan sebuah website yang akan menyediakan antarmuka untuk system agar pengguna dapat melakukan analisis teks berita secara langsung dan interaktif. Evaluasi utama yang dilakukan pada penelitian ini adalah mengukur akurasi jawaban yang dihasilkan oleh LLM pada setiap bagian informasi yang diekstraksi dan bagaimana visualisasi KG yang baik untuk informasi yang didapat. Penelitian ini menunjukkan bahwa LLM mampu mengekstraksi informasi yang diinginkan dengan cukup akurat dan visualisasi KG dapat menyajikan informasi dengan lebih interaktif dan mudah dimengerti. Penelitian initelah menunjukkan bahwa LLM dan KG dapat dimanfaatkan sebagai alat ekstraksi dan visualisasi informasi yang ada pada teks berita.

The development of Large Language Model (LLM) is happening rapidly and has made significant progress. This encourages the use and utilization of LLM in various fields. On the other hand, Knowledge Graph (KG) provides a structured and meaningful way to store information. KG has been widely used in various applications, such as search engines, recommendation systems, and question answering systems. One of the uses of LLM and KG that is still rare is in the field of journalism, especially for analyzing and visualizing news. This study aims to develop an efficient, accurate, and interactive information extraction tool for analyzing news texts using a combined approach between LLM and KG. This method combines the advantages of both techniques to improve understanding and information extraction from complex news texts. The goal is for readers to understand the information contained in the news text more interactively. The author uses LLM which has been widely trained in understanding and producing text to identify important information in news texts, such as entities, sentiments, quotes, relationships between entities, and 5W1H elements (Who, What, Where, When, Why, How), chronological sequence of events, and part-whole relationships (mereology) in news texts. To extract the information, the prompt is modified using a one-shot-prompting approach to provide context and examples to LLM in understanding the news text. Then, the extracted information is visualized in the form of KG which represents structured knowledge about entities and their relationships in the text. In addition, the study involves the creation of a website that will provide an interface for the system so that users can analyze news texts directly and interactively. The main evaluation carried out in this study is to measure the accuracy of the answers generated by LLM on each part of the extracted information and how good KG visualization is for the information obtained. This study shows that LLM is able to extract the desired information quite accurately and KG visualization can present information more interactively and easily understood. This study has shown that LLM and KG can be used as tools for extracting and visualizing information in news texts."
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2024
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Framadhana Arnely
"Sistem perolehan gambar merupakan sistem untuk memperoleh dokumen gambar dari suatu koleksi dokumen gambar berdasarkan query tertentu. Sistem perolehan gambar yang dikembangkan merupakan sistem satu bahasa dan lintas bahasa. Sistem satu bahasa merupakan sistem yang menerima query, dimana bahasa query sama dengan bahasa koleksi dokumen. Sedangkan sistem lintas bahasa merupakan sistem yang menerima query, dimana bahasa query berbeda dengan bahasa koleksi dokumen. Sistem satu bahasa menggunakan query dalam bahasa Inggris, sedangkan sistem lintas bahasa menggunakan query dalam bahasa Indonesia yang digunakan untuk mencari dokumen dalam bahasa Inggris. Sistem perolehan gambar yang dikembangkan untuk penelitian ini menggunakan koleksi dokumen gambar yang disertai dengan teks yang berisi informasi tentang gambar tersebut (text caption). Query yang digunakan terdiri dari query gambar dan query teks. Query teks terdiri dari dua bentuk, yaitu judul dan narasi. Untuk mengolah data yang berupa teks, digunakan sistem IR Lucene, sedangkan untuk mengolah data yang berupa gambar, digunakan sistem CBIR GIFT dan VSMImage. Penelitian ini merupakan bagian dari kegiatan Image Cross Language Evaluation Forum (ImageCLEF) tahun 2005. Data-data berupa query, koleksi dokumen, dan hasil penilaian (relevance judgment) menggunakan data yang diberikan oleh ImageCLEF. Penelitian ini juga ingin mempelajari perbaikan hasil perolehan gambar dengan menggunakan query teks yang diterjemahkan dari bahasa Indonesia ke bahasa Inggris. Metode-metode yang digunakan dalam perbaikan hasil terjemahan query teks ini menggunakan perluasan query dan menggabungkan hasil pencarian query gambar dengan hasil pencarian query teks. Penggunaan query teks yang diterjemahkan terlihat menurunkan precision dengan rata-rata penurunan sebesar 44.97% terhadap query teks yang tidak diterjemahkan. Dari hasil eksperimen, penggunaan perluasan query memperburuk hasil pencarian query teks yang diterjemahkan dengan rata-rata penurunan precision sebesar 16.42%. Penggabungan hasil perolehan sistem CBIR GIFT dengan hasil query teks yang diterjemahkan dapat memperbaiki hasil pencarian query teks yang diterjemahkan dengan kenaikan precision rata-rata sebesar 8.70%. Penggabungan hasil pencarian sistem CBIR VSMImage dengan hasil query teks yang tidak diterjemahkan, belum dapat memperbaiki hasil pencarian query yang diterjemahkan."
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2006
S-Pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Manning, Christopher D.
Cambridge, UK: Cambridge University Press, 2008
025.04 MAN i
Buku Teks SO  Universitas Indonesia Library
cover
Liliana Calderon-Benavides, editor
"This book constitutes the refereed proceedings of the 19th International Symposium on String Processing and Information Retrieval, SPIRE 2012, held in Cartagena de Indias, Colombia, in October 2012. The 26 full papers, 13 short papers, and 3 keynote speeches were carefully reviewed and selected from 81 submissions. The following topics are covered, fundamentals algorithms in string processing and information retrieval, SP and IR techniques as applied to areas such as computational biology, DNA sequencing, and Web mining."
Berlin: Springer, 2012
e20407281
eBooks  Universitas Indonesia Library
cover
Muhammad Haddad
"Indonesia merupakan negara hukum yang mengadopsi asas Fictie Hukum. Asas tersebut memandang setiap orang tahu hukum tanpa pengecualian. Penyediaan akses yang mudah terhadap produk hukum merupakan konsekuensi dari hal tersebut. Meski telah tersedia beberapa layanan daring pencarian hukum, baik oleh pemerintah maupun swasta, layanan tersebut belum mampu menangkap relasi intradokumen dan antardokumen dengan baik. Dalam meningkatkan sistem pencarian hukum, terdapat knowledge graph (KG) bernama LexID yang menghadirkan representasi peraturan perundang-undangan Indonesia dalam sebuah graf. KG tersebut dikonstruksi dengan pendekatan rule-based. Namun, pendekatan rule-based tidak mudah beradaptasi dengan perubahan dalam format atau konten dokumen dan memerlukan pemeliharaan berkelanjutan. Penelitian ini mengusulkan pendekatan lain dalam konstruksi LexID. Proses konstruksi LexID dilakukan menggunakan pre-trained large language model (LLM) berupa CodeGemma parameter 7B, Code Llama parameter 7B, dan Phi-3 parameter 7B. Jenis prompt yang digunakan, yaitu prompt kode dan teks dengan variasi 1-shot dan 2-shot, sehingga total terdapat dua belas skenario percobaan. Hasil konstruksi KG kemudian dievaluasi terhadap KG LexID dan diukur menggunakan metrik precision, recall, dan skor F1. Dari hasil konstruksi, didapatkan skor F1 hasil dari prompt teks 1-shot: CodeGemma 0.405, CodeLlama 0.452, dan Phi 0.362; skor F1 hasil dari prompt kode 1-shot: CodeGemma 0.645, CodeLlama 0.567, dan Phi 0.526; skor F1 hasil dari prompt teks 2-shot: CodeGemma 0.572, CodeLlama 0.502, dan Phi 0.386; skor F1 hasil dari prompt kode 2-shot: CodeGemma 0.687, CodeLlama 0.583, dan Phi 0.539.

Indonesia operates under a legal system that adopts the principle of Legal Fiction, which posits that every individual is presumed to be aware of the law without exception. Consequently, providing easy access to legal documents is imperative. Despite the availability of several online legal search services offered by both government and private entities, these services have yet to effectively capture intra-document and inter-document relationships. To enhance the legal search system, a knowledge graph (KG) named LexID has been developed to represent Indonesian legislation in a graph format. This KG has traditionally been constructed using a rule-based approach. However, this approach struggles to adapt to changes in document format or content and necessitates continuous maintenance. This study proposes an alternative approach for the construction of LexID utilizing pre-trained large language models (LLMs), specifically CodeGemma with 7 billion parameters, Code Llama with 7 billion parameters, and Phi-3 with 7 billion parameters. The study employs both code and text prompts, with variations of 1-shot and 2-shot, resulting in a total of twelve experimental scenarios. The constructed KG is then evaluated against the existing LexID KG, using precision, recall, and F1 score metrics. The results of the construction indicate the following F1 scores: for 1-shot text prompts, CodeGemma achieved 0.405, Code Llama 0.452, and Phi 0.362; for 1-shot code prompts, CodeGemma achieved 0.645, Code Llama 0.567, and Phi 0.526; for 2-shot text prompts, CodeGemma achieved 0.572, Code Llama 0.502, and Phi 0.386; and for 2-shot code prompts, CodeGemma achieved 0.687, Code Llama 0.583, and Phi 0.539."
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2024
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Muhammad Ilham Al Ghifari
"Framework Lex2KG dibuat untuk mengekstraksi dokumen PDF peraturan perundang-undangan menjadi dokumen KG berbentuk RDF triple. Setelah pemeriksaan, framework masih memiliki permasalahan pada tahapan ekstraksinya mengakibatkan kurangnya kualitas KG pada aspek kualitas accuracy dan completeness. Sehingga dilakukan perbaikan framework Lex2KG untuk menghindari permasalahan yang muncul dan dibutuhkan sistem lain untuk menjaga dan meningkatkan kualitas. Pada penelitian dilakukan analisis serta perbaikan framework Lex2KG yaitu peningkatan jumlah dokumen yang dapat terekstraksi menjadi KG sehingga dapat mengekstraksi 1353 dokumen Undang-Undang (UU) dan 963 dokumen mempunyai Jumlah Pasal yang lengkap. Sementara itu, framework Lex2KG sebelum perbaikan hanya dapat mengekstraksi 784 dokumen dan 563 dokumen. Selain mengekstraksi dokumen UU, pada penelitian ini framework Lex2KG dapat mengekstraksi 3864 dari 4758 dokumen Peraturan Pemerintah (PP) menjadi data KG. Penelitian ini juga membuat SHACL shape untuk memvalidasi data KG sehingga ditemukan 60 dokumen UU yang tidak memiliki judul dikarenakan perbedaan format penulisan pada dokumen PDF nya. Untuk memahami dan menganalisis data Legal KG, dibuat kode visualisasi data KG. Visualisasi ini berbentuk statistik dan graph. Penulis juga membuat dataset yang berisikan pertanyaan beserta jawabannya untuk menjaga kualitas aplikasi Legal VA menggunakan sumber data hasil ekstraksi Lex2KG guna memastikan kualitas jawaban yang dikembalikan oleh aplikasi Legal VA akurat dan sesuai.

The Lex2KG framework was created to extract PDF documents of laws and regulations into KG documents in the form of triple RDF. After inspection, the framework still has problems at the extraction stage resulting in a lack of KG quality in terms of accuracy and completeness. So that the Lex2KG framework is improved to avoid problems that arise and other systems are needed to maintain and improve quality. In the research, an analysis and improvement of the Lex2KG framework was carried out, namely increasing the number of documents that could be extracted into KG so that 1353 Law documents were extracted and 963 documents had a complete number of articles. Meanwhile, the Lex2KG framework before the repair could only extract 784 documents and 563 documents. In addition to extracting law documents, in this study the Lex2KG framework was able to extract 3,864 out of 4,758 Government Regulation (PP) documents into KG data. This study also created a SHACL shape to validate KG data so that 60 UU documents were found that did not have titles due to differences in the writing format of the PDF documents. To understand and analyze Legal KG data, a KG data visualization code is generated. This visualization is in the form of statistics and graphs. The author also creates a dataset containing questions and answers to maintain the quality of the Legal VA application using data sources extracted from Lex2KG to ensure the quality of the answers returned by the Legal VA application are accurate and appropriate."
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2022
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Nicholas Pangestu
"Panjangnya suatu berita terkadang mengurangi minat seseorang untuk membaca berita, hal ini dapat kita lihat dari banyaknya istilah “tl:dr” pada thread di internet. Peringkasan dokumen dapat menciptkan ringkasan berita dan mengurangi waktu yang dibutuhkan untuk membaca. Salah satu cara yang dapat digunakan untuk melakukan peringkasan dokumen adalah menggunakan algoritma Textrank. Pada penelitian ini akan diimplementasikan word embedding untuk membantu algoritma Textrank memahami makna suatu kata dengan lebih baik. Hasil yang didapatkan menunjukkan bahwa penggunaan word embedding meningkatkan performa dari algoritma Textrank hingga 13% pada ROUGE-1 dan hingga 21% pada ROUGE-2. Model word embedding BERT memiliki performa tertinggi jika dibandingkan dengan word2vec (3% lebih tinggi pada ROUGE-1 dan 7% lebih tinggi pada ROUGE-2) dan fasttext (5% lebih tinggi pada ROUGE-1 dan 10% lebih tinggi pada ROUGE-2). Pada penelitian ini juga mengimplementasikan pembobotan TF-IDF dalam membuat sebuah representasi suatu kata. Hasil yang didapatkan menunjukkan bahwa pembobotan TF-IDF dapat meningkatkan performa dari tiap model word embedding yang digunakan hingga 11% pada ROUGE-1 dan hingga 19% pada ROUGE-2 dibandingkan performa tanpa pembobotan TF-IDF.

The length of article news sometimes reduces one's interest in reading the news, we can see this from the many terms "tl:dr" in threads on the internet. Document summarization can create news summaries and reduce the time it takes to read. One way to do document summarization is to use the Textrank algorithm. In this research, word embedding will be implemented to help the Textrank algorithm understand the meaning of a word better. The results show that the use of word embedding improves the performance of the Textrank algorithm up to 13% in ROUGE-1 and up to 21% in ROUGE-2. BERT word embedding model has the highest performance when compared to word2vec (3% higher in ROUGE-1 and 7% higher in ROUGE-2) and fasttext (5% higher in ROUGE-1 and 10% higher in ROUGE-2). This study also implements TF-IDF weighting to make a word representation. The results show that TF-IDF weighting can improve the performance of each word embedding model used up to 11% in ROUGE-1 and 19% in ROUGE-2 compared to the performance without using TF-IDF."
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2023
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Muthia Szami Naffisah
"Peningkatan data digital mendorong peningkatan kebutuhan teknik penggalian informasi. Media sosial merupakan salah satu penghasil data digital dalam jumlah besar, berupa aspirasi masyarakat mengenai apa yang terjadi di sekitar mereka. Maka dari itu, penelitian ini menganalisis respon masyarakat melalui akun twitter mengenai harga bahan pokok dan mengklasifikasikan respon tersebut menjadi dua kelompok; respon positif dan negatif. Penelitian ini menggunakan metode text mining, sedangkan asosiasi jenis bahan pokok dengan sentimen respon diukur menggunakan uji Chi Square dan Prosedur Marascuillo. Hasil penelitian menunjukkan bahwa Harga Susu, Harga Telur dan Harga Bawang Merah berasosiasi paling signifikan terhadap munculnya sentimen negatif dibandingkan komoditas lain.

The increase number of digital data pushes the needs of techniques in mining the information. Social media creates a large pool of data consisting of people’s aspiration on what happen around them. Therefore, this research analyzes people’s responses through their twitter account on staple food prices and classify them into sentiment classes; positive and negative. Research is done using text mining and the association between types of staple foods and sentiments is analyzed using Chi Square Test and Marascuillo Procedure. The result reveals Milk price, Egg Price and Red Onion price associate with negative sentiment tweets most significantly than others."
Depok: Fakultas Teknik Universitas Indonesia, 2014
S56032
UI - Skripsi Membership  Universitas Indonesia Library
cover
Ajmal Kurnia
"Code-mixing adalah sebuah fenomena pengunaan dua atau lebih bahasa dalam suatu percakapan. Fenomena ini semakin banyak digunakan oleh pengguna internet Indonesia yang mencampur bahasa Indonesia-Inggris. Normalisasi teks code-mixed ke dalam satu bahasa perlu dilakukan agar kata-kata yang ditulis dalam bahasa lain dalam teks tersebut dapat diproses dengan efektif dan efisien. Penelitian ini melakukan normalisasi teks code-mixed pada bahasa Indonesia-Inggris dengan menerjemahkan teks ke dalam bahasa Indonesia. Penulis melakukan pengembangan pada pipeline normalisasi code-mixed dari penelitian sebelumnya sebagai berikut: melakukan rekayasa fitur pada proses identifikasi bahasa, menggunakan kombinasi ruleset dan penerjemahan mesin pada proses normalisasi slang, dan menambahkan konteks pada proses Matrix Language Frame (MLF) pada proses penerjemahan. Hasil eksperimen menunjukkan bahwa model identifikasi bahasa yang dibuat dapat meningkatkan nilai F1-score 4,26%. Model normalisasi slang yang dibuat meningkatkan nilai BLEU hingga 25,22% lebih tinggi dan menunrunkan nilai WER 62,49%. Terakhir, proses penerjemahan yang dilakukan pada penelitian ini berhasil memperoleh nilai BLEU 2,5% lebih tinggi dan metrik WER 8,84% lebih rendah dibandingkan dengan baseline. Hasil ini sejalan dengan hasil eksperimen keseluruhan pipeline. Berdasarkan hasil eksperimen keseluruhan pipeline yang dibuat oleh penulis dapat meningkatkan secara signifikan performa BLEU hingga 32,11% dan menurunkan nilai WER hingga 33,82% lebih rendah dibandingkan dengan metode baseline. Selanjutnya, penelitian ini juga menganalisis pengaruh dari proses normalisasi teks code-mixed untuk klasifikasi emosi. Proses normalisasi teks code-mixed terbukti dapat meningkatkan performa sistem klasifikasi emosi hingga 12,45% untuk nilai F1-score dibandingkan dengan hanya melakukan tokenisasi dan meningkatkan nilai F1-score hingga 6,24% dibandingkan dengan metode preproses sederhana yang umum digunakan. Hal ini menunjukkan bahwa normalisasi teks code-mixed memiliki pengaruh positif terhadap efektifitas pemrosesan teks, sehingga normalisasi ini penting untuk dilakukan pada task yang menggunakan data code-mixed.

Code-mixing is the mixing of two or more languages in a conversation. The usage of code-mixing has increased in recent years among Indonesian internet users that often mixed Indonesian language with English. Normalization of code-mixed text has to be applied to translate code-mixed text so that the text can be processed effectively and efficiently. This research performed code-mixed text normalization on Indonesian-English text by translating the text to Indonesian language. Author improves existing normalization pipeline from previous research by: (1) feature engineering on language identification, (2) using combination of ruleset and machine translation approach on slang normalization, and (3) adding some context on matrix language frame that used on translation process. Experiment result shows language identification model that developed in this research is able to improve F1-score by 4,26%. Slang normalization model from this research is able to improve BLEU score by 25,22% and lower WER score by 62,49%. Lastly, translation process on this research is able to improve BLEU score by 2,5% and lower WER score by 8,84% compared to baseline. Experiment results on the entire normalization pipeline shows similar results. The result shows the new pipeline is able to significantly improves previous pipeline by 32,11% on BLEU metric and reduces WER by 33,82% compared to baseline normalization system. This research also tried to analyze the effect of code-mixed text normalization process on emotion classification. Code-mixed text normalization is able to improve evaluation result of emotion classification model by 12,45% on F1-score compared to tokenization only preprocessing data and 6,24% compared to common text preprocessing method. This result shows that the code-mixed text normalization has positive effect to text processing and also shows the importance to perform this normalization when using code-mixed data.
"
Depok: Fakultas Ilmu Kompter Universitas Indonesia, 2020
T-Pdf
UI - Tesis Membership  Universitas Indonesia Library
<<   1 2 3 4 5 6 7 8 9 10   >>