Hasil Pencarian

Ditemukan 178321 dokumen yang sesuai dengan query

Pisceldo, Femphy

Pengembangan lanjut pengurai morfologi untuk bahasa Indonesia berbasiskan morfologi dua tingkat menggunakan XFST dan LEXC

"Pengurai morfologi merupakan suatu program yang digunakan untuk melakukan pengenalan kata dan membagi kata menjadi satu atau lebih morfem dengan memberikan analisis morfologi yang sesuai untuk kata tersebut. Pengurai morfologi yang dikembangkan pada penelitian untuk Tugas Akhir ini adalah pengembangan dari pengurai morfologi yang telah dikembangkan Hendra Hartono pada tahun 2002. Pengurai morfologi ini dikembangkan untuk bahasa Indonesia dengan memanfaatkan prinsip morfologi dua tingkat (two-level morphology) yang lazim dipakai untuk pengurai-pengurai morfologi pada bahasa-bahasa lainnya.

Prinsip morfologi dua tingkat (two-level morphology) ini memanfaatkan finite-state transducers dalam pemodelannya. Morfologi bahasa Indonesia yang dicakup dalam penelitian ini berkisar antara kata dasar, kata imbuhan dari penggabungan kata dasar dengan awalan (prefiks), akhiran (sufiks), maupun gabungan pengimbuhanan (konfiks), hingga kata ulang sejati, kata ulang sebagian, dan kata ulang berimbuhan. Morfologi bahasa Indonesia ini dibuat berdasarkan tata bahasa baku bahasa Indonesia. Perancangan untuk pengurai morfologi ini melingkupi perancangan lexicon, tags, aturan-aturan morfotaktik, hingga aturan-aturan morfofonemik.

Hasil rancangan tersebut kemudian diimplementasikan dengan Xerox Finite-State Tool (XFST) dan Finite-State Lexicon Compiler (LEXC). Setelah tahapan implementasi dilakukan, hasilnya diujicobakan dengan berbagai test cases yang representatif sesuai apa yang dikembangkan dalam penelitian ini. Ujicoba dilakukan terhadap 420 test cases dan hanya 8 test cases yang mengeluarkan hasil yang salah. Kata kunci: Pengurai morfologi, two-level morphology, finite-state transducers, tata bahasa baku bahasa Indonesia, lexicon, tags, morfotaktik, morfofonemik, XFST, dan LEXC."

Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2008

S-Pdf

UI - Skripsi Open Universitas Indonesia Library

Nicholas Pangestu

Penggunaan Word Embedding dan Bobot Kata pada Algoritma Textrank untuk Peringkasan Artikel Bahasa Indonesia = The Use of Word Embedding and Word Weight in Textrank Algorithm for Summarizing Indonesian Articles

"Panjangnya suatu berita terkadang mengurangi minat seseorang untuk membaca berita, hal ini dapat kita lihat dari banyaknya istilah “tl:dr” pada thread di internet. Peringkasan dokumen dapat menciptkan ringkasan berita dan mengurangi waktu yang dibutuhkan untuk membaca. Salah satu cara yang dapat digunakan untuk melakukan peringkasan dokumen adalah menggunakan algoritma Textrank. Pada penelitian ini akan diimplementasikan word embedding untuk membantu algoritma Textrank memahami makna suatu kata dengan lebih baik. Hasil yang didapatkan menunjukkan bahwa penggunaan word embedding meningkatkan performa dari algoritma Textrank hingga 13% pada ROUGE-1 dan hingga 21% pada ROUGE-2. Model word embedding BERT memiliki performa tertinggi jika dibandingkan dengan word2vec (3% lebih tinggi pada ROUGE-1 dan 7% lebih tinggi pada ROUGE-2) dan fasttext (5% lebih tinggi pada ROUGE-1 dan 10% lebih tinggi pada ROUGE-2). Pada penelitian ini juga mengimplementasikan pembobotan TF-IDF dalam membuat sebuah representasi suatu kata. Hasil yang didapatkan menunjukkan bahwa pembobotan TF-IDF dapat meningkatkan performa dari tiap model word embedding yang digunakan hingga 11% pada ROUGE-1 dan hingga 19% pada ROUGE-2 dibandingkan performa tanpa pembobotan TF-IDF.

The length of article news sometimes reduces one's interest in reading the news, we can see this from the many terms "tl:dr" in threads on the internet. Document summarization can create news summaries and reduce the time it takes to read. One way to do document summarization is to use the Textrank algorithm. In this research, word embedding will be implemented to help the Textrank algorithm understand the meaning of a word better. The results show that the use of word embedding improves the performance of the Textrank algorithm up to 13% in ROUGE-1 and up to 21% in ROUGE-2. BERT word embedding model has the highest performance when compared to word2vec (3% higher in ROUGE-1 and 7% higher in ROUGE-2) and fasttext (5% higher in ROUGE-1 and 10% higher in ROUGE-2). This study also implements TF-IDF weighting to make a word representation. The results show that TF-IDF weighting can improve the performance of each word embedding model used up to 11% in ROUGE-1 and 19% in ROUGE-2 compared to the performance without using TF-IDF."

Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2023

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

Ajmal Kurnia

Normalisasi teks code-mixed bahasa Indonesia-Inggris pada data twitter dan analisis pengaruhnya untuk klasifikasi emosi = Code-mixed text normalization on Indonesian-English language on twitter data and the analysis of its effect on emotion classification.

"Code-mixing adalah sebuah fenomena pengunaan dua atau lebih bahasa dalam suatu percakapan. Fenomena ini semakin banyak digunakan oleh pengguna internet Indonesia yang mencampur bahasa Indonesia-Inggris. Normalisasi teks code-mixed ke dalam satu bahasa perlu dilakukan agar kata-kata yang ditulis dalam bahasa lain dalam teks tersebut dapat diproses dengan efektif dan efisien. Penelitian ini melakukan normalisasi teks code-mixed pada bahasa Indonesia-Inggris dengan menerjemahkan teks ke dalam bahasa Indonesia. Penulis melakukan pengembangan pada pipeline normalisasi code-mixed dari penelitian sebelumnya sebagai berikut: melakukan rekayasa fitur pada proses identifikasi bahasa, menggunakan kombinasi ruleset dan penerjemahan mesin pada proses normalisasi slang, dan menambahkan konteks pada proses Matrix Language Frame (MLF) pada proses penerjemahan. Hasil eksperimen menunjukkan bahwa model identifikasi bahasa yang dibuat dapat meningkatkan nilai F1-score 4,26%. Model normalisasi slang yang dibuat meningkatkan nilai BLEU hingga 25,22% lebih tinggi dan menunrunkan nilai WER 62,49%. Terakhir, proses penerjemahan yang dilakukan pada penelitian ini berhasil memperoleh nilai BLEU 2,5% lebih tinggi dan metrik WER 8,84% lebih rendah dibandingkan dengan baseline. Hasil ini sejalan dengan hasil eksperimen keseluruhan pipeline. Berdasarkan hasil eksperimen keseluruhan pipeline yang dibuat oleh penulis dapat meningkatkan secara signifikan performa BLEU hingga 32,11% dan menurunkan nilai WER hingga 33,82% lebih rendah dibandingkan dengan metode baseline. Selanjutnya, penelitian ini juga menganalisis pengaruh dari proses normalisasi teks code-mixed untuk klasifikasi emosi. Proses normalisasi teks code-mixed terbukti dapat meningkatkan performa sistem klasifikasi emosi hingga 12,45% untuk nilai F1-score dibandingkan dengan hanya melakukan tokenisasi dan meningkatkan nilai F1-score hingga 6,24% dibandingkan dengan metode preproses sederhana yang umum digunakan. Hal ini menunjukkan bahwa normalisasi teks code-mixed memiliki pengaruh positif terhadap efektifitas pemrosesan teks, sehingga normalisasi ini penting untuk dilakukan pada task yang menggunakan data code-mixed.

Code-mixing is the mixing of two or more languages in a conversation. The usage of code-mixing has increased in recent years among Indonesian internet users that often mixed Indonesian language with English. Normalization of code-mixed text has to be applied to translate code-mixed text so that the text can be processed effectively and efficiently. This research performed code-mixed text normalization on Indonesian-English text by translating the text to Indonesian language. Author improves existing normalization pipeline from previous research by: (1) feature engineering on language identification, (2) using combination of ruleset and machine translation approach on slang normalization, and (3) adding some context on matrix language frame that used on translation process. Experiment result shows language identification model that developed in this research is able to improve F1-score by 4,26%. Slang normalization model from this research is able to improve BLEU score by 25,22% and lower WER score by 62,49%. Lastly, translation process on this research is able to improve BLEU score by 2,5% and lower WER score by 8,84% compared to baseline. Experiment results on the entire normalization pipeline shows similar results. The result shows the new pipeline is able to significantly improves previous pipeline by 32,11% on BLEU metric and reduces WER by 33,82% compared to baseline normalization system. This research also tried to analyze the effect of code-mixed text normalization process on emotion classification. Code-mixed text normalization is able to improve evaluation result of emotion classification model by 12,45% on F1-score compared to tokenization only preprocessing data and 6,24% compared to common text preprocessing method. This result shows that the code-mixed text normalization has positive effect to text processing and also shows the importance to perform this normalization when using code-mixed data."

Depok: Fakultas Ilmu Kompter Universitas Indonesia, 2020

T-Pdf

UI - Tesis Membership Universitas Indonesia Library

Jonathan Amadeus Hartman

Pengembangan Document Management System (DMS) Aksara Pegon = Development of Pegon Script Document Management System (DMS)

"Aksara Pegon merupakan aksara Arab yang dimodifikasi untuk menulis bahasa Jawa, Sunda, dan Madura. Koleksi manuskrip aksara ini telah tersebar di seluruh Indonesia dan mancanegara, tetapi sayangnya belum ada platform digital yang dapat menyatukan koleksi-koleksi berharga tersebut. Salah satu jenis platform yang cocok digunakan untuk memuat metadata manuskrip secara lengkap dan mendukung kontribusi manuskrip dari pengguna adalah document management system (DMS). Oleh sebab itu, penelitian ini bertujuan untuk mengembangkan DMS untuk manuskrip Pegon yang dapat digunakan oleh para kolektor, santri, dan orang awam. Penelitian ini menggunakan metode requirement gathering untuk memahami kebutuhan pengguna terhadap DMS Pegon. Wawancara dengan calon pengguna dan benchmarking dengan aplikasi DMS lain dilakukan untuk membuat rancangan fitur dan antarmuka aplikasi. Hasil evaluasi rancangan fitur menunjukkan bahwa fitur-fitur yang akan diimplementasikan telah memenuhi kebutuhan calon pengguna. Lalu, hasil requirement gathering dijadikan dasar penyusunan product backlog item (PBI), pemilihan teknologi, dan rancangan arsitektur DMS Pegon. Proses pengembangan dilakukan dalam dua tahap, backend dan frontend dengan menerapkan metode Kanban. Implementasi DMS Pegon menggunakan arsitektur yang terkontainerisasi dalam Docker, meliputi Next.js, Strapi, Meilisearch, dan PostgreSQL. Sesudah tahap pengembangan usai, kriteria penerimaan dan nilai bisnis dari setiap item PBI digunakan sebagai ekspektasi pada evaluasi fungsionalitas. Hasilnya menunjukkan bahwa seluruh pengujian telah memenuhi ekspektasi dan arsitektur sistem serta seluruh fitur DMS Pegon telah berjalan sesuai dengan kebutuhan pengguna.

Pegon script is an adapted Arabic script used to write the Javanese, Sundanese, and Madurese languages. The manuscript collection of this script has been scattered throughout Indonesia and abroad, but unfortunately, there is no digital platform yet that can unite these valuable collections. One suitable platform to house complete manuscript metadata and support user contributions is a document management system (DMS). Therefore, this research aims to develop a DMS for Pegon manuscripts that can be used by collectors, traditional Muslim school students, and the general public. This research utilizes requirement gathering method to understand users’ needs for Pegon DMS. Interviews with potential users and benchmarking with other DMS applications were conducted to design the features and application interface. The evaluation of the feature design showed that the proposed features meet the needs of potential users. Based on the results of the requirement gathering process, product backlog items (PBI), technology selection, and Pegon DMS architecture were formulated. The development process was carried out in two phases, backend and frontend, using Kanban method. The implementation of the Pegon DMS utilized a containerized architecture within Docker, including Next.js, Strapi, Meilisearch, and PostgreSQL. After the development phase, acceptance criteria and business value for each PBI item were used as expectations in the functionality evaluation. The results showed that all tests met the expectations. Thus, the system architecture and all Pegon DMS features are in line with user requirements."

Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2023

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

Siahaan, Edison Pardengganan

Segmentasi dokumen teks berbahasa Indonesia menggunakan metode text tiling

"Penelitian yang dilakukan pada tesis ini dimotivasi oleh adanya kebutuhan untuk dapat melakukan pengelolaan informasi pada dokumen suara khususnya berita berbahasa Indonesia. Informasi pada dokumen suara berita berbahasa Indonesia dapat diubah menjadi informasi berbentuk dokumen teks, dengan menggunakan perangkat lunak Automatic Speech Recognition (ASR). Pada penelitian ini perangkat ASR yang digunakan adalah perangkat ASR Sphinx 4.

Penggunaan perangkat Sphinx 4 ini didasari telah dilakukannya penelitian tentang transkripsi dokumen suara berbahasa Indonesia menggunakan perangkat ini. Hasil keluaran dari ASR berupa dokumen teks yang tidak memiliki batasan akhir dan tidak tersegmentasi secara jelas, tentu menyulitkan dalam pengolahan data teks tersebut. Dalam kerangka itu, maka penelitian yang dilakukan pada tesis ini ditujukan untuk mengetahui metode yang efektif dalam melakukan segmentasi hasil transkripsi berita suara berbahasa Indonesia. Metode yang akan diuji pada penelitian ini adalah metode TextTiling berbasis perbandingan blok dengan pembobotan TF-IDF-Mutual Information, TF-IDFMutual Information-Word Similarity, TF-IDF-Word Frequency, TF-IDF, Latent Semantic Analysis dan metode TextTiling berbasis Vocabulary Introduction. Segmentasi dilakukan untuk berita teks dan dokumen teks hasil transkripsi berita suara yang telahdikatagorikan menjadi 5 topik yaitu topik politik, sosial budaya, ekonomi, hukum dan olah raga. Hasil pengujian terhadap masing-masing teknik pembobotan menunjukkan bahwa metode segmentasi TextTiling dengan teknik pembobotan TF-IDF-Word Frequency merupakan metode segmentasi yang paling baik untuk dipakai dalam melakukan segmentasi hasil transkripsi dari perangkat pengenal suara (Automatic Speech Recognition). Pada penelitian ini telah dibuktikan bahwa teknik pembobotan TF-IDF-Word Frequency memiliki ketepatan segmentasi lebih tinggi baik pada dokumen teks hasil transkripsi (81,4%) ataupun pada dokumen berita teks (73,3%). Metode segmentasi yang dilakukan pada penelitian ini dapat terus dikembangkan menggunakan teknik-teknik lain dalam menunjang proses segmentasi hasil transkripsi berita berberbahasa Indonesia, seperti mempergunakan metode-metode optimalisasi dalam memperoleh urutan batas segmen yang optimal."

Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2009

T-804

UI - Tesis Membership Universitas Indonesia Library

Achmad Fatchuttamam Abka

Peringkasan Lintas Bahasa Berbasis Transformer Menggunakan Multilingual Word Embeddings untuk Domain Bahasa Inggris-Indonesia = Transformer-Based Cross-Lingual Summarization Using Multilingual Word Embeddings for English-Indonesian Domain

"Peringkasan lintas bahasa adalah sebuah proses menghasilkan ringkasan dalam bahasa target dari dokumen sumber berbahasa lain. Secara tradisional, peringkasan lintas bahasa dilakukan dalam skema pipeline yang melibatkan dua langkah, yaitu penerjemahan dan peringkasan. Pendekatan ini memiliki masalah, yaitu munculnya error propagation. Untuk mengatasi masalah tersebut, penelitian ini mengusulkan peringkasan lintas bahasa abstraktif end-to-end tanpa secara eksplisit menggunakan mesin penerjemah. Arsitektur peringkasan lintas bahasa yang diusulkan berbasis Transformer yang sudah terbukti memiliki performa baik dalam melakukan text generation. Model peringkasan lintas bahasa dilatih dengan 2-task learning yang merupakan gabungan peringkasan lintas bahasa dan peringkasan satu bahasa. Hal ini dilakukan dengan menambahkan decoder kedua pada Transformer untuk menangani peringkasan satu bahasa, sementara decoder pertama menangani peringkasan lintas bahasa. Pada arsitektur peringkasan lintas bahasa juga ditambahkan komponen multilingual word embeddings. Multilingual word embeddings memetakan kedua bahasa yang berbeda ke dalam ruang vektor yang sama sehingga membantu model dalam memetakan relasi antara input dan output. Hasil eksperimen menunjukkan model usulan mendapatkan kenaikan performa hingga +32,11 ROUGE-1, +24,59 ROUGE-2, +30,97 ROUGE-L untuk peringkasan lintas bahasa dari dokumen sumber berbahasa Inggris ke ringkasan berbahasa Indonesia dan hingga +30,48 ROUGE-1, +27,32 ROUGE-2, +32,99 ROUGE-L untuk peringkasan lintas bahasa dari dokumen sumber berbahasa Indonesia ke ringkasan berbahasa Inggris.

Cross-lingual summarization (CLS) is a process of generating summaries in the target language from source documents in other languages. Traditionally, cross-lingual summarization is done in a pipeline scheme that involves two steps, namely translation and summarization. This approach has a problem, it introduces error propagation. To overcome this problem, this study proposes end-to-end abstractive cross-lingual summarization without explicitly using machine translation. The proposed cross-lingual summarization architecture is based on Transformer which has been proven to have good performance in text generation. The cross-lingual summarization model is trained with 2-task learning, which is a combination of cross-lingual summarization and monolingual summarization. This is accomplished by adding a second decoder to handle monolingual summarization, while the first decoder handles cross-lingual summarization. The multilingual word embeddings component is also added to the cross-lingual summarization architecture. Multilingual word embeddings map both different languages into the same vector space so that it helps the model in mapping the relationship between input and output. The experimental results show that the proposed model achieves performance improvements of up to +32.11 ROUGE-1, +24.59 ROUGE-2, +30.97 ROUGE-L for cross-lingual summarization from English source documents to Indonesian summaries and up to +30,48 ROUGE-1, +27.32 ROUGE-2, +32.99 ROUGE-L for cross-lingual summarization from Indonesian source documents to English summaries."

Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2023

D-pdf

UI - Disertasi Membership Universitas Indonesia Library

Muhammad Ichsan

Pemotong imbuhan berdasarkan korpus untuk kata bahasa Indonesia

"Information Retrieval (IR) secara umum merupakan suatu teknik untuk menemukan informasi di dalam kumpulan-kumpulan dokumen atau di dalam media-media lainnya dengan memberikan query atau pertanyaan berupa teks, suara, gambar atau bentuk-bentuk lainnya. Penerapannya yang paling sering dijumpai adalah search engine atau mesin pencari. Untuk meningkatkan jumlah dokumen yang diperoleh salah satunya dilakukan dengan menggunakan pemotong kata berimbuhan (stemmer). Stemmer merupakan salah satu alat bantu paling sederhana dalam bidang Information Retrieval. Stemmer digunakan untuk mendapatkan kata dasar atau bentuk yang lebih umum dari suatu kata sehingga mengurangi variasi kata pada dokumen-dokumen. Dengan demikian dokumen yang diinginkan akan semakin banyak diperoleh. Contohnya dokumen yang mengandung kata-kata berimbuhan pendapat, pendapatan, didapat dan sebagainya akan dirujuk oleh kata dasar yang sama yaitu dapat. Namun beberapa kata berimbuhan yang mempunyai kata dasar yang sama, memiliki makna yang berbeda. Sehingga kurang tepat apabila menyamakan seluruh variasi kata tersebut kepada kata dasarnya dengan menggunakan stemmer. Misalnya kata pendapat dengan pendapatan. Meskipun keduanya memiliki kata dasar yang sama, tapi hakikatnya keduanya memiliki makna yang sangat berbeda. Selain masalah perbedaan makna di atas, juga ada masalah terkait dengan jenis korpus. Jenis korpus yang dapat mempengaruhi makna kata. Misalnya, kata membintangi dan bintang. Pada korpus astronomi kata membintangi tidak mempunyai makna yang sama dengan kata bintang. Sebaliknya pada korpus perfilman kedua kata ini bermakna sama yaitu pemain film. Sebuah penelitian mengenai stemmer yang berdasarkan pada korpus telah dilakukan untuk menghindari penyamarataan makna variasi kata. Stemmer yang telah diujikan pada bahasa Inggris dan Spanyol tersebut telah meningkatkan efektifitas sistem IR dalam mendapatkan informasi. Stemmer ini disebut stemmer corpus-based dengan menggunakan statistik co-occurrence dari variasi kata. Pada tulisan ini penulis mencoba untuk menggunakan teknik yang sama untuk menghindari penyamarataan makna variasi kata pada bahasa Indonesia. Karena pada bahasa Indonesia terdapat banyak variasi kata yang berakar pada kata dasar yang sama, namun memiliki perbedaan makna. Penulis mencoba memperbaiki efektifitas penggunaan stemmer Indonesia yang sudah ada dengan teknik stemmer corpus-based dengan menggunakan statistik co-occurrence dari variasi kata. Penulis tidak melakukan penelitian pada masalah yang terkait dengan korpus topik tertentu karena keterbatasan korpus pada bahasa Indonesia. Berdasarkan pembahasan dan uji coba yang telah dilakukan dengan menggunakan korpus yang berisi dokumen dari Tempo dan Republika, dapat disimpulkan bahwa penggunaan stemmer corpus-based dengan menggunakan statistik co-occurrence dari variasi kata (SVC) hanya menunjukkan sedikit perbaikan pada efektifitas sistem IR. Dibandingkan dengan perbaikan yang diperoleh dengan menggunakan stemmer masing-masing, dengan bantuan SVC, pada stemmer morfologi untuk bahasa Malaysia terjadi peningkatan"

Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2005

S-Pdf

UI - Skripsi Membership Universitas Indonesia Library

Framadhana Arnely

Sistem perolehan gambar lintas bahasa berdasarkan isi dan teks yang terkait dari gambar

"Sistem perolehan gambar merupakan sistem untuk memperoleh dokumen gambar dari suatu koleksi dokumen gambar berdasarkan query tertentu. Sistem perolehan gambar yang dikembangkan merupakan sistem satu bahasa dan lintas bahasa. Sistem satu bahasa merupakan sistem yang menerima query, dimana bahasa query sama dengan bahasa koleksi dokumen. Sedangkan sistem lintas bahasa merupakan sistem yang menerima query, dimana bahasa query berbeda dengan bahasa koleksi dokumen. Sistem satu bahasa menggunakan query dalam bahasa Inggris, sedangkan sistem lintas bahasa menggunakan query dalam bahasa Indonesia yang digunakan untuk mencari dokumen dalam bahasa Inggris. Sistem perolehan gambar yang dikembangkan untuk penelitian ini menggunakan koleksi dokumen gambar yang disertai dengan teks yang berisi informasi tentang gambar tersebut (text caption). Query yang digunakan terdiri dari query gambar dan query teks. Query teks terdiri dari dua bentuk, yaitu judul dan narasi. Untuk mengolah data yang berupa teks, digunakan sistem IR Lucene, sedangkan untuk mengolah data yang berupa gambar, digunakan sistem CBIR GIFT dan VSMImage. Penelitian ini merupakan bagian dari kegiatan Image Cross Language Evaluation Forum (ImageCLEF) tahun 2005. Data-data berupa query, koleksi dokumen, dan hasil penilaian (relevance judgment) menggunakan data yang diberikan oleh ImageCLEF. Penelitian ini juga ingin mempelajari perbaikan hasil perolehan gambar dengan menggunakan query teks yang diterjemahkan dari bahasa Indonesia ke bahasa Inggris. Metode-metode yang digunakan dalam perbaikan hasil terjemahan query teks ini menggunakan perluasan query dan menggabungkan hasil pencarian query gambar dengan hasil pencarian query teks. Penggunaan query teks yang diterjemahkan terlihat menurunkan precision dengan rata-rata penurunan sebesar 44.97% terhadap query teks yang tidak diterjemahkan. Dari hasil eksperimen, penggunaan perluasan query memperburuk hasil pencarian query teks yang diterjemahkan dengan rata-rata penurunan precision sebesar 16.42%. Penggabungan hasil perolehan sistem CBIR GIFT dengan hasil query teks yang diterjemahkan dapat memperbaiki hasil pencarian query teks yang diterjemahkan dengan kenaikan precision rata-rata sebesar 8.70%. Penggabungan hasil pencarian sistem CBIR VSMImage dengan hasil query teks yang tidak diterjemahkan, belum dapat memperbaiki hasil pencarian query yang diterjemahkan."

Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2006

S-Pdf

UI - Skripsi Membership Universitas Indonesia Library

Eliza Margaretha

Automatic english to Indonesia lexical mapping using latent semantic analysis

"WordNet (Fellbaum, 1998) adalah suatu lexical resource yang kaya akan informas linguistik yang sangat bermanfaat bagi berbagai macam aplikasi, khususnya aplikasiaplikasi yang berhubungan dengan linguistik, pemrosesan bahasa alami, dan kecerdasan buatan. Dewasa ini, WordNet telah dibangun untuk lebih dari 40 bahasa, tetapi WordNet untuk bahasa Indonesia belum tersedia. Oleh karena pengembangan WordNet secara manual membutuhkan sumber daya yang tidak sedikit, penelitian yang dipaparkan dalam laporan tugas akhir ini bermaksud untuk membangun WordNet secara otomatis.

Penelitian ini mencoba untuk membuat synset (synonym set) untuk bahasa Indonesia dengan melakukan pemetaan konsep dwibahasa secara otomatis antara konsep bahasa Inggris yang diambil dari Princeton WordNet dan konsep bahasa Indonesia yang diambil dari Kamus Besar Bahasa Indonesia (KBBI). Tugas lain, yaitu pemetaan kata dwibahasa, diperkenalkan untuk memetakan kata-kata bahasa Inggris ke kata-kata bahasa Indonesia secara otomatis. Kedua pemetaan tersebut dilakukan dengan mengaplikasikan metode Latent Semantic Analysis (Landauer, Foltz, & Laham, 1998) pada korpora paralel berupa teks.

Awalnya, pemetaan kata dwibahasa dimaksudkan untuk melakukan verifikasi proses di balik pemetaan konsep dwibahasa. Namun, hasil pemetaan kata tidak memuaskan karena performa model kemiripan vektor lebih baik dari pada model LSA. Di sisi lain, hasil dari pemetaan konsep dwibahasa, menunjukkan kemampuan LSA untuk menangkap informasi semantik yang terkandung secara implisit dalam suatu korpus parallel. Walaupun LSA belum berhasil mencapai tingkat yang setara dengan pemetaan yang dilakukan manusia, secara umum LSA lebih baik dari pada random baseline.

WordNet (Fellbaum, 1998) is a lexical resource containing rich linguistic knowledge, which is very useful for a wide variety of applications, especially for applications related to linguistics, natural language processing, and artificial intelligence. Recently, WordNets have been built for more than 40 languages, but not yet in Indonesian. Since building a WordNet manually is complex and expensive, the work presented in this thesis considers building an Indonesian WordNet automatically.

This work attempts to construct Indonesian synsets (synonym set) by conducting automatic bilingual concept mapping between English concepts derived from Princeton WordNet and Indonesian concepts derived from Kamus Besar Bahasa Indonesia (KBBI). Another task, namely bilingual term mapping, is introduced to map English terms to their Indonesian analogues automatically. Both mappings are conducted by applying LatentSemantic Analysis (Landauer, Foltz, & Laham, 1998) on parallel corpora of text.

Bilingual term mapping was intended to verify the underlying process of bilingual concept mapping. However, the results are unsatisfactory suggesting that vector model similarity performs better than the LSA model. The results of bilingual concept mapping, on the other hand, show some capability of LSA to capture some semantic information implicit within a parallel corpus. Although LSA is not yet able to attain levels comparable to human judgements, it is generally better than random baseline."

Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2008

S-Pdf

UI - Skripsi Open Universitas Indonesia Library

Sistem morfologi verba bahasa Besemah

Jakarta: Pusat Pembinaan dan Pengembangan Bahasa, 1985

499.251 SIS

Buku Teks SO Universitas Indonesia Library

<< 1 2 3 4 5 6 7 8 9 10 >>

Hasil Pencarian :: Simpan CSV :: Kembali

Hasil Pencarian