Hasil Pencarian  ::  Simpan CSV :: Kembali

Hasil Pencarian

Ditemukan 208961 dokumen yang sesuai dengan query
cover
Ade Melani
"Perolehan informasi merupakan suatu bidang yang berusaha mengatasi permasalahan yang dihadapi pencari informasi dalam upaya memperoleh informasi yang dibutuhkan. Ketersediaan informasi dalam jumlah besar menyebabkan pencari informasi kesulitan dalam mendapatkan informasi yang diinginkannya. Hal itu juga menyebabkan pencari informasi harus meluangkan banyak waktu untuk membaca dokumen yang diperoleh. Oleh karena itu, salah satu pendekatan yang digunakan dalam bidang perolehan informasi untuk mempermudah dan mempersingkat waktu adalah dengan menggunakan ringkasan yang dihasilkan secara otomatis. Metode yang digunakan dalam menghasilkan ringkasan secara otomatis adalah metode query-biased. Sebab ringkasan yang dihasilkan dengan metode ini dapat merefleksikan informasi yang dibutuhkan oleh pencari informasi, yaitu ringkasan yang hasilnya sesuai dengan query yang diberikan. Dengan demikian, pencari informasi dapat menggunakan ringkasan tersebut untuk menentukan apakah suatu dokumen memuat informasi yang dicarinya. Dalam penerapannya, metode ini digunakan untuk meringkas dokumen dalam Bahasa Indonesia. Penulis melakukan evaluasi untuk mengetahui manfaat ringkasan yang dihasilkan dengan metode query-biased. Evaluasi tersebut dilaksanakan dengan membandingkan manfaat antara ringkasan yang dihasilkan dengan metode query-biased dengan ringkasan yang dihasilkan dengan metode statis, yaitu metode yang menggunakan beberapa kalimat di awal dokumen sebagai ringkasan. Dari hasil evaluasi diketahui bahwa ringkasan yang dihasilkan dengan metode query‐biased lebih bermanfaat dalam proses pencarian dokumen yang sesuai dengan query bila dibandingkan dengan ringkasan yang dihasilkan melalui metode statis."
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2007
S-Pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Syandra Sari
"Perolehan informasi lintas bahasa adalah bidang perolehan informasi yang semakin berkembang seiring dengan pesatnya perkembangan Internet di seluruh dunia. Perolehan informasi lintas bahasa adalah sistem perolehan informasi yang memungkinkan pengguna memberikan query dalam bahasa yang berbeda dengan bahasa dokumen. Dalam perolehan informasi lintas bahasa, masalah perbedaan bahasa diatasi dengan proses penerjemahan dokumen atau penerjemahan query. Sumber daya bahasa yang digunakan untuk proses penerjemahan pada perolehan informasi lintas bahasa dapat berupa kamus dwi bahasa, mesin penerjemah atau korpus paralel. Penelitian ini mengembangkan sistem perolehan informasi lintas bahasa Indonesia-Inggris berdasarkan korpus paralel. Padanan kata dalam bahasa Indonesia-Inggris diperoleh dengan menggunakan dua metoda yaitu informasi mutual dan similarity thesaurus. Selanjutnya untuk meningkatkan hasil perolehan dokumen berdasarkan korpus paralel, maka diterapkan teknik perluasan query yaitu pseudo-relevance feedback. Kinerja terbaik dari metoda informasi mutual dan penerapan teknik perluasan query mencapai 41,86 % dari kinerja perolehan informasi lintas bahasa monolingual; 80,5 % dari kinerja perolehan informasi lintas bahasa Indonesia-Inggris dengan menggunakan kamus; serta mencapai 54% dari kinerja sistem perolehan informasi lintas bahasa Indonesia-Inggris menggunakan mesin penerjemah Transtool. Sedangkan kinerja terbaik dari metoda similarity thesaurus dan penerapan teknik perluasan query mencapai 55,61 % dari kinerja perolehan informasi lintas bahasa monolingual; mencapai 107% dari kinerja perolehan informasi lintas bahasa Indonesia-Inggris dengan menggunakan kamus; serta mencapai 71% dari kinerja perolehan informasi lintas bahasa Indonesia-Inggris dengan menggunakan mesin penerjemah Transtool. Berdasarkan hasil tersebut diatas, terlihat bahwa perluasan query dengan teknik pseudo-relevance feedback yang diterapkan pada sistem perolehan informasi lintas bahasa Indonesia-Inggris berdasarkan korpus paralel dengan metoda informasi mutual dan similarity thesaurus dapat meningkatkan kinerja sampai dengan 25 % dibanding tanpa proses perluasan query. Kemudian, dari hasil tersebut diatas juga dapat diambil kesimpulan umum bahwa sistem perolehan informasi lintas bahasa Indonesia-Inggris berdasarkan korpus paralel dapat menjadi alternatif bagi pengembangan sistem perolehan informasi lintas bahasa Indonesia-Inggris. Dan penelitian lebih lanjut mengenai metoda berdasarkan korpus paralel yang lebih baik serta usaha perbaikan kualitas korpus paralel perlu terus dilakukan bagi peningkatan kinerja sistem perolehan informasi lintas bahasa Indonesia-Inggris di masa yang akan datang."
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2007
T-Pdf
UI - Tesis Membership  Universitas Indonesia Library
cover
Rani Aulia Hidayat
"Makanan merupakan salah satu kebutuhan penting bagi masyarakat, sehingga pencarian mengenai informasi yang berkaitan dengan makanan banyak dilakukan. Sering kali informasi yang dibutuhkan adalah informasi spesifik yang dapat direpresentasikan sebagai entitas. Sehingga saat seseorang melakukan pencarian menggunakan suatu kueri, hasil yang diharapkan dari proses pencarian tersebut berupa entitas yang relevan. Sistem yang dapat menangani tugas tersebut disebut sebagai sistem temu balik entitas.
Penelitian ini bertujuan untuk membangun sistem temu balik entitas makanan dengan memanfaatkan informasi relasi antar entitas, teknik ekstraksi entitas, document retrieval, dan word embedding pada korpus dokumen berbahasa Indonesia. Dokumen yang digunakan pada penelitian ini adalah dokumen resep, artikel terkait informasi kuliner, dan Wikipedia berbahasa Indonesia. Sebanyak tujuh kategori entitas terkait makanan didapatkan dari proses ekstraksi entitas.
Pendekatan rule-based dan lexicon-based digunakan untuk mengekstrak entitas dari dokumen. Aturan-aturan untuk pendekatan rule-based dibangun untuk masing-masing jenis dokumen berdasarkan sampel dokumen yang dipilih secara acak. Sebanyak tiga skenario eksperimen diujikan terhadap 14 kueri yang dikelompokkan ke dalam tujuh kategori. Setiap skenario dievaluasi menggunakan nilai rata-rata precision berdasarkan k entitas yang dikembalikan (AP@k).
Berdasarkan hasil evaluasi menggunakan seluruh kueri uji, skenario ketiga dengan menggunakan informasi relasi entitas menunjukkan performa terbaik dibandingkan dengan skenario lainnya. Nilai AP@15 tertinggi yang didapatkan menggunakan skenario eksperimen ketiga ini adalah sebesar 76,67% untuk kategori kueri hidangan dengan bahan dasar tertentu.

Food is known as one of the most important needs so that many people search for food-related information. The information that is needed is often specific information that can be represented as an entity. So that when someone performs a search from a certain query, the expected results are entities that are considered relevant. The task to solve this problem is known as entity retrieval.
This research aims to build a food entity retrieval model by utilizing information on relationships between entities, entity extraction techniques, document retrieval, and word embedding in the Indonesian document corpus. The documents used in this research are recipes, food-related articles, and articles of Wikipedia in Indonesian. A total of seven food-related categories of entities were obtained from the entity extraction process.
The approaches that are used in this study to extract entities from the documents are the rule-based and lexicon-based approaches. The rules in the rule-based approach are developed for each document category based on the sample documents that have been chosen randomly. The three experiments that were conducted were tested against 14 queries which were grouped into seven categories. Each scenario is evaluated using the average precision score based on k entities given as the result of entity retrieval (AP@k).
Based on the evaluation results using all the test queries, the third scenario that used entity-relationship information shows the best performance compared to other scenarios. The highest AP@15 value obtained when using this third experimental scenario is 76.67% for the query category dish based on certain ingredients.
"
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2022
T-Pdf
UI - Tesis Membership  Universitas Indonesia Library
cover
Joshua Kurniawan Djafar
"Penerapan dari pengolahan bahasa alami ini telah banyak dilaksanakan dengan tujuan tertentu. Salah satu tujuannya adalah aplikasi basis data yang dikembangkan oleh program ini. Pada dasarnya program ini akan mengolah bentuk dari kalimat-kalimat query dalam bahasa Indonesia dan merubahnya menjadi bentuk SQL standar. SQL standar inilah yang akan diinterpretasikan oleh suatu RDBMS (Oracle, Informix,dan sebagainya). Kelemahan utama dari pengolahan bahasa alami ini adalah keterbatasan dari semantik kalimat yang disebabkan oleh keterbatasan yang ada pada SQL ini sendiri. Suatu kalimat membutuhkan suatu bentuk tata bahasa. Bagaimanapun alaminya suatu kalimat bahasa, kalimat tersebut pasti akan mengikuti kaidah umum yang ada pada suatu struktur tata bahasa. Penyusunan dari tata bahasa inilah yang merupakan hal yang terpenting dalam pengolahan bahasa alami. Tata bahasa semantik adalah tata bahasa yang disusun bukan berdasarkan pada sintak kalimat, tetapi disusun berdasarkan pada arti kata penyusun kalimat. Kebutuhan akan pembentukan tata bahasa semantic ini membutuhkan penelitian tersendiri untuk memperoleh struktur umum dari kalimat-kalimat yang akan digunakan oleh pemakai."
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 1992
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Heidi Renata Halim
"Seiring dengan majunya teknologi di Indonesia, banyak layanan kesehatan online yang bermunculan. Pengguna bisa bertanya langsung pada tenaga medis profesional tiap mereka memiliki masalah kesehatan ringan yang tidak membutuhkan janji temu langsung dengan dokter. Sebagai pengguna, tentunya mereka mengharapkan respon yang cepat dari situs yang mereka gunakan, hal ini kedengarannya mustahil dilakukan karena tidak semua tenaga medis profesional yang bekerja pada layanan medis tersebut ada setiap saat memantau semua pertanyaan yang masuk. Namun, hal ini bisa dilakukan dengan cara mencocokan pertanyaan yang baru dimasukkan dan mencari pertanyaan yang sudah pernah ditanyakan di masa lalu yang memiliki persamaan dengan pertanyaan yang baru dimasukkan. Secara singkat, kita bisa mencari duplikat dari pertanyaan yang ditanyakan oleh pengguna dan mengembalikan jawaban dari pertanyaan duplikat tersebut daripada menunggu jawaban langsung dari dokter. Penelitian ini akan menggunakan pendekatan temu balik informasi dalam mendeteksi pertanyaan duplikat yang pernah ditanyakan di masa lalu. Selain itu, penelitian ini juga akan mengkombinasikan ekspansi kata yang dilakukan kepada kueri, dokumen, serta filter kata-kata stopword untuk meningkatkan skor reciprocal-rank dan recall dari model yang digunakan. Hasil penelitian ini menyimpulkan bahwa ekspansi kata yang dilakukan pada kueri serta dokumen tidak menghasilkan skor reciprocal rank dan recall yang lebih baik. Penggunaan word embedding untuk memperbanyak kata stopword yang dihapus dari data mampu menghasilkan skor reciprocal rank yang lebih tinggi meskipun nilainya belum signifikan.

With the advancement of technology and internet in Indonesia, many online healthcare services have emerged where users can directly consult with medical professionals if they have minor health issues that do not require an in-person appointment with a doctor. As users, they naturally expect quick responses from the sites they use. This seems impossible to do as not all medical professionals working who are working on these services are always available to monitor every incoming question. However, this can be achieved by matching newly submitted questions with previously asked questions that have similarities. In short, we can search for duplicates of the questions asked by users and return answers from those duplicate questions instead of waiting for a direct response from a doctor. This research will use an information retrieval approach to detect duplicate questions that have been asked in the past. Additionally, this study will combine query expansion, document expansion, and stopwords filtering to improve the reciprocal-rank and recall scores of the model used. This research concludes that query and document expansion do not yield better reciprocal rank and recall scores. On the other hand, using
word embedding to expand the stopwords list removed from the data can help achieve higher reciprocal rank scores, although the improvement displays are still not significant enough to be categorized as a major change."
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2024
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Framadhana Arnely
"Sistem perolehan gambar merupakan sistem untuk memperoleh dokumen gambar dari suatu koleksi dokumen gambar berdasarkan query tertentu. Sistem perolehan gambar yang dikembangkan merupakan sistem satu bahasa dan lintas bahasa. Sistem satu bahasa merupakan sistem yang menerima query, dimana bahasa query sama dengan bahasa koleksi dokumen. Sedangkan sistem lintas bahasa merupakan sistem yang menerima query, dimana bahasa query berbeda dengan bahasa koleksi dokumen. Sistem satu bahasa menggunakan query dalam bahasa Inggris, sedangkan sistem lintas bahasa menggunakan query dalam bahasa Indonesia yang digunakan untuk mencari dokumen dalam bahasa Inggris. Sistem perolehan gambar yang dikembangkan untuk penelitian ini menggunakan koleksi dokumen gambar yang disertai dengan teks yang berisi informasi tentang gambar tersebut (text caption). Query yang digunakan terdiri dari query gambar dan query teks. Query teks terdiri dari dua bentuk, yaitu judul dan narasi. Untuk mengolah data yang berupa teks, digunakan sistem IR Lucene, sedangkan untuk mengolah data yang berupa gambar, digunakan sistem CBIR GIFT dan VSMImage. Penelitian ini merupakan bagian dari kegiatan Image Cross Language Evaluation Forum (ImageCLEF) tahun 2005. Data-data berupa query, koleksi dokumen, dan hasil penilaian (relevance judgment) menggunakan data yang diberikan oleh ImageCLEF. Penelitian ini juga ingin mempelajari perbaikan hasil perolehan gambar dengan menggunakan query teks yang diterjemahkan dari bahasa Indonesia ke bahasa Inggris. Metode-metode yang digunakan dalam perbaikan hasil terjemahan query teks ini menggunakan perluasan query dan menggabungkan hasil pencarian query gambar dengan hasil pencarian query teks. Penggunaan query teks yang diterjemahkan terlihat menurunkan precision dengan rata-rata penurunan sebesar 44.97% terhadap query teks yang tidak diterjemahkan. Dari hasil eksperimen, penggunaan perluasan query memperburuk hasil pencarian query teks yang diterjemahkan dengan rata-rata penurunan precision sebesar 16.42%. Penggabungan hasil perolehan sistem CBIR GIFT dengan hasil query teks yang diterjemahkan dapat memperbaiki hasil pencarian query teks yang diterjemahkan dengan kenaikan precision rata-rata sebesar 8.70%. Penggabungan hasil pencarian sistem CBIR VSMImage dengan hasil query teks yang tidak diterjemahkan, belum dapat memperbaiki hasil pencarian query yang diterjemahkan."
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2006
S-Pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Vinky Halim
"Segmentasi dokumen merupakan suatu proses untuk membagi dokumen menjadi bagian-bagian yang homogen atau memiliki keterkaitan yang tinggi. Pada tugas akhir ini digunakan genetic algorithm sebagai metode untuk melakukan segmentasi dokumen. Genetic algorithm merupakan suatu algoritma pencarian solusi terhadap permasalahan dengan search space yang besar dengan menggunakan pendekatan evolusi.
Penelitian tentang segmentasi dokumen menggunakan genetic algorithm telah dilakukan oleh Lamprier (Lamprier et al., 2007) terhadap dokumen bahasa Inggris dengan hasil yang memuaskan. Pada penelitian yang dilakukan Lamprier, proses segmentasi dilakukan dengan mengoptimisasi 2 fungsi objektif yaitu internal cohesion dan dissimilarity. Data yang digunakan pada percobaan ini terdiri dari dokumen artikel media massa Indonesia dan abstrak tulisan ilmiah dari Fakultas Ilmu Komputer Universitas Indonesia.
Percobaan ini dilakukan dan dianalisa dari beberapa aspek yaitu aspek fitness function, metode penghitungan similarity, jumlah iterasi, ukuran populasi, jumlah segmen, dan kemiripan antar dokumen penyusun. Selain itu dilakukan pula perbandingan hasil segmentasi antara metode genetic algorithm dengan metode Texttiling.
Hasil percobaan yang didapat adalah segmentasi dokumen menggunakan genetic algorithm dengan fitness function SPEA 2, metode penghitungan similarity menggunakan dice coefficient, jumlah iterasi 1000 iterasi, ukuran populasi 50 individu, tipe crossover two point crossover, dan probabilitas mutasi 0.09 memberikan hasil segmentasi terbaik. Pada percobaan untuk membandingkan 2 metode segmentasi yaitu genetic algorithm dan Texttiling diperoleh hasil precision 0.081 dan recall 0.46 untuk metode genetic algorithm dan precision 0.12 dan recall 0.58 untuk metode Texttiling.
Dari data hasil percobaan diperoleh kesimpulan bahwa hasil segmentasi dengan metode Texttiling lebih baik daripada hasil segmentasi dengan metode genetic algorithm. Hasil ini bertolak belakang dengan apa yang dilaporakan pada penelitian yang dilakukan Lamprier (Lamprier et al., 2007), hal tersebut dipengaruhi oleh data dan penggunaan genetic operator yang lebih kompleks.

Document segmentation is a process to segments text into thematic homogeneous parts. The segmenting process uses genetic algorithm as a method to segment the text. Genetic algorithm is a searching algorithm for problem involving large search space by using evolution approach.
Research about document segmentation has been done by Lamprier (Lamprier et al., 2007) for English document and show satisfied results. The segmentation in Lamprier?s research uses internal cohesion and dissimilarity as objective function to be optimized. This experiments use Indonesian mass media articles and abstracts of scientific paper from Lontar System of Faculty of Computer Science University of Indonesia.
Experiments have been done and analyzed towards several aspects such as fitness function, similarity calculating method, number of iteration, number of population, number of boundary, and similarity between appended documents. Furthermore the experiment to compare genetic algorithm and other segmentation method (Texttiling) is done in the last experiment.
The experiments shows that genetic algorithm using SPEA 2 as fitness function, dice coefficient as similarity calculating method, 1000 iteration, 50 individuals in population, two point crossover, and 0.09 mutation probability gives the best result. When comparing segmentation method between genetic algorithm and Texttiling, genetic algorithm gives precision 0.081 and recall 0.46 in other hand Texttiling gives precision 0.12 and recall 0.58.
The results show that Texttiling gives better segmentation than genetic algorithm, this conclusion is diffrent with the conclusion reported by Lamprier?s research (Lamprier et al., 2007). The diffrent is related with data and genetic operator used by Lamprier?s research."
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2009
S-Pdf
UI - Skripsi Open  Universitas Indonesia Library
cover
Haryani Diah Sitawati
"Peringkas Otomatis merupakan pembuatan ringkasan dengan bantuan komputer. Peringkas Otomatis bertujuan untuk menemukan dokumen yang relevan atau mengetahui isi suatu dokumen secara mudah dan cepat. Penelitian ini mengembangkan Peringkas Otomatis untuk dokumen ilmiah bahasa Indonesia menggunakan dua metode yaitu metode Tf-Idf dan metode Frase Penunjuk. Metode Tf-Idf dan metode Frase Penunjuk memiliki kesamaan yaitu sama-sama menghitung bobot untuk kata-kata tertentu dalam dokumen untuk selanjutnya dijumlahkan untuk tiap kalimat dan diambil yang bobot kalimatnya tertinggi. Khusus untuk metode Frase Penunjuk dilakukan serangkaian pelatihan lebih dahulu untuk menghasilkan kamus Frase Penunjuk untuk dokumen ilmiah berbahasa Indonesia.
Pengujian hasil ringkasan dilakukan dengan menggunakan rasio kompresi 10% dan 20%. Berdasarkan pengujian, didapat bahwa nilai precision dan recall dari ringkasan dengan metode Tf-Idf lebih baik daripada menggunakan metode Frase Penunjuk. Untuk rasio kompresi 10%, nilai precision metode Tf-Idf adalah sebesar 45,1%, sedangkan nilai precision metode Frase Penunjuk adalah sebesar 43%. Namun untuk rasio kompresi 20%, nilai precision metode Tf-Idf adalah sebesar 60,8%, sedangkan nilai precision metode Frase Penunjuk adalah sebesar 60,1%. Nilai recall untuk metode Tf-Idf dengan rasio kompresi 10% adalah 21,6% sedangkan untuk metode Frase Penunjuk adalah sebesar 20,6%. Untuk rasio kompresi 20%, nilai recall dari metode Tf-Idf adalah sebesar 14,5% dan nilai recall dari metode Frase Penunjuk adalah sebesar 13,3%. Jika diukur berdasarkan waktu eksekusi, ringkasan dengan metode Frase Penunjuk membutuhkan waktu yang lebih singkat daripada waktu eksekusi metode Tf-Idf yaitu 0,6 menit dibanding 5,4 menit. Sedangkan untuk panjang kata, ringkasan dengan metode Tf-Idf menghasilkan ringkasan dengan jumlah kata yang lebih banyak dari pada metode Frase Penunjuk. Untuk rasio kompresi 10%, jumlah kata metode Tf- Idf adalah 484 kata, sedangkan untuk metode Frase Penunjuk adalah sebanyak 357 kata. Untuk rasio kompresi 20%, jumlah kata dari metode Tf-Idf adalah sebanyak 845 kata dan untuk metode Frase Penunjuk adalah sebanyak 670 kata."
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2005
S-Pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
"RDF database systems is a cutting-edge guide that distills everything you need to know to effectively use or design an RDF database. This book starts with the basics of linked open data and covers the most recent research, practice, and technologies to help you leverage semantic technology. With an approach that combines technical detail with theoretical background, this book shows how to design and develop semantic web applications, data models, indexing and query processing solutions.
"
Waltham, MA: Morgan Kaufmann, 2015
e20427683
eBooks  Universitas Indonesia Library
cover
Heninggar Septiantri
"Ambiguitas adalah masalah yang seringkali ditemui dalam pemrosesan bahasa alami oleh komputer. Word Sense Disambiguation (WSD) adalah upaya untuk menentukan makna yang tepat dari sebuah kata yang ambigu. Berbagai penelitian tentang WSD telah banyak dikerjakan, namun penelitian WSD untuk bahasa Indonesia belum banyak dilakukan. Ketersediaan korpus paralel berbahasa Inggris-Indonesia dan sumber pengetahuan bahasa berupa WordNet bahasa Inggris dan bahasa Indonesia dapat dimanfaatkan untuk menyediakan data pelatihan untuk WSD dengan metode Cross-Lingual WSD (CLWSD). Data pelatihan ini kemudian dijadikan input untuk klasifikasi dengan algoritma Naive Bayes, sehingga model klasifikasinya dapat digunakan untuk melakukan monolingual WSD untuk bahasa Indonesia.
Evaluasi klasifikasi menunjukkan rata-rata akurasi hasil klasifikasi lebih tinggi dari baseline. Penelitian ini juga menggunakan stemming dan stopwords removal untuk mengetahui bagaimana efeknya terhadap klasifikasi. Penggunaan stemming menaikkan rata-rata akurasi, sedangkan penerapan stopwords removal menurunkan rata-rata akurasi. Namun pada kata yang memiliki dua makna dalam konteks yang cukup jelas berbeda, stemming dan stopwords removal dapat menaikkan rata-rata akurasi.

Ambiguity is a problem we frequently face in natural languange processing. Word Sense Disambiguation (WSD) is an attempt to decide the correct sense of an ambiguous word. Various research in WSD have been conducted, but research in WSD for Indonesian Language is still rare to find. The availability of parallel corpora in English and Indonesian language and WordNet for both language can be used to provide training data for WSD with Cross-Lingual WSD (CLWSD) method. This training data can be used as input to the classification process using Naive Bayes classifier.
The model resulted by the classification process is then used to do monolingual WSD for Indonesian language. The whole process in this research results in higher accuracy compared to baseline. This research also includes the use of stemming and stopwords removal. The effect of stemming is increasing the average accuracy, whereas stopwords removal is decreasing average accuracy. Nevertheless, for ambiguous words that have distinct context of usage, the use of stemming and stopwords removal can increase average accuracy."
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2013
T-Pdf
UI - Tesis Membership  Universitas Indonesia Library
<<   1 2 3 4 5 6 7 8 9 10   >>