Hasil Pencarian

Ditemukan 172576 dokumen yang sesuai dengan query

Syandra Sari

Perolehan informasi lintas bahasa indonesia-inggris berdasarkan korpus paralel dengan menggunakan metoda mutual information dan metoda similarity thesaurus

"Perolehan informasi lintas bahasa adalah bidang perolehan informasi yang semakin berkembang seiring dengan pesatnya perkembangan Internet di seluruh dunia. Perolehan informasi lintas bahasa adalah sistem perolehan informasi yang memungkinkan pengguna memberikan query dalam bahasa yang berbeda dengan bahasa dokumen. Dalam perolehan informasi lintas bahasa, masalah perbedaan bahasa diatasi dengan proses penerjemahan dokumen atau penerjemahan query. Sumber daya bahasa yang digunakan untuk proses penerjemahan pada perolehan informasi lintas bahasa dapat berupa kamus dwi bahasa, mesin penerjemah atau korpus paralel. Penelitian ini mengembangkan sistem perolehan informasi lintas bahasa Indonesia-Inggris berdasarkan korpus paralel. Padanan kata dalam bahasa Indonesia-Inggris diperoleh dengan menggunakan dua metoda yaitu informasi mutual dan similarity thesaurus. Selanjutnya untuk meningkatkan hasil perolehan dokumen berdasarkan korpus paralel, maka diterapkan teknik perluasan query yaitu pseudo-relevance feedback. Kinerja terbaik dari metoda informasi mutual dan penerapan teknik perluasan query mencapai 41,86 % dari kinerja perolehan informasi lintas bahasa monolingual; 80,5 % dari kinerja perolehan informasi lintas bahasa Indonesia-Inggris dengan menggunakan kamus; serta mencapai 54% dari kinerja sistem perolehan informasi lintas bahasa Indonesia-Inggris menggunakan mesin penerjemah Transtool. Sedangkan kinerja terbaik dari metoda similarity thesaurus dan penerapan teknik perluasan query mencapai 55,61 % dari kinerja perolehan informasi lintas bahasa monolingual; mencapai 107% dari kinerja perolehan informasi lintas bahasa Indonesia-Inggris dengan menggunakan kamus; serta mencapai 71% dari kinerja perolehan informasi lintas bahasa Indonesia-Inggris dengan menggunakan mesin penerjemah Transtool. Berdasarkan hasil tersebut diatas, terlihat bahwa perluasan query dengan teknik pseudo-relevance feedback yang diterapkan pada sistem perolehan informasi lintas bahasa Indonesia-Inggris berdasarkan korpus paralel dengan metoda informasi mutual dan similarity thesaurus dapat meningkatkan kinerja sampai dengan 25 % dibanding tanpa proses perluasan query. Kemudian, dari hasil tersebut diatas juga dapat diambil kesimpulan umum bahwa sistem perolehan informasi lintas bahasa Indonesia-Inggris berdasarkan korpus paralel dapat menjadi alternatif bagi pengembangan sistem perolehan informasi lintas bahasa Indonesia-Inggris. Dan penelitian lebih lanjut mengenai metoda berdasarkan korpus paralel yang lebih baik serta usaha perbaikan kualitas korpus paralel perlu terus dilakukan bagi peningkatan kinerja sistem perolehan informasi lintas bahasa Indonesia-Inggris di masa yang akan datang."

Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2007

T-Pdf

UI - Tesis Membership Universitas Indonesia Library

Ade Melani

Peringkas otomatis untuk dokumen dalam bahasa indonesia menggunakan metode statis dan metode query-biased

"Perolehan informasi merupakan suatu bidang yang berusaha mengatasi permasalahan yang dihadapi pencari informasi dalam upaya memperoleh informasi yang dibutuhkan. Ketersediaan informasi dalam jumlah besar menyebabkan pencari informasi kesulitan dalam mendapatkan informasi yang diinginkannya. Hal itu juga menyebabkan pencari informasi harus meluangkan banyak waktu untuk membaca dokumen yang diperoleh. Oleh karena itu, salah satu pendekatan yang digunakan dalam bidang perolehan informasi untuk mempermudah dan mempersingkat waktu adalah dengan menggunakan ringkasan yang dihasilkan secara otomatis. Metode yang digunakan dalam menghasilkan ringkasan secara otomatis adalah metode query-biased. Sebab ringkasan yang dihasilkan dengan metode ini dapat merefleksikan informasi yang dibutuhkan oleh pencari informasi, yaitu ringkasan yang hasilnya sesuai dengan query yang diberikan. Dengan demikian, pencari informasi dapat menggunakan ringkasan tersebut untuk menentukan apakah suatu dokumen memuat informasi yang dicarinya. Dalam penerapannya, metode ini digunakan untuk meringkas dokumen dalam Bahasa Indonesia. Penulis melakukan evaluasi untuk mengetahui manfaat ringkasan yang dihasilkan dengan metode query-biased. Evaluasi tersebut dilaksanakan dengan membandingkan manfaat antara ringkasan yang dihasilkan dengan metode query-biased dengan ringkasan yang dihasilkan dengan metode statis, yaitu metode yang menggunakan beberapa kalimat di awal dokumen sebagai ringkasan. Dari hasil evaluasi diketahui bahwa ringkasan yang dihasilkan dengan metode query‐biased lebih bermanfaat dalam proses pencarian dokumen yang sesuai dengan query bila dibandingkan dengan ringkasan yang dihasilkan melalui metode statis."

Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2007

S-Pdf

UI - Skripsi Membership Universitas Indonesia Library

Rani Aulia Hidayat

Sistem temu balik entitas makanan pada korpus dokumen berbahasa Indonesia = On retrieving food entities from Indonesian corpus

"Makanan merupakan salah satu kebutuhan penting bagi masyarakat, sehingga pencarian mengenai informasi yang berkaitan dengan makanan banyak dilakukan. Sering kali informasi yang dibutuhkan adalah informasi spesifik yang dapat direpresentasikan sebagai entitas. Sehingga saat seseorang melakukan pencarian menggunakan suatu kueri, hasil yang diharapkan dari proses pencarian tersebut berupa entitas yang relevan. Sistem yang dapat menangani tugas tersebut disebut sebagai sistem temu balik entitas.

Penelitian ini bertujuan untuk membangun sistem temu balik entitas makanan dengan memanfaatkan informasi relasi antar entitas, teknik ekstraksi entitas, document retrieval, dan word embedding pada korpus dokumen berbahasa Indonesia. Dokumen yang digunakan pada penelitian ini adalah dokumen resep, artikel terkait informasi kuliner, dan Wikipedia berbahasa Indonesia. Sebanyak tujuh kategori entitas terkait makanan didapatkan dari proses ekstraksi entitas.

Pendekatan rule-based dan lexicon-based digunakan untuk mengekstrak entitas dari dokumen. Aturan-aturan untuk pendekatan rule-based dibangun untuk masing-masing jenis dokumen berdasarkan sampel dokumen yang dipilih secara acak. Sebanyak tiga skenario eksperimen diujikan terhadap 14 kueri yang dikelompokkan ke dalam tujuh kategori. Setiap skenario dievaluasi menggunakan nilai rata-rata precision berdasarkan k entitas yang dikembalikan (AP@k).

Berdasarkan hasil evaluasi menggunakan seluruh kueri uji, skenario ketiga dengan menggunakan informasi relasi entitas menunjukkan performa terbaik dibandingkan dengan skenario lainnya. Nilai AP@15 tertinggi yang didapatkan menggunakan skenario eksperimen ketiga ini adalah sebesar 76,67% untuk kategori kueri hidangan dengan bahan dasar tertentu.

Food is known as one of the most important needs so that many people search for food-related information. The information that is needed is often specific information that can be represented as an entity. So that when someone performs a search from a certain query, the expected results are entities that are considered relevant. The task to solve this problem is known as entity retrieval.
This research aims to build a food entity retrieval model by utilizing information on relationships between entities, entity extraction techniques, document retrieval, and word embedding in the Indonesian document corpus. The documents used in this research are recipes, food-related articles, and articles of Wikipedia in Indonesian. A total of seven food-related categories of entities were obtained from the entity extraction process.
The approaches that are used in this study to extract entities from the documents are the rule-based and lexicon-based approaches. The rules in the rule-based approach are developed for each document category based on the sample documents that have been chosen randomly. The three experiments that were conducted were tested against 14 queries which were grouped into seven categories. Each scenario is evaluated using the average precision score based on k entities given as the result of entity retrieval (AP@k).
Based on the evaluation results using all the test queries, the third scenario that used entity-relationship information shows the best performance compared to other scenarios. The highest AP@15 value obtained when using this third experimental scenario is 76.67% for the query category dish based on certain ingredients."

Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2022

T-Pdf

UI - Tesis Membership Universitas Indonesia Library

Framadhana Arnely

Sistem perolehan gambar lintas bahasa berdasarkan isi dan teks yang terkait dari gambar

"Sistem perolehan gambar merupakan sistem untuk memperoleh dokumen gambar dari suatu koleksi dokumen gambar berdasarkan query tertentu. Sistem perolehan gambar yang dikembangkan merupakan sistem satu bahasa dan lintas bahasa. Sistem satu bahasa merupakan sistem yang menerima query, dimana bahasa query sama dengan bahasa koleksi dokumen. Sedangkan sistem lintas bahasa merupakan sistem yang menerima query, dimana bahasa query berbeda dengan bahasa koleksi dokumen. Sistem satu bahasa menggunakan query dalam bahasa Inggris, sedangkan sistem lintas bahasa menggunakan query dalam bahasa Indonesia yang digunakan untuk mencari dokumen dalam bahasa Inggris. Sistem perolehan gambar yang dikembangkan untuk penelitian ini menggunakan koleksi dokumen gambar yang disertai dengan teks yang berisi informasi tentang gambar tersebut (text caption). Query yang digunakan terdiri dari query gambar dan query teks. Query teks terdiri dari dua bentuk, yaitu judul dan narasi. Untuk mengolah data yang berupa teks, digunakan sistem IR Lucene, sedangkan untuk mengolah data yang berupa gambar, digunakan sistem CBIR GIFT dan VSMImage. Penelitian ini merupakan bagian dari kegiatan Image Cross Language Evaluation Forum (ImageCLEF) tahun 2005. Data-data berupa query, koleksi dokumen, dan hasil penilaian (relevance judgment) menggunakan data yang diberikan oleh ImageCLEF. Penelitian ini juga ingin mempelajari perbaikan hasil perolehan gambar dengan menggunakan query teks yang diterjemahkan dari bahasa Indonesia ke bahasa Inggris. Metode-metode yang digunakan dalam perbaikan hasil terjemahan query teks ini menggunakan perluasan query dan menggabungkan hasil pencarian query gambar dengan hasil pencarian query teks. Penggunaan query teks yang diterjemahkan terlihat menurunkan precision dengan rata-rata penurunan sebesar 44.97% terhadap query teks yang tidak diterjemahkan. Dari hasil eksperimen, penggunaan perluasan query memperburuk hasil pencarian query teks yang diterjemahkan dengan rata-rata penurunan precision sebesar 16.42%. Penggabungan hasil perolehan sistem CBIR GIFT dengan hasil query teks yang diterjemahkan dapat memperbaiki hasil pencarian query teks yang diterjemahkan dengan kenaikan precision rata-rata sebesar 8.70%. Penggabungan hasil pencarian sistem CBIR VSMImage dengan hasil query teks yang tidak diterjemahkan, belum dapat memperbaiki hasil pencarian query yang diterjemahkan."

Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2006

S-Pdf

UI - Skripsi Membership Universitas Indonesia Library

Heidi Renata Halim

Deteksi Pertanyaan Duplikat Pada Forum Kesehatan Berbahasa Indonesia Dengan Ekspansi Kata = Duplicate Question Detection in Indonesian Health Forum With the Help of Term Expansion

"Seiring dengan majunya teknologi di Indonesia, banyak layanan kesehatan online yang bermunculan. Pengguna bisa bertanya langsung pada tenaga medis profesional tiap mereka memiliki masalah kesehatan ringan yang tidak membutuhkan janji temu langsung dengan dokter. Sebagai pengguna, tentunya mereka mengharapkan respon yang cepat dari situs yang mereka gunakan, hal ini kedengarannya mustahil dilakukan karena tidak semua tenaga medis profesional yang bekerja pada layanan medis tersebut ada setiap saat memantau semua pertanyaan yang masuk. Namun, hal ini bisa dilakukan dengan cara mencocokan pertanyaan yang baru dimasukkan dan mencari pertanyaan yang sudah pernah ditanyakan di masa lalu yang memiliki persamaan dengan pertanyaan yang baru dimasukkan. Secara singkat, kita bisa mencari duplikat dari pertanyaan yang ditanyakan oleh pengguna dan mengembalikan jawaban dari pertanyaan duplikat tersebut daripada menunggu jawaban langsung dari dokter. Penelitian ini akan menggunakan pendekatan temu balik informasi dalam mendeteksi pertanyaan duplikat yang pernah ditanyakan di masa lalu. Selain itu, penelitian ini juga akan mengkombinasikan ekspansi kata yang dilakukan kepada kueri, dokumen, serta filter kata-kata stopword untuk meningkatkan skor reciprocal-rank dan recall dari model yang digunakan. Hasil penelitian ini menyimpulkan bahwa ekspansi kata yang dilakukan pada kueri serta dokumen tidak menghasilkan skor reciprocal rank dan recall yang lebih baik. Penggunaan word embedding untuk memperbanyak kata stopword yang dihapus dari data mampu menghasilkan skor reciprocal rank yang lebih tinggi meskipun nilainya belum signifikan.

With the advancement of technology and internet in Indonesia, many online healthcare services have emerged where users can directly consult with medical professionals if they have minor health issues that do not require an in-person appointment with a doctor. As users, they naturally expect quick responses from the sites they use. This seems impossible to do as not all medical professionals working who are working on these services are always available to monitor every incoming question. However, this can be achieved by matching newly submitted questions with previously asked questions that have similarities. In short, we can search for duplicates of the questions asked by users and return answers from those duplicate questions instead of waiting for a direct response from a doctor. This research will use an information retrieval approach to detect duplicate questions that have been asked in the past. Additionally, this study will combine query expansion, document expansion, and stopwords filtering to improve the reciprocal-rank and recall scores of the model used. This research concludes that query and document expansion do not yield better reciprocal rank and recall scores. On the other hand, using

word embedding to expand the stopwords list removed from the data can help achieve higher reciprocal rank scores, although the improvement displays are still not significant enough to be categorized as a major change."

Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2024

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

Aprilia

Perolehan informasi lintas bahasa Inggris-Indonesia berdasarkan korpus yang sebanding menggunakan teknik phi square dan koefisien korelasi pearson

"Untuk memenuhi kebutuhan manusia dalam mendapatkan informasi yang banyak dalam waktu yang singkat, teknologi informasi terus menerus dikembangkan. Saat ini informasi menjadi lebih mudah didapat melalui internet. Pengguna internet terdiri dari berbagai macam orang dengan berbagai macam suku bangsa dan bahasa. Dokumen yang dapat diakses melalui internet juga terdiri dari berbagai bahasa.

Untuk memudahkan pencari informasi mendapatkan informasi yang mereka inginkan tanpa terhalangi faktor bahasa, maka dikembangkan teknologi perolehan informasi lintas bahasa. Perolehan informasi lintas bahasa adalah perolehan informasi atau dokumen yang ditulis dalam bahasa yang berbeda dari bahasa kueri. Teknologi perolehan informasi lintas bahasa yang berkembang saat ini antara lain adalah dengan menggunakan mesin penerjemah, dengan kamus dwibahasa, dan berdasarkan korpus. Teknologi perolehan informasi lintas bahasa berdasarkan korpus dapat menggunakan korpus paralel atau korpus yang sebanding. Pada penelitian kali ini, dicoba teknik perolehan informasi berdasarkan korpus yang sebanding dengan menggunakan penghitungan statistik phi square dan koefisien korelasi Pearson.

Hasil dari eksperimen yang dilakukan dalam penelitian ini menunjukkan bahwa kinerja dari perolehan dokumen lintas bahasa dengan menggunakan teknik phi square dapat mencapai 494% dari kinerja kamus dwi-bahasa, sedangkan kinerja korelasi Pearson dapat mencapai 510% dari kinerja kamus dwi-bahasa. Kinerja dari perolehan dokumen lintas bahasa dengan menggunakan teknik phi square dapat mencapai 117% dari kinerja mesin penerjemah Transtool, sedangkan kinerja korelasi Pearson dapat mencapai 121%."

Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2008

S-Pdf

UI - Skripsi Open Universitas Indonesia Library

Joshua Kurniawan Djafar

Pengolahan Bahasa Alami dalam Pemrosesan Kalimat Query Bahasa Indonesia

"Penerapan dari pengolahan bahasa alami ini telah banyak dilaksanakan dengan tujuan tertentu. Salah satu tujuannya adalah aplikasi basis data yang dikembangkan oleh program ini. Pada dasarnya program ini akan mengolah bentuk dari kalimat-kalimat query dalam bahasa Indonesia dan merubahnya menjadi bentuk SQL standar. SQL standar inilah yang akan diinterpretasikan oleh suatu RDBMS (Oracle, Informix,dan sebagainya). Kelemahan utama dari pengolahan bahasa alami ini adalah keterbatasan dari semantik kalimat yang disebabkan oleh keterbatasan yang ada pada SQL ini sendiri. Suatu kalimat membutuhkan suatu bentuk tata bahasa. Bagaimanapun alaminya suatu kalimat bahasa, kalimat tersebut pasti akan mengikuti kaidah umum yang ada pada suatu struktur tata bahasa. Penyusunan dari tata bahasa inilah yang merupakan hal yang terpenting dalam pengolahan bahasa alami. Tata bahasa semantik adalah tata bahasa yang disusun bukan berdasarkan pada sintak kalimat, tetapi disusun berdasarkan pada arti kata penyusun kalimat. Kebutuhan akan pembentukan tata bahasa semantic ini membutuhkan penelitian tersendiri untuk memperoleh struktur umum dari kalimat-kalimat yang akan digunakan oleh pemakai."

Depok: Fakultas Ilmu Komputer Universitas Indonesia, 1992

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

Heninggar Septiantri

Word sense disambiguation (WSD) untuk bahasa indonesia menggunakan cross-lingual WSD dengan korpus paralel dan wordnet = Word sense disambiguation WSD for Indonesian language using cross lingual WSD with parallel corpora and wordnet

"Ambiguitas adalah masalah yang seringkali ditemui dalam pemrosesan bahasa alami oleh komputer. Word Sense Disambiguation (WSD) adalah upaya untuk menentukan makna yang tepat dari sebuah kata yang ambigu. Berbagai penelitian tentang WSD telah banyak dikerjakan, namun penelitian WSD untuk bahasa Indonesia belum banyak dilakukan. Ketersediaan korpus paralel berbahasa Inggris-Indonesia dan sumber pengetahuan bahasa berupa WordNet bahasa Inggris dan bahasa Indonesia dapat dimanfaatkan untuk menyediakan data pelatihan untuk WSD dengan metode Cross-Lingual WSD (CLWSD). Data pelatihan ini kemudian dijadikan input untuk klasifikasi dengan algoritma Naive Bayes, sehingga model klasifikasinya dapat digunakan untuk melakukan monolingual WSD untuk bahasa Indonesia.

Evaluasi klasifikasi menunjukkan rata-rata akurasi hasil klasifikasi lebih tinggi dari baseline. Penelitian ini juga menggunakan stemming dan stopwords removal untuk mengetahui bagaimana efeknya terhadap klasifikasi. Penggunaan stemming menaikkan rata-rata akurasi, sedangkan penerapan stopwords removal menurunkan rata-rata akurasi. Namun pada kata yang memiliki dua makna dalam konteks yang cukup jelas berbeda, stemming dan stopwords removal dapat menaikkan rata-rata akurasi.

Ambiguity is a problem we frequently face in natural languange processing. Word Sense Disambiguation (WSD) is an attempt to decide the correct sense of an ambiguous word. Various research in WSD have been conducted, but research in WSD for Indonesian Language is still rare to find. The availability of parallel corpora in English and Indonesian language and WordNet for both language can be used to provide training data for WSD with Cross-Lingual WSD (CLWSD) method. This training data can be used as input to the classification process using Naive Bayes classifier.

The model resulted by the classification process is then used to do monolingual WSD for Indonesian language. The whole process in this research results in higher accuracy compared to baseline. This research also includes the use of stemming and stopwords removal. The effect of stemming is increasing the average accuracy, whereas stopwords removal is decreasing average accuracy. Nevertheless, for ambiguous words that have distinct context of usage, the use of stemming and stopwords removal can increase average accuracy."

Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2013

T-Pdf

UI - Tesis Membership Universitas Indonesia Library

Pengolahan bahasa alami sederhana untuk sistem perolehan informasi

Fakultas Teknik Universitas Indonesia, 1993

S38343

UI - Skripsi Membership Universitas Indonesia Library

Harris Pranata W.

Perancangan dan implementasi sistem informasi praktikum komputer (SIPKOM) dengan expert system untuk rekrutmen asisten

"Perkemhangan Internet telah memberi pengaruh besar terhadap peranan sistem informasi dalam suatu organisasi. lnternet menjadi sebuah fondasi dasar untuk pemodelan sistem informasi baru yang serba dijital dan berbasis web. Model sistem informasi baru ini dapat mempermudah pelaksanaan kegiatan akademis di universitas. SIPKOM bertujuan untuk memperlancar pelaksanaan Praktikum Dasar Komputer dan mengatasi berbagai masalah yung dihadapi oleh asisum dan praktikan. Perancangan SIPKOM dibuat dengan DFD dun flowchart. Sistem ini dapat digunakan oleh asisten dan praktikan dengan kemampuan akses yang berbeda, SIPKOM memberikan berbagai fasilitas seperti penyediaan materi, pengaturan bobot soal. penyediaan jawaban daftar absen dan nilai praktikum bagi praktikan yang sewakw-waktu dapat diubah oleh asisten. Selain itu, sistem ini juga memberikan fasilitas penyimpanan file secara otomatis ke server bagi praktikan untuk menghindari kesalahan penamaan file."

Depok: Fakultas Teknik Universitas Indonesia, 2004

S40134

UI - Skripsi Membership Universitas Indonesia Library

<< 1 2 3 4 5 6 7 8 9 10 >>

Hasil Pencarian :: Simpan CSV :: Kembali

Hasil Pencarian