Hasil Pencarian  ::  Simpan CSV :: Kembali

Hasil Pencarian

Ditemukan 24 dokumen yang sesuai dengan query
cover
Dewi
Abstrak :
Tesis ini membahas tentang penerapan semantic role labeling untuk kalimat Bahasa Indonesia dengan metode Support Vector Machine / SVM. Dataset yang digunakan dalam penelitian ini yaitu kalimat-kalimat yang diambil dari FrameNet yang diterjemahkan dengan bantuan Google Translate. Data training menggunakan 100 kalimat yang diambil dari FrameNet, untuk data testing menggunakan 100 kalimat yang diambil dari FrameNet ditambah dengan 100 kalimat yang dibuat oleh penutur Bahasa Indonesia. Feature-feature yang digunakan dalam penelitian ini adalah headword, POS tag, preposition, predikat, voice, position, frame dan semantic class. Untuk penerapan klasifikasi semantic role labeling dengan metode SVM digunakan tools WEKA. Percobaan yang dilakukan dalam penelitian ini menggunakan kombinasi feature yang berbeda. Hasil yang baik dengan precision 61,6% dan recall 66,8% diperoleh dari kombinasi feature headword, POS tag, preposition, position, frame dan semantic class. ......This thesis discusses about the implementation of semantic role labeling for Indonesian sentences using Support Vector Machine / SVM. Dataset which use in this research are the sentences that taken from FrameNet which translated using Google Translate. Training data uses 100 sentences from FrameNet, for testing data uses 100 senteces from FrameNet and added 100 sentences that made by Indonesian speakers. The features that used in this research are headword, POS tag, preposition, predicate, voice, position, frames and semantic class. For the implementation of classification semantic role labeling with SVM methods is used WEKA tools. The experiments in this research use the combination of the different features. The good result with precision 61,6% and recall 66,8%,are gotten from combination feature between headword, POS tag, preposition, position, frame and semantic class.
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2013
T-Pdf
UI - Tesis Membership  Universitas Indonesia Library
cover
Tinaliah
Abstrak :
Tesis ini menjelaskan mengenai penggabungan antara metode Latent Semantic Analysis dan Centroid-based Summarization dalam proses peringkasan multidokumen berbahasa Indonesia. Evaluasi peringkasan multi-dokumen berbahasa Indonesia akan dibandingkan dengan ringkasan yang dihasilkan oleh sistem terhadap hasil ringkasan referensi yang dibuat oleh ahli Bahasa Indonesia dengan mengukur akurasi kalimat yang sama muncul pada ringkasan yang dihasilkan oleh sistem terhadap ringkasan referensi. Besarnya korpus data training yang kita punya dapat meningkatkan nilai cosine similarity tiap kalimat yang dihasilkan pada metode LSA. Secara keseluruhan akurasi pada pengabungan antara metode latent semantic analysis dan metode centroid-based summarization menghasilkan akurasi yang lebih baik sebesar 26.62% dibandingkan dengan metode centroidbased summarization sebesar 23.81%, dengan selisih rata-rata akurasi pengabungan antara metode latent semantic analysis dan metode centroid-based summarization dengan rata-rata akurasi metode centroid-based summarization adalah sebesar 2,82%.
This study describe the combination of Latent Semantic Analysis method and Centroid-based Summarization in multi-document summarization with Indonesia language. The evaluation result of the system is taken from comparing the summary made by system and the summary made by human. Larger of corpus training data will increase cosine similarity of each sentence in LSA. Overall, combination method of latent semantic analysis and centroid-based summarization is more accurate 26.62% compared to the centroid-based summarization method 23.81 %, with diference of the accuracy average between combination method of latent semantic analysis and centroid-based summarization and accuracy average of method of centroid-based summarization is 2.82%.
Depok: Universitas Indonesia, 2013
T-Pdf
UI - Tesis Membership  Universitas Indonesia Library
cover
Desmond Darma Putra
Abstrak :
WordNet merupakan basis data kamus bahasa Inggris yang dikembangkan oleh Princeton University. WordNet memfokuskan isinya lebih kepada makna kata daripada kata itu sendiri. Saat ini, WordNet banyak digunakan sebagai sumber informasi untuk aplikasi di bidang Information Retrieval dan Natural Language Processing. Selain itu, WordNet juga mulai dikembangkan untuk bahasa-bahasa lain seperti Jerman, Perancis, Belanda, dan lain lain. Secara umum, pengembangan WordNet dapat dibagi menjadi dua, yaitu pendekatan merge dan expand. Dalam penelitian tugas akhir ini, penulis mengembangkan versi awal untuk WordNet bahasa Indonesia dengan menggunakan pendekatan expand. Data-data yang dipersiapkan untuk pengembangan WordNet bahasa Indonesia, antara lain Princeton WordNet 3.0, kamus dwibahasa (Inggris-Indonesia) dan Kamus Besar Bahasa Indonesia (KBBI). Langkah pertama yang dilakukan dengan pendekatan ini adalah memetakan makna yang terdapat di dalam Princeton WordNet dengan makna yang terdapat dalam KBBI. Makna yang digunakan dari Princeton WordNet untuk pemetaan ini difokuskan kepada makna yang merupakan anggota Common Base Concepts. Proses ini dilakukan dengan menggunakan aplikasi web-based dan melibatkan sejumlah pengguna untuk berpartisipasi. Langkah selanjutnya yang dilakukan adalah mengevaluasi hasil pemetaan tersebut dengan memeriksa kelas kata dan kesepakatan antar pengguna dengan menggunakan statistik Kappa. Setelah proses evaluasi, dibuatlah basis data WordNet bahasa Indonesia. Basis data ini dibuat dengan mengadaptasi struktur basis data dan relasi semantik yang ada di dalam Princeton WordNet. Langkah terakhir yang dilakukan adalah membuat aplikasi web-based untuk mengakses WordNet bahasa Indonesia. Dari 3920 makna Princeton WordNet yang dipersiapkan, 1544 makna diantaranya berhasil dipetakan ke dalam bahasa Indonesia. Jumlah makna yang dipetakan ini dipengaruhi oleh beberapa hal, salah satunya adalah kurangnya promosi mengenai eksperimen pemetaan ini sehingga jumlah pengguna yang berpartisipasi masih sedikit. Hasil pemetaan tersebut kemudian dievaluasi dengan memeriksa kelas kata dan kesepakatan antar pengguna (statistik Kappa). Secara rata-rata, kesepakatan antar pengguna dalam melakukan pemetaan dapat dikategorikan intermediate to good. Setelah evaluasi tersebut, dibuat 4 buah versi basis data antara lain versi tolerant, strict, very strict, dan ?strict + filter kesepakatan?. Versi "strict + filter kesepakatan" inilah yang dipilih menjadi basis data dari WordNet bahasa Indonesia. Basis data tersebut dapat diakses melalui aplikasi web-based dengan alamat http://bahasa.cs.ui.ac.id/iwn/.
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2008
S-Pdf
UI - Skripsi Open  Universitas Indonesia Library
cover
Suryanto Ang
Abstrak :
Pengelompokan dokumen atau document clustering telah menjadi suatu teknik yang berguna dalam pengorganisasian sekumpulan dokumen. Dengan teknik ini, komputer bisa secara otomatis mengelompokkan sekumpulan dokumen ke dalam kluster-kluster yang cocok yang merepresentasikan data yang ada. Dengan demikian, proses pencarian informasi bisa dilakukan dengan lebih efisien. Telah banyak metode yang dikembangkan untuk mendukung pengelompokan dokumen. Dua diantara metode-metode tersebut adalah Nonnegative Matrix Factorization (NMF) dan Random Projection (RP). Pada penelitian ini, proses pengelompokan dokumen dilakukan dengan metode reduksi dimensi NMF dan RP pada dokumen berbahasa Indonesia. Untuk metode RP, diperlukan tahap tambahan untuk dapat mengelompokkan dokumen. Metode yang digunakan pada tahap ini adalah K-Means. Data yang digunakan pada percobaan adalah artikel media massa. Percobaan dilakukan dengan variasi pada variabel percobaan seperti jumlah kluster, jumlah data, jenis data, dan informasi fitur. Dari percobaan yang telah dilakukan, terlihat bahwa teknik NMF dan RP dapat diterapkan dalam aplikasi pengelompokan dokumen bahasa Indonesia. Akurasi pengelompokan bisa mencapai 97%. Dari percobaan terlihat juga bahwa teknik NMF menghasilkan akurasi yang lebih tinggi daripada RP dengan kisaran perbedaan sekitar 2%. Ukuran dan jumlah kluster juga mempengaruhi akurasi. Ukuran kluster yang semakin besar menyebabkan peningkatan akurasi sedangkan jumlah kluster yang semakin banyak menyebabkan penurunan akurasi. Dengan ukuran kluster 296 dan jumlah kluster 2 misalnya, akurasi mencapai 96%. Disamping itu, informasi fitur berupa presence merupakan yang paling cocok digunakan karena menghasilkan akurasi yang paling tinggi, juga mencapai 97%. Jumlah fitur yang lebih banyak dan tidak mengandung stopwords juga memberikan akurasi yang lebih tinggi.
Document clustering has been a beneficial technique in organizing documents. With good document clustering technique, computer can automatically group collection of documents into meaningful clusters. The information retrieval process thus can be done eficiently. There have been lots of methods developed in supporting document clustering process. Two of them are Nonnegative Matrix Factorization (NMF) and Random Projection (RP). In this research, document clustering process is conducted on Indonesian documents using both NMF and RP dimensional reduction method. For RP, additional clustering process is required. For this purpose, K-Means is used. Documents used are mass media articles. Experiments are conducted with variation of experiment variables including number of cluster, number of data, types of data, feature, etc. From the experiments conducted, it can be concluded that NMF and RP technique can be used in document clustering application for Indonesian documents. The accuracy reaches 97%. Experiments also show that NMF yields better accuracy than RP with difference range about 2%. Cluster size and cluster number also influence the accuracy. The bigger the cluster size, the higher the accuracy while the more the cluster number, the lower the accuracy. For example, with cluster size 296 and cluster number 2, the accuracy reaches 96%. Despitefully, using presence as feature is the most appropriate one because it results in the highest accuracy among others, also reaches 97%. In addition, the more the features used and excluding the stopwords, the higher the accuracy will be.
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2009
S-Pdf
UI - Skripsi Open  Universitas Indonesia Library
cover
Charles Christian
Abstrak :
Saat ini, Internet telah banyak digunakan untuk bertukar informasi. Sayangnya, terdapat kendala bahasa yang membuat tidak semua informasi di Internet dapat dimengerti. Telah banyak language service yang dikembangkan tetapi masih banyak kendala yang ditemui, baik dari sisi biaya hingga sisi hak cipta. Oleh karena itu, proyek Language Grid didirikan dengan harapan dapat mengatasi kendala bahasa yang ada. Language Grid adalah sebuah infrastuktur bahasa yang dibangun di Internet. Language Grid memanfaatkan teknologi web service yang memungkinkan language service yang ada di dalamnya dapat diakses dengan mudah melalui web. Dalam penelitian ini, akan dikembangkan sebuah web service yang memberikan layanan analisis morfologi bahasa Indonesia menggunakan program Morphological Analyzer yang telah dikembangkan sebelumnya oleh Femphy Pisceldo (Pisceldo, 2008). Langkah lebih lanjut adalah mengembangkan wrapper yang menggunakan teknologi web service agar layanan ini dapat diakses melalui infrastruktur Language Grid. Perancangan dari web service ini meliputi perancangan web application pada server side yang berkomunikasi langsung dengan program Morphological Analyzer, dan perancangan file WSDL yang mendefinisikan layanan yang disediakan. Selain itu, juga dilakukan perancangan web application pada client side untuk melakukan uji coba dari web service yang dihasilkan. Pada akhirnya, web service yang menyediakan layanan analisis morfologi ini berhasil dibuat, namun belum dilakukan deployment ke dalam infrastruktur Language Grid karena kendala teknis dan keterbatasan waktu pengembangan. Web service yang dihasilkan juga telah diuji coba dan telah sukses melewati uji coba tersebut.
Nowadays, many people use Internet for sharing information. Though, there is a language barrier that prevent some of those information to be understood. Many language services have been developed, but there is still many problems to be faced (i.e. the budget and the copyright restriction). In order to conquer the language barrier over the Internet, the Language Grid project is proposed. Language Grid is a language infrastructure over the Internet. Language Grid use the web service technology which allow the language service inside it can be accessed easily via web. In this research, a web service which serve the morphological analysis in Indonesian Language, with the use of Morphological Analyzer program which is developed recently by Femphy Pisceldo (Pisceldo, 2008), will be developed. The next step is to develop the wrapper which uses web service technology, in order to make this service available on Language Grid. The design of this web service cover the design of the application on the server side which communicates directly to the Morphological Analyzer program and the design of WSDL file which defines the service. Beside those, there will also be designed an application on client side in order to test the web service developed. At last, this web service, which serve the morphological analysis in Indonesian Language, has been developed successfully. However, this web service is yet to be deployed to Language Grid, because of the limitation of the develop.
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2009
S-Pdf
UI - Skripsi Open  Universitas Indonesia Library
cover
Rangga M. Jati
Abstrak :
Tujuan penelitian tugas akhir ini adalah membangun sistem yang menghasilkan bahasa alami dari representasi semantik leksikal dengan menggunakan pendekatan chart generation. Penelitian tugas akhir ini dibatasi pada bahasa alami yang dihasilkan berupa kalimat deklaratif dalam bahasa Indonesia. Pendekatan chart generation secara mudahnya merupakan kebalikan dari chart parsing, metode yang digunakan untuk membentuk representasi semantik dari sebuah bahasa alami. Aturan tata bahasa dan semantik leksikal yang digunakan dalam penelitian ini adalah penyesuaian dari aturan tata bahasa dan semantik leksikal yang dirancang oleh Mahendra dalam penelitian sebelumnya (Mahendra, 2008). Perancangan konsep chart generation dan implementasinya merupakan penyesuaian dari rancangan konsep poetry generator yang dirancang oleh Manurung dalam penelitiannya (Manurung, 1999). Implementasi penelitian tugas akhir ini menggunakan bahasa pemrograman Prolog dikarenakan banyaknya penelitian terkait yang menggunakan bahasa pemrograman tersebut. Evaluasi penelitian tugas akhir ini dilakukan dengan pengujian terhadap performa sistem NLG, baik sebagai sebuah sistem tunggal, maupun sebagai bagian dari sistem tanya jawab yang dikembangkan sebelumnya (Larasati, 2007) (Mahendra, 2008). Pengujian dilakukan dengan cara memberikan beragam masukan semantik leksikal kepada sistem. Hasil penelitian tugas akhir ini baru bisa menghasilkan bahasa alami yang sah berdasar semantik leksikal yang bersesuaian. Diharapkan pada penelitian-penelitian berikutnya, dapat dikembangkan banyak hal dari hasil penelitian ini.
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2009
S-Pdf
UI - Skripsi Open  Universitas Indonesia Library
cover
Arudea Mahartianto
Abstrak :
Scrabble adalah permainan papan yang sangat terkenal di dunia. Akan tetapi tidak ada konfigurasi untuk bahasa Indonesia. Hal ini mendorong penulis untuk merancang suatu konfigurasi Scrabble bahasa Indonesia. Rancangan konfigurasi ini didasarkan pada distribusi huruf kata-kata yang diekstrak dari Kamus Besar Bahasa Indonesia versi Elekronik. Rancangan-rancangan yang dihasilkan kemudian dinilai kinerja gameplaynya secara empiris dan kualitatif melalui eksperimen simulasi dan survey. Setelah penilaian ini, ditentukan konfigurasi yang merupakan kombinasi dari distribusi huruf dan skema penilaian yang didasarkan pada distribusi huruf bahasa Indonesia, yaitu indosublemma3, merupakan yang paling cocok untuk digunakan dalam permainan Scrabble bahasa Indonesia.
Scrabble is a worldwide known board game, yet there is no Indonesian version of this game. This encourage the writer to design an Indonesian language Scrabble game configuration. The designs are based on letter distribution of words extracted from Kamus Besar Bahasa Indonesia electronic version. The designs made then undergo gameplay performance evaluation by empirical dan qualitative means through simulation experiment and survey. The configuration fully based on Indonesian language letter distribution which was named indosublemma3 was evaluated as the most compatible with Indonesian language Scrabble game.
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2009
S-Pdf
UI - Skripsi Open  Universitas Indonesia Library
cover
Franky
Abstrak :
Sentimen merupakan opini atau penilaian penulis dokumen mengenai topik yang dibahas dalam dokumen tersebut. Analisis sentimen merupakan suatu tugas yang melakukan polarisasi dokumen berupa pengklasifikasian dokumen ke dalam sentimen positif dan negatif. Penggunaan metode Naive Bayes, Maximum Entropy, dan Support Vector Machine telah ditunjukkan mampu untuk menangkap informasi sentimen dari dokumen review film pada domain bahasa Inggris (Pang, Lee, & Vaithyanathan, 2002). Laporan tugas akhir ini menjelaskan percobaan yang mengaplikasikan kembali metode Naive Bayes, Maximum Entropy, dan Support Vector Machine untuk analisis sentimen pada dokumen berbahasa Indonesia hasil penerjemahan otomatis menggunakan kamus bilingual dan program penerjemah, pada dokumen review film. Hasil analisis sentimen yang didapat dibanding kan dengan hasil analisis sentimen pada dokumen berbahasa Inggris. Percobaan analisis sentimen dilakukan dengan memvariasikan metode penerjemahan dan pengolahan data, fitur yang digunakan, dan informasi nilai fitur berupa nilai kemunculan fitur (presence), frekuensi, normalisasi nilai frekuensi, dan pembobotan menggunakan tf-idf. Baseline untuk analisis sentimen pada bahasa Indonesia dibuat dengan metode klasifikasi yang sederhana. Hasil yang didapat menunjukkan bahwa analisis sentimen menggunakan machine learning untuk dokumen berbahasa Indonesia hasil penerjemahan otomatis dapat dilakukan, dengan akurasi tertinggi sebesar 78.82%. Hasil ini lebih baik dari akurasi yang didapat dari baseline sebesar 52.43% tetapi tidak melebihi akurasi tertinggi pada dokumen berbahasa Inggris sebesar 80.09%, namun cukup dekat. Penggunaan fitur yang diambil dari 25% bagian terakhir dokumen memberikan hasil yang lebih baik dari penggunaan fitur yang diambil dari keseluruhan dokumen. Sementara, metode Support Vector Machine secara umum memberikan hasil analisis sentimen dengan akurasi yang lebih baik dari metode machine learning lain yang digunakan.
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2008
S-Pdf
UI - Skripsi Open  Universitas Indonesia Library
cover
Dyta Anggraeni
Abstrak :
Klasifikasi topik adalah proses pembagian dokumen sesuai dengan topik yang terkandung dari dokumen tersebut. Dalam melakukan klasifikasi topik, pada tugas akhir ini digunakan metode Naïve Bayes dan Maximum Entropi dengan dua jenis data, yaitu artikel media massa dan abstrak tulisan ilmiah dari sistem Lontar. Percobaan ini dilakukan dan dianalisis dari beberapa aspek yaitu metode dan fitur yang digunakan, banyak topik yang digunakan, dan jenis data yang digunakan. Hasil percobaan yang didapat adalah nilai akurasi tertinggi didapat pada saat menggunakan metode Naïve Bayes dengan informasi fitur frequency-normalized yaitu 95,73%. Selain itu, jumlah token yang semakin banyak digunakan secara umum akan meningkatkan nilai akurasi dan pemakaian abstrak tulisan ilmiah memberikan nilai akurasi yang hampir mirip dengan pemakaian artikel media massa.
Topic Classification is a process of categorizing document based on the topic contained in a document. To carry out the topic classification, we use Naïve Bayes and Maximum Entropy towards mass media article and abstracts of scientific papers from Lontar System. Experiments have been done and analyzed regarding several aspects, namely the methods and features, the number of topics, and the data. In this thesis, we found that Naïve Bayes with frequency-normalized as feature information yield the highest accuracy, 95,73%. Furthermore, as the number of the tokens used increase, the accuracy also increases. Experiments using the abstracts of scientific papers yield similar accuracy to mass media article.
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2008
S-Pdf
UI - Skripsi Open  Universitas Indonesia Library
cover
Bayu Distiawan Trisedya
Abstrak :
Klasifikasi dokumen teks adalah masalah sederhana namun sangat penting karena manfaatnya cukup besar mengingat jumlah dokumen yang ada setiap hari semakin bertambah. Namun, kebanyakan teknik klasifikasi dokumen yang ada memerlukan labeled documents dalam jumlah besar untuk melakukan tahap training. Dalam melakukan klasifikasi dokumen, pada tugas akhir ini digunakan algoritma Expectation Maximization yang dikombinasikan dengan algoritma Naïve Bayes untuk memanfaatkan unlabeled documents dengan tiga buah kumpulan data yaitu dokumen hukum, artikel media massa, dan 20Newsgroups dataset. Selain melihat pengaruh penggunaan unlabeled documents, percobaan pada tugas akhir ini juga menganalisis hasil klasifikasi dari beberapa aspek seperti pengaruh stopwords, penggunaan jumlah kategori, dan penggunaan empat buah jenis fitur yaitu presence, frequency, frequency normalized, dan pembobotan tf-idf. Secara umum, penggunaan unlabeled documents memberikan manfaat yang cukup berarti bagi peningkatan akurasi hasil klasifikasi. Dengan konfigurasi tertentu, rata-rata peningkatan akurasi yang diperoleh dapat mencapai angka 9,5%. Namun, penggunaan unlabeled documents ini harus didukung oleh penggunaan labeled documents dalam jumlah yang tepat. Dari percobaan yang telah dilakukan diperlukan sekitar 30 hingga 60 labeled documents tiap kategorinya untuk membangun initial classifier untuk dapat memanfaatkan unlabeled documents secara maksimal.
Text documents classification is a simple problem but it is very important because the benefit is quite large considering the number of documents become more and more to handle each day. However, most of the document classification technique requires large numbers of labeled documents. In performing document classification on this final project, Expectation Maximization algorithm combined with Naïve Bayes algorithm is used to take advantage of unlabeled documents with the three set of data that is legal documents, news articles collection, and 20Newsgroups dataset. In addition to see the influence of unlabeled documents, we also analyze the classification results from several aspects such as the effect of stopwords, the number of categories, and the use of four types of features namely presence, frequency, frequency normalized, and TF-IDF. In general, the uses of unlabeled documents provide a significant benefit for increasing the classification accuracy. With a certain configuration, the average escalation in accuracy can be reached 9,5%. However, the use of unlabeled documents must be supported by the use of labeled documents in the appropriate amount. From the results obtained show that to get maximum benefit from unlabeled documents required 30 to 60 labeled documents per category.
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2009
S-Pdf
UI - Skripsi Open  Universitas Indonesia Library
<<   1 2 3   >>