Hasil Pencarian

Ditemukan 25 dokumen yang sesuai dengan query

Desmond Darma Putra

Pengembangan versi awal wordnet bahasa Indonesia dengan pendekatan expand menggunakan aplikasi web-based dan analisis statistik KAPPA

"WordNet merupakan basis data kamus bahasa Inggris yang dikembangkan oleh Princeton University. WordNet memfokuskan isinya lebih kepada makna kata daripada kata itu sendiri. Saat ini, WordNet banyak digunakan sebagai sumber informasi untuk aplikasi di bidang Information Retrieval dan Natural Language Processing. Selain itu, WordNet juga mulai dikembangkan untuk bahasa-bahasa lain seperti Jerman, Perancis, Belanda, dan lain lain. Secara umum, pengembangan WordNet dapat dibagi menjadi dua, yaitu pendekatan merge dan expand.

Dalam penelitian tugas akhir ini, penulis mengembangkan versi awal untuk WordNet bahasa Indonesia dengan menggunakan pendekatan expand. Data-data yang dipersiapkan untuk pengembangan WordNet bahasa Indonesia, antara lain Princeton WordNet 3.0, kamus dwibahasa (Inggris-Indonesia) dan Kamus Besar Bahasa Indonesia (KBBI). Langkah pertama yang dilakukan dengan pendekatan ini adalah memetakan makna yang terdapat di dalam Princeton WordNet dengan makna yang terdapat dalam KBBI. Makna yang digunakan dari Princeton WordNet untuk pemetaan ini difokuskan kepada makna yang merupakan anggota Common Base Concepts. Proses ini dilakukan dengan menggunakan aplikasi web-based dan melibatkan sejumlah pengguna untuk berpartisipasi. Langkah selanjutnya yang dilakukan adalah mengevaluasi hasil pemetaan tersebut dengan memeriksa kelas kata dan kesepakatan antar pengguna dengan menggunakan statistik Kappa. Setelah proses evaluasi, dibuatlah basis data WordNet bahasa Indonesia. Basis data ini dibuat dengan mengadaptasi struktur basis data dan relasi semantik yang ada di dalam Princeton WordNet. Langkah terakhir yang dilakukan adalah membuat aplikasi web-based untuk mengakses WordNet bahasa Indonesia. Dari 3920 makna Princeton WordNet yang dipersiapkan, 1544 makna diantaranya berhasil dipetakan ke dalam bahasa Indonesia. Jumlah makna yang dipetakan ini dipengaruhi oleh beberapa hal, salah satunya adalah kurangnya promosi mengenai eksperimen pemetaan ini sehingga jumlah pengguna yang berpartisipasi masih sedikit.

Hasil pemetaan tersebut kemudian dievaluasi dengan memeriksa kelas kata dan kesepakatan antar pengguna (statistik Kappa). Secara rata-rata, kesepakatan antar pengguna dalam melakukan pemetaan dapat dikategorikan intermediate to good. Setelah evaluasi tersebut, dibuat 4 buah versi basis data antara lain versi tolerant, strict, very strict, dan ?strict + filter kesepakatan?. Versi "strict + filter kesepakatan" inilah yang dipilih menjadi basis data dari WordNet bahasa Indonesia. Basis data tersebut dapat diakses melalui aplikasi web-based dengan alamat http://bahasa.cs.ui.ac.id/iwn/."

Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2008

S-Pdf

UI - Skripsi Open Universitas Indonesia Library

Suryanto Ang

Pengelompokan dokumen bahasa indonesia dengan teknik reduksi dimensi nonnegative matrix factorization dan random projection

"Pengelompokan dokumen atau document clustering telah menjadi suatu teknik yang berguna dalam pengorganisasian sekumpulan dokumen. Dengan teknik ini, komputer bisa secara otomatis mengelompokkan sekumpulan dokumen ke dalam kluster-kluster yang cocok yang merepresentasikan data yang ada. Dengan demikian, proses pencarian informasi bisa dilakukan dengan lebih efisien. Telah banyak metode yang dikembangkan untuk mendukung pengelompokan dokumen. Dua diantara metode-metode tersebut adalah Nonnegative Matrix Factorization (NMF) dan Random Projection (RP). Pada penelitian ini, proses pengelompokan dokumen dilakukan dengan metode reduksi dimensi NMF dan RP pada dokumen berbahasa Indonesia. Untuk metode RP, diperlukan tahap tambahan untuk dapat mengelompokkan dokumen. Metode yang digunakan pada tahap ini adalah K-Means. Data yang digunakan pada percobaan adalah artikel media massa. Percobaan dilakukan dengan variasi pada variabel percobaan seperti jumlah kluster, jumlah data, jenis data, dan informasi fitur.

Dari percobaan yang telah dilakukan, terlihat bahwa teknik NMF dan RP dapat diterapkan dalam aplikasi pengelompokan dokumen bahasa Indonesia. Akurasi pengelompokan bisa mencapai 97%. Dari percobaan terlihat juga bahwa teknik NMF menghasilkan akurasi yang lebih tinggi daripada RP dengan kisaran perbedaan sekitar 2%. Ukuran dan jumlah kluster juga mempengaruhi akurasi. Ukuran kluster yang semakin besar menyebabkan peningkatan akurasi sedangkan jumlah kluster yang semakin banyak menyebabkan penurunan akurasi. Dengan ukuran kluster 296 dan jumlah kluster 2 misalnya, akurasi mencapai 96%. Disamping itu, informasi fitur berupa presence merupakan yang paling cocok digunakan karena menghasilkan akurasi yang paling tinggi, juga mencapai 97%. Jumlah fitur yang lebih banyak dan tidak mengandung stopwords juga memberikan akurasi yang lebih tinggi.

Document clustering has been a beneficial technique in organizing documents. With good document clustering technique, computer can automatically group collection of documents into meaningful clusters. The information retrieval process thus can be done eficiently. There have been lots of methods developed in supporting document clustering process. Two of them are Nonnegative Matrix Factorization (NMF) and Random Projection (RP). In this research, document clustering process is conducted on Indonesian documents using both NMF and RP dimensional reduction method. For RP, additional clustering process is required. For this purpose, K-Means is used. Documents used are mass media articles. Experiments are conducted with variation of experiment variables including number of cluster, number of data, types of data, feature, etc.

From the experiments conducted, it can be concluded that NMF and RP technique can be used in document clustering application for Indonesian documents. The accuracy reaches 97%. Experiments also show that NMF yields better accuracy than RP with difference range about 2%. Cluster size and cluster number also influence the accuracy. The bigger the cluster size, the higher the accuracy while the more the cluster number, the lower the accuracy. For example, with cluster size 296 and cluster number 2, the accuracy reaches 96%. Despitefully, using presence as feature is the most appropriate one because it results in the highest accuracy among others, also reaches 97%. In addition, the more the features used and excluding the stopwords, the higher the accuracy will be."

Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2009

S-Pdf

UI - Skripsi Open Universitas Indonesia Library

Charles Christian

Pengembangan web service pengurai morfolgi bahasa indonesia pada language grid

"Saat ini, Internet telah banyak digunakan untuk bertukar informasi. Sayangnya, terdapat kendala bahasa yang membuat tidak semua informasi di Internet dapat dimengerti. Telah banyak language service yang dikembangkan tetapi masih banyak kendala yang ditemui, baik dari sisi biaya hingga sisi hak cipta. Oleh karena itu, proyek Language Grid didirikan dengan harapan dapat mengatasi kendala bahasa yang ada. Language Grid adalah sebuah infrastuktur bahasa yang dibangun di Internet. Language Grid memanfaatkan teknologi web service yang memungkinkan language service yang ada di dalamnya dapat diakses dengan mudah melalui web.

Dalam penelitian ini, akan dikembangkan sebuah web service yang memberikan layanan analisis morfologi bahasa Indonesia menggunakan program Morphological Analyzer yang telah dikembangkan sebelumnya oleh Femphy Pisceldo (Pisceldo, 2008). Langkah lebih lanjut adalah mengembangkan wrapper yang menggunakan teknologi web service agar layanan ini dapat diakses melalui infrastruktur Language Grid. Perancangan dari web service ini meliputi perancangan web application pada server side yang berkomunikasi langsung dengan program Morphological Analyzer, dan perancangan file WSDL yang mendefinisikan layanan yang disediakan. Selain itu, juga dilakukan perancangan web application pada client side untuk melakukan uji coba dari web service yang dihasilkan.

Pada akhirnya, web service yang menyediakan layanan analisis morfologi ini berhasil dibuat, namun belum dilakukan deployment ke dalam infrastruktur Language Grid karena kendala teknis dan keterbatasan waktu pengembangan. Web service yang dihasilkan juga telah diuji coba dan telah sukses melewati uji coba tersebut.

Nowadays, many people use Internet for sharing information. Though, there is a language barrier that prevent some of those information to be understood. Many language services have been developed, but there is still many problems to be faced (i.e. the budget and the copyright restriction). In order to conquer the language barrier over the Internet, the Language Grid project is proposed. Language Grid is a language infrastructure over the Internet. Language Grid use the web service technology which allow the language service inside it can be accessed easily via web.

In this research, a web service which serve the morphological analysis in Indonesian Language, with the use of Morphological Analyzer program which is developed recently by Femphy Pisceldo (Pisceldo, 2008), will be developed. The next step is to develop the wrapper which uses web service technology, in order to make this service available on Language Grid. The design of this web service cover the design of the application on the server side which communicates directly to the Morphological Analyzer program and the design of WSDL file which defines the service. Beside those, there will also be designed an application on client side in order to test the web service developed.

At last, this web service, which serve the morphological analysis in Indonesian Language, has been developed successfully. However, this web service is yet to be deployed to Language Grid, because of the limitation of the develop."

Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2009

S-Pdf

UI - Skripsi Open Universitas Indonesia Library

Rangga M. Jati

Pengembangan sistem natural language generation dengan pendekatan chart generation serta penerapannya pada sistem tanya jawab bahasa indonesia

"Tujuan penelitian tugas akhir ini adalah membangun sistem yang menghasilkan bahasa alami dari representasi semantik leksikal dengan menggunakan pendekatan chart generation. Penelitian tugas akhir ini dibatasi pada bahasa alami yang dihasilkan berupa kalimat deklaratif dalam bahasa Indonesia. Pendekatan chart generation secara mudahnya merupakan kebalikan dari chart parsing, metode yang digunakan untuk membentuk representasi semantik dari sebuah bahasa alami. Aturan tata bahasa dan semantik leksikal yang digunakan dalam penelitian ini adalah penyesuaian dari aturan tata bahasa dan semantik leksikal yang dirancang oleh Mahendra dalam penelitian sebelumnya (Mahendra, 2008). Perancangan konsep chart generation dan implementasinya merupakan penyesuaian dari rancangan konsep poetry generator yang dirancang oleh Manurung dalam penelitiannya (Manurung, 1999).

Implementasi penelitian tugas akhir ini menggunakan bahasa pemrograman Prolog dikarenakan banyaknya penelitian terkait yang menggunakan bahasa pemrograman tersebut. Evaluasi penelitian tugas akhir ini dilakukan dengan pengujian terhadap performa sistem NLG, baik sebagai sebuah sistem tunggal, maupun sebagai bagian dari sistem tanya jawab yang dikembangkan sebelumnya (Larasati, 2007) (Mahendra, 2008). Pengujian dilakukan dengan cara memberikan beragam masukan semantik leksikal kepada sistem. Hasil penelitian tugas akhir ini baru bisa menghasilkan bahasa alami yang sah berdasar semantik leksikal yang bersesuaian. Diharapkan pada penelitian-penelitian berikutnya, dapat dikembangkan banyak hal dari hasil penelitian ini."

Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2009

S-Pdf

UI - Skripsi Open Universitas Indonesia Library

Arudea Mahartianto

Perancangan konfigurasi permainan Scrabble untuk bahasa indonesia berdasarkan distribusi huruf Kamus Besar Bahasa Indonesia

"Scrabble adalah permainan papan yang sangat terkenal di dunia. Akan tetapi tidak ada konfigurasi untuk bahasa Indonesia. Hal ini mendorong penulis untuk merancang suatu konfigurasi Scrabble bahasa Indonesia. Rancangan konfigurasi ini didasarkan pada distribusi huruf kata-kata yang diekstrak dari Kamus Besar Bahasa Indonesia versi Elekronik. Rancangan-rancangan yang dihasilkan kemudian dinilai kinerja gameplaynya secara empiris dan kualitatif melalui eksperimen simulasi dan survey. Setelah penilaian ini, ditentukan konfigurasi yang merupakan kombinasi dari distribusi huruf dan skema penilaian yang didasarkan pada distribusi huruf bahasa Indonesia, yaitu indosublemma3, merupakan yang paling cocok untuk digunakan dalam permainan Scrabble bahasa Indonesia.

Scrabble is a worldwide known board game, yet there is no Indonesian version of this game. This encourage the writer to design an Indonesian language Scrabble game configuration. The designs are based on letter distribution of words extracted from Kamus Besar Bahasa Indonesia electronic version. The designs made then undergo gameplay performance evaluation by empirical dan qualitative means through simulation experiment and survey. The configuration fully based on Indonesian language letter distribution which was named indosublemma3 was evaluated as the most compatible with Indonesian language Scrabble game."

Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2009

S-Pdf

UI - Skripsi Open Universitas Indonesia Library

Franky

Analisis sentimen menggunakan metode Naive Bayes, maximum entropy, dan support vector machine pada dokumen berbahasa Inggris dan dokumen berbahasa Indonesia hasil penerjemahan otomatis

"Sentimen merupakan opini atau penilaian penulis dokumen mengenai topik yang dibahas dalam dokumen tersebut. Analisis sentimen merupakan suatu tugas yang melakukan polarisasi dokumen berupa pengklasifikasian dokumen ke dalam sentimen positif dan negatif. Penggunaan metode Naive Bayes, Maximum Entropy, dan Support Vector Machine telah ditunjukkan mampu untuk menangkap informasi sentimen dari dokumen review film pada domain bahasa Inggris (Pang, Lee, & Vaithyanathan, 2002). Laporan tugas akhir ini menjelaskan percobaan yang mengaplikasikan kembali metode Naive Bayes, Maximum Entropy, dan Support Vector Machine untuk analisis sentimen pada dokumen berbahasa Indonesia hasil penerjemahan otomatis menggunakan kamus bilingual dan program penerjemah, pada dokumen review film.

Hasil analisis sentimen yang didapat dibanding kan dengan hasil analisis sentimen pada dokumen berbahasa Inggris. Percobaan analisis sentimen dilakukan dengan memvariasikan metode penerjemahan dan pengolahan data, fitur yang digunakan, dan informasi nilai fitur berupa nilai kemunculan fitur (presence), frekuensi, normalisasi nilai frekuensi, dan pembobotan menggunakan tf-idf. Baseline untuk analisis sentimen pada bahasa Indonesia dibuat dengan metode klasifikasi yang sederhana.

Hasil yang didapat menunjukkan bahwa analisis sentimen menggunakan machine learning untuk dokumen berbahasa Indonesia hasil penerjemahan otomatis dapat dilakukan, dengan akurasi tertinggi sebesar 78.82%. Hasil ini lebih baik dari akurasi yang didapat dari baseline sebesar 52.43% tetapi tidak melebihi akurasi tertinggi pada dokumen berbahasa Inggris sebesar 80.09%, namun cukup dekat. Penggunaan fitur yang diambil dari 25% bagian terakhir dokumen memberikan hasil yang lebih baik dari penggunaan fitur yang diambil dari keseluruhan dokumen. Sementara, metode Support Vector Machine secara umum memberikan hasil analisis sentimen dengan akurasi yang lebih baik dari metode machine learning lain yang digunakan."

Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2008

S-Pdf

UI - Skripsi Open Universitas Indonesia Library

Dyta Anggraeni

Klasifikasi topik menggunakan metode naive bayes dan maximum entropy pada artikel media massa dan abstrak tulisan

"Klasifikasi topik adalah proses pembagian dokumen sesuai dengan topik yang terkandung dari dokumen tersebut. Dalam melakukan klasifikasi topik, pada tugas akhir ini digunakan metode Naïve Bayes dan Maximum Entropi dengan dua jenis data, yaitu artikel media massa dan abstrak tulisan ilmiah dari sistem Lontar. Percobaan ini dilakukan dan dianalisis dari beberapa aspek yaitu metode dan fitur yang digunakan, banyak topik yang digunakan, dan jenis data yang digunakan.

Hasil percobaan yang didapat adalah nilai akurasi tertinggi didapat pada saat menggunakan metode Naïve Bayes dengan informasi fitur frequency-normalized yaitu 95,73%. Selain itu, jumlah token yang semakin banyak digunakan secara umum akan meningkatkan nilai akurasi dan pemakaian abstrak tulisan ilmiah memberikan nilai akurasi yang hampir mirip dengan pemakaian artikel media massa.

Topic Classification is a process of categorizing document based on the topic contained in a document. To carry out the topic classification, we use Naïve Bayes and Maximum Entropy towards mass media article and abstracts of scientific papers from Lontar System. Experiments have been done and analyzed regarding several aspects, namely the methods and features, the number of topics, and the data.

In this thesis, we found that Naïve Bayes with frequency-normalized as feature information yield the highest accuracy, 95,73%. Furthermore, as the number of the tokens used increase, the accuracy also increases. Experiments using the abstracts of scientific papers yield similar accuracy to mass media article."

Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2008

S-Pdf

UI - Skripsi Open Universitas Indonesia Library

Bayu Distiawan Trisedya

Pemanfaatan dokumen unlabeled pada klasifikasi topik berbasis naive bayes dengan algoritma expectation maximization

"Klasifikasi dokumen teks adalah masalah sederhana namun sangat penting karena manfaatnya cukup besar mengingat jumlah dokumen yang ada setiap hari semakin bertambah. Namun, kebanyakan teknik klasifikasi dokumen yang ada memerlukan labeled documents dalam jumlah besar untuk melakukan tahap training. Dalam melakukan klasifikasi dokumen, pada tugas akhir ini digunakan algoritma Expectation Maximization yang dikombinasikan dengan algoritma Naïve Bayes untuk memanfaatkan unlabeled documents dengan tiga buah kumpulan data yaitu dokumen hukum, artikel media massa, dan 20Newsgroups dataset. Selain melihat pengaruh penggunaan unlabeled documents, percobaan pada tugas akhir ini juga menganalisis hasil klasifikasi dari beberapa aspek seperti pengaruh stopwords, penggunaan jumlah kategori, dan penggunaan empat buah jenis fitur yaitu presence, frequency, frequency normalized, dan pembobotan tf-idf. Secara umum, penggunaan unlabeled documents memberikan manfaat yang cukup berarti bagi peningkatan akurasi hasil klasifikasi. Dengan konfigurasi tertentu, rata-rata peningkatan akurasi yang diperoleh dapat mencapai angka 9,5%. Namun, penggunaan unlabeled documents ini harus didukung oleh penggunaan labeled documents dalam jumlah yang tepat. Dari percobaan yang telah dilakukan diperlukan sekitar 30 hingga 60 labeled documents tiap kategorinya untuk membangun initial classifier untuk dapat memanfaatkan unlabeled documents secara maksimal.

Text documents classification is a simple problem but it is very important because the benefit is quite large considering the number of documents become more and more to handle each day. However, most of the document classification technique requires large numbers of labeled documents. In performing document classification on this final project, Expectation Maximization algorithm combined with Naïve Bayes algorithm is used to take advantage of unlabeled documents with the three set of data that is legal documents, news articles collection, and 20Newsgroups dataset. In addition to see the influence of unlabeled documents, we also analyze the classification results from several aspects such as the effect of stopwords, the number of categories, and the use of four types of features namely presence, frequency, frequency normalized, and TF-IDF. In general, the uses of unlabeled documents provide a significant benefit for increasing the classification accuracy. With a certain configuration, the average escalation in accuracy can be reached 9,5%. However, the use of unlabeled documents must be supported by the use of labeled documents in the appropriate amount. From the results obtained show that to get maximum benefit from unlabeled documents required 30 to 60 labeled documents per category."

Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2009

S-Pdf

UI - Skripsi Open Universitas Indonesia Library

Teddy

Penyelesaian penjadwalan kuliah sebagai constraint satisfaction problem dengan genetic algorithm

"Proses pembuatan jadwal kuliah merupakan kegiatan yang panjang, membosankan, serta membutuhkan waktu dan pemikiran yang cukup besar jika dilakukan secara manual. Penyelesaian masalah penjadwalan kuliah secara otomatis dengan bantuan komputer dapat mengurangi waktu dan tenaga dalam membuat jadwal kuliah dan memperkecil terjadinya kesalahan yang disebabkan human error.

Genetic algorithm (GA) merupakan salah satu algoritma local search yang bekerja dengan memori yang kecil dan sering kali dapat menemukan solusi yang masuk akal dalam state space yang sangat besar yang tidak bisa ditemukan oleh algoritma yang sistematik sehingga cocok digunakan untuk menyelesaikan masalah penjadwalan kuliah. Penjadwalan kuliah adalah masalah yang multiobjective karena banyak aspek yang menentukan baik buruknya suatu jadwal kuliah. Oleh karena itu, pada tugas akhir ini digunakan algoritma multiobjective SPEA2.

Dalam tugas akhir ini, masalah penjadwalan kuliah dimodelkan sebagai constraint satisfaction problem, lalu diselesaikan dengan GA. Terdapat hard constraint dan soft constraint dalam penjadwalan kuliah. Setiap constraint dianggap sebagai satu fungsi objektif yang mempengarui nilai fitness individu. Pada eksperimen yang dilakukan, digunakan variasi: 1) ukuran test case: kecil, sedang, besar gasal, besar genap, 2) algoritma multiobjective: SPEA2 dan aggregation based, 3) 4 representasi chromosome, 4) GA parameter: populasi, archive size, crossover type, dan mutation rate, 5) constraint aktif.

Dari hasil eksperimen, GA dapat menyelesaikan penjadwalan kuliah dengan baik karena pada hampir semua test case yang dicobakan, GA dapat menghasilkan jadwal yang memenuhi semua constraint yang ada. Selain itu, mengenai parameter GA untuk masalah penjadwalan kuliah dapat disimpulkan: algoritma multiobjective SPEA2 lebih baik dari aggregation based, populasi semakin besar semakin baik, archive size yang ideal adalah 50% dari jumlah populasi, mutation rate sangat tergantung dari panjang genome.

The process of creating a university timetable is a long and tedious work that needs much time and energy if it is done manually. Solving university timetabling problem automatically with a computer not only can reduce time and energy but also prevent human error.

Genetic algorithm (GA) is one of local search algorithm that requires little memory and can often find a reasonable solution in a very big state space search which can not be found by systematic search algorithms. Therefore, it is useful for solving timetabling problem. Timetable scheduling is a multiobjective problem because there are many aspects that determine whether a schedule is good or bad. Because of that, in this research, multiobjective algorithm SPEA2 is used.

In this reasearch, timetabling problem is represented as a constraint satisfaction problem, then solved with GA. There are hard constraints and soft constraints in university timetabling problem. Each constraint is considered as an objective function that affect fitness value of an individual. In the experiment conducted, the variation used are: 1) test case size: small, medium, large odd, large even, 2) multiobjective algorithm: SPEA2 and aggregation based, 3) four different chromosome representations, 4) GA parameters: population, archive size, crossover type, and mutation rate, 5) active constraints.

From the results of the experiment, GA can successfully solve timetabling problems because in almost all the test cases tried, GA can generate schedules that satisfy all the constraints. In addition, conclusions about the GA parameters for the timetabling problem are: multiobjective algorithm SPEA2 is better than aggregation based, the greater the population the better, the ideal archive size is 50% of the population, mutation rate is highly dependent on the length of the genome."

Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2009

S-Pdf

UI - Skripsi Open Universitas Indonesia Library

Vinky Halim

Segmentasi dokumen bahasa indonesia menggunakan metode genetic algorithm

"Segmentasi dokumen merupakan suatu proses untuk membagi dokumen menjadi bagian-bagian yang homogen atau memiliki keterkaitan yang tinggi. Pada tugas akhir ini digunakan genetic algorithm sebagai metode untuk melakukan segmentasi dokumen. Genetic algorithm merupakan suatu algoritma pencarian solusi terhadap permasalahan dengan search space yang besar dengan menggunakan pendekatan evolusi.

Penelitian tentang segmentasi dokumen menggunakan genetic algorithm telah dilakukan oleh Lamprier (Lamprier et al., 2007) terhadap dokumen bahasa Inggris dengan hasil yang memuaskan. Pada penelitian yang dilakukan Lamprier, proses segmentasi dilakukan dengan mengoptimisasi 2 fungsi objektif yaitu internal cohesion dan dissimilarity. Data yang digunakan pada percobaan ini terdiri dari dokumen artikel media massa Indonesia dan abstrak tulisan ilmiah dari Fakultas Ilmu Komputer Universitas Indonesia.

Percobaan ini dilakukan dan dianalisa dari beberapa aspek yaitu aspek fitness function, metode penghitungan similarity, jumlah iterasi, ukuran populasi, jumlah segmen, dan kemiripan antar dokumen penyusun. Selain itu dilakukan pula perbandingan hasil segmentasi antara metode genetic algorithm dengan metode Texttiling.

Hasil percobaan yang didapat adalah segmentasi dokumen menggunakan genetic algorithm dengan fitness function SPEA 2, metode penghitungan similarity menggunakan dice coefficient, jumlah iterasi 1000 iterasi, ukuran populasi 50 individu, tipe crossover two point crossover, dan probabilitas mutasi 0.09 memberikan hasil segmentasi terbaik. Pada percobaan untuk membandingkan 2 metode segmentasi yaitu genetic algorithm dan Texttiling diperoleh hasil precision 0.081 dan recall 0.46 untuk metode genetic algorithm dan precision 0.12 dan recall 0.58 untuk metode Texttiling.

Dari data hasil percobaan diperoleh kesimpulan bahwa hasil segmentasi dengan metode Texttiling lebih baik daripada hasil segmentasi dengan metode genetic algorithm. Hasil ini bertolak belakang dengan apa yang dilaporakan pada penelitian yang dilakukan Lamprier (Lamprier et al., 2007), hal tersebut dipengaruhi oleh data dan penggunaan genetic operator yang lebih kompleks.

Document segmentation is a process to segments text into thematic homogeneous parts. The segmenting process uses genetic algorithm as a method to segment the text. Genetic algorithm is a searching algorithm for problem involving large search space by using evolution approach.

Research about document segmentation has been done by Lamprier (Lamprier et al., 2007) for English document and show satisfied results. The segmentation in Lamprier?s research uses internal cohesion and dissimilarity as objective function to be optimized. This experiments use Indonesian mass media articles and abstracts of scientific paper from Lontar System of Faculty of Computer Science University of Indonesia.

Experiments have been done and analyzed towards several aspects such as fitness function, similarity calculating method, number of iteration, number of population, number of boundary, and similarity between appended documents. Furthermore the experiment to compare genetic algorithm and other segmentation method (Texttiling) is done in the last experiment.

The experiments shows that genetic algorithm using SPEA 2 as fitness function, dice coefficient as similarity calculating method, 1000 iteration, 50 individuals in population, two point crossover, and 0.09 mutation probability gives the best result. When comparing segmentation method between genetic algorithm and Texttiling, genetic algorithm gives precision 0.081 and recall 0.46 in other hand Texttiling gives precision 0.12 and recall 0.58.

The results show that Texttiling gives better segmentation than genetic algorithm, this conclusion is diffrent with the conclusion reported by Lamprier?s research (Lamprier et al., 2007). The diffrent is related with data and genetic operator used by Lamprier?s research."

Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2009

S-Pdf

UI - Skripsi Open Universitas Indonesia Library

<< 1 2 3 >>

Hasil Pencarian :: Simpan CSV :: Kembali

Hasil Pencarian