Hasil Pencarian

Ditemukan 5 dokumen yang sesuai dengan query

Triastuti Chandrawati

Pengembangan part of speech tagger untuk bahasa Indonesia berdasarkan metode conditional random fields dan transformation based learning

"Part of Speech Tagging (POS Tagging) adalah kegiatan pemberian label kelas kata pada suatu kata. Proses ini pada awalnya dilakukan secara manual. Namun proses part of speech tagging secara manual menghabiskan banyak waktu dan tenaga karena membutuhkan banyak ahli bahasa untuk memberikan tag pada setiap kata. Masalah ini kemudian menjadi pendorong bagi para peneliti untuk membangun metode dan aplikasi yang dapat melakukan part of speech tagging secara otomatis. Penelitian di bidang part of speech tagger untuk Bahasa Indonesia belum terlalu mendapat perhatian, karena sampai saat ini. belum ada suatu aplikasi part of speech tagger untuk Bahasa Indonesia. Maka penulis melakukan penelitian untuk menghasilkan suatu aplikasi part of speech tagger untuk Bahasa Indonesia dengan memanfaatkan tiga metode yaitu Conditional Random Fields, Transformation Based Learning, dan kombinasi kedua metode ini. Penelitian ini menggunakan korpus Bahasa Indonesia yang tersusun atas 49 buah artikel surat kabar dan terdiri atas total 13.465 buah token. Tagset yang digunakan pada penelitian ini terdiri atas 21 jenis tag (21 jenis kelas kata). Tagset ini merupakan modifikasi dari Penn Treebank Tagset."

Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2008

S-Pdf

UI - Skripsi Open Universitas Indonesia Library

I Gusti Bagus Hadi Widhinugraha

Pengenalan Gesture dan Non Gesture pada kalimat SIBI (Sistem Isyarat Bahasa Indonesia) menggunakan TCRF (Threshold Conditional Random Field) = Word-gesture and Transitional-gesture Recognition of Indonesian Sign System (known as SIBI) Sentence using Threshold Conditional Random Field

Bahasa isyarat merupakan suatu tatanan gerakan yang mewakili suatu kosakata pada bahasa tertentu dan memiliki fungsi untuk membantu penyandang tunarungu dalam mengatasi masalah berkomunikasi. Namun tidak semua masyarakat umum menguasai bahasa isyarat. Dari permasalahan tersebut, sistem penerjemah bahasa isyarat diperlukan dalam membantu proses komunikasi penyandang tunarungu. Sistem penerjemah memerlukan sebuah video gerakan bahasa isyarat untuk kemudian dapat dikenali Dalam sebuah video utuh yang berisi satu sequence gerakan kalimat isyarat terdapat dua jenis gerakan yaitu gerakan isyarat (gesture) yang mengandung arti dan gerakan transisi (non gesture). Pada penelitian ini diusulkan metode untuk menngenali gesture dan non gesture pada kalimat SIBI (Sistem Isyarat Bahasa Indonesia) menggunakan Threshold Conditional Random Field (TCRF). Data yang digunakan adalah 2.255 video rekaman gerakan untuk 28 isyarat kalimat pada SIBI yang di peragakan oleh tiga orang guru dan dua orang murid dari SLB Santi Rama Jakarta. Untuk merepresentasikan data, pada penelitian ini dibandingkan teknik ekstraksi fitur skeleton, image, gabungan (gabungan antara fitur skeleton dan fitur image) dan MobileNetV2. Untuk klasifikasi digunakan metode TCRF dengan variasi nilai threshold dari 1 sampai 4. Berdasarkan hasil eksperimen, masing-masing teknik ekstraksi fitur menghasilkan akurasi terbaik sebesar 72.5% untuk skeleton dengan threshold 2, 70.3% untuk image dengan threshold 2, 68.5% untuk gabungan dengan threshold 2 dan 93.2% untuk MobileNetV2 dengan threshold 1.5. Berdasarkan akurasi tersebut teknik ekstraksi fitur dengan model MobileNetV2 dapat merepresentasikan data lebih baik dibandingkan dengan ekstraksi skeleton, image, dan gabungan

Sign language is a series of movements that represent the vocabulary of a particular language and is designed to help the hearing-impaired communicate. However, not everyone is familiar with the sign language gestures, so a sign language translation system would aid communication by allowing more people to understand sign language gestures. A video that contains a sequence of sign sentences with two types of movements, namely sign movements (word-gestures) which have represent language constructs, and transitional movements (transitional-gesture). A method to identify both word-gestures and transitional-gestures in a variant of the Indonesian Sign Language System called Sistem Isyarat Bahasa Indonesia (hereafter referred to as SIBI) sentences based on the Threshold Conditional Random Field (TCRF) was implemented. The dataset on which the model is trained, consists of 2,255 videos containing recorded movements for 28 commonly used sentences in SIBI, performed by three teachers and two students of the Santi Rama School (Sekolah Luar Biasa), a school for hearing-impaired students. Several feature extraction techniques were tested, including skeleton, image, skeleton-image combination and MobileNetV2. The classification method uses TCRF with variations in TCRF threshold values between 1 to 4 to recognize word-gestures and transitional-gestures, then deleting frames with transitional-gestures label, and obtaining accuracy from LSTM that recognizes words from the per-frame word-gesture label. The best accuracies achieved by each method were 72.5% for skeleton technique with a TCRF threshold of 2; 70.3% for image technique with a TCRF threshold of 2; 68.5 % for skeleton-image combination, with a TCRF threshold of 2; and 93.2% for MobileNetV2 with threshold 1.5. Using MobileNetV2 as a feature extractor yields significantly better results than previous feature extraction methods.

Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2020

T-pdf

UI - Tesis Membership Universitas Indonesia Library

Ricky Chandra Johanes

Normalisasi teks pada judul Produk E-Commerce = Text normalization on E-Commerce Product title

"Judul produk pada suatu platform e-commerce berperan cukup besar dalam menarik per- hatian konsumen terhadap produk. Kualitas judul produk yang kurang baik perlu diper- baiki dan perihal ini menyebabkan munculnya suatu kebutuhan untuk melakukan nor- malisasi teks pada judul produk agar judul produk dapat terstandardisasi. Namun, stan- dardisasi tersebut tidak dapat dilakukan secara manual oleh manusia karena produk baru setiap harinya akan terus meningkat sehingga membutuhkan suatu sistem yang dapat melakukan pekerjaan tersebut dengan baik. Kriteria atau indikator suatu judul produk yang baik pada platform e-commerce di Indonesia belum pernah didefinisikan sebelumnya sehingga penelitian ini mengajukan empat kriteria yang dapat menjadi parameter kualitas suatu judul produk, yaitu consistency, conciseness, discoverability, dan clarity. Selain itu, penelitian ini juga mengajukan sebuah pendekatan untuk melakukan normalisasi teks pada judul produk e-commerce, yakni dengan pendekatan pipeline yang terdiri atas em- pat tahapan, yaitu chunking, language identification, promotion words identification, dan normalization. Model yang digunakan pada modul chunking, language identification, dan promotion words identification adalah model Conditional Random Field. Evaluasi dilakukan terpisah pada setiap modul dan dilakukan secara integrasi pada pipeline. Pada setiap modul, pengujian yang dilakukan adalah evaluasi kontribusi setiap fitur terhadap kualitas prediksi, menghasilkan suatu kesimpulan bahwa terdapat beberapa potensi ke- mungkinan, yaitu fitur yang berkontribusi positif atau negatif terhadap seluruh metrik, atau fitur dapat berkontribusi positif pada metrik tertentu, namun berkontribusi negatif pada metrik lainnya. Pengujian pada pipeline dilakukan dengan memasukkan judul pro- duk ke seluruh modul mengikuti alur pemodelan dengan dua buah pengaturan evaluasi, menghasilkan akurasi terbaik sebesar 49,14% untuk nilai WER dan 82,61% untuk nilai BLEU. Berdasarkan seluruh hasil tersebut, performa Conditional Random Field dapat dikatakan bekerja dengan baik dalam melakukan identifikasi bahasa dan identifikasi pro- motion words, dan masih dapat dioptimisasi lagi pada tahapan chunking.

The product title on a e-commerce platform has a significant role in attracting consumers’ attention to the product. Poor quality of a product title needs to be fixed and standard- ized, led to a need of text normalization on e-commerce product title. However, this standardization cannot be done manually by humans because new products will continue to increase everyday, so it requires a machine that can do the job properly. Criteria or in- dicators of a good product title on the Indonesian e-commerce platform have never been defined before, so that this research proposes four criteria that can be parameters for a product title quality, namely consistency, conciseness, discoverability, and clarity. In ad- dition, this research also proposes an approach to normalize text on e-commerce product title, with a pipeline approach that consisting of four stages, namely chunking, language identification, promotion words identification, and normalization. The model used in module chunking, language identification, and promotion words identification involves the Conditional Random Field model. Evaluation was separated for each module and in- tegrated for pipeline evaluation. For each module, the experiment was used to evaluate the contribution of each feature towards the quality of the prediction, resulting in conclusion that there are several potential possibilities, which are features that contribute positively or negatively to all metrics, or features can contribute positively to certain metrics, but contribute negatively to the other metrics. The experiment was carried out by inserting product titles into all modules followed the modelling flow with two evaluation settings, resulting for the best accuracy of 49,14% for the WER value and 82,61% for the BLEU value. Based on all of these results, the performance of Conditional Random Field can be said to work well in language identification and promotion words identification module, and can still can be optimized in the chunking module."

Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2020

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

Alif Ahsanil Satria

Pengenalan entitas bernama pada Dokumen Wikipedia dan Berita Bahasa Indonesia dengan Pendekatan Conditional Random Field = Named-Entity Recognition On Indonesian Wikipedia and News Document Using Conditional Random Field Approach

"Pengenalan entitas bernama (named-entity recognition atau NER) adalah salah satu topik riset di bidang pemrosesan bahasa alami (natural language processing atau NLP). Pen- genalan entitas bernama merupakan langkah awal mengubah unstructured text menjadi structured text. Pengenalan entitas bernama berguna untuk mengerjakan NLP task yang lebih high-level seperti ekstraksi informasi (information extraction atau IE), Question Answering (QA), dan lain-lain. Penelitian ini memanfaatkan data berita dan wikipedia masing-masing sebanyak 200 dokumen yang digunakan untuk proses pengujian dan pelatihan. Penelitian ini mencoba mengeksplorasi entitas bernama baru yang tidak sebatas Person, Location, dan Organization. Named entity baru tersebut adalah Event, Product, Nationalities Or Religious or Political groups (NORP), Art, Time, Language, NonHuman or Fictional Character (NHFC), dan Miscellaneous. Jadi, penelitian ini menggunakan 11 entitas bernama. Dalam penelitian ini, permasalahan tersebut dipandang sebagai se- quence labelling. Penelitian ini mengusulkan penggunaan model conditional random field sebagai solusi permasalahan ini. Penelitian ini mengusulkan penggunaan fitur tambahan seperti kata sebelum, kata sesudah, kondisi huruf kapital di awal kata, dan lain-lain, serta word embedding. Penelitian ini menghasilkan performa dengan nilai F-measure terbaik sebesar 67.96% untuk data berita dan 67.09% untuk data wikipedia.

Named Entity Recognition or NER is one of research topics in Natural Language Pro- cessing (NLP) subject. NER is the first step to transform unstructured text to structured text. NER is used for doing more high-level NLP task such as Information Extraction (IE), Question Answering (QA), etc. This research uses news and wikipedia data with 200 documents of each, which is used for training and testing process. This research tries exploring new named entities in addition to Person, Location, and Organization. These named entities are Event, Product, Nationalities Or Religious or Political groups (NORP), Art, Time, Language, NonHuman or Fictional Character (NHFC), and Miscellaneous. Therefore, this research uses 11 named entities. This research views this problem as sequence labelling. This research proposes conditional random field model as the solution for this problem. This research proposes some features, for example additional features such as previous word, next word, initial capital letter condition, etc, and word embedding. This research results p1qerformance with the best F-Measure of 67.09% for wikipedia data and 67.96% for news data."

Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2020

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

Alif Ahsanil Satria

Pengenalan entitas bernama pada dokumen wikipedia dan berita bahasa Indonesia dengan pendekatan conditional random field = Named-entity recognition on indonesian wikipedia and news document using conditional random field approach.

"Pengenalan entitas bernama (named-entity recognition atau NER) adalah salah satu topik riset di bidang pemrosesan bahasa alami (natural language processing atau NLP). Pengenalan entitas bernama merupakan langkah awal mengubah unstructured text menjadi structured text. Pengenalan entitas bernama berguna untuk mengerjakan NLP task yang lebih high-level seperti ekstraksi informasi (information extraction atau IE), Question Answering (QA), dan lain-lain. Penelitian ini memanfaatkan data berita dan wikipedia masing-masing sebanyak 200 dokumen yang digunakan untuk proses pengujian dan pelatihan. Penelitian ini mencoba mengeksplorasi entitas bernama baru yang tidak sebatas Person, Location, dan Organization. Named entity baru tersebut adalah Event, Product, Nationalities Or Religious or Political groups (NORP), Art, Time, Language, NonHuman or Fictional Character (NHFC), dan Miscellaneous. Jadi, penelitian ini menggunakan 11 entitas bernama. Dalam penelitian ini, permasalahan tersebut dipandang sebagai sequence labelling. Penelitian ini mengusulkan penggunaan model conditional random field sebagai solusi permasalahan ini. Penelitian ini mengusulkan penggunaan fitur tambahan seperti kata sebelum, kata sesudah, kondisi huruf kapital di awal kata, dan lain-lain, serta word embedding. Penelitian ini menghasilkan performa dengan nilai F-measure terbaik sebesar 67.96% untuk data berita dan 67.09% untuk data wikipedia.

Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2020

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

Hasil Pencarian :: Simpan CSV :: Kembali

Hasil Pencarian