Hasil Pencarian

Ditemukan 198303 dokumen yang sesuai dengan query

Arvin Christian

Perancangan text suggestion dan text correction pada mesin pencarian berbasis levenshtein distance untuk bahasa Indonesia = Designing text suggestion and text correction on levenshtein distance based search engine for bahasa Indonesia

"ABSTRAK

Salah satu hal yang dibutuhkan user dalam memudahkan melakukan adalah dengan menggunakan mesin pencarian atau yang disebut search engine. Search engine didesain agar dapat membantu pengguna dalam melakukan pencarian data. Fitur yang dapat digunakan dalam membantu pencarian data adalah Text Suggestion dan Text Correction. Text Suggestion dapat membantu pengguna dalam memperkirakan keyword apa yang akan ditulis untuk menemukan data yang paling sesuai. Text Correction adalah fitur untuk memperbaiki kesalahan penulisan, sehingga diharapkan dapat memperbaiki hasil pencarian. Levenshtein Distance, dapat digunakan untuk fitur Text Suggestion dan Correction dengan menghitung maksimum LD dengan variasi range dari satu sampai lima. Tujuan penelitian ini adalah menguji keakuratan Levenshtein Distance dalam membuat sistem Text Suggestion dan Text Correction. Metode yang digunakan adalah dengan menghitung tingkat kemiripan keyword dengan daftar referensi yang ada pada basis data, dan mengambil kata tersebut untuk dijadikan sebagai text suggestion maupun text correction. Dari hasil penelitian ini, akan didapatkan bahwa sebuah batasan maksimum Levenshtein Cost dapat mempengaruhi keakuratan hasil text correction dan text suggestion. Maksimum LD juga berpengaruh pada performa waktu baik pada Text suggestion dan Text Correction, dengan eksekusi waktu Text Correction lebih cepat dibanding Text Suggestion.Nilai maksimum LD yang optimal adalah dua atau tiga.

ABSTRACT

One of the things required by the user in facilitating the search for data contained on the internet is to use a search engine or so-called search engines. Search engines must also be designed in order to assist users in searching data. Features that can be used in assisting data retrieval are Text Suggestion and Text Correction. Text Suggestion can help users in predicting what keywords will be written to find the most appropriate data. Text Correction is a feature to correct writing errors, so it is expected to improve search results. By utilizing Levenshtein Distance, it can be used for Text Suggestion feature by calculating maximum LD with variation range from one to five. The purpose of this research is to test the accuracy of Levenshtein Distance algorithm in making Text Suggestion and Text Correction system. The method used is to calculate the level of similarity of the keyword with a list of references in the database, and take the word to be used as a text suggestion or text correction. From the results of this study, it will be found that a maximum limit Levenshtein Cost can affect the accuracy of the results of text correction and text suggestion.The optimum of Maximum LD is two or three."

2018

S-Pdf

UI - Skripsi Membership Universitas Indonesia Library

Ivan Raditya

Analisis penerapan fungsi levenshtein distance untuk perbaikan Kalimat bahasa Indonesia pada sistem penilai esai otomatis (SIMPLE-O) = Performance analysis of spelling error correction function using levenshtein distance algorithm in simple-O

"Pada skripsi ini akan melakukan Analisis dan pengujian program perbaikan penulisan kalimat dengan menggunakan fungsi levenshtein distance yang diimplementasikan pada SIMPLE-O. Kesalahan pengetikkan dapat terjadi ketika kata yang diketik tidak memiliki struktur yang sama dengan kata yang sebenarnya. Fungsi levenshtein distance merupakan sebuah fungsi yang dapat digunakan untuk menilai kesamaan dari dua buah string. Dalam melakukan proses pengecekan kesamaan dua buah string, fungsi ini akan memeriksa kesamaan struktur huruf pada string pertama dan kedua. Fungsi levenshtein distcane akan melakukan beberapa tahapan proses ketika melakukan pemeriksaan kesamaan struktur yaitu, menghitung panjang kedua string yang akan diperiksa dan menentukan jumlah transposisi yang terjadi pada string kedua. Keefketifan program perbaikan kata pada skripsi ini adalah 92 dan dapat menaikkan akurasi sebesar 1.45.

This thesis will talk about the analysis and testing results of sentence correction program using Levenshtein distance function implemented in SIMPLE O. Levenshtein distance function is a function that can be used to find similarities from two strings. In finding similarities between the two strings, this function will find similarities in letter structure between both compared strings. The Levenshtein distance function will go through a few steps when finding similarities between compared structures by first counting the length of both strings, which will then be used to figure out the transposition in the second string. The efectiveness percentage of typing correction program is 92 and increase 1.45 the accuration of SIMPLE O."

Depok: Fakultas Teknik Universitas Indonesia, 2017

S68942

UI - Skripsi Membership Universitas Indonesia Library

Erica Harlin

Penanganan Noisy Text untuk Meningkatkan Akurasi Lemmatisasi dan POS Tagging untuk Bahasa Indonesia Informal = Handling Noisy Text to Improve Lemmatization and POS Tagging Accuracy for Informal Indonesian Text

"Aksara adalah sebuah NLP tool yang menuruti Universal Dependencies (UD) v2. Penelitian terakhir terkait pemrosesan bahasa informal pada Aksara adalah v1.2 yang berfokus pada kemampuan Aksara untuk memproses kata-kata dasar informal dan kata-kata dengan afiksasi informal. Penelitian ini bertujuan untuk mengembangkan kemampuan Aksara dalam memproses noisy text. Dalam penelitian ini, terdapat 5 metode yang dipertimbangkan untuk menormalisasikan noisy text, yaitu: Levenshtein distance, Damerau-Levenshtein distance, perbandingan subsequence, longest common subsequence (LCS), dan SymSpell. Untuk menentukan metode mana yang paling cocok, kami membangun dataset sintetis berukuran 20.000 kata, lalu mengukur dan membandingkan performa metode yang satu dengan yang lain dalam menormalisasikan dataset sintetis tersebut. Metode yang akhirnya dipilih adalah SymSpell karena metode ini yang menghasilkan akurasi yang paling tinggi. Versi Aksara yang dihasilkan oleh penelitian ini adalah Aksara v1.4 (Aksara baru). Untuk mengevaluasi Aksara baru, dipakai gold standard yang terdiri dari 152 kalimat dan 1786 token. Hasil evaluasi menunjukkan lemmatizer Aksara baru memiliki akurasi senilai 90.99% dan 91.66% untuk kasus case-sensitive dan case-insensitive. Untuk POS tagger, Aksara baru memiliki akurasi senilai 83%, recall senilai 83%, dan F1 score senilai 83%.

Aksara is an Indonesian NLP tool that conforms to Universal Dependencies (UD) v2. The latest work on Aksara pertaining to its informal language processing ability is Aksara v1.2, which is focused on Aksara’s ability to process informal root words and words with informal affixation. This work aims to enable Aksara to process noisy texts. In this research, there are 5 methods considered for normalizing noisy texts: Levenshtein distance, Damerau-Levenshtein distance, subsequence comparison, longest common subsequence (LCS), and SymSpell. To determine which method is best suited for this purpose, we built a synthetic dataset of 20,000 words, then measured and compared each method’s performance in normalizing the synthetic data. The chosen method is SymSpell as it yields the highest accuracy. This chosen method along with a context dictionary will be integrated into Aksara as a text normalizer. To evaluate new Aksara’s performance, a gold standard consisting of 152 sentences and 1786 tokens is used. The evaluation result shows that the new Aksara’s lemmatizer has an accuracy of 90.99% and 91.61% for case-sensitive and case-insensitive cases. For POS tagger, the new Aksara has an accuracy of 83%, a recall of 83%, and an F1 score of 83%."

Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2023

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

Mukhlizar Nirwan Samsuri

Perbandingan Penggunaan Kamus Terdistribusi, Partition Around Medoids (PAM) dan Struktur Data Trie dalam Perbaikan Ejaan Otomatis Pada Teks Formal Bahasa Indonesia = A Comparison of Distributed, PAM, and Trie Data Structure Dictionaries in Automatic Spelling Correction for Indonesian Formal Text

"Kesalahan ejaan dapat dibagi menjadi dua jenis, non-word errors dan real-word errors. Non-word errors adalah kesalahan eja yang tidak terdapat dalam kamus, sedangkan real-word errors adalah kata yang terdapat pada kamus tetapi berada pada tempat yang tidak tepat pada kalimat. penelitian ini berfokus pada koreksi ejaan untuk non-word errors pada teks formal Bahasa Indonesia. Tujuan dari penelitian ini adalah untuk membandingkan efektivitas tiga jenis struktur kamus untuk koreksi ejaan, antara lain kamus terdistribusi, kamus PAM (Partition Around Medoids), dan kamus menggunakan struktur data trie. Ketiga jenis kamus juga akan dibandingkan dengan kamus sederhana yang dijadikan sebagai baseline. Tahap pengurutan kandidat (ranking correction candidates) dilakukan dengan menggunakan dua variasi dari edit distance, yaitu Levenshtein dan Damerau-Levenshtein dan n-gram. Guna mendukung penelitian ini, dibangun dataset gold standard dari 200 kalimat yang terdiri dari 4.323 token dengan 288 di antaranya adalah non-word errors. Berdasarkan kombinasi tipe kamus dan edit distance, didapatkan hasil bahwa struktur data trie dengan Damerau-Levenshtein distance memperoleh accuracy terbaik untuk menghasilkan kandidat koreksi, yaitu 95,89% dalam 45,31 detik. Selanjutnya, kombinasi struktur data trie dengan Damerau-Levenshtein distance juga mendapatkan accuracy terbaik dalam memilih kandidat terbaik, yaitu 73,15%.

Spelling errors can be divided into two groups: non-word and real-word. A non-word error is a spelling error that does not exist in the dictionary, while a real-word error is a real word but not on the right place. In this work, we address the non-word errors in spelling correction for Indonesian formal text. The objective of our work is to compare the effectiveness of three kinds of dictionary structure for spelling correction, distributed dictionary, PAM (Partition Around Medoids) dictionary, and dictionary using trie data structure, with the baseline of a simple flat dictionary. We conducted experiments with two variations of edit distances, i.e. Levenshtein and Damerau-Levenshtein, and utilized n-grams for ranking correction candidates. We also build a gold standard of 200 sentences that consists of 4,323 tokens with 288 of them are non-word errors. Among the various combinations of dictionary type and edit distance, the trie data structure with Damerau-Levenshtein distance gets the best accuracy to produce candidate correction, i.e. 95.89% in 45.31 seconds. Furthermore, the combination of trie data structure with Damerau-Levenshtein distance also gets the best accuracy in choosing the best candidate, i.e. 73.15%."

Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2023

TA-pdf

UI - Tugas Akhir Universitas Indonesia Library

Bayu G. Wundari

Sistem text-to-speech dengan metode unit selection synthesis untuk Bahasa Indonesia = Text-to-speech system with unit selection synthesis method for Bahasa Indonesia

"Skripsi ini membahas tentang sistem Text-to-Speech (TTS) untuk Bahasa Indonesia dengan Unit Selection Synthesis sebagai metodenya untuk mensintesa ucapan. Unit yang yang digunakan pada sistem TTS ini berupa suku kata Bahasa Indonesia. Sistem TTS yang dibuat pada skripsi ini memiliki 2 modul utama, yaitu modul Natural Language Processing (NLP) dan modul Digital Signal Processing (DSP). Modul NLP bertugas untuk memroses input teks yang masuk guna mendapatkan informasi dari teks itu berupa unit suku kata dengan pitch dan ToBI (Tone and Break Indices) yang bersesuaian dengan kalimat pada teks masukan, Informasi ini kemudian digunakan oleh modul DSP untuk menghasilkan ucapan. Pada modul DSP ini, metode sintesa ucapan yang digunakan adalah Unit Selection Synthesis yang merupakan generasi ketiga setelah Concatenative Synthesis. Metode Unit Selection Synthesis menggunakan database yang sangat banyak sekali untuk dapat menghasilkan ucapan dengan tingkat kealamian yang tinggi. Untuk tiap unit suku kata memiliki karakteristik seperti pitch, durasi, Mel Frequency Cepstrum Coefficient (MFCC), dan ToBI yang berbeda-beda dengan unit yang lain walaupun suku kata yang digunakan adalah sama. Suku kata dengan karakteristik yang berbeda tersebut diperoleh dari hasil pemotongan file wav suatu rekaman ucapan. Dari segi intellijibilitas, ucapan yang dihasilkan tidaklah baik. Hal ini disebabkan database yang dimiliki sangat kurang dan rekaman ucapan yang dijadikan sumber data memiliki banyak noise sehingga mengganggu proses pemotongan file wav untuk mendapatkan suku kata. Namun tingkat kealamian ucapan yang diperoleh dari sistem TTS ini dapat dikatakan cukup baik karena pitch dari suku kata yang cukup bervariasi sehingga intonasi yang terdengar tidak mendatar saja.

This undergraduate thesis discusses about a Text-to-Speech system with Unit Selection Synthesis as it's method to synthesize speech. Units which are used as the units for the synthesizer are Bahasa Indonesia syllables. In this study, the TTS system uses 2 main modules, they are Natural Language Processing module (NLP) and Digital Signal Processing Module (DSP). The NLP module processes input text for retrieving information from the input in the form of syllables with their pitch and ToBI (Tone and Break Indices) associated with the sentences in the text. The retrieved information then used by DSP module to produce speech. The third generation synthesizer after concatenative synthesis, Unit Selection Synthesis, is chosen as the speech synthesizer in the DSP module. To get speech with high naturalness, the synthesizer must uses a large speech database. Each and every syllable has it?s own characteristics such as pitch, duration, Mel Frequency Cepstrum Coefficient (MFCC), and ToBI that are different from other units eventhough the syllables are the same. The author get the syllables by trimming a wav file of recorded speech. From the intelligibility point of view, the quality of the produced speech is not good. It is because the quality of the possessed database is poor and the recorded speech chockablock with noise in such a way that unsettles the process of trimming the wav file in order to get the syllables. Yet, from the naturalness point of view, the quality of the speech could be accepted because of the variety of the pitch of the syllables so that the perceived speech is not monotone."

Depok: Fakultas Teknik Universitas Indonesia, 2009

S51375

UI - Skripsi Open Universitas Indonesia Library

Michael Harditya

Pengembangan Abstractive-Extractive Text Summarization dengan BART untuk Teks Berita Bahasa Indonesia = Development of Abstractive-Extractive Text Summarization with BART for Indonesian News Text

"Penelitian ini melakukan pengembangan integrasi metode perangkum abstraktif dengan metode ekstraktif dalam merangkum teks berita yang melebihi input maksimal dari model machine learning. Penggabungan metode abstraktif dan ekstraktif menciptakan rangkuman yang lebih natural tanpa kehilangan makna semantiknya, serta menyelesaikan keterbatasan jumlah input maksimal dari model machine learning yang digunakan pada metode abstraktif. Bagian abstraktif dibuat menggunakan model machine learning yang menggunakan arsitektur Transformer, yaitu model BART. Bagian ekstraktif menggunakan algoritma gabungan untuk melakukan pembobotan tiap kalimat menggunakan term frequency – inverse document frequency (TF-IDF), konjungsi antar kalimat, dan peletakan kalimat pada paragraf yang dapat diidentifikasi menggunakan algoritma pemrograman. Dataset yang digunakan adalah benchmark IndoSum, yaitu dataset bahasa Indonesia untuk merangkum teks, sehingga dapat dievaluasikan dengan model pada penelitian yang serupa. Beberapa pengujian dilakukan pada model BART dan tokenizer, dengan nilai ROUGE Score menunjukan adanya peningkatan pada tokenizer bahasa Indonesia ketimbang bahasa Inggris. Hasil evaluasi pada finetuning model BART mendapatkan nilai ROUGE Score sebesar 0,725 untuk ROUGE-1, 0,635 untuk ROUGE-2, 0,699 untuk ROUGE-L, dan 0,718 untuk ROUGE-Lsum, menjadikan model BART lebih tinggi pada beberapa model lainnya pada riset terkait. Human evaluation dilakukan pada hasil integrasi, menunjukan hasil yang baik untuk morfologi, semantik, dan kenaturalan rangkuman, namun masih buruk untuk kesalahan pengetikan.

This research develops the integration of abstractive summarization methods with extractive methods in summarizing news texts that exceed the maximum input from the machine learning model. Combining abstractive and extractive methods creates a more natural summary without losing its semantic meaning, and resolves the limitations of the maximum number of inputs from the machine learning model used in the abstractive method. The abstractive part was created using a machine learning model that uses the Transformer architecture, namely the BART model. The extractive section uses a combined algorithm to weight each sentence using term frequency - inverse document frequency (TF-IDF), conjunctions between sentences, and placement of sentences in paragraphs that can be identified using a programming algorithm. The dataset used is the IndoSum benchmark, namely an Indonesian language dataset for summarizing text, so that it can be evaluated with models in similar research. Several tests were carried out on the BART model and tokenizer, with the ROUGE Score showing an increase in the Indonesian language tokenizer compared to English. The evaluation results of finetuning the BART model obtained a ROUGE Score of 0.725 for ROUGE-1, 0.635 for ROUGE-2, 0.699 for ROUGE-L, and 0.718 for ROUGE-Lsum, making the BART model higher than several other models in related research. Human evaluation was carried out on the integration results, showing good results for morphology, semantics and naturalness of summaries, but still poor results for typing errors."

Depok: Fakultas Teknik Universitas Indonesia, 2024

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

Mohamad Irfan Fanani

Rancang Bangun Sistem Pencarian Kata pada Terjemahan Al-Qur’an Berbasis Website dengan Node.Js dan Google Speech-To-Text API = Design and Develop a Word Search System in Website-Based Translation of The Quran with Node.Js And Google Speech-To-Text API

"Penelitian ini membahas tentang pengembangan sistem pencarian kata pada terjemahan Al-Qur’an berbasis website dengan menggunakan Node.JS, Google Speech-to-Text API, dan alquran.cloud API sebagai komponen utamanya. Masukan sistem berupa suara yang pada proses selanjutnya diubah menjadi teks oleh Google Speech-to-Text API lalu teks digunakan sebagai kata kunci untuk mencari terjemahan menggunakan alquran.cloud API. Keluaran sistem berupa tampilan pada halaman website yang berisikan tabel daftar nama surat dan nomor ayat yang mengandung kata kunci. Pembuatan website menggunakan HTML, CSS, dan fungsi JavaScript untuk menyatukan web API dalam satu website. Fungsi JavaScript yang dibuat untuk melakukan fetch data dan menampilkan tabel keluaran dieksekusi di client, sedangkan fungsi untuk masukan sinyal suara dan transkripsi dieksekusi di server. Hasil percobaan menghasilkan akurasi sebesar 86% pada hasil transkripsi Google Speech-to-Text API yang digunakan pada sistem. Akurasi pada penguji perempuan lebih tinggi 14% dibanding penguji laki-laki dengan akurasi penguji perempuan sebesar 92%. Diamati juga waktu dalam kecepatan proses transkripsi, kecepatan fetch data dari alquran.cloud API, dan kecepatan sistem dalam menampilkan keluaran.

This study discusses the development of a word search system for website-based translation of the Qur'an using Node.JS, Google Speech-to-Text API, and alquran.cloud API as the main components. The system input is in the form of voice which in the next process is converted into text by the Google Speech-to-Text API and then the text is used as keywords to search for translations using the alquran.cloud API. The system output is in the form of a display on a website page that contains a table listing letter names and verse numbers containing keywords. Website are created using HTML, CSS, and JavaScript functions to unify the web API in one website. JavaScript functions that are created to fetch data and display an output table are executed on the client, while functions for voice signal input and transcription are executed on the server. The experimental results yield an accuracy of 86% on the transcription results of the Google Speech-to-Text API used in the system. The accuracy of the female examiners was 14% higher than the male examiners with the female examiners' accuracy of 92%. Also observed is the speed of the transcription process, the speed of fetching data from the alquran.cloud API, and the speed of the system in displaying the output."

Depok: Fakultas Teknik Universitas Indonesia, 2022

S-Pdf

UI - Skripsi Membership Universitas Indonesia Library

Jauzak Hussaini Windiatmaja

Text Classification untuk Verifikasi Fakta pada Kanal Berita Bahasa Indonesia menggunakan Deep Learning dengan Ensemble Technique = Text Classification for Fact Verification for Indonesian News Channel Using Deep Learning with Ensemble Technique

"Sumber informasi di jejaring berita daring adalah instrumen yang memungkinkan individu membaca berita, menerbitkan berita, dan berkomunikasi. Hal ini sudah menjadi tren dalam masyarakat yang sangat mobile. Oleh karena itu, proses verifikasi fakta suatu pemberitaan menjadi sangat penting. Dengan pertimbangan tersebut, sebuah tools berbasis web service untuk verifikasi fakta menggunakan metode deep learning dengan teknik ensemble dibangun. Penggunaan teknik ensemble pada model deep learning adalah proses beberapa model pembelajaran mesin digabungkan secara strategis untuk menyelesaikan masalah menggunakan lebih dari satu model. Untuk melatih model, dibangun sebuah dataset. Dataset berisi pasangan klaim dan label. Klaim dibangun dengan data crawling di kanal berita berbahasa Indonesia. Tiga model deep learning dibangun dan dilatih menggunakan dataset yang dibuat, dengan arsitektur jaringan dan hyperparameter yang berbeda. Setelah model dilatih menggunakan dataset, ketiga model diagregasikan untuk membentuk sebuah model baru. Untuk memastikan bahwa model agregat berfungsi lebih baik daripada model tunggal, performa model deep learning ensemble dibandingkan dengan model deep learning dasar. Hasil penelitian menunjukkan bahwa model ensemble memiliki akurasi 85,18% sedangkan model tunggal memiliki akurasi 83,9%, 83,19%, dan 81,94%. Hasil ini menunjukkan bahwa model ensemble yang dibangun meningkatkan kinerja verifikasi fakta dari tiga model tunggal. Hasil penelitian juga menunjukkan bahwa metode deep learning mengungguli performa metode machine learning lain seperti naive bayes dan random forest. Untuk memvalidasi kinerja tools yang dibangun, response time dari web service diukur. Hasil pengukuran menunjukkan rata-rata response time 6.447,9 milidetik.

Information sources on social networks are instruments that allow individuals to read news, publish news, and communicate. This is a trend in a highly mobile society. Therefore, the process of verifying facts is very important. With these considerations, we built a web service-based tool for fact verification using deep learning methods with ensemble technique. The use of ensemble techniques in deep learning models is a process in which several machine learning models are combined to solve problems. To train the model, we created a dataset. Our dataset of Indonesian news contains pairs of claims along with labels. Claims are built by crawling data on Indonesian news channels. Three deep learning models have been built and trained using the previously created dataset with different network architectures and hyperparameters. After the model is trained, three models are aggregated to form a new model. To ensure that the aggregated model performs better than the single model, the deep learning ensemble model is compared to the single models. The results showed that the ensemble model has an accuracy of 85.18% while the single models have an accuracy of 83.9%, 83.19%, and 81.94% consecutively. These results indicate that the ensemble model built improves the fact-verification performance of the three single models. The results also show that by using the same dataset, deep learning methods outperform other machine learning methods such as naive bayes and random forest. To validate the performance of the tools we created, the response time of the web service is measured. The measurement result shows an average response time of 6447.9 milliseconds."

Depok: Fakultas Teknik Universitas Indonesia, 2021

T-Pdf

UI - Tesis Membership Universitas Indonesia Library

Maulana Nurhendronoto

Klasifikasi Emosi Berbasis Teks Bahasa Indonesia dengan Perbandingan CNN, LSTM dan BERT = Indonesian Text Based Emotion Classification with Comparison of CNN, LSTM and BERT

"Emosi adalah perasaan yang muncul dalam diri seseorang sebagai respon dari situasi tertentu. Perasan ini dapat memengaruhi pikiran, perilaku, dan persepsi seseorang terhadap suatu peristiwa. Klasifikasi emosi adalah bagian dari analisis sentimen yang bertujuan untuk menganalisis dan memperoleh emosi dari suatu data. Penelitian klasifikasi emosi berbasis teks perlu dilakukan karena dapat diimplementasikan pada berbagai bidang, seperti kesehatan dan pendidikan. Bahasa Indonesia menduduki peringkat 11 bahasa dengan penutur terbanyak di dunia dengan 200 juta penutur. Namun, penelitian klasifikasi emosi berbasis teks bahasa Indonesia masih sedikit dilakukan. Algoritma machine learning dapat digunakan untuk mengatasi berbagai tantangan dalam penelitian klasifikasi emosi seperti memahami emosi dan menganalisis emosi dari data yang tidak terstruktur. Penelitian ini berfokus pada pengembangan model machine learning dengan teknik convolutional neural network (CNN), long short-term memory (LSTM), dan bidirectional encoder representation from transformer (BERT). Berdasarkan pengujian yang dilakukan, metode convolutional neural network (CNN) mendapatkan F1 score sebesar 84,2%, metode long short term memory mendapatkan F1 score sebesar 82%, metode BERT en uncased mendapatkan F1 score sebesar 22%, dan metode BERT multi cased mendapatkan F1 score sebesar 32%. Hasil pengujian ini menandakan metode CNN merupakan metode dengan hasil pengujian terbaik dan BERT en uncased merupakan metode dengan hasil pengujian terburuk dibanding ketiga metode lainnya.

Emotions are feelings that arise within a person in response to a particular situation. These feelings can affect a person's thoughts, behavior, and perception of an event. Emotion classification is a part of sentiment analysis that aims to analyze and derive emotions from data. Text-based emotion classification research needs to be done because it can be implemented in various fields, such as health and education. Indonesian is ranked the 11th most spoken language in the world with 200 million speakers. However, there is still little research on Indonesian text-based emotion classification. Machine learning algorithms can be used to overcome various challenges in emotion classification research such as understanding emotions and analyzing emotions from unstructured data. This research focuses on developing machine learning models with convolutional neural network (CNN), long short-term memory (LSTM), and bidirectional encoder representation from transformer (BERT) techniques. Based on the tests conducted, the convolutional neural network (CNN) method gets an F1 score of 84,2%, the long short term memroy method gets an F1 score of 82%, the BERT en uncased method gets an F1 score of 22%, and the BERT multi cased method gets an F1 score of 32%. These results indicate that the CNN is the bets method while the BERT en uncased is the worst method compared to the three other methods."

Depok: Fakultas Teknik Universitas Indonesia, 2024

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

Sarah Syarofina

Analisis Pemilihan Molekul Inhibitor Dipeptidil Peptidase 4 pada Perancangan Obat Diabetes Tipe 2 menggunakan Algoritma K-Modes Clustering dengan Levenshtein Distance = Molecular Selection Analysis of Dipeptidyl Peptidase-4 Inhibitors in The Drug Discovery of Type 2 Diabetes using K-Modes Clustering Algorithm with Levenshtein Distance

"Inhibitor dipeptidil peptidase 4 (DPP-4) baru perlu dikembangkan untuk meminimalkan efek samping merugikan yang diakibatkan oleh obat golongan inhibitor DPP-4 yang telah terdaftar. Penelitian ini bertujuan untuk menghasilkan subset molekul inhibitor DPP-4 yang representatif dengan mengaplikasikan algoritma K-Modes clustering dengan Levenshtein distance pada proses clustering dan melakukan analisis pemilihan molekul inhibitor DPP-4 berdasarkan kriteria nilai logP dari aturan Lipinskis Rule of 5. 2053 molekul inhibitor DPP-4 diperoleh dari situs ChEMBL. Clustering dilakukan terhadap fingerprint molekuler inhibitor DPP-4 yang diperoleh dari fitur SMILES (Simplified Molecular Input Line Entry System). Metode MACCS (Molecular Access System) Keys, ECFP (Extended Connectivity Fingerprint) diameter 4 dan 6, dan FCFP (Functional Class Fingerprint) diameter 4 dan 6, digunakan untuk membangun lima dataset fingerprint untuk proses clustering. Prosedur clustering diawali dengan menentukan jumlah klaster dengan menghitung nilai Koefisien Silhouette sebagai metode evaluasi klaster. Penerapan algoritma K-Modes clustering dengan Levenshtein distance pada 2053 molekul inhibitor DPP-4 menghasilkan nilai Koefisien Silhouette maksimal dari dataset MACCS sebesar 0.3947 dengan jumlah klaster 1258. Pemilihan molekul berdasarkan kriteria nilai logP dan aturan Lipinskis Rule of 5 menghasilkan 778 molekul inhibitor DPP-4 dari semua dataset dengan 298 molekul inaktif dan 480 molekul aktif dan nilai logP berkisar antara -1.67 sampai dengan 4.97.

New dipeptidyl peptidase 4 (DPP-4) inhibitors need to be developed to minimize the adverse side effects caused by registered DPP-4 inhibitor drugs. This study aims to produce a representative subset of DPP-4 inhibitor molecules by applying the K-Modes clustering algorithm with Levenshtein distance in the clustering process and analyzing the selection of DPP-4 inhibitor molecules based on the logP value criteria. 2053 DPP-4 inhibitor molecules obtained from the ChEMBL website. Clustering was carried out on the molecular fingerprint obtained from the SMILES feature. The MACCS Keys, ECFP (diameter 4 and 6), and FCFP (diameter 4 and 6) methods were used to construct fingerprint datasets for the clustering process. The clustering procedure begins by determining the number of clusters by calculating the Silhouette Coefficient value. The application of the K-Modes clustering with Levenshtein distance to 2053 DPP-4 inhibitor molecules resulted in the maximum Silhouette Coefficient value of the MACCS dataset of 0.3947 with the number of clusters 1258. Selection of molecules based on logP value criteria and Lipinskis Rule of 5 resulted in 778 DPP-4 inhibitor molecules. of all the datasets with 298 inactive molecules and 480 active molecules and the logP value ranged from -1.67 to 4.97.

Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2020

T-pdf

UI - Tesis Membership Universitas Indonesia Library

<< 1 2 3 4 5 6 7 8 9 10 >>

Hasil Pencarian :: Simpan CSV :: Kembali

Hasil Pencarian