Hasil Pencarian

Ditemukan 28599 dokumen yang sesuai dengan query

Ilma Alpha Mannix

Pencarian Dosen Pakar Menggunakan Pre-Trained Language Model BERT = Academic Expert Finding Using BERT Pre-Trained Language Model

"Penelitian ini bertujuan untuk menguji efektivitas pre-trained language model BERT pada tugas pencarian dosen pakar. Bidirectional Encoder Representations from Transformers (BERT) merupakan salah satu state-of-the-art model saat ini yang menerapkan contextual word representation (contextual embedding). Dataset yang digunakan pada penelitian ini terdiri dari data pakar dan bukti kepakaran. Data pakar merupakan data dosen Fakultas Ilmu Komputer Universitas Indonesia (Fasilkom UI). Data bukti kepakaran merupakan data abstrak digital tugas akhir mahasiswa Fasilkom UI. Model yang diusulkan pada penelitian ini terdiri dari tiga variasi BERT, yaitu IndoBERT (Indonesian BERT), mBERT (Multilingual BERT), dan SciBERT (Scientific BERT) yang akan dibandingkan dengan model baseline menggunakan word2vec. Terdapat dua pendekatan yang dilakukan untuk mendapatkan urutan dosen pakar pada variasi model BERT, yaitu pendekatan feature-based dan fine-tuning. Penelitian ini menunjukkan bahwa model IndoBERT dengan pendekatan feature-based memberikan hasil yang lebih baik dibandingkan baseline dengan peningkatan 6% untuk metrik MRR hingga 9% untuk metrik NDCG@10. Pendekatan fine-tuning juga memberikan hasil yang lebih baik pada model IndoBERT dibandingkan baseline dengan peningkatan 10% untuk metrik MRR hingga 18% untuk metrik P@5. Diantara kedua pendekatan tersebut, dibuktikan bahwa pendekatan fine-tuning memberikan hasil yang lebih baik dibandingkan dengan pendekatan feature-based dengan peningkatan 1% untuk metrik P@10 hingga 5% untuk metrik MRR. Penelitian ini menunjukkan bahwa penggunaan pre-trained language model BERT memberikan hasil yang lebih baik dibandingkan baseline word2vec dalam tugas pencarian dosen pakar.

This study aims to test the effectiveness of the pre-trained language model BERT on the task of expert finding. Bidirectional Encoder Representations from Transformers (BERT) is one of the current state-of-the-art models that applies contextual word representation (contextual embedding). The dataset used in this study consists of expert data and expertise evidence. The expert data is composed of faculty members from the Faculty of Computer Science, University of Indonesia (Fasilkom UI). The expertise evidence data consists of digital abstracts by Fasilkom UI students. The proposed model in this research consists of three variations of BERT, namely IndoBERT (Indonesian BERT), mBERT (Multilingual BERT), and SciBERT (Scientific BERT), which will be compared to a baseline model using word2vec. Two approaches were employed to obtain the ranking of expert faculty members using the BERT variations, namely the feature-based approach and fine-tuning. The results of this study shows that the IndoBERT model with the feature-based approach outperforms the baseline, with an improvement of 6% for the MRR metric and up to 9% for the NDCG@10 metric. The fine-tuning approach also yields better results for the IndoBERT model compared to the baseline, with an improvement of 10% for the MRR metric and up to 18% for the P@5 metric. Among these two approaches, it is proven that the fine-tuning approach performs better than the feature-based approach, with an improvement of 1% for the P@10 metric and up to 5% for the MRR metric. This research shows that the use of the pre-trained language model BERT provides better results compared to the baseline word2vec in the task of expert finding."

Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2023

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

Farhan Prayuda Putra

Pengembangan sistem penilaian esai otomatis untuk ujian bahasa Jepang mengggunakan multilayer perceptron-particle swarm optimization = Development of automatic essay grading system using multilayer perceptron-particle swarm optimization for Japanese language exam

"Skripsi ini membahas rancangan dan pengembangan sistem penilaian esai otomatis untuk ujian Bahasa Jepang dengan bentuk isian singkat/esai. Sistem dirancang dengan model hybrid MLP (Multilayer Perceptron) dengan Particle Swarm Optimization. Sistem ditulis dalam bahasa pemrograman Python. Penilaian otomatis dilakukan dengan membandingkan jawaban mahasiswa dan jawaban dosen berdasarkan jarak kemiripan menggunakan Manhattan Distance. Model Hybrid MLP akan digunakan untuk menghasilkan vektor jawaban agar dapat dibandingkan dan dinilai. Dari variasi model yang diuji, variasi yang terbukti memiliki performa terbaik adalah variasi dengan model MLP yang dilatih secara backpropagation dengan optimizer Adam dengan learning rate sebesar 0.000001, fungsi loss categorical-crossentropy, dan dilatih selama 50 epoch. Model mendapatkan tingkat persentase eror sebesar 21.85% untuk rata-rata nilai prediksi dibandingkan dengan nilai yang diberikan oleh dosen.

This thesis discusses and explore the designs and development of Automatic Essay Grading System using combination of Multilayer Perceptron with Particle Swarm Optimization. The program is being developed with Python programming language. The system compares the matrix vector of the student’s answer with the key answer using Manhattan Distance. Out of all the variations that are tested, the model that is proven to be the most stable is the MLP model that are trained with Backpropagation with loss function crosscategorical-crossentropy and Adam optimizer with learning rate of 0.000001. The model achieves an error percentage of 21.85% for the average grade predicted compared to the actual grade."

Depok: Fakultas Teknik Universitas Indonesia, 2021

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

Hansel Tanuwijaya

Penerjemahan dokumen inggris-indonesia menggunakan mesin penerjemah statistik dengan word roordering dan phrae reordering

"Mesin penerjemah merupakan alat penerjemah otomatis pada sebuah teks dari satu bahasa ke bahasa lainnya. Tujuan dari mesin penerjemah adalah dapat membuat orang ? orang yang berasal dari berbagai budaya, yang memiliki bahasa yang berbeda, dapat berkomunikasi satu sama lain dengan mudah. Mesin penerjemah statistik adalah sebuah pendekatan mesin penerjemah dimana hasil terjemahan dihasilkan atas dasar model statistik yang parameter-parameternya diambil dari hasil analisis korpus teks bilingual (atau paralel). Penelitian di bidang mesin penerjemah statistik untuk Bahasa Inggris ? Bahasa Indonesia belum terlalu mendapat perhatian. Kualitas hasil terjemahan Bahasa Inggris ? Bahasa Indonesia tersebut masih jauh dari sempurna dan memiliki nilai akurasi yang rendah.

Diawali dari permasalahan ini, munculah sebuah ide untuk membuat aturan-aturan restrukturisasi teks pada Bahasa Inggris sesuai dengan struktur Bahasa Indonesia dengan tujuan untuk meningkatkan kualitas dan nilai akurasi hasil terjemahan mesin penerjemah statistik. Aturan restrukturisasi teks tersebut bisa berupa word reordering, phrase reordering, ataupun keduanya. Dalam penelitian ini penulis merancang 7 buah aturan word reordering, 7 buah aturan phrase reordering dan 2 buah aturan gabungan phrase reordering dan word reordering.

Penelitian dilakukan dengan menggunakan Stanford POS Tagger, Stanford Parser, dan MOSES. Stanford POS Tagger digunakan dalam tahap word reordering, Stanford Parser dalam tahap phrase reordering, dan MOSES dalam tahap penerjemahan. Hasil eksperimen menunjukkan peningkatan akurasi dan kualitas penerjemahan yang efektif diperoleh dengan word reordering. Word reordering dapat memberikan peningkatan nilai BLEU sebesar 1.3896% (dari 0.1871 menjadi 0.1897) dan nilai NIST sebesar 0.6218% (dari 5.3876 menjadi 5.4211). Pada korpus bible, rata ? rata nilai peningkatan nilai BLEU yang diperoleh dengan restrukturisasi teks adalah 0.5871% dan untuk nilai NIST terjadi penurunan sebesar 0.0144%. Pada korpus novel, rata ? rata nilai peningkatan nilai BLEU yang diperoleh dengan restrukturisasi teks adalah 0.8751% dan untuk nilai NIST terjadi peningkatan sebesar 0.3170%. Besarnya peningkatan dan penurunan yang terjadi pada penelitian ini cenderung kecil (masih di bawah 1%). Hal ini dikarenakan aturan penerjemahan Bahasa Inggris-Indonesia menggunakan aturan MD-DM yang melibatkan penukaran kata yang jaraknya dekat sudah tercakup dalam distortion model pada mesin penerjemah statistik berdasarkan frase.

Machine translation is an automatic translation tool for a text from one language to another language. The goal of machine translation is to allow people with different cultures and languages to communicate with each other easily. Statistical machine translation is an approach to machine translation in which the results produced on the basis of statistical model that its parameters taken from the bilingual corpus (or parallel) text analysis. The research on statistical machine translation from English to Indonesian has not been received much attention. The English - Indonesian translation quality is still far from perfect and has low accuracy.

Based on this issue, come out an idea to make some text restructuring rules on English according to Indonesian languange structure, with the purpose of improvement the quality and accuracy of the statistical machine translation. Text restructuring rules can be word reordering or phrase reordering or both. In this research, the authors design 7 word reordering rules, 7 phrase reordering rules and 2 combined phrase reordering and word reordering rules.

This research uses Stanford POS Tagger, Stanford Parser, and MOSES. Stanford POS Tagger is used in word reordering process, Stanford parser used in phrase reordering process, and MOSES in translation process. The results from experiments show that the most effective improvement is word reordering. The improvement with word reordering in BLEU score is 1.3896% (from 0.1871 become 0.1897) and for NIST score is 0.6218% (from 5.3876 become 5.4211). On bible corpus, the average of all text restructuring rules score are increased 0.5871% (BLEU) and decreased 0.0144% (NIST). On novel corpus, the average of all text restructuring rules score are increased 0.8751% (BLEU) and increased 0.3170% (NIST). The amount of increase and decrease that occurred in this study is considered as a small occurence (which is still under 1%). This is caused by the MD-DM rules that involve exchanging words that have small distances between their range which have already been accounted for by the distortion model in phrase based statistical machine translation."

Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2009

S-Pdf

UI - Skripsi Open Universitas Indonesia Library

Galangkangin Gotera

Pengembangan Neural Language Model Untuk Bahasa Singlish Dengan ELECTRA = Developing a Singlish Neural Language Model using ELECTRA

"Singlish adalah sebuah bahasa informal yang sering digunakan warga Singapura. Karena informal, bahasa Singlish jarang ditemukan di media umum seperti majalah, koran, dan artikel internet. Meski demikian, bahasa ini sangat sering digunakan oleh warga Singapu- ra pada percakapan sehari-hari, baik daring maupun luring. Banyak campuran bahasa lain (code-mixing) merupakan tantangan lain dari Singlish. Keterbatasan GPU juga menjadi tantangan dalam mendapatkan model yang baik. Mempertimbangkan semua tantangan ini, penulis telah melatih sebuah model Efficiently Learning an Encoder that Classifies Token Replacements Accurately (ELECTRA) pada data berbahasa Singlish. ELECTRA merupakan sebuah model baru yang menawarkan waktu training lebih cepat sehingga menjadi pilihan baik jika memiliki keterbatasan GPU. Data Singlish didapatkan melalui web scraping pada reddit dan hardwarezone. Penulis membuat sebuah dataset benchmark pada dua buah permasalahan yaitu sentiment analysis dan singlish identification dengan anotasi manual sebagai metode untuk mengukur kemampuan model dalam Singlish. Penulis melakukan benchmarking pada model yang dilatih dengan beberapa model yang tersedia secara terbuka dan menemukan bahwa model ELECTRA yang dilatih memiliki perbedaan akurasi paling besar 2% dari model SINGBERT yang dilatih lebih lama dengan data yang lebih banyak.

Singlish is an informal language frequently used by citizens of Singapore (Singaporeans). Due to the informal nature, Singlish is rarely found on mainstream media such as magazines, news paper, or internet articles. However, the language is commonly used on daily conversation, whether it be online or offline. The frequent code-mixing occuring in the language is another tough challenge of Singlish. Considering all of these challenges, we trained an Efficiently Learning an Encoder that Classifies Token Replacements Accurately (ELECTRA) model on a Singlish corpus. Getting Singlish data is hard, so we have built our own Singlish data for pre-training and fine-tuning by web scraping reddit and hardwarezone. We also created a human-annotated Singlish benchmarking dataset of two downstream tasks, sentiment analysis and singlish identification. We tested our models on these benchmarks and found out that the accuracy of our ELECTRA model which is trained for a short time differ at most 2% from SINGBERT, an open source pre-trained model on Singlish which is trained with much more data."

Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2021

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

Muhammad Anwar Farihin

Pengenalan Entitas Bernama pada Twit Berbahasa Indonesia Menggunakan Model Pre-Trained BERT = BERT Pre-Trained Language Model for Named Entity Recognition on Indonesian Tweets

"Pengenalan Entitas Bernama (NER) telah diteliti cukup dalam, khususnya pada korpus berbahasa Inggris. Namun, penelitian NER pada korpus twit berbahasa Indonesia masih sangat sedikit karena minimnya dataset yang tersedia secara publik. BERT sebagai salah satu model state-of-the-art pada permasalahan NER belum diimplementasikan pada korpus twit berbahasa Indonesia. Kontribusi kami pada penelitian ini adalah mengembangkan dataset NER baru pada korpus twit berbahasa Indonesia sebanyak 7.426 twit, serta melakukan eksperimen pada model CRF dan BERT pada dataset tersebut. Pada akhirnya, model terbaik pada penelitian ini menghasilkan nilai F1 72,35% pada evaluasi tingkat token, serta nilai F1 79,27% (partial match) dan 75,40% (exact match) pada evaluasi tingkat entitas.

Named Entity Recognition (NER) has been extensively researched, primarily for understanding the English corpus. However, there has been very little NER research for understanding Indonesian-language tweet corpus due to the lack of publicly available datasets. As one of the state-of-the-art models in NER, BERT has not yet been implemented in the Indonesian-language tweet corpus. Our contribution to this research is to develop a new NER dataset on the corpus of 7.426 Indonesian-language tweets and to conduct experiments on the CRF and BERT models on the dataset. In the end, the best model of this research resulted in an F1 score of 72,35% at the token level evaluation and an F1 score of 79,27% (partial match) and 75,40% (exact match) at the entity level evaluation."

Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2021

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

Sestoft, Peter

Programming language concepts

"Programming Language Concepts uses a functional programming language (F#) as the metalanguage in which to present all concepts and examples, and thus has an operational flavour, enabling practical experiments and exercises. It includes basic concepts such as abstract syntax, interpretation, stack machines, compilation, type checking, and garbage collection techniques, as well as the more advanced topics on polymorphic types, type inference using unification, co- and contravariant types, continuations, and backwards code generation with on-the-fly peephole optimization.

London: Springer, 2012

e20407633

eBooks Universitas Indonesia Library

Skier, Ken

Top-down assembly language programming for the 6502 personal computer

New York: McGraw-Hill, 1981

001.642 SKI t

Buku Teks Universitas Indonesia Library

Alif Mahardhika

Identifikasi Ujaran Kebencian dan Ujaran Kasar pada Twit Berbahasa Campuran Indonesia-Jawa dengan Pre-Trained Language Model Berbasis BERT = Hate-Speech and Abusive Language Identification on Code-Mixed Indonesian and Javanese Language Tweets Using BERT-based Pre-trained Language Model

"Ujaran kasar dan ujaran kebencian telah menjadi fenomena yang banyak ditemukan di media sosial. Penyalahgunaan kebebasan berpendapat ini berpotensi memicu terjadinya konflik dan ketidakstabilan sosial dikalangan masyarakat, baik dalam interaksi sosial secara digital maupun secara fisik. Diperlukan upaya identifikasi ujaran kasar dan ujaran kebencian secara otomatis, akurat, dan efisien untuk mempermudah penegakkan hukum oleh pihak berwenang. Penelitian pada skripsi ini melakukan perbandingan performa klasifikasi ujaran kasar dan ujaran kebencian pada data teks mixed-coded berbahasa Indonesia-Jawa, menggunakan model klasifikasi berbasis BERT. Eksperimen perbandingan dilakukan dengan membandingkan pre-trained model berbasis BERT dengan berbagai arsitektur dan jenis berbeda, yaitu BERT (dengan arsitektur base dan large), RoBERTa (arsitektur base), dan DistilBERT (arsitektur base). Untuk mengatasi keterbatasan mesin dalam memahami teks mixed-coded, penelitian ini dirancang dalam dua skenario yang membandingkan performa klasifikasi pada teks mixed-coded Indonesia-Jawa dan teks mixed coded yang diterjemahkan ke Bahasa Indonesia. Hasil terbaik berdasarkan F1-Score didapatkan pada klasifikasi menggunakan model berbasis BERT dengan nama IndoBERT-large-p2 pada kedua skenario, dengan F1-Score 78,86% pada skenario tanpa proses translasi, dan F1-Score 77,22% pada skenario dengan proses translasi ke Bahasa Indonesia.

Hateful and abusive speech has become a phenomenon that becomes common in social media. This abuse of freedom of speech presents significant risk of starting social conflicts, be it in the form of digital or physical social interactions. An accurate, efficient, and automated hate speech and abusive language identification effort needs to be developed to help authorities address this problem properly. This research conducts a comparison on hate speech and abusive language identification using several BERT-based language models. The comparisons are made using a variety of BERT-based language models with different types and architecture, including BERT (base and large architecture), RoBERTa (base architecture), and DistilBERT (base architecture). To address the mixed-coded nature of social media texts, this research was conducted under two different scenario that compares the classification performance using a mixed-coded Indonesian-Javanese text and texts that have been translated to Indonesian. The best classification output was measured using F1-Score, with a BERT-based model named IndoBERT-large-p2 outscoring the other BERT-based models in both scenario, scoring an F1-Score of 78.86% in untranslated scenario, and 72.22% F1-Score on the Indonesian-translated scenario."

Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2021

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

Interaction flow modeling language ; model-driven UI engineering of web and mobile apps with IFML / Marco Brambilla, Piero Fraternali

"Interaction flow modeling Language describes how to apply model-driven techniques to the problem of designing the front end of software applications, i.e., the user interaction. The book introduces the reader to the novel OMG standard Interaction flow modeling Language (IFML). Authors Marco Brambilla and Piero Fraternali are authors of the IFML standard and wrote this book to explain the main concepts of the language. They effectively illustrate how IFML can be applied in practice to the specification and implementation of complex web and mobile applications, featuring rich interactive interfaces, both browser based and native, client side components and widgets, and connections to data sources, business logic components and services.

Interaction flow modeling Language provides you with unique insight into the benefits of engineering web and mobile applications with an agile model driven approach. Concepts are explained through intuitive examples, drawn from real-world applications. The authors accompany you in the voyage from visual specifications of requirements to design and code production. The book distills more than twenty years of practice and provides a mix of methodological principles and concrete and immediately applicable techniques."

Waltham, MA: Morgan Kaufmann, 2015

e20427008

eBooks Universitas Indonesia Library

Shurtleff, Robert G.

A problem solving approach to structured assembly language for the IBM PC and compatibles

Englewood Cliffs, NJ: Prentice-Hall, 1992

005.265 SHU p

Buku Teks SO Universitas Indonesia Library

<< 1 2 3 4 5 6 7 8 9 10 >>

Hasil Pencarian :: Simpan CSV :: Kembali

Hasil Pencarian