Hasil Pencarian

Ditemukan 93304 dokumen yang sesuai dengan query

Wachid Nafian

Simulasi unjuk kerja speech-to-text menggunakan metode Discrete Hiden Markov model pada aplikasi speaker dependent

"Pada Skripsi ini membahas tentang proses konversi ucapan menjadi tulisan, Speech-to-Text yang merupakan salah satu aplikasi dari speech recognition. Tujuan dari skripsi ini yaitu bagaimana sistem dapat mengenali sedikitnya 30 kata baik kata dasar walaupun kata jadi yang diucapkan oleh seseorang tertentu (speaker dependent) dan melihat performansi (unjuk kerja) dari sistem dengan parameter codebook dan jumlah framing yang berbeda-beda.

Simulasi dibuat dengan menggunakan program Matlab 6.5 dan metode yang digunakan yaitu Hidden Markov Model (HMM). Metode HMM ini telah banyak diapliksikan dalam teknologi speech recognition. Cara yang digunakan dalam simulasi ini yaitu mengenali kata melalui pengenalan terhadap unit katanya yaitu suku kata. Suku kata yang dijadikan sebagai sumber database sebanyak 25 buah, dan dengan menggunakan variabel ukuran codebook dan jumlah training yang berbeda-beda untuk dilihat performansi mana yang memberikan hasil pengenalan terbaik.

Dari hasil percobaan dengan simulai ternyata dengan ukuran codebook dan jumlah training yang lebih besar untuk jumlah label 25 memberikan performansi yang lebih baik dan dapat memberikan perbaikan dari kondisi sebelumnya, dalam hal ini memberikan perbaikan dari keberhasilan 8,36 % pada codebook 32 dan training 5 menjadi 81,09 % dengan menggunkan codebook 1024 dan jumlah training 40. Kata-kata yang berhasil dikenali dengan variasi dari 25 suku kata sedikitnya ada 50 kata."

Depok: Fakultas Teknik Universitas Indonesia, 2004

S39311

UI - Skripsi Membership Universitas Indonesia Library

Wikky Fawwaz Al Maki

Simulasi dan analisis perbandingan algoritma-algoritma vector quantization untuk sistem pengenalan sinyal akustik ikan-ikan soniferous berbasis text dependent voice recognition yang menggunakan hidden Markov model

"Skripsi ini berisi tentang perbandingan dari 3 jenis algoritma VQ (Vector Quantization) yaitu Traditional K-Means Clustering, LBG (Linde, Buzo, and Gray), dan Sucessive Binary Split yang digunakan dalam proses pengenalan sinyal akustik (Suara) dari berbagai jenis ikan. Dalam proses pengenalan sinyal akustik ikan yang menggunakan HMM (Hidden Markov Model), sinyal akustik ikan yang akan dideteksi, terlebih dahulu dikuantisasi dengan menggunakan algoritma VQ.

Pada sistem pengenalan sinyal akustik ikan, sinyal akustik ikan diubah terlebih dahulu ke dalam bentuk diskrit dengan cara sampling. Sinyal diskrit ini diekstraksi agar diperoleh karakteristiknya dengan menggunakan MFCC (Mel Frequency Cepstrum Coefficient). Vektor data yang terbentuk kemudian dikuantisasi dengan menggunakan 3 jenis algoritma VQ. Pada tahap pengenalan sinyal akustik ikan (recognition) yang memanfaatkan model HMM, ketiga jenis algoritma VQ ini diteliti unjuk kerjanya berdasarkan tingkat akurasi yang diperoleh.

Berdasarkan hasil simulasi, algoritma Sucessive Binary Split merupakan algoritma paling optimum untuk sistem pengenalan sinyal akustik ikan karena memiliki tingkat akurasi tertinggi (pada ukuran codebook < 64) dengan kebutuhan kapasitas memori dan waktu komputasi (saat pembuatan codebook dan model HMM) paling kecil. Untuk memperoleh sistem pengenalan sinyal akuslik ikan dengan tingkat akurasi yang paling baik, algoritma LBG dapat digunakan dengan ukuran codebook > 128 tetapi kapasitas memori dan waktu komputasi yang dibutuhkan makin besar. Tingkat akurasi (recognition rate) pada sistem pengenalan sinyal akustik ikan yang menggunakan VQ dan HMM dapat ditingkatkan dengan memperbesar ukuran codebook, jumlah iterasi algoritma VQ, dan jumlah iterasi pada Baum Welch Algorithm."

Depok: Fakultas Teknik Universitas Indonesia, 2004

S40061

UI - Skripsi Membership Universitas Indonesia Library

Mukson Rosadi

Simulasi unjuk kerja code excited linear prediction sebagai metode low bit rate speech coding

"Kompresi suara atau yang biasa disebut dengan pengkodean suara (speech coding) merupakan metode untuk mengurangi jumlah informasi yang dibutuhkan untuk mewakilkan sinyal suara. Teknologi speech coding untuk kompresi sinyal speech dilakukan untuk memperbaiki (menghemat) kinerja bandwidth yang terbatas dan untuk mendukung privasi komunikasi (enkripsi data/pesan). Code Excited Linear Prediction (CELP) yang merupakan pengembangan dari Linear Predictive Coding (LPC) menggunakan metode linear prediction dalam pengkompresan sinyal speech.

Linear prediction adalah suatu metode yang memprediksi sampel ke-n dari suatu sinyal, s(n), dengan membentuk kombinasi linear dari p sampel s(n) sebelumnya. Kombinasi linier umumnya dioptimalkan dengan meminimalkan kuadrat dari prediction error (Mean Square Error, MSE). Suatu encoder CELP (Code Excited Linear Prediction) mempunyai model vocal tract yang sama dengan encoder LPC. Sebagai tambahannya, pada CELP menghitung error yang terjadi antara input data speech dengan model yang dibangkitkan dan mentransmisikan parameter-parameter dari model tersebut dan representasi error-nya.

Dari hasil simulasi yang dilakukan diperoleh bahwa model yang memiliki nilai MSE terkecil terhadap sinyal asli adalah yang memiliki jumlah koefisien linear prediction sebanyak 15 buah. Dengan demikian, model yang akan dikirimkan adalah yang memiliki koefisien linear prdiction sebanyak 15 buah."

Depok: Fakultas Teknik Universitas Indonesia, 2005

S40099

UI - Skripsi Membership Universitas Indonesia Library

Li, Qia

Speaker authentication

"This book examines use of the voice as a biometric measure for personal authentication, offering an overview of advances in speaker authentication, and including useful algorithms and techniques for improving overall system robustness and performance."

Berlin: [Springer-Verlag, ], 2012

e20397868

eBooks Universitas Indonesia Library

Destry Arta Rini

Analisa kinerja text-independent speaker recognition dengan metode kuantisasi vektor algoritma LBG

"Sejak dari awal kehidupan, manusia telah mengguznakan suara yang mereka. Suara manusia adalah unik, karena tidak ada manusia di dunia ini yang memiliki suara yang sama. Hal inilah yang kemudian dijadikan bahan oleh para llmuwan untuk mengembangkan teknologi yang memanfaatkan suara manusia. Speaker recognition merupakan bentuk penerapan dari pemallfaatan suara manusia. Text-independent speaker recognition merupakan salah satu pengembangan aplikasi dari speaker recognition.

Telah banyak metode yang dikembangkan untuk peningkatan kinerja text-independent speaker recognition, salah satu diantaranya adalah dengan menggunakan metode kuantisasi vektor-algoritma LBG. Metode ini akan melalui dua fasa, yaitu training phase dan testing phase. Pada fasa pertama (training phase), akan direkarn suara speaker ke dalam database speaker. Pada fasa kedua (testing phase), akan dibandingkan suara speaker tes dengan database speaker, apakah sistem mampu untuk mengenali identitas speaker tes tersebut.

Hasil pengujian simulasi text-independent speaker recognition secara keseluruhan menunjukkan bahwa text-independent speaker recognition telah mampu mengenali identitas speaker dengan baik, mamma masih banyak terdapat kekurangan. Pengujian text-independent speaker recognition menggunakan 2 jenis database speaker. Database peliama adalah database yang berisi rekaman satu kata dan satu kalimat yang berbeda-beda untuk setiap speakemya. Database kedua berisi rekaman satu kata dan satu kalimat yang sama bagi semua speakernya. Dari kedua database ini kemudian akan dibandingkan kinerjanya terhadap simulasi. Hasil simulasi membuktikan bahwa text-independent speaker recognition terhadap database pertama mampu bekerja lebih baik dengan tingkat keakurasian sebesar 85 %, dibandingkan database kedua."

Depok: Fakultas Teknik Universitas Indonesia, 2004

S40060

UI - Skripsi Membership Universitas Indonesia Library

Automatic speech & speaker recognition

New York: IEEE Press, c1979

621.381 9 AUT

Buku Teks Universitas Indonesia Library

Qisas Tazkia Hasanudin

Rancang Bangun Sistem Transkripsi Otomatis Bahasa Indonesia Bersifat Luring Dengan Input Banyak Mikrofon Menggunakan Mozilla DeepSpeech = Development of an Offline Indonesian Language Automated Transcription System with Multiple Microphone Input Using Mozilla DeepSpeech

Salah satu teknologi berbasis kecerdasan buatan yang kini semakin dibutuhkan adalah ASR (Automatic Speech Recognition), atau lebih sering disebut sebagai speech-to-text. Teknologi ini memiliki potensi untuk diterapkan di berbagai bidang, salah satunya adalah mentranskripsi naskah rapat atau persidangan. Tujuan dari penelitian ini adalah untuk mengembangkan sistem transkripsi otomatis Bahasa Indonesia yang dapat berjalan secara luring dan dapat memproses masukan dari beberapa mikrofon secara bersamaan.

Penelitian ini berhasil mengembangkan sistem transkripsi otomatis dengan mengkombinasikan teknologi ASR, pemrograman Python, aplikasi word editor seperti Microsoft Word, dan komputer yang terhubung dengan banyak mikrofon. Teknologi ASR pada sistem ini terdiri dari acoustic model yang dibuat menggunakan DeepSpeech dengan metode fine-tuning dan language model yang dibuat menggunakan KenLM. Sistem transkripsi otomatis dapat dijalankan pada komputer 64-bit dengan sistem operasi Windows yang di dalamnya terdapat Microsoft Word tanpa memerlukan spesifikasi hardware minimum tertentu.

Hasil pengujian terhadap performa sistem menunjukkan bahwa sistem hanya bersifat CPU-intensive, dan ini hanya terjadi apabila seluruh pembicara berbicara pada mikrofon secara sekaligus, yang mengakibatkan tingginya jumlah thread yang aktif. Hasil pengujian terhadap acoustic model menunjukkan bahwa model tersebut dapat menghasilkan WER terbaik sebesar 73,33% dan CER terbaik sebesar 23,59% apabila dilatih menggunakan learning rate sebesar 0,01 dan dropout rate sebesar 0,3. Hasil pengujian terhadap language model menunjukkan bahwa model yang dibuat dengan dataset teks bertopik umum dan berukuran besar dapat membantu acoustic model menghasilkan WER dan CER yang lebih baik lagi, yaitu 28,76% dan 14,68%.

One of the artificial intelligence-based technologies that is increasingly needed is ASR (Automatic Speech Recognition), or more commonly referred to as speech-to-text. This technology has the potential to be applied in various fields, one of which is generating transcripts for meetings or trials. The purpose of this research is to develop an Indonesian automatic transcription system that can run offline and can process input from multiple microphones simultaneously.
This study succeeded in developing an automatic transcription system by combining ASR technology, Python programming, word editor applications such as Microsoft Word, and computers connected to multiple microphones. The ASR technology in this system consists of an acoustic model created using DeepSpeech with a fine-tuning method and a language model created using KenLM. The automatic transcription system can be run on 64-bit computers with Windows operating system that has Microsoft Word installed on it. It does not require certain minimum hardware specifications.
Test results on system performance show that the system is only CPU-intensive, and this only occurs when all participants are speaking into all microphones at once, resulting in a high number of active threads. The test results on the acoustic model show that the model can produce the best WER of 73.33% and the best CER of 23.59% when trained using a learning rate of 0.01 and a dropout rate of 0.3. The test results on the language model show that the model made with a text dataset that has a large size and no particular topic can help the acoustic model produce better WER and CER, which are 28.76% and 14.68%, respectively."

Depok: Fakultas Teknik Universitas Indonesia, 2022

S-Pdf

UI - Skripsi Membership Universitas Indonesia Library

Mohamad Irfan Fanani

Rancang Bangun Sistem Pencarian Kata pada Terjemahan Al-Qur’an Berbasis Website dengan Node.Js dan Google Speech-To-Text API = Design and Develop a Word Search System in Website-Based Translation of The Quran with Node.Js And Google Speech-To-Text API

"Penelitian ini membahas tentang pengembangan sistem pencarian kata pada terjemahan Al-Qur’an berbasis website dengan menggunakan Node.JS, Google Speech-to-Text API, dan alquran.cloud API sebagai komponen utamanya. Masukan sistem berupa suara yang pada proses selanjutnya diubah menjadi teks oleh Google Speech-to-Text API lalu teks digunakan sebagai kata kunci untuk mencari terjemahan menggunakan alquran.cloud API. Keluaran sistem berupa tampilan pada halaman website yang berisikan tabel daftar nama surat dan nomor ayat yang mengandung kata kunci. Pembuatan website menggunakan HTML, CSS, dan fungsi JavaScript untuk menyatukan web API dalam satu website. Fungsi JavaScript yang dibuat untuk melakukan fetch data dan menampilkan tabel keluaran dieksekusi di client, sedangkan fungsi untuk masukan sinyal suara dan transkripsi dieksekusi di server. Hasil percobaan menghasilkan akurasi sebesar 86% pada hasil transkripsi Google Speech-to-Text API yang digunakan pada sistem. Akurasi pada penguji perempuan lebih tinggi 14% dibanding penguji laki-laki dengan akurasi penguji perempuan sebesar 92%. Diamati juga waktu dalam kecepatan proses transkripsi, kecepatan fetch data dari alquran.cloud API, dan kecepatan sistem dalam menampilkan keluaran.

This study discusses the development of a word search system for website-based translation of the Qur'an using Node.JS, Google Speech-to-Text API, and alquran.cloud API as the main components. The system input is in the form of voice which in the next process is converted into text by the Google Speech-to-Text API and then the text is used as keywords to search for translations using the alquran.cloud API. The system output is in the form of a display on a website page that contains a table listing letter names and verse numbers containing keywords. Website are created using HTML, CSS, and JavaScript functions to unify the web API in one website. JavaScript functions that are created to fetch data and display an output table are executed on the client, while functions for voice signal input and transcription are executed on the server. The experimental results yield an accuracy of 86% on the transcription results of the Google Speech-to-Text API used in the system. The accuracy of the female examiners was 14% higher than the male examiners with the female examiners' accuracy of 92%. Also observed is the speed of the transcription process, the speed of fetching data from the alquran.cloud API, and the speed of the system in displaying the output."

Depok: Fakultas Teknik Universitas Indonesia, 2022

S-Pdf

UI - Skripsi Membership Universitas Indonesia Library

Muhammad Aljundi

Pengembangan Simple-O (Sistem Penilaian Esai Otomatis) Ujian Bahasa Jepang dengan Menggunakan DeepSpeech = Development of Simple-O (Automated Essay Scoring System) for Japanese Examination Using DeepSpeech

"Skripsi ini membahas mengenai pengembangan sistem ujian lisan Bahasa Jepang yang dirancang dengan mengintegrasikan automatic speech recognition dengan sistem penilaian esai otomatis. Sistem yang dikembangkan menggunakan arsitektur client-server. Client merupakan aplikasi yang dikembangkan menggunakan cross-platform framework Flutter dan dapat dijalankan pada platform web maupun Android. Back-end server pada cloud dibangun menggunakan bahasa pemrograman Python dengan database PostgreSQL serta memanfaatkan teknologi kontainerisasi dengan Docker. Sistem speech recognition yang digunakan adalah DeepSpeech dengan model di-training untuk dapat mengubah pengucapan dalam bahasa Jepang menjadi teks dengan huruf hiragana. Model yang dihasilkan memiliki rata-rata WER sebesar 20,6%. Sistem plenilaian esai otomatis yang digunakan adalah SIMPLE-O dengan metode LSA. Uji coba dilaksanakan secara online pada 36 responden dengan tingkat kefamiliaran terhadap bahasa Jepang yang bervariasi. Hasil uji coba mendapatkan nilai rata-rata sebesar 49,62 dari nilai maksimum sebesar 100. Akurasi sistem penilaian ujian lisan bahasa Jepang ini didefinisikan sebagai nilai rata-rata hasil uji coba, dibagi dengan akurasi speech recognition, yaitu sebesar 62,5%.

This thesis discusses about the development of a Japanese language verbal exam system designed by integrating automatic speech recognition with an automatic essay scoring system. The system developed uses a client-server architecture. The client is an application developed using the cross-platform framework Flutter and can be run on the web or Android platforms. Back-end servers in the cloud are built using the Python programming language with the PostgreSQL database and utilize containerization technology with Docker. The speech recognition system used is DeepSpeech with a training model to be able to convert Japanese pronunciation into text using hiragana letters. The resulting model has an average WER of 20.6%. The automatic essay scoring system used is SIMPLE-O with the LSA method. The trial was carried out online with 36 respondents with different levels of familiarity with Japanese language. The test results obtained an average score of 49.62 out of a maximum score of 100. The accuracy of the Japanese verbal exam scoring system is defined as the average value of the test results, divided by the accuracy of speech recognition, which is equal to 62.5%."

Depok: Fakultas Teknik Universitas Indonesia, 2023

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

Andi Yusuf

Perancangan dan implementasi Algoritma Dynamic Time Warp pada field Programmable Gate Array sebagai modul Feature Matching

"Pengenalan ucapan atau disebut juga speech recognition adalah suatu pengembangan teknik dan sistem yang memungkinkan perangkat system untuk menerima masukan berupa kata yang diucapkan. Teknologi ini memungkinkan suatu perangkat untuk mengenali kata yang diucapkan dengan cara merubah kata tersebut menjadi sinyal digital dan mencocokkan dengan suatu pola tertentu yang tersimpan dalam suatu perangkat. Pola tertentu yang tersimpan pada suatu perangkat sebenarnya sampel kata yang diucapkan pengguna. Salah satu algoritma yang digunakan sebagai pemodelan dasar untuk pengenalan ucapan adalah Dynamic Time Warping (DTW). DTW digunakan sebagai algoritma untuk mencocokkan pola yang dimaksud dengan mengukur dua buah sekuensial pola dalam waktu yang berbeda[7].

Dalam penelitian ini akan dibahas mengenai perancangan IC pattern matching menggunakan algoritma DTW dan diimplementasikan pada sebuah Field Programmable Gate Array (FPGA). Algoritma DTW yang digunakan merupakan pengembangan dari algoritma standar yaitu FastDTW[13]. Perancangan difokuskan pada pembuatan layout Complementary Metal Oxide Silicon (CMOS) pada skala 0,18μm dengan metode semi custom. Layout ang terbentuk baik layout untuk IC DTW maupun layout - layout gerbang logika dasar penyusun IC tersebut, dapat dilihat behavior-nya. Dengan menggunakan Computer Aided Design (CAD) Electric behavior dapat diterjemahkan dalam bahasa hardware yang dikenal dengan Very High Speed Integrated Circuit Hardware Description Language (VHSIC HDL atau VHDL). Proses verifikasi dilakukan dengan membuat prototype perangkat keras menggunakan rangkaian ADC dan FPGA Spartan-IIELC yang telah diimplementasikan VHDL dari IC DTW.

Speech recognition is also called a development of techniques and systems that enable the device system to receive input of the spoken word. This technology allowsa device to recognize words spoken in a way to change the word into a digital signal and the match with a particular pattern stored in a device. Certain patterns that are stored on a device is a spoken word sample of users. One algorithm used as a basis for modeling of speech recognition is the Dynamic Time Warping (DTW). DTW is used as an algorithm to match the pattern in question by measuring two sequential patterns in different time [7].
In this research will be discussed regarding the design of the IC pattern matching using DTW algorithm and implemented on a Field Programmable Gate Array (FPGA). DTW algorithm used is the development of a standard algorithm that is FastDTW [13]. The design focused on making the layout of Complementary Metal Oxide Silicon (CMOS) on a scale of 0.18 μm with a method of semi-custom. Formed a good layout for IC DTW and layout of the basic logic gate, we can see his behavior. By using Computer Aided Design (CAD) Electric, behavior can be translated in hardware language, known as Very High Speed Integrated Circuit Hardware Description Language (VHSIC HDL or VHDL). The verification process is done by making a prototype hardware uses a circuit of ADC and the FPGA Spartan-IIELC that have been implemented VHDL from IC DTW."

Depok: Fakultas Teknik Universitas Indonesia, 2011

T29927

UI - Tesis Open Universitas Indonesia Library

<< 1 2 3 4 5 6 7 8 9 10 >>

Hasil Pencarian :: Simpan CSV :: Kembali

Hasil Pencarian