Hasil Pencarian  ::  Simpan CSV :: Kembali

Hasil Pencarian

Ditemukan 887 dokumen yang sesuai dengan query
cover
Li, Qia
"This book examines use of the voice as a biometric measure for personal authentication, offering an overview of advances in speaker authentication, and including useful algorithms and techniques for improving overall system robustness and performance."
Berlin: [Springer-Verlag, ], 2012
e20397868
eBooks  Universitas Indonesia Library
cover
New York: IEEE Press, c1979
621.381 9 AUT
Buku Teks  Universitas Indonesia Library
cover
Wachid Nafian
"Pada Skripsi ini membahas tentang proses konversi ucapan menjadi tulisan, Speech-to-Text yang merupakan salah satu aplikasi dari speech recognition. Tujuan dari skripsi ini yaitu bagaimana sistem dapat mengenali sedikitnya 30 kata baik kata dasar walaupun kata jadi yang diucapkan oleh seseorang tertentu (speaker dependent) dan melihat performansi (unjuk kerja) dari sistem dengan parameter codebook dan jumlah framing yang berbeda-beda.
Simulasi dibuat dengan menggunakan program Matlab 6.5 dan metode yang digunakan yaitu Hidden Markov Model (HMM). Metode HMM ini telah banyak diapliksikan dalam teknologi speech recognition. Cara yang digunakan dalam simulasi ini yaitu mengenali kata melalui pengenalan terhadap unit katanya yaitu suku kata. Suku kata yang dijadikan sebagai sumber database sebanyak 25 buah, dan dengan menggunakan variabel ukuran codebook dan jumlah training yang berbeda-beda untuk dilihat performansi mana yang memberikan hasil pengenalan terbaik.
Dari hasil percobaan dengan simulai ternyata dengan ukuran codebook dan jumlah training yang lebih besar untuk jumlah label 25 memberikan performansi yang lebih baik dan dapat memberikan perbaikan dari kondisi sebelumnya, dalam hal ini memberikan perbaikan dari keberhasilan 8,36 % pada codebook 32 dan training 5 menjadi 81,09 % dengan menggunkan codebook 1024 dan jumlah training 40. Kata-kata yang berhasil dikenali dengan variasi dari 25 suku kata sedikitnya ada 50 kata."
Depok: Fakultas Teknik Universitas Indonesia, 2004
S39311
UI - Skripsi Membership  Universitas Indonesia Library
cover
Destry Arta Rini
"Sejak dari awal kehidupan, manusia telah mengguznakan suara yang mereka. Suara manusia adalah unik, karena tidak ada manusia di dunia ini yang memiliki suara yang sama. Hal inilah yang kemudian dijadikan bahan oleh para llmuwan untuk mengembangkan teknologi yang memanfaatkan suara manusia. Speaker recognition merupakan bentuk penerapan dari pemallfaatan suara manusia. Text-independent speaker recognition merupakan salah satu pengembangan aplikasi dari speaker recognition.
Telah banyak metode yang dikembangkan untuk peningkatan kinerja text-independent speaker recognition, salah satu diantaranya adalah dengan menggunakan metode kuantisasi vektor-algoritma LBG. Metode ini akan melalui dua fasa, yaitu training phase dan testing phase. Pada fasa pertama (training phase), akan direkarn suara speaker ke dalam database speaker. Pada fasa kedua (testing phase), akan dibandingkan suara speaker tes dengan database speaker, apakah sistem mampu untuk mengenali identitas speaker tes tersebut.
Hasil pengujian simulasi text-independent speaker recognition secara keseluruhan menunjukkan bahwa text-independent speaker recognition telah mampu mengenali identitas speaker dengan baik, mamma masih banyak terdapat kekurangan. Pengujian text-independent speaker recognition menggunakan 2 jenis database speaker. Database peliama adalah database yang berisi rekaman satu kata dan satu kalimat yang berbeda-beda untuk setiap speakemya. Database kedua berisi rekaman satu kata dan satu kalimat yang sama bagi semua speakernya. Dari kedua database ini kemudian akan dibandingkan kinerjanya terhadap simulasi. Hasil simulasi membuktikan bahwa text-independent speaker recognition terhadap database pertama mampu bekerja lebih baik dengan tingkat keakurasian sebesar 85 %, dibandingkan database kedua."
Depok: Fakultas Teknik Universitas Indonesia, 2004
S40060
UI - Skripsi Membership  Universitas Indonesia Library
cover
Neustein, Amy, editor
"Forensic speaker recognition : law enforcement and counter-terrorism is an anthology of the research findings of 35 speaker recognition experts from around the world. The volume provides a multidimensional view of the complex science involved in determining whether a suspect’s voice truly matches forensic speech samples, collected by law enforcement and counter-terrorism agencies, that are associated with the commission of a terrorist act or other crimes. While addressing such topics as the challenges of forensic case work, handling speech signal degradation, analyzing features of speaker recognition to optimize voice verification system performance, and designing voice applications that meet the practical needs of law enforcement and counter-terrorism agencies, this material all sounds a common theme: how the rigors of forensic utility are demanding new levels of excellence in all aspects of speaker recognition. "
New York: Springer, 2012
e20421082
eBooks  Universitas Indonesia Library
cover
Mary, Leena
"Extraction and representation of prosodic features for speech processing applications deals with prosody from speech processing point of view with topics including, the significance of prosody for speech processing applications, why prosody need to be incorporated in speech processing applications, and different methods for extraction and representation of prosody for applications such as speech synthesis, speaker recognition, language recognition and speech recognition."
New York: Springer, 2012
e20418411
eBooks  Universitas Indonesia Library
cover
Kulshreshtha, Manisha
"Dialect accent features for establishing speaker identity : a case study discusses the subject of forensic voice identification and speaker profiling. Specifically focusing on speaker profiling and using dialects of the Hindi language, widely used in India, the authors have contributed to the body of research on speaker identification by using accent feature as the discriminating factor. This case study contributes to the understanding of the speaker identification process in a situation where unknown speech samples are in different language/dialect than the recording of a suspect. The authors' data establishes that vowel quality, quantity, intonation and tone of a speaker as compared to Khariboli (standard Hindi) could be the potential features for identification of dialect accent."
New York: [Springer, ], 2012
e20418417
eBooks  Universitas Indonesia Library
cover
Mary, Leena
"This updated book expands upon prosody for recognition applications of speech processing. It includes importance of prosody for speech processing applications; builds on why prosody needs to be incorporated in speech processing applications; and presents methods for extraction and representation of prosody for applications such as speaker recognition, language recognition and speech recognition. The updated book also includes information on the significance of prosody for emotion recognition and various prosody-based approaches for automatic emotion recognition from speech."
Switzerland: Springer Cham, 2019
e20502221
eBooks  Universitas Indonesia Library
cover
Mukson Rosadi
"Kompresi suara atau yang biasa disebut dengan pengkodean suara (speech coding) merupakan metode untuk mengurangi jumlah informasi yang dibutuhkan untuk mewakilkan sinyal suara. Teknologi speech coding untuk kompresi sinyal speech dilakukan untuk memperbaiki (menghemat) kinerja bandwidth yang terbatas dan untuk mendukung privasi komunikasi (enkripsi data/pesan). Code Excited Linear Prediction (CELP) yang merupakan pengembangan dari Linear Predictive Coding (LPC) menggunakan metode linear prediction dalam pengkompresan sinyal speech.
Linear prediction adalah suatu metode yang memprediksi sampel ke-n dari suatu sinyal, s(n), dengan membentuk kombinasi linear dari p sampel s(n) sebelumnya. Kombinasi linier umumnya dioptimalkan dengan meminimalkan kuadrat dari prediction error (Mean Square Error, MSE). Suatu encoder CELP (Code Excited Linear Prediction) mempunyai model vocal tract yang sama dengan encoder LPC. Sebagai tambahannya, pada CELP menghitung error yang terjadi antara input data speech dengan model yang dibangkitkan dan mentransmisikan parameter-parameter dari model tersebut dan representasi error-nya.
Dari hasil simulasi yang dilakukan diperoleh bahwa model yang memiliki nilai MSE terkecil terhadap sinyal asli adalah yang memiliki jumlah koefisien linear prediction sebanyak 15 buah. Dengan demikian, model yang akan dikirimkan adalah yang memiliki koefisien linear prdiction sebanyak 15 buah."
Depok: Fakultas Teknik Universitas Indonesia, 2005
S40099
UI - Skripsi Membership  Universitas Indonesia Library
cover
Qisas Tazkia Hasanudin
"

Salah satu teknologi berbasis kecerdasan buatan yang kini semakin dibutuhkan adalah ASR (Automatic Speech Recognition), atau lebih sering disebut sebagai speech-to-text. Teknologi ini memiliki potensi untuk diterapkan di berbagai bidang, salah satunya adalah mentranskripsi naskah rapat atau persidangan. Tujuan dari penelitian ini adalah untuk mengembangkan sistem transkripsi otomatis Bahasa Indonesia yang dapat berjalan secara luring dan dapat memproses masukan dari beberapa mikrofon secara bersamaan.

Penelitian ini berhasil mengembangkan sistem transkripsi otomatis dengan mengkombinasikan teknologi ASR, pemrograman Python, aplikasi word editor seperti Microsoft Word, dan komputer yang terhubung dengan banyak mikrofon. Teknologi ASR pada sistem ini terdiri dari acoustic model yang dibuat menggunakan DeepSpeech dengan metode fine-tuning dan language model yang dibuat menggunakan KenLM. Sistem transkripsi otomatis dapat dijalankan pada komputer 64-bit dengan sistem operasi Windows yang di dalamnya terdapat Microsoft Word tanpa memerlukan spesifikasi hardware minimum tertentu.
Hasil pengujian terhadap performa sistem menunjukkan bahwa sistem hanya bersifat CPU-intensive, dan ini hanya terjadi apabila seluruh pembicara berbicara pada mikrofon secara sekaligus, yang mengakibatkan tingginya jumlah thread yang aktif. Hasil pengujian terhadap acoustic model menunjukkan bahwa model tersebut dapat menghasilkan WER terbaik sebesar 73,33% dan CER terbaik sebesar 23,59% apabila dilatih menggunakan learning rate sebesar 0,01 dan dropout rate sebesar 0,3. Hasil pengujian terhadap language model menunjukkan bahwa model yang dibuat dengan dataset teks bertopik umum dan berukuran besar dapat membantu acoustic model menghasilkan WER dan CER yang lebih baik lagi, yaitu 28,76% dan 14,68%.

One of the artificial intelligence-based technologies that is increasingly needed is ASR (Automatic Speech Recognition), or more commonly referred to as speech-to-text. This technology has the potential to be applied in various fields, one of which is generating transcripts for meetings or trials. The purpose of this research is to develop an Indonesian automatic transcription system that can run offline and can process input from multiple microphones simultaneously.
This study succeeded in developing an automatic transcription system by combining ASR technology, Python programming, word editor applications such as Microsoft Word, and computers connected to multiple microphones. The ASR technology in this system consists of an acoustic model created using DeepSpeech with a fine-tuning method and a language model created using KenLM. The automatic transcription system can be run on 64-bit computers with Windows operating system that has Microsoft Word installed on it. It does not require certain minimum hardware specifications.
Test results on system performance show that the system is only CPU-intensive, and this only occurs when all participants are speaking into all microphones at once, resulting in a high number of active threads. The test results on the acoustic model show that the model can produce the best WER of 73.33% and the best CER of 23.59% when trained using a learning rate of 0.01 and a dropout rate of 0.3. The test results on the language model show that the model made with a text dataset that has a large size and no particular topic can help the acoustic model produce better WER and CER, which are 28.76% and 14.68%, respectively.
"
Depok: Fakultas Teknik Universitas Indonesia, 2022
S-Pdf
UI - Skripsi Membership  Universitas Indonesia Library
<<   1 2 3 4 5 6 7 8 9 10   >>