Hasil Pencarian  ::  Simpan CSV :: Kembali

Hasil Pencarian

Ditemukan 30 dokumen yang sesuai dengan query
cover
Abstrak :
In the current study, two experiments are reported that investigated the effects of simple white noise and mixture of white noise and other sounds on perception of speech. In both experiments, university students were recruited to listen to short sentences under various sound masking conditions. Experiment 1, where standard sets of speakers were used for both speech and masking stimuli, has shown that, compared to baseline where there was no masking sound, the participants had significantly greater difficulties in understanding the sentences where the average level of understanding was 28% for the white noise condition and 20% for the mixed noise condition in which white noise was mixed with pink noise and sounds of running water. In Experiment 2, a test model of the specially designed sound masking speaker was used to present the masking noise. Further, sounds of tweeting birds and healing music were added to the mixed noise from Experiment 1 to create the three masking noise conditions. The average level of understanding for the mixed noise condition was 14%, while that for the bird and music conditions were 24% and 30% respectively. The higher understanding rates for the latter conditions were due to lower volume of the mixed white noise in order to keep the overall volume including the birds and music at 55dB. There were also significant effects of sentence type and reading voice gender, suggesting that auditory legibility does not solely depend on the speech-to-noise sound level ratio, but also on other variables, such as, predictability of the sentences, and clarity of the speech. Feedback at the end of the sessions revealed that the participants found mixed noise less irritating than pure white noise, and they preferred mixed noise with bird tweeting or music even better. Thus, it was concluded that mixed noise with occasional sounds of tweeting birds, was the most suitable masking sound for commercial use, being efficient and not unpleasant.
WAGLFOR
Artikel Jurnal  Universitas Indonesia Library
cover
Li, Qia
Abstrak :
This book examines use of the voice as a biometric measure for personal authentication, offering an overview of advances in speaker authentication, and including useful algorithms and techniques for improving overall system robustness and performance.
Berlin: [Springer-Verlag, ], 2012
e20397868
eBooks  Universitas Indonesia Library
cover
Fadhilah Siti Shalihah
Abstrak :
E-learning dalam dunia pendidikan sudah banyak diterapkan untuk meningkatkan mutu pendidikan salah satunya adalah penggunaan e-learning pada pengujian akademis baik ujian pilihan ganda, esai, dan lisan. Proses penilaian jawaban ujian mahasiswa masih secara manual maka dari itu, penilitian membahas pengembangan Sistem Penilaian Ujian Lisan atau SIPENILAI dalam bahasa Jepang dengan menerapkan API google speech recognition dan metode LSA. SIPENILAI merupakan sistem yang dikembangkan oleh Departemen Teknik Elektro yang bertujuan untuk menilai ujian lisan secara otomatis. Speech recognition yang akan diterapkan memakai API google speech recognition yang merupakan API yang digunakan untuk mendeteksi suara yang kemudian diubah menjadi teks. Algoritma LSA merupakan metode yang digunakan untuk menganalisa kemiripan antara kalimat dengan dokumen jawaban dari pengajar. Kata dalam kalimat akan disusun menjadi matriks kemudian diproses dengan SVD (Singular Value Decomposition) dan diukur kemiripan antara kalimat dengan dokumen jawaban menggunakan Frobenius Norm. Dari pengujian yang telah dilakukan SIPENILAI dapat mencapai rata-rata akurasi sebesar 83.64% untuk pengguna fasih dan 76.89% untuk pengguna tidak fasih.
E-learning in the world of education has been widely applied to improve the quality of education one of which is the use of e-learning in academic testing both multiple choice exams, essays, and oral. The process of evaluating student exam answers is still manual and therefore the research, discussing the development of the Oral Examination Assessment System or SIPENILAI in Japanese by implementing Google API speech recognition and LSA methods. SIPENILAI is a system developed by the Department of Electrical Engineering which aims to assess oral examinations automatically. Speech recognition that will be implemented using Google API speech recognition which is an API that is used to detect sound which is then converted into text. LSA algorithm is a method used to analyze the similarity between sentences and the document answers from the teacher. The words in the sentence will be arranged into a matrix and then processed with SVD (Singular Value Decomposition) and measured the similarity between the sentence with the answer document using Frobenius Norm. From testing that has been done, SIPENILAI can reach an average accuracy of 83.64% for fluent users and 76.89% for non-fluent users.
Depok: Fakultas Teknik Universitas Indonesia, 2020
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Amalia Zahra
Abstrak :
Dengan adanya internet, media televisi, dan radio, data yang tersedia sangat banyak, termasuk data suara. Oleh karena itu, dibutuhkan suatu cara untuk mengorganisasikannya, yakni dengan mengubah data suara menjadi teks terlebih dahulu. Pengolahan selanjutnya cukup dilakukan terhadap teks. Proses konversi data suara menjadi teks inilah yang dikenal dengan sistem pengenalan suara (SPS) otomatis. Saat ini, SPS untuk berbagai bahasa di dunia telah berkembang pesat, seperti Bahasa Inggris, Perancis, Jepang, Thai, dan lain-lain, sedangkan penelitian SPS untuk Bahasa Indonesia sudah dimulai, namun masih dalam tahap awal. Adanya kebutuhan akan SPS dan perkembangan SPS bahasa lain yang pesat memotivasi penulis untuk melakukan penelitian SPS untuk Bahasa Indonesia. Fokus penelitian ini adalah pembuatan model akustik yang berkaitan erat dengan kamus fonetik yang digunakan. Oleh karena itu, penulis melakukan eksperimen menggunakan enam jenis kamus fonetik, yaitu IPA, SAMPA, ARPABET, Lestari [LEST06], Sakti [SAKT08], dan kamus yang dikembangkan oleh penulis (kamus Zahra). Eksperimen terbagi menjadi dua proses besar, yaitu pelatihan, dengan menggunakan 1.000 data suara rekaman telepon, dan pengujian terhadap 250 data suara rekaman telepon. Hasil eksperimen menunjukkan bahwa akurasi SPS tertinggi diperoleh saat menggunakan kamus Zahra, yakni sebesar 73,5%. Dengan menggunakan kamus fonetik yang sama, pengujian terhadap 100 berkas rekaman berita RRI menghasilkan akurasi maksimum sebesar 71,6% dengan OOV (Out of Vocabulary) sebesar 8,92%. Kamus tersebut merupakan kamus fonetik yang paling tepat untuk mendefinisikan bunyi dalam Bahasa Indonesia, dengan total simbol yang digunakan adalah 33 simbol.
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2008
S-Pdf
UI - Skripsi Open  Universitas Indonesia Library
cover
cover
Abstrak :
Sistem pengenalan ucapan atau Speech Recognition merupakan salah satu teknologi yang dapat mempermudah cara manusia berinteraksi dengan mesin/komputer melalui ucapan. Recognition Experimental System (RES) merupakan sebuah sistem aplikasi Speech Recognition yang menerapkan metode HMM dalam mengenali ucapan man usia. Untuk mendapatkan kemampuan yang ideal dari sistem tersebut terdapat beberapa faktor yang berpengaruh terhadap sistem pengenalan ucapan yaitu faktor jumlah file pelatihan, dialek pembicara, jumlah parameter ekstraksi yang dapat merepresentasikan ciri dari sebuah ucapan serta arsitektur Hidden Markov Model (HMM) yang digunakan. Penelitian ini merupakan pengembangan dari penelitian terdahulu, yang menitikberatkan pada model Bahasa Indonesia yang diterapkan di sistem pengenalan ucapan RES. Dikarenakan banyak dialek bahasa daerah di Indonesia yang berpengaruh terhadap pengucapan Bahasa Indonesia baku, sehingga penelitian ini fokus pada analisis terhadap pengaruh dialek pembicara dalam sistem pengenalan ucapan yang diujikan pad a 4 model HMM yang berbeda. Berdasarkan hasil pengujian, menunjukkan bahwa variasi parameter- parameter yang diekstrak, model HMM yang digunakan serta jumlah state HMM yang optimal berpengaruh terhadap tingkat keberhasilan sistem dalam mengenali ucapan berbahasa Indonesia.
620 JURTEL 15:2 (2010)
Artikel Jurnal  Universitas Indonesia Library
cover
Siahaan, Edison Pardengganan
Abstrak :
Penelitian yang dilakukan pada tesis ini dimotivasi oleh adanya kebutuhan untuk dapat melakukan pengelolaan informasi pada dokumen suara khususnya berita berbahasa Indonesia. Informasi pada dokumen suara berita berbahasa Indonesia dapat diubah menjadi informasi berbentuk dokumen teks, dengan menggunakan perangkat lunak Automatic Speech Recognition (ASR). Pada penelitian ini perangkat ASR yang digunakan adalah perangkat ASR Sphinx 4. Penggunaan perangkat Sphinx 4 ini didasari telah dilakukannya penelitian tentang transkripsi dokumen suara berbahasa Indonesia menggunakan perangkat ini. Hasil keluaran dari ASR berupa dokumen teks yang tidak memiliki batasan akhir dan tidak tersegmentasi secara jelas, tentu menyulitkan dalam pengolahan data teks tersebut. Dalam kerangka itu, maka penelitian yang dilakukan pada tesis ini ditujukan untuk mengetahui metode yang efektif dalam melakukan segmentasi hasil transkripsi berita suara berbahasa Indonesia. Metode yang akan diuji pada penelitian ini adalah metode TextTiling berbasis perbandingan blok dengan pembobotan TF-IDF-Mutual Information, TF-IDFMutual Information-Word Similarity, TF-IDF-Word Frequency, TF-IDF, Latent Semantic Analysis dan metode TextTiling berbasis Vocabulary Introduction. Segmentasi dilakukan untuk berita teks dan dokumen teks hasil transkripsi berita suara yang telahdikatagorikan menjadi 5 topik yaitu topik politik, sosial budaya, ekonomi, hukum dan olah raga. Hasil pengujian terhadap masing-masing teknik pembobotan menunjukkan bahwa metode segmentasi TextTiling dengan teknik pembobotan TF-IDF-Word Frequency merupakan metode segmentasi yang paling baik untuk dipakai dalam melakukan segmentasi hasil transkripsi dari perangkat pengenal suara (Automatic Speech Recognition). Pada penelitian ini telah dibuktikan bahwa teknik pembobotan TF-IDF-Word Frequency memiliki ketepatan segmentasi lebih tinggi baik pada dokumen teks hasil transkripsi (81,4%) ataupun pada dokumen berita teks (73,3%). Metode segmentasi yang dilakukan pada penelitian ini dapat terus dikembangkan menggunakan teknik-teknik lain dalam menunjang proses segmentasi hasil transkripsi berita berberbahasa Indonesia, seperti mempergunakan metode-metode optimalisasi dalam memperoleh urutan batas segmen yang optimal.
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2009
T-804
UI - Tesis Membership  Universitas Indonesia Library
cover
Hariyanto
Abstrak :
ABSTRAK
Pada penelitian ini menjelaskan bagaimana pengenalan suara otomatis menggunakan bahasa daerah yang berasal indonesia yaitu bahasa sunda, yang dapat mengontrol alat-alat elektronik pada suatu rumah. Bahasa sunda merupakan bahasa daerah dengan penuturan terbanyak kedua di indonesia setelah bahasa jawa. Pengenalan suara menggunakan bahasa sunda dilakukan pada penelitian ini dengan tujuan dapat mengontrol beberapa alat elektronik didalam rumah secara langsung dengan akurasi yang baik. Adapun metode yang digunakan dalam pengenalan suara bahasa sunda adalah metode ekstraksi Mel Frequency Cepstral Coefficient (MFCC) dan metode classifikasi jaraingan saraf tiruan berbasis algoritma backpropagation. Ada 16 intruksi bahasa sunda yang digunakan dalam pengenalan suara sebagai input pada sistem, setiap instruksi memiliki 2 sampai 3 suku kata bahasa sunda. Output yang digunakan penulis dalam penelitian ini sebanyak 6 alat elektronik rumah tangga, untuk menghidupkan atau mematikan satu output dikontrol menggunakan 2 instruksi bahasa sunda. Data suara yang digunakan dalam proses pembelajaran algoritma backpropagation adalah sebanyak 480 data yang masing-masing instruksi bahasa sunda adalah 30 data suara yang sama, hasil dari proses pembelajaran adalah berupa bobot yang dapat digunakan untuk proses pengetesan hardware, berdasarkan hasil percobaan langsung didapat tingkat akurasi pengenalan sebesar 96.875% saat dilakukan testing terhadap sistem.
ABSTRACT
In this study explain how automatic speech recognition uses regional languages that originate from Indonesia, namely Sundanese language, which can control electronic devices in a home. Sundanese is the second most spoken local language in Indonesia after Javanese. Voice recognition using Sundanese language was carried out in this study to be able to directly control several electronic devices in the house with good accuracy. The method used in Sundanese speech recognition is the Mel Frequency Cepstral Coefficient (MFCC) extraction method and the artificial neural network classification method based on the backpropagation algorithm. There are 16 Sundanese language instructions used in speech recognition as input to the system; each instruction has 2 to 3 Sundanese language syllables. The output used by the author in this study was five household electronic devices, to turn on or turn off one output controlled using 2 Sundanese language instructions. Sound data used in the learning process of the backpropagation algorithm is 480 data, each Sundanese language instruction is 30 of the same sound data, the results of the learning process are in the form of weights that can be used for hardware testing, based on the results of direct experiments 96.875 % when testing the system.
2019
T53572
UI - Tesis Membership  Universitas Indonesia Library
cover
Asril Jarin
Abstrak :
ABSTRAK
Implementasi sistem pengenalan wicara berbasis jaringan, seperti: Internet, akan mengalami degradasi yang disebabkan oleh kehilangan dan keterlambatan data. Sebagian aplikasi pengenalan wicara lebih memilih keterlambatan data demi ketersediaan seluruh data wicara secara kalimat-per-kalimat. Ketersediaan seluruh data akan membantu sistem pengenalan wicara menjaga kinerja akurasi yang semestinya. Akan tetapi, pengguna biasanya lebih menghendaki batas keterlambatan yang wajar sebagai syarat dari kinerja memuaskan aplikasi.Dalam disertasi ini, sebuah model analitik dikembangkan untuk menginvestigasi batas waktu-tunda wajar sebuah skema aplikasi pengenal wicara berbasis TCP yang menempatkan sebuah pemenggal data wicara di klien. Batas waktu-tunda wajar didefinisikan sebagai keterlambatan maksimal yang diperkenankan dalam pengiriman seluruh data setiap kalimat wicara via TCP. Pengembangan model dilakukan melalui analisis transien berdasarkan kajian model discrete-time Markov dari multi-media streaming via TCP. Selanjutnya, sebuah metode perhitungan dari model distribusi keterlambatan paket aliran TCP pada kondisi steady-state diuji dengan membandingkan hasil-hasil perhitungannya dengan hasil investigasi dari model berbasis analisis transien. Hasil perbandingan menunjukan bahwa analisis transien adalah metode investigasi yang lebih tepat.Pada target penelitian berikutnya, sebuah kerangka kerja menggunakan protokol HTTP/2 plus Server Sent Event SSE diajukan sebagai solusi ketepatan waktu aplikasi pengenal wicara berbasis TCP. Kerangka kerja ini dibangun berdasarkan pada kerangka kerja pengenal wicara full-duplex yang dikembangkan dengan menggunakan teknologi WebSocket. Berdasarkan pada hasil percobaan, aplikasi menggunakan HTTP/2 plus SSE memiliki angka perbandingan kinerja latensi sebesar 3,6 lebih baik daripada aplikasi menggunakan WebSocket. Walaupun angka ini masih lebih kecil daripada angka kualitatif perbandingan ketepatan waktu yang lebih baik, yakni sebesar 5 , ada beberapa alasan dikemukakan yang berasal dari keunggulan-keunggulan fitur-fitur HTTP/2 dalam mengurangi latensi aplikasi dan juga dari kelemahan WebSocket bila ditempatkan dalam jaringan dengan proxy server, untuk menyimpulkan bahwa kerangka kerja aplikasi menggunakan HTTP/2 plus SSE dapat menjadi alternatif lebih baik daripada kerangka kerja aplikasi dengan WebSocket.
ABSTRACT
Implementation of network based speech recognition, such as Internet, will suffer degradation due to packet loss and delays. Most of network speech recognition applications prefer to tolerate delay in order to receive all speech data completely that is delivered sentence by sentence. The availability of all speech data helps the application to save the expected acuraccy of recognition in case of no packet loss. However, users practically require an acceptable delay to have satisfactory performance of the application.In this research, an analytical model is developed to investigate the acceptable delay of TCP based speech recognition that employs a speech segmenter at the client. The acceptable delay is defined as a maximum allowable delay in sending all data for each speech sentence via TCP. For the purpose of model development, there are two analytical methods, i.e., transient analysis and steady state analysis. In the transient analysis, the investigation model is developed based on the discrete time Markov model of multimedia streaming via TCP, whereas in the steady state analysis, the investigation uses a calculation method of packet delay distribution model. Furthermore, the results of transient analysis experiment are compared with the calculation of packet delay distribution model at the steady state. The comparison shows that the transient analysis is more appropriate method of investigation.Next work, a framework using HTTP 2 protocol plus Server Sent Event SSE is proposed as a real time solution for TCP based speech recognition applications. This framework is developed on the basis of a full duplex speech recognition framework using WebSocket. Based on the experimentation results, the application of HTTP 2 plus SSE has a comparison factor of latency performance in amount of 3.6 better than the application of WebSocket. Although this factor is still smaller than a qualitative factor 5 that can state a better latency performance, there are some reason from the advantages of HTTP 2 features in reducing latency as well as from the limitation of WebSocket in a network with proxy server, to conclude that the framework of HTTP 2 plus SSE is a better alternative than the framework using WebSocket.
2017
D2306
UI - Disertasi Membership  Universitas Indonesia Library
cover
Hanifuddin Malik
Abstrak :
ABSTRAK
Penelitian ini melaporkan tingkat keberhasilan dari sistem speech recognition yang diimplementasikan ke dalam quadcopter sebagai kendali geraknya. Pada sistem speech recognition digunakan metode mel frequency cepstral coefficient MFCC sebagai feature extraction yang kemudian akan di-training menggunakan metode recursive neural network RNN . Metode MFCC sendiri merupakan salah satu metode feature extraction yang paling banyak digunakan untuk speech recognition. Metode tersebut memiliki tingkat keberhasilan yang cukup besar sekitar 80 - 95 . Pada penelitian ini akan digunakan database yang sudah ada dan database yang baru. Database yang sudah ada akan digunakan sebagai media pengukur tingkat keberhasilan metode RNN. Database yang baru akan dibuat menggunakan bahasa indonesia dan kemudian dibandingkan tingkat keberhasilannya dengan hasil dari database yang sudah ada. Suara yang masuk dari microphone akan diolah pada laptop yang telah memiliki modul DSP dengan metode MFCC untuk mendapatkan nilai karakteristiknya. Nilai karakteristik tersebut kemudian akan di-training menggunakan RNN yang hasilnya berupa perintah. Perintah tersebut akan menjadi input kendali bagi single board computer SBC yang hasilnya berupa pergerakan quadcopter.
ABSTRACT
This research reports a success rate of speech recognition systems that are implemented into quadcopter as motion control. Speech recognition system is using mel frequency cepstral coefficient method MFCC as feature extraction that will be trained using recursive neural network method RNN . MFCC method is one of the feature extraction method that most used for speech recognition. This method has a success rates about 80 95 . This research will use the existing database and the new database. Existing database will be used for measure the success rate of RNN method. The new database will be created using Indonesian language and then the success rate will be compared with results from an existing database. Sound input from the microphone will be processed on a laptop that has a DSP module with MFCC method to get the characteristic values. The characteristic values then will be trained using the RNN which result is command. The command will become a control input to the single board computer SBC which result is the movement of quadcopter.
2017
S67037
UI - Skripsi Membership  Universitas Indonesia Library
<<   1 2 3   >>