Hasil Pencarian  ::  Simpan CSV :: Kembali

Hasil Pencarian

Ditemukan 161376 dokumen yang sesuai dengan query
cover
Andi Yusuf
"Pengenalan ucapan atau disebut juga speech recognition adalah suatu pengembangan teknik dan sistem yang memungkinkan perangkat system untuk menerima masukan berupa kata yang diucapkan. Teknologi ini memungkinkan suatu perangkat untuk mengenali kata yang diucapkan dengan cara merubah kata tersebut menjadi sinyal digital dan mencocokkan dengan suatu pola tertentu yang tersimpan dalam suatu perangkat. Pola tertentu yang tersimpan pada suatu perangkat sebenarnya sampel kata yang diucapkan pengguna. Salah satu algoritma yang digunakan sebagai pemodelan dasar untuk pengenalan ucapan adalah Dynamic Time Warping (DTW). DTW digunakan sebagai algoritma untuk mencocokkan pola yang dimaksud dengan mengukur dua buah sekuensial pola dalam waktu yang berbeda[7].
Dalam penelitian ini akan dibahas mengenai perancangan IC pattern matching menggunakan algoritma DTW dan diimplementasikan pada sebuah Field Programmable Gate Array (FPGA). Algoritma DTW yang digunakan merupakan pengembangan dari algoritma standar yaitu FastDTW[13]. Perancangan difokuskan pada pembuatan layout Complementary Metal Oxide Silicon (CMOS) pada skala 0,18μm dengan metode semi custom. Layout ang terbentuk baik layout untuk IC DTW maupun layout - layout gerbang logika dasar penyusun IC tersebut, dapat dilihat behavior-nya. Dengan menggunakan Computer Aided Design (CAD) Electric behavior dapat diterjemahkan dalam bahasa hardware yang dikenal dengan Very High Speed Integrated Circuit Hardware Description Language (VHSIC HDL atau VHDL). Proses verifikasi dilakukan dengan membuat prototype perangkat keras menggunakan rangkaian ADC dan FPGA Spartan-IIELC yang telah diimplementasikan VHDL dari IC DTW.

Speech recognition is also called a development of techniques and systems that enable the device system to receive input of the spoken word. This technology allowsa device to recognize words spoken in a way to change the word into a digital signal and the match with a particular pattern stored in a device. Certain patterns that are stored on a device is a spoken word sample of users. One algorithm used as a basis for modeling of speech recognition is the Dynamic Time Warping (DTW). DTW is used as an algorithm to match the pattern in question by measuring two sequential patterns in different time [7].
In this research will be discussed regarding the design of the IC pattern matching using DTW algorithm and implemented on a Field Programmable Gate Array (FPGA). DTW algorithm used is the development of a standard algorithm that is FastDTW [13]. The design focused on making the layout of Complementary Metal Oxide Silicon (CMOS) on a scale of 0.18 μm with a method of semi-custom. Formed a good layout for IC DTW and layout of the basic logic gate, we can see his behavior. By using Computer Aided Design (CAD) Electric, behavior can be translated in hardware language, known as Very High Speed Integrated Circuit Hardware Description Language (VHSIC HDL or VHDL). The verification process is done by making a prototype hardware uses a circuit of ADC and the FPGA Spartan-IIELC that have been implemented VHDL from IC DTW.
"
Depok: Fakultas Teknik Universitas Indonesia, 2011
T29927
UI - Tesis Open  Universitas Indonesia Library
cover
Wikky Fawwaz Al Maki
"Skripsi ini berisi tentang perbandingan dari 3 jenis algoritma VQ (Vector Quantization) yaitu Traditional K-Means Clustering, LBG (Linde, Buzo, and Gray), dan Sucessive Binary Split yang digunakan dalam proses pengenalan sinyal akustik (Suara) dari berbagai jenis ikan. Dalam proses pengenalan sinyal akustik ikan yang menggunakan HMM (Hidden Markov Model), sinyal akustik ikan yang akan dideteksi, terlebih dahulu dikuantisasi dengan menggunakan algoritma VQ.
Pada sistem pengenalan sinyal akustik ikan, sinyal akustik ikan diubah terlebih dahulu ke dalam bentuk diskrit dengan cara sampling. Sinyal diskrit ini diekstraksi agar diperoleh karakteristiknya dengan menggunakan MFCC (Mel Frequency Cepstrum Coefficient). Vektor data yang terbentuk kemudian dikuantisasi dengan menggunakan 3 jenis algoritma VQ. Pada tahap pengenalan sinyal akustik ikan (recognition) yang memanfaatkan model HMM, ketiga jenis algoritma VQ ini diteliti unjuk kerjanya berdasarkan tingkat akurasi yang diperoleh.
Berdasarkan hasil simulasi, algoritma Sucessive Binary Split merupakan algoritma paling optimum untuk sistem pengenalan sinyal akustik ikan karena memiliki tingkat akurasi tertinggi (pada ukuran codebook < 64) dengan kebutuhan kapasitas memori dan waktu komputasi (saat pembuatan codebook dan model HMM) paling kecil. Untuk memperoleh sistem pengenalan sinyal akuslik ikan dengan tingkat akurasi yang paling baik, algoritma LBG dapat digunakan dengan ukuran codebook > 128 tetapi kapasitas memori dan waktu komputasi yang dibutuhkan makin besar. Tingkat akurasi (recognition rate) pada sistem pengenalan sinyal akustik ikan yang menggunakan VQ dan HMM dapat ditingkatkan dengan memperbesar ukuran codebook, jumlah iterasi algoritma VQ, dan jumlah iterasi pada Baum Welch Algorithm."
Depok: Fakultas Teknik Universitas Indonesia, 2004
S40061
UI - Skripsi Membership  Universitas Indonesia Library
cover
Destry Arta Rini
"Sejak dari awal kehidupan, manusia telah mengguznakan suara yang mereka. Suara manusia adalah unik, karena tidak ada manusia di dunia ini yang memiliki suara yang sama. Hal inilah yang kemudian dijadikan bahan oleh para llmuwan untuk mengembangkan teknologi yang memanfaatkan suara manusia. Speaker recognition merupakan bentuk penerapan dari pemallfaatan suara manusia. Text-independent speaker recognition merupakan salah satu pengembangan aplikasi dari speaker recognition.
Telah banyak metode yang dikembangkan untuk peningkatan kinerja text-independent speaker recognition, salah satu diantaranya adalah dengan menggunakan metode kuantisasi vektor-algoritma LBG. Metode ini akan melalui dua fasa, yaitu training phase dan testing phase. Pada fasa pertama (training phase), akan direkarn suara speaker ke dalam database speaker. Pada fasa kedua (testing phase), akan dibandingkan suara speaker tes dengan database speaker, apakah sistem mampu untuk mengenali identitas speaker tes tersebut.
Hasil pengujian simulasi text-independent speaker recognition secara keseluruhan menunjukkan bahwa text-independent speaker recognition telah mampu mengenali identitas speaker dengan baik, mamma masih banyak terdapat kekurangan. Pengujian text-independent speaker recognition menggunakan 2 jenis database speaker. Database peliama adalah database yang berisi rekaman satu kata dan satu kalimat yang berbeda-beda untuk setiap speakemya. Database kedua berisi rekaman satu kata dan satu kalimat yang sama bagi semua speakernya. Dari kedua database ini kemudian akan dibandingkan kinerjanya terhadap simulasi. Hasil simulasi membuktikan bahwa text-independent speaker recognition terhadap database pertama mampu bekerja lebih baik dengan tingkat keakurasian sebesar 85 %, dibandingkan database kedua."
Depok: Fakultas Teknik Universitas Indonesia, 2004
S40060
UI - Skripsi Membership  Universitas Indonesia Library
cover
Mukson Rosadi
"Kompresi suara atau yang biasa disebut dengan pengkodean suara (speech coding) merupakan metode untuk mengurangi jumlah informasi yang dibutuhkan untuk mewakilkan sinyal suara. Teknologi speech coding untuk kompresi sinyal speech dilakukan untuk memperbaiki (menghemat) kinerja bandwidth yang terbatas dan untuk mendukung privasi komunikasi (enkripsi data/pesan). Code Excited Linear Prediction (CELP) yang merupakan pengembangan dari Linear Predictive Coding (LPC) menggunakan metode linear prediction dalam pengkompresan sinyal speech.
Linear prediction adalah suatu metode yang memprediksi sampel ke-n dari suatu sinyal, s(n), dengan membentuk kombinasi linear dari p sampel s(n) sebelumnya. Kombinasi linier umumnya dioptimalkan dengan meminimalkan kuadrat dari prediction error (Mean Square Error, MSE). Suatu encoder CELP (Code Excited Linear Prediction) mempunyai model vocal tract yang sama dengan encoder LPC. Sebagai tambahannya, pada CELP menghitung error yang terjadi antara input data speech dengan model yang dibangkitkan dan mentransmisikan parameter-parameter dari model tersebut dan representasi error-nya.
Dari hasil simulasi yang dilakukan diperoleh bahwa model yang memiliki nilai MSE terkecil terhadap sinyal asli adalah yang memiliki jumlah koefisien linear prediction sebanyak 15 buah. Dengan demikian, model yang akan dikirimkan adalah yang memiliki koefisien linear prdiction sebanyak 15 buah."
Depok: Fakultas Teknik Universitas Indonesia, 2005
S40099
UI - Skripsi Membership  Universitas Indonesia Library
cover
Wachid Nafian
"Pada Skripsi ini membahas tentang proses konversi ucapan menjadi tulisan, Speech-to-Text yang merupakan salah satu aplikasi dari speech recognition. Tujuan dari skripsi ini yaitu bagaimana sistem dapat mengenali sedikitnya 30 kata baik kata dasar walaupun kata jadi yang diucapkan oleh seseorang tertentu (speaker dependent) dan melihat performansi (unjuk kerja) dari sistem dengan parameter codebook dan jumlah framing yang berbeda-beda.
Simulasi dibuat dengan menggunakan program Matlab 6.5 dan metode yang digunakan yaitu Hidden Markov Model (HMM). Metode HMM ini telah banyak diapliksikan dalam teknologi speech recognition. Cara yang digunakan dalam simulasi ini yaitu mengenali kata melalui pengenalan terhadap unit katanya yaitu suku kata. Suku kata yang dijadikan sebagai sumber database sebanyak 25 buah, dan dengan menggunakan variabel ukuran codebook dan jumlah training yang berbeda-beda untuk dilihat performansi mana yang memberikan hasil pengenalan terbaik.
Dari hasil percobaan dengan simulai ternyata dengan ukuran codebook dan jumlah training yang lebih besar untuk jumlah label 25 memberikan performansi yang lebih baik dan dapat memberikan perbaikan dari kondisi sebelumnya, dalam hal ini memberikan perbaikan dari keberhasilan 8,36 % pada codebook 32 dan training 5 menjadi 81,09 % dengan menggunkan codebook 1024 dan jumlah training 40. Kata-kata yang berhasil dikenali dengan variasi dari 25 suku kata sedikitnya ada 50 kata."
Depok: Fakultas Teknik Universitas Indonesia, 2004
S39311
UI - Skripsi Membership  Universitas Indonesia Library
cover
Arief Saferman
"

Selama masa pandemi COVID-19, teknologi Automatic Speech Recognition (ASR) menjadi salah satu fitur yang sering digunakan pada komputer untuk mencatat di kelas online secara realtime. Teknologi ini akan bekerja dimana setiap suara yang muncul akan langsung dikenali dan dicatat pada halaman terminal. Dalam penelitian ini, model ASR Wav2Letter akan digunakan menggunakan CNN (Convolution Neural Network) dengan loss function CTC (Connectionist Temporal Classification) dan ASG (Auto Segmentation Criterion). Selama proses pembuatannya, berbagai hyperparameter acoustic model dan language model dari model ASR Wav2Letter terkait dengan implementasi batch normalization¸ learning-rate, window type, window size, n-gram language model, dan konten language model diuji pengaruh variasinya terhadap performa model Wav2Letter. Dari pengujian tersebut, ditemukan bahwa model ASR Wav2Letter menunjukkan performa paling baik ketika acoustic model menggunakan metode ASG dengan learning-rate 9 × 10−5 , window size 0.1, window type Blackman, serta 6-gram language model. Berdasarkan hasil akurasi WER CTC unggul 1,2% dengan 40,36% berbanding 42,11% dibandingkan ASG, namun jika dilihat lamanya epoch dan ukuran file model, loss function ASG memiliki keunggulan hampir dua kalinya CTC, dimana ASG hanya membutuhkan setengah dari jumlah epoch yang dibutuhkan oleh CTC yakni 24 epoch berbanding dengan 12 epoch dan ukuran file model ASG setengah lebih kecil dibandingkan CTC yakni 855,2 MB berbanding dengan 427,8 MB. Pada pengujian terakhir, model ASR Wav2Letter dengan loss function ASG mendapatkan hasil terbaik dengan nilai WER 29,30%. Berdasarkan hasil tersebut, model ASR Wav2Letter dengan loss function ASG menunjukkan perfoma yang lebih baik dibandingkan dengan CTC.


During the COVID-19 pandemic, Automatic Speech Recognition technology (ASR) became one of features that most widely used in computer to note down online class in real-time. This technology works by writing down every word in terminal from voice that is recognized by the system. ASR Wav2Letter model will use CNN (Convolutional Neural Network) with loss function CTC (Connectionist Temporal Classification) and ASG (Auto Segmentation Criterion). While developing Wav2Letter, various hyperparameter from acoustic model and language model is implemented such as batch normalization, learning rate, window type, window size, n-gram language model, and the content of language model are examined against the performance of Wav2Letter model. Based on those examination, Wav2Letter shows best performance when it uses ASG loss function learning rate 9 × 10−5 , window size 0.1, window type Blackman, and 6-gram language model. With that configuration, WER of CTC outplay ASG around 1.2% with 40.36% compare to 42,11%, but another parameter shows ASG are way more superior than CTC with less time epoch training which are 24 epoch for CTC against 12 epoch for ASG and the size of memory model shows CTC has bigger size than ASG with 855.2 MB against 427.8 MB. In the last test, ASR Wav2Letter model with ASG loss function get the best WER value around 29.3%. Based on those results, ASR Wav2Letter Model shows its best performance with ASG loss function than CTC.

"
Depok: Fakultas Teknik Universitas Indonesia, 2022
S-Pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Gemilang Madyakusuma
"Sejak awal ditemukannya komputer hingga kini, manusia berinteraksi dengan komputer melalui papan ketik (keyboard). Upaya untuk memberikan kemampuan guna mengenali ucapan oleh komputer akan memperluas lingkup penggunaanya. Meciptakan komputer yang dapat mengenali ucapan manusia merupakan hal yang kompleks dan melibatkan berbagai disiplin ilmu. Dalam skripsi ini akan digrnikan perancangan sistem pengenalan ucapan untuk mengenali ke-6 vokal dalam Bahasa Indonesia dan kata dalam bahasa Indonesia dengan metoda-metoda yang sebagian besar merupakan peniruan dari fungsi (kemampuan) manusia. Metoda-metoda yang digunakan meliputi pemisahan sinyal ucapan dengan bukan ucapan (kesenyapan atau derau latar belakang). Ekstraksi ciri dengan pengkodean prediksi linear (Linear Predictive Code, LPQ yang dapat dengan baik merepresentasikan produksi suara manusia. Jaringan Saraf Tiruan ART 2 yang bersifat adaptif digunakan untuk pengenalan vokal, serta Hidden Markov Model digunakan untuk pengenalan kata karena dapat mendeteksi informasi dari masukan yang temporal."
Depok: Fakultas Teknik Universitas Indonesia, 1997
S39007
UI - Skripsi Membership  Universitas Indonesia Library
cover
Mohamad Irfan Fanani
"Penelitian ini membahas tentang pengembangan sistem pencarian kata pada terjemahan Al-Qur’an berbasis website dengan menggunakan Node.JS, Google Speech-to-Text API, dan alquran.cloud API sebagai komponen utamanya. Masukan sistem berupa suara yang pada proses selanjutnya diubah menjadi teks oleh Google Speech-to-Text API lalu teks digunakan sebagai kata kunci untuk mencari terjemahan menggunakan alquran.cloud API. Keluaran sistem berupa tampilan pada halaman website yang berisikan tabel daftar nama surat dan nomor ayat yang mengandung kata kunci. Pembuatan website menggunakan HTML, CSS, dan fungsi JavaScript untuk menyatukan web API dalam satu website. Fungsi JavaScript yang dibuat untuk melakukan fetch data dan menampilkan tabel keluaran dieksekusi di client, sedangkan fungsi untuk masukan sinyal suara dan transkripsi dieksekusi di server. Hasil percobaan menghasilkan akurasi sebesar 86% pada hasil transkripsi Google Speech-to-Text API yang digunakan pada sistem. Akurasi pada penguji perempuan lebih tinggi 14% dibanding penguji laki-laki dengan akurasi penguji perempuan sebesar 92%. Diamati juga waktu dalam kecepatan proses transkripsi, kecepatan fetch data dari alquran.cloud API, dan kecepatan sistem dalam menampilkan keluaran.

This study discusses the development of a word search system for website-based translation of the Qur'an using Node.JS, Google Speech-to-Text API, and alquran.cloud API as the main components. The system input is in the form of voice which in the next process is converted into text by the Google Speech-to-Text API and then the text is used as keywords to search for translations using the alquran.cloud API. The system output is in the form of a display on a website page that contains a table listing letter names and verse numbers containing keywords. Website are created using HTML, CSS, and JavaScript functions to unify the web API in one website. JavaScript functions that are created to fetch data and display an output table are executed on the client, while functions for voice signal input and transcription are executed on the server. The experimental results yield an accuracy of 86% on the transcription results of the Google Speech-to-Text API used in the system. The accuracy of the female examiners was 14% higher than the male examiners with the female examiners' accuracy of 92%. Also observed is the speed of the transcription process, the speed of fetching data from the alquran.cloud API, and the speed of the system in displaying the output."
Depok: Fakultas Teknik Universitas Indonesia, 2022
S-Pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Arina Haq
"Aktivitas bongkar muat kargo bahan bakar dengan kapal tanker di pelabuhan di Indonesia memiliki kekurangan terkait efisiensi waktu dan kecepatan. Sebuah virtual robotic dibuat untuk dapat meningkatkan efisiensi waktu terhadap proses bongkar muat tersebut. Namun dibutuhkan suatu cara agar robot dapat berkomunikasi dengan petugas kapal tanker selama proses bongkar muat dilakukan. Karena pelabuhan tempat proses bongkar muat termasuk kedalam lokasi berbahaya dan mudah meledak, maka komunikasi yang diperbolehkan hanyalah komunikasi suara melalui radio Very High Frequency (VHF) laut. Solusi untuk mengatasi masalah tersebut adalah dengan merancang teknologi yang dapat melakukan pengenalan suara melalui radio VHF laut, salah satunya dengan metode Deep Learning menggunakan arsitektur DeepSpeech. Skripsi ini telah mengembangkan simulasi pengenalan suara menggunakan metode DeepSpeech architecture pada komunikasi radio VHF bagi petugas kapal tanker di pelabuhan laut. Skripsi ini telah mengembangkan uji coba dengan arsitektur DeepSpeech untuk menghasilkan model pengenalan suara dengan hasil keluaran nilai rata-rata Word Error Rate (WER) sebesar 0,335 dan rata-rata Character Error Rate (CER) sebesar 0,263. Skripsi ini juga menganalisa pengaruh variasi nilai learning rate, dropout rate, dan epoch untuk mendapatkan model sistem pengenalan suara terbaik.

The loading and unloading of fuel cargo by tanker ships at ports in Indonesia has a problem in terms of time efficiency and speed. A virtual robotic is created to increase the time efficiency of the loading and unloading process. However, the robot needs a way to communicate with the tanker ship officers during the process. Because the port where the loading and unloading process took place is considered as a dangerous and explosive location, the only communication allowed is through voice communication via marine Very High Frequency (VHF) radio. The solution to overcome this problem is to design a technology that can perform speech recognition via marine VHF radio, one of which is using the Deep Learning method with DeepSpeech architecture. This thesis has simulated speech recognition system using DeepSpeeh architecture method on VHF radio communication for tanker ship officers at sea ports. This thesis has tested the DeepSpeech architecture to produce a speech recognition model with an average WER value of 0,335 and an average CER value of 0,263. This thesis also analyzes the effect of variations in learning rate, dropout rate, and epoch value to get the best speech recognition system model."
Depok: Fakultas Teknik Universitas Indonesia, 2021
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Fauzan Gustavio
"Radio internet pada sekarang ini sudah berkembang pesat, dimana koneksi internet sudah mulai tersebar luas dan juga banyaknya pengguna telepon pintar. Menurut Brodsky, Jika pengguna radio yang sedang mengendara mobil ingin melakukan interaksi terhadap perangkat radio, maka mata pengguna akan terdistraksi ke perangkat sehingga membahayakan pengguna. Oleh karena itu, dibutuhkan interaksi perangkat radio dengan menggunakan suara. Dalam penulisan ini, dibuat aplikasi radio internet untuk platform sistem operasi Android yang ditujukan untuk pengguna di Indonesia. CMUSphinx adalah alat untuk melakukan pengenalan suara. Salah satunya Pocketsphinx yang diimplementasikan pada aplikasi. Pada Pocketsphinx, pengenalan suara menggunakan 3 modul, yaitu model kamus, model bahasa, dan model akustik. Dari ketiga modul, diuji modul bahasa dan modul akustik dengan masing ndash; masing menggunakan 4 parameter berbeda.
Dari hasil pengujian, didapat bahwa modul bahasa dengan data kata sedikit dan modul akustik dengan dataset yang banyak mampu menghasilkan akurasi diatas 95. Kemudian, dilakukan pengujian di 6 perangkat ponsel pintar. Didapat akurasi sebesar 100 pada dua ponsel pintar spesifikasi tinggi dalam kondisi radio baik mati dan menyala. sisanya berada dibawah 90. Dari hasil tersebut, diketahui bahwa faktor spesifikasi pada perangkat dan faktor lain seperti pelafalan kata dan jarak pengguna akan mempengaruhi hasil akurasi sistem pengenalan suara.

Internet Radio nowadays has been growing rapidly, where internet connection has been widely available and also there are many smartphone users. According to Brodsky, if radio users who driving a car wants to interact with radio, his eyes will be distracted and its harmful. From this paper, is created radio internet application for Android operating system platform that is used for Indonesian users. CMUSphinx is a tools for speech recognition. One of them is Pocketsphinx, which is implemented in application. In Pocketsphinx, to do speech recognition, is needed 3 modules, i.e., dictionary model, language model, and acoustic model. For its three modules, is tested some language model and acoustic model with 4 parameters each.
For results, is obtained that language model with smaller data text and acoustic model with large dataset can make its accuracy above 95. Then, it is tested on 6 smartphone. It is obtained that its accuracy is 100 in two smartphone with high specs when radio both off and on. And on the rest is under 90 . Within its results, it is known that specification of device and other factor like word speech and distance of user to device will affect its accuracy of voice recognition system.
"
Depok: Fakultas Teknik Universitas Indonesia, 2018
S-Pdf
UI - Skripsi Membership  Universitas Indonesia Library
<<   1 2 3 4 5 6 7 8 9 10   >>