Ditemukan 10796 dokumen yang sesuai dengan query
Rao, K. Sreenivasa
"Predicting prosody from text for text-to-speech synthesis covers the specific aspects of prosody, mainly focusing on how to predict the prosodic information from linguistic text, and then how to exploit the predicted prosodic knowledge for various speech applications. Author K. Sreenivasa Rao discusses proposed methods along with state-of-the-art techniques for the acquisition and incorporation of prosodic knowledge for developing speech systems."
New York: Springer, 2012
e20418380
eBooks Universitas Indonesia Library
Bayu G. Wundari
"Skripsi ini membahas tentang sistem Text-to-Speech (TTS) untuk Bahasa Indonesia dengan Unit Selection Synthesis sebagai metodenya untuk mensintesa ucapan. Unit yang yang digunakan pada sistem TTS ini berupa suku kata Bahasa Indonesia. Sistem TTS yang dibuat pada skripsi ini memiliki 2 modul utama, yaitu modul Natural Language Processing (NLP) dan modul Digital Signal Processing (DSP). Modul NLP bertugas untuk memroses input teks yang masuk guna mendapatkan informasi dari teks itu berupa unit suku kata dengan pitch dan ToBI (Tone and Break Indices) yang bersesuaian dengan kalimat pada teks masukan, Informasi ini kemudian digunakan oleh modul DSP untuk menghasilkan ucapan. Pada modul DSP ini, metode sintesa ucapan yang digunakan adalah Unit Selection Synthesis yang merupakan generasi ketiga setelah Concatenative Synthesis. Metode Unit Selection Synthesis menggunakan database yang sangat banyak sekali untuk dapat menghasilkan ucapan dengan tingkat kealamian yang tinggi. Untuk tiap unit suku kata memiliki karakteristik seperti pitch, durasi, Mel Frequency Cepstrum Coefficient (MFCC), dan ToBI yang berbeda-beda dengan unit yang lain walaupun suku kata yang digunakan adalah sama. Suku kata dengan karakteristik yang berbeda tersebut diperoleh dari hasil pemotongan file wav suatu rekaman ucapan. Dari segi intellijibilitas, ucapan yang dihasilkan tidaklah baik. Hal ini disebabkan database yang dimiliki sangat kurang dan rekaman ucapan yang dijadikan sumber data memiliki banyak noise sehingga mengganggu proses pemotongan file wav untuk mendapatkan suku kata. Namun tingkat kealamian ucapan yang diperoleh dari sistem TTS ini dapat dikatakan cukup baik karena pitch dari suku kata yang cukup bervariasi sehingga intonasi yang terdengar tidak mendatar saja.
This undergraduate thesis discusses about a Text-to-Speech system with Unit Selection Synthesis as it's method to synthesize speech. Units which are used as the units for the synthesizer are Bahasa Indonesia syllables. In this study, the TTS system uses 2 main modules, they are Natural Language Processing module (NLP) and Digital Signal Processing Module (DSP). The NLP module processes input text for retrieving information from the input in the form of syllables with their pitch and ToBI (Tone and Break Indices) associated with the sentences in the text. The retrieved information then used by DSP module to produce speech. The third generation synthesizer after concatenative synthesis, Unit Selection Synthesis, is chosen as the speech synthesizer in the DSP module. To get speech with high naturalness, the synthesizer must uses a large speech database. Each and every syllable has it?s own characteristics such as pitch, duration, Mel Frequency Cepstrum Coefficient (MFCC), and ToBI that are different from other units eventhough the syllables are the same. The author get the syllables by trimming a wav file of recorded speech. From the intelligibility point of view, the quality of the produced speech is not good. It is because the quality of the possessed database is poor and the recorded speech chockablock with noise in such a way that unsettles the process of trimming the wav file in order to get the syllables. Yet, from the naturalness point of view, the quality of the speech could be accepted because of the variety of the pitch of the syllables so that the perceived speech is not monotone."
Depok: Fakultas Teknik Universitas Indonesia, 2009
S51375
UI - Skripsi Open Universitas Indonesia Library
Gunadi
"Aplikasi multimedia Iewat jaringan sedang banyak dikembangkan dilingkungan kampus yang mempunyai LAN dan WAN. Penggunaan audio digital lewat jaringan membuat aplikasi semakin power-full. Sound database yang besar dan terorganisasi dengan balk merupakan komponen yang sangat penting dalam studio produksi musik. Dalam skripsi ini akan dibahas mengenai penggunaan Interbase 5 dalam menangani sound database. Aplikasi yang akan dibangun mempunyai model clientlserver. Interbase client yang digunakan pada skripsi ini yaitu program aplikasi yang dibuat dalam Delphi 4 . Aplikasi delphi ini akan mengakses sound database yang ada pada Interbase server. Pada bagian akhir akan ditampilkan basil penelitian skripsi ini yang berupa program aplikasi sound player yang dapat memainkan, merekam dan menambahkan file suara seperti midi dan wav kedalam database, Selain itu penuiis juga telah berhasil membuat aplikasi text-to-speech, yang dapat mengubah teks dalam bahasa indonesia menjadi suara."
Depok: Fakultas Teknik Universitas Indonesia, 2000
S39780
UI - Skripsi Membership Universitas Indonesia Library
Petr Sojka, editor
"This book constitutes the refereed proceedings of the 15th International Conference on Text, Speech and Dialogue, TSD 2012, held in Brno, Czech Republic, in September 2012. The 82 papers presented together with 2 invited talks were carefully reviewed and selected from 173 submissions. The papers are organized in topical sections on corpora and language resources, speech recognition, tagging, classification and parsing of text and speech, speech and spoken language generation, semantic processing of text and speech, integrating applications of text and speech processing, machine translation, automatic dialogue systems, multimodal techniques and modeling."
Berlin: Springer-Verlag, 2012
e20409426
eBooks Universitas Indonesia Library
Martin Novela
"Salah satu faktor keberhasilan suatu model pembelajaran dalam machine learning atau deep learning adalah dataset yang digunakan. Pemilihan dataset yang digunakan untuk pelatihan suatu model sangat penting dalam pemrosesan yang dilakukan. Beberapa model deep learning seperti sistem pemrosesan text-to-speech pada model Tacotron2 sangat bergantung dengan dataset yang dipilih. Hal tersebut dikarenakan dalam pelatihan yang dilakukan untuk pembentukan suatu model pada bahasa tertentu harus menggunakan bahasa tersebut agar kualitas dari suara sintesis yang dihasilkan dapat mendekati pelafalan yang seharusnya untuk bahasa yang ditentukan. Pada penelitian ini dilakukan pelatihan yang bertujuan untuk pembentukan model Tacotron2 pada Bahasa Indonesia, sehingga untuk mendapatkan hasil yang lebih baik, maka digunakan dataset berbahasa Indonesia dari rekaman podcast dan talk show. Pada penelitian ini dilakukan dua skenario untuk mendapatkan hasil yang paling optimal. Skenario pertama adalah melakukan pelatihan pada model Tacotron2 menggunakan dataset berbahasa Indonesia yang terdiri dari banyak pembicara. Skenario kedua adalah melakukan pelatihan pada model Tacotron2 menggunakan dataset berbahasa Indonesia yang terdiri dari satu pembicara. Dalam pemrosesan pelatihan untuk pembentukan model Tacotron2 pada Bahasa Indonesia dilakukan dengan menggunakan pre-trained dan hyperparameter berdasarkan penelitian sebelumnya (Shen, et al., 2018). Hasil dari setiap skenario dievaluasi menggunakan Mean Opinion Score (MOS). Kuesioner disebarkan kepada 25 responden untuk menilai kualitas dari suara yang terbentuk berdasarkan kriteria penilaian pada MOS. Suara yang dibentuk oleh model Tacotron2 pada skenario pertama menghasilkan nilai MOS sebesar 4.01. Sedangkan suara yang dibentuk oleh model Tacotron2 pada skenario kedua menghasilkan nilai MOS sebesar 3.78. Hal tersebut menunjukkan bahwa penggunaan dataset berbahasa Indonesia dari rekaman podcast dan talk show dalam pembentukan model Tacotron2 untuk Bahasa Indonesia menghasilkan kualitas yang cukup baik.
One of the success factors of a learning model in machine learning or deep learning is the dataset used. The selection of the dataset used for training a model is very important. Some deep learning models such as the text-to-speech processing system in Tacotron2 are highly dependent on the selected dataset. This is because the training for forming a model in a particular language must use the same language so that the quality of the synthetic sound produced can resemble the proper pronunciation and prosody. In this study, training is aimed to form Tacotron2 model in Bahasa Indonesia. So, to get better results, a dataset in Bahasa Indonesia from recorded podcasts and talk shows are developed. Based on the dataset, two scenarios of training were conducted to obtain the most optimal results. The first scenario is to conduct training on the Tacotron2 model using the dataset consisting of many speakers. The second scenario is to conduct training on the Tacotron2 model the dataset consisting of only one speaker. Both scenarios employed the Tacotron2 model and the hyperparameters used in previous work (Shen, et al., 2018).The results of each scenario are evaluated using the Mean Opinion Score (MOS). Questionnaires are distributed to 25 respondents to assess the quality of the sound formed based on the MOS assessment criteria. The sound formed by the Tacotron2 model in the first scenario produces an MOS value of 4,012. While the sound formed by the Tacotron2 model in the second scenario produces an MOS value of 3.78. This shows that the use of Indonesian language dataset from recorded podcasts and talk shows in the formation of the Tacotron2 model for Bahasa Indonesia produces a good quality."
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2021
T-pdf
UI - Tesis Membership Universitas Indonesia Library
Leiden: Vakgroep Talen en Culturen van Zuidoost-Azie en Oceanie, Rijksuniversiteit te Leiden, 1994
499.221 EXP
Buku Teks Universitas Indonesia Library
Leiden: KITLV, 2007
899.212 PRO
Buku Teks Universitas Indonesia Library
Hartman, Charles O., 1949-
"To read a poem with complete pleasure we must understand how it works rhythmically and how its rhythms are related to those of other poems. Verse is a seminal introduction to prosody - the rhythmic organization of poetic language - for any student learning to read or write poetry. Written in a clear and engaging style by a poet and teacher with more than thirty years of experience teaching the subject, this book explains the fundamental components and technical details necessary to fully understand the meaning of poems.
Along with important historical and theoretical background material, the author discusses basic definitions, methods of scansion, and broader techniques of reading. The chapters cover iambic pentameter and other kinds of metrical verse, rhythm and rhyme, free verse, song, and advanced topics such as poetic meter, linguistic approaches to verse, and the computer scansion of metrical poetry. The book is also supplemented by a user-friendly website featuring student exercises and additional resources. Addressing fundamental topics that so often go untaught in today's poetry courses, this is an essential text for anyone wishing to fully understand the meaning of poetry"
Chichester: Wiley Blackwell, 2015
808.1 HAR v
Buku Teks Universitas Indonesia Library
Sprott, Samuel Ernest, 1919-
Oxford: Blackwell, 1953
928.42 SPR m
Buku Teks Universitas Indonesia Library
Jesus Romero-Trillo
"The book examines key issues in the development of prosody and delves into the role of intonation in the construction of meaning. The contributions tackle difficult areas of intonation for language learners, providing a theoretical analysis of each stumbling block as well as a practical explanation for teachers and teacher trainers. The numerous issues dealt with in the book include stress and rhythm, tone units and information structure, intonation and pragmatic meaning, tonicity and markedness, etc. "
Dordrecht, Netherlands: Springer, 2012
e20400640
eBooks Universitas Indonesia Library