Hasil Pencarian  ::  Simpan CSV :: Kembali

Hasil Pencarian

Ditemukan 173351 dokumen yang sesuai dengan query
cover
Mahdia Aliyya Nuha Kiswanto
"Skripsi ini membahas mengenai penggunaan model segmentasi semantik UNet sebagai alternatif metode segmentasi wajah dan tangan gerakan isyarat SIBI (Sistem Isyarat Bahasa Indonesia) pada latar belakang kompleks. Penelitian dilakukan terhadap dataset gerakan isyarat SIBI milik Lab MLCV Fakultas Ilmu Komputer Universitas Indonesia. Dalam penelitian ini, dilakukan percobaan dengan tiga jenis konfigurasi UNet, yaitu UNet 4- level tanpa Batch Normalization, UNet 5-level tanpa Batch Normalization, dan UNet 4- level dengan Batch Normalization. Hasil segmentasi dari UNet konfigurasi terbaik kemudian dilakukan tahap pengenalan selanjutnya, yaitu ekstraksi fitur dengan MobileNetV2, penghapusan gerakan transisi dengan TCRF, dan gesture recognition dengan 2-layer biLSTM untuk mendapatkan hasil translasi serta evaluasi akhir. Selain itu, performa sistem dengan menggunakan metode segmentasi UNet dibandingkan dengan performa sistem dengan menggunakan metode segmentasi RetinaNet+Skin Color Segmentation. Hasil dari penelitian didapatkan bahwa konfigurasi UNet 4-level dengan Batch Normalization menghasilkan segmentasi yang sedikit lebih baik dibandingkan konfigurasi lainnya, yaitu dengan nilai IOU 0,9178% pada dataset berlatar belakang kompleks. Performa UNet terlihat baik pada saat kedua tangan berada di depan badan, dan menurun ketika tangan berada di posisi yang berdekatan dengan area kulit lainnya (lengan, leher, wajah). Didapatkan juga bahwa sistem pengenalan isyarat SIBI ke teks bahasa Indonesia dengan menggunakan metode segmentasi UNet berhasil memiliki performa yang lebih baik dibandingkan menggunakan metode segmentasi RetinaNet+Skin Color Segmentation, dengan nilai WER 2,703% dan SAcc 82,424% pada latar belakang kompleks. Didapatkan juga waktu komputasi UNet yang lebih cepat dibandingkan RetinaNet dengan waktu segmentasi 0,19643 detik per frame pada CPU NVIDIA DGX A100

This thesis discusses the use of the UNet semantic segmentation model as an alternative to hand and face segmentation methods for SIBI (Indonesian Signing System) on complex backgrounds. This research was conducted on SIBI gesture dataset by MLCV Lab (Faculty of Computer Science, Universitas Indonesia). In this study, experiments were conducted with three types of UNet configurations, namely 4-level UNet without Batch Normalization, 5-level UNet without Batch Normalization, and 4-level UNet with Batch Normalization. Segmentation results from the best UNet configuration is then carried out in the next stage of the system, namely feature extraction with MobileNetV2, epenthesis removal with TCRF, and gesture recognition with 2-layer biLSTM to obtain translation results and the final evaluations. In addition, system performance using the UNet segmentation method is compared to system performance using the RetinaNet+Skin Color Segmentation method. The results of the study showed that the 4-level UNet configuration with Batch Normalization produces slightly better segmentation than the other configurations, with an IOU of 0.9178% on a dataset with a complex background. Based on the sample results, UNet performance is good when both hands are on the front of the body, and it decreases when the hands are in close proximity to other skin areas (arms, neck, face). It was also found that the SIBI gesture recognition system to Indonesian text using the UNet segmentation method managed to have better performance than using the RetinaNet+Skin Color Segmentation, with a WER value of 2.703% and a SAcc of 82.424% on a complex background. It was also found that UNet processing time was faster than RetinaNet with a segmentation rate of 0.19643 seconds per frame on the NVIDIA DGX A100 CPU."
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2022
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Noer Fitria Putra Setyono
"SIBI merupakan bahasa isyarat resmi yang digunakan di Indonesia. Penggunaan SIBI seringkali ditemukan permasalahan karena banyaknya gerakan isyarat yang harus diingat. Penelitian ini bertujuan untuk mengenali gerakan isyarat SIBI dengan cara mengekstraksi fitur tangan dan wajah yang kemudian diklasifikasikan menggunakan Bidirectional Long ShortTerm Memory (BiLSTM). Ekstraksi fitur yang digunakan dalam penelitian ini adalah Deep Convolutional Neural Network (DeepCNN) seperti ResNet50 dan MobileNetV2, di mana kedua model tersebut digunakan sebagai pembanding. Penelitian ini juga membandingkan performa dan waktu komputasi antara kedua model tersebut yang diharapkan dapat diterapkan pada smartphone nantinya, dimana model tersebut akan diimplementasikan. Hasil penelitian menunjukkan bahwa penggunaan model ResNet50-BiLSTM memiliki kinerja yang lebih baik dibandingkan dengan MobileNetV2-BiLSTM yaitu 99,89%. Namun jika akan diaplikasikan pada arsitektur mobile, MobileNetV2-BiLSTM lebih unggul karena memiliki waktu komputasi yang lebih cepat dengan performa yang tidak jauh berbeda jika dibandingkan dengan ResNet50-BiLSTM.

SIBI is a sign language that is officially used in Indonesia. The use of SIBI is often found to be a problem because of the many gestures that have to be remembered. This study aims to recognize SIBI gestures by extracting hand and facial features which are then classified using Bidirectional Long ShortTerm Memory (BiLSTM). The feature extraction used in this research is Deep Convolutional Neural Network (DeepCNN) such as ResNet50 and MobileNetV2, where both models are used as a comparison. This study also compares the performance and computational time between the two models which is expected to be applied to smartphones later, where both models can now be implemented on smartphones. The results showed that the use of ResNet50-BiLSTM model have better performance than MobileNetV2-BiLSTM which is 99.89\%. However, if it will be applied to mobile architecture, MobileNetV2-BiLSTM is superior because it has a faster computational time with a performance that is not significantly different when compared to ResNet50-BiLSTM."
Depok: Fakultas Komputer Universitas Indonesia, 2020
T-pdf
UI - Tesis Membership  Universitas Indonesia Library
cover
Nisrina Dinda Dhamayanti
"Kanker kulit berasal dari lesi kulit yang memiliki penampilan atau pertumbuhan jaringan kulit yang tidak biasa. Melanoma adalah kanker kulit paling berbahaya dan menyebabkan banyak kematian jika tidak terdeteksi sedini mungkin. Pendeteksian sedini mungkin mendesak untuk dilakukan mengingat dapat meningkatkan angka survival rate sebesar 95%. Cara pendeteksiaan saat ini yang menggunakan metode manual masih kurang handal dan memakan banyak waktu. Teknologi deep learning dapat menjadi solusi yang dapat dimanfaatkan untuk melakukan segmentasi lesi kulit. Untuk penelitian ini, penulis mengusulkan penggunaan teknik Residual U-Net berbasis deep-convolutional neural network untuk segmentasi lesi kulit. Teknik Residual U-Net yang diusulkan menggunakan Residual Block, Group Normalization, dan Tversky Loss ke dalam arsitektur berbasis U-Net. Penggunaan Residual Block dapat mengatasi permasalahan error jaringan yang tinggi akibat adanya vanishing gradient serta meningkatkan ekstraksi representasi fitur gambar. Model dilatih dan dievaluasi menggunakan dataset yang berasal dari International Skin Imaging Collaboration (ISIC) 2018. Penelitian ini berhasil meningkatkan kinerja model dalam melakukan segmentasi lesi kulit dengan nilai dice similarity coefficient, jaccard index, accuracy, sensitivity, specificity, dan precision masing-masing, sebesar 0.86, 0.76, 0.93, 0.88, 0.96, dan 0.85.

Skin cancer originates from skin lesions that have an unusual appearance or growth of skin tissue. Melanoma is the most dangerous skin cancer and causes many deaths if not detected early. Early detection is urgent to do considering it can increase the survival rate by 95%. The current detection method using the manual method is still less reliable and takes a lot of time. Deep learning technology can be a solution that can be used to segment skin lesions. For this study, the authors propose the use of a Residual U-Net technique based on a deep-convolutional neural network for segmenting skin lesions. The proposed Residual U-Net technique uses Residual Block, Group Normalization, and Tversky Loss into a U-Net-based architecture. The use of Residual Block can overcome the problem of high network error due to the vanishing gradient and improve the extraction of image feature representation. The model was trained and evaluated using a dataset from the International Skin Imaging Collaboration (ISIC) 2018. This study succeeded in improving the model's performance in segmenting skin lesions with values ​​of dice similarity coefficient, jaccard index, accuracy, sensitivity, specificity, and precision of 0.86, 0.76 , 0.93, 0.88, 0.96, and 0.85.
"
Depok: Fakultas Teknik Universitas Indonesia, 2022
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Tirta Akdi Toma Mesoya Hulu
"Perpustakaan Universitas Indonesia (UI) merupakan perpustakaan universitas terbesar se-Asia Tenggara. Ada sekitar 1,5 juta koleksi yang tersimpan di Perpustakaan UI dan beberapa perpustakaan fakultas di mana jumlah ini terus bertambah setiap tahunnya. Ukuran Perpustakaan UI tergolong besar, terdiri dari empat lantai dengan desain arsitektur unik, membuat pencarian sebuah lokasi ruangan atau lokasi koleksi didalamnya mengalami kendala yang berdampak pada efisiensi dan efektifitas pencarian lokasi di dalam perpustakaan. Papan petunjuk yang ada di Perpustakaan UI saat ini belum sepenuhnya membantu pengunjung untuk menuju sebuah lokasi ruangan atau lokasi koleksi. Kesulitan yang dirasakan pengunjung berbanding terbalik dengan ekspetasi mereka. Dari sisi sistem pencarian koleksi/buku yang tersedia, pengunjung mendapatkan informasi yang tidak begitu akurat dan tidak begitu detail, hal ini menjadi sangat mengecewakan terutama bagi pengunjung yang datang dari tempat jauh. Keluhan terkait pencarian lokasi ruangan atau lokasi sebuah koleksi menjadi seolah terabaikan, perlu dibuat sebuah aplikasi petunjuk lokasi ruangan atau lokasi sebuah koleksi untuk mempermudah pengunjung dan memenuhi ekspektasi mereka. Untuk mewujudkan hal tersebut, maka ditawarkan sebuah rancangan digital signage berupa clickable prototype yang bisa membantu mengarahkan pengunjung ke sebuah lokasi. Pembuatan rancangan dilakukan dengan high-hidelity prototyping setelah melakukan observasi, survei dan wawancara kontekstual terkait kebutuhan dan permasalahan pengunjung. Hasil rancangan ini kemudian akan dievaluasi dengan memanfaatkan usability testing lalu kuesioner untuk mendapatkan tanggapan responden. Perlu diadakan penelitian lebih lanjut dari segi usability. Hasil survei kemudian dirangkum untuk menjadi acuan pembuatan aplikasi petunjuk lokasi di Perpustakaan UI kedepannya.

Universitas Indonesia (UI) Library is the biggest university library in Southeast Asia. There are about 1,5 million collections saved on UI Library and several faculty libraries at the UI, where this number continues to increase regularly per year. The size of the UI Library is quite large, consisting of four floors with unique architectural design, it makes difficult to search location of a room or collection location within the library that affect to the effeciency and effectivity of searching. Existing sign boards in the UI Library are currently not fully helped visitors to get to a room or collection location. The difficulty experienced by visitors is inversely propotional to their expectations. The existing book search system giving the visitors inaccurate information, this becomes very dissapointing especially for visitors who come from far away places. Visitors complaints related to find a location in the UI Library seemed to be ignored, a navigation application needs to be made to direct visitors to get to the locations that they try to find on the library and meet their expectations. To achieve this goal, then offered a digital signage application design in the form of a clickable prototype that can help direct visitors to a location. The design of the application is made by using high-fidelity prototyping after conducting observations, surveys and contextual interviews related to the needs and problems of visitors. The results of the design will be evaluated by using usability testing and then questionnaire to get respondent’s response. The survey results of this research will then be summarized for the next development of Indoor Digital Signage application at the UI Library."
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2019
TA-pdf
UI - Tugas Akhir  Universitas Indonesia Library
cover
Ahmad Rafiul Mahdi
"Pandemi COVID-19 yang semakin mengkhawatirkan telah membatasi masyarakat dalam melakukan kontak fisik dengan benda-benda pada fasilitas umum. Berbagai sarana interaksi yang membutuhkan kontak fisik telah digantikan dengan alternatif yang mendukung interaksi secara contactless. Elevator merupakan salah satu fasilitas umum yang paling sering digunakan masyarakat, maka perlunya alternatif dari penggunaan tombol pada elevator untuk mengurangi kemungkinan tersebarnya virus. Perkembangan teknologi computer vision telah menghasilkan banyak implementasi yang bermanfaat, salah satu implementasi tersebut adalah pendeteksian objek. Pada penelitian ini, dilakukan perancangan dan implementasi dari deep learning untuk menghasilkan model pengenalan gestur tangan secara real-time yang ditujukan untuk diterapkan sebagai sarana interaksi dengan elevator. Metode transfer learning digunakan karena dapat menghasilkan model yang akurat tanpa perlu menggunakan dataset yang besar. Perancangan model dilakukan menggunakan Tensorflow Object Detection API dan SSD MobileNetV2 sebagai pre-trained model yang telah dilatih dengan dataset Microsoft COCO. Model yang telah dilatih dengan jumlah training steps sebesar 11000 menggunakan Dataset A pada nilai threshold 0.7 dapat mendeteksi 8 gestur tangan dengan nilai akurasi mencapai 90% berdasarkan uji coba real-time yang dilakukan.

The increasingly worrying COVID-19 pandemic has limited people from making physical contact with objects in public facilities. Various means of interaction that require physical contact have been replaced with alternatives that support contactless interaction. Elevators are one of the public facilities that are most often used by the public, so there is a need for alternatives to using buttons on elevators to reduce the possibility of spreading the virus. The development of computer vision technology has resulted in many useful implementations, one of which is object detection. In this research, the design and implementation of deep learning and artificial neural network is carried out to produce a real-time hand gesture recognition model that is intended to be applied as a means of interaction with elevators. The transfer learning method is used because it can produce accurate models without the need to use large datasets. The model design is carried out using the Tensorflow Object Detection API and SSD MobileNetV2 as a pre-trained model that has been trained with the Microsoft COCO dataset. The model that has been trained with the number of training steps of 11000 using the Dataset A at a threshold value of 0.7 can detect 8 hand gestures with an accuracy reaching up to 90% based on real-time trials carried out."
Depok: Fakultas Teknik Universitas Indonesia, 2021
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Aldi
"Mempelajari bahasa isyarat bukanlah sesuatu yang mudah. Untuk membantu mempelajari bahasa isyarat, muncul penelitian mesin translasi gerakan isyarat menjadi teks yang dapat dibaca. Untuk penggunaan secara luas, terdapat mesin translasi gerakan isyarat menjadi teks memanfaatkan telepon pintar. Hasil teks yang dihasilkan oleh mesin translasi bergantung terhadap masukkan rangkaian gerakan isyarat. Masukkan ini dapat diperoleh melalui rekaman kamera telepon pintar. Ketika gerakan isyarat bergerak lebih cepat dibandingkan penangkapan bingkai oleh kamera, hasil rekaman menjadi kabur. Rekaman yang kabur akan membuat mesin translasi tidak dapat melakukan prediksi dengan baik. Salah satu solusi untuk mengurangi kabur pada gambar adalah dengan melakukan deblurring. Penelitian ini akan menggunakan metode DeblurGAN-v2 untuk mengurangi tingkat kabur pada bingkai dan menguji hasilnya pada mesin translasi gerakan isyarat SIBI ke teks. Mesin translasi gerakan isyarat SIBI ke teks memperoleh hasil teks yang cukup baik pada data berlatar belakang hijau. Hasil Nugraha dan Rakun (2022) memperoleh 2,986% WER (Word Error Rate), 83,434% SAcc (Sentence Accuracy), dan TC (Time Computation) menggunakan RetinaNet sebesar 0.038 detik per frame pada data berlatar belakang hijau. Hasil evaluasi juga menemukan kekurangan kualitas hasil prediksi dikarenakan masukkan bingkai yang kabur. Penelitian ini mencoba mengatasi masalah bingkai yang kabur dengan menggabungkan metode deblurring ke dalam sistem mesin translasi gerakan isyarat dan mengukur kinerja dengan WER, SAcc, dan TC. Terjadi penambahan TC akibat penambahan metode deblurring, dan untuk mengurangi TC, digunakan nilai ambang batas agar tidak semua bingkai di-deblur. Peneliti menemukan bahwa dengan menambahkan proses deblurring, terjadi peningkatan kinerja mesin translasi gerakan isyarat dari 2.37% WER dan 87.85% SAcc menjadi 1.95% WER dan 89.28% SAcc (tanpa ambang batas) dan 1.96% WER dan 89.28% SAcc (dengan ambang batas) pada data berlatar belakang hijau. Mesin translasi gerakan isyarat menjadi teks tanpa metode deblurring memerlukan TC 0.8036 detik per frame dan setelah menambahkan metode deblurring menjadi 0.8650 detik per frame (tanpa ambang batas) dan 0.8436 detik per frame (dengan ambang batas).

Learning sign language isn’t something easy to do. To help learning sign language, born machine sign language translation to text that can be read. For widely usage, there is a machine for translating gestures into text using a smartphone. Text result from machine translation depend on input sign language sequence frame. This input can be obtain from smartphone video recording. When sign language movement is faster than camera frame rate, recording result become blurry. Blurry record will make machine translation can’t make good prediction. One of the solution to reduce blur on the image is by doing deblurring. This research will use DeblurGAN-v2 as method to reduce image blurry rate on frame and test it on machine sign language SIBI translation to text. Machine sign language SIBI translation to text gain good text result on greenscreen background. Result Nugraha dan Rakun (2022) obtain 2,986% WER (Word Error Rate), 83,434% SAcc (Sentence Accuracy), and TC (Time Computation) using RetinaNet at 0.038 seconds per frame on background greenscreen data. Evaluation result also found a lack of of predictive quality due to blurred frame input. This research attempts to overcome the blurred frame problem by combining deblurring method to inside machine sign language translation system and measure performance with WER, SAcc, and TC. There is an addition of TC due to the addition of the deblurring method and to reduce TC, a threshold value is used so not all frames are deblurred. The researcher found that by adding deblurring process, there was an improvement on machine sign language translation from 2.37% WER and 87.85% SAcc to 1.95% WER and 89.28% SAcc (without threshold) and 1.96% WER and 89.28% SAcc (with threshold) on background greenscreen data. Machine for translating gestures into text without deblurring method need TC 0.8036 seconds per frame and after adding deblurring method become 0.8650 seconds per frame (without threshold) and 0.8436 seconds per frame (with threshold).
"
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2023
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Erdefi Rakun
"ABSTRAK
SIBI merupakan bahasa isyarat resmi bagi penyandang tunarungu di Indonesia. Dalam pembentukan isyarat, SIBI mengikuti aturan tata bahasa Indonesia. Untuk membentuk isyarat kata berimbuhan, maka isyarat imbuhan awalan, akhiran dan partikel ditambahkan ke isyarat kata dasar. Karena banyak isyarat SIBI merupakan isyarat kata berimbuhan dan belum ada penelitian tentang kata tersebut, maka penelitian ini fokus pada membangun sistem penerjemah kata berimbuhan SIBI ke teks. Gerakan isyarat ditangkap oleh kamera Kinect yang menghasilkan data color, depth dan skeleton. Data Kinect ini diolah menjadi fitur yang dipakai oleh model untuk mengenali gerakan. Sistem penerjemah memerlukan teknik ekstraksi fitur, yang dapat menghasilkan sebuah feature vector set dengan ukuran yang minimal. Penelitian ini berusaha untuk dapat memisahkan isyarat imbuhan dan kata dasar pada isyarat kata berimbuhan. Dengan kemampuan ini, sistem penerjemah menghasilkan 3 feature vector set: kata dasar, awalan dan akhiran. Tanpa pemisahan, feature vector set yang harus disediakan adalah sebanyak perkalian cartesian dari ketiga feature vector set tersebut. Perkalian ketiga set ini tentunya akan menghasilkan feature vector set total yang berukuran sangat besar. Model yang dicoba pada penelitian ini adalah Conditional Random Fields, Hidden Markov Model, Long Short-Term Memory Neural Networks LSTM dan Gated Recurrent Unit. Akurasi yang terbaik yang dicapai oleh untuk LSTM 2-layer 77.04 . Keunggulan dari LSTM terletak pada inputnya yang berupa sequence-of-frames dan setiap frame direpresentasi oleh fitur lengkap, bukan fitur hasil clustering. Model sequence-of-frames lebih cocok untuk SIBI, karena gerakan isyarat SIBI memiliki long-term temporal dependencies. Error hasil prediksi banyak terjadi pada kelompok awalan dan akhiran. Hal ini karena miripnya gerakan pada isyarat-isyarat imbuhan SIBI tersebut. LSTM 2-layer yang dipakai untuk mengenali kata dasar saja memberikan akurasi yang tertinggi 95.4 .

ABSTRACT
SIBI is the official sign language system for the Indonesian language. The formation of SIBI gestures follow Indonesian grammar rules, including inflectional words. Inflectional words are root words with prefixes, infixes, and suffixes, or a mix of the three. Inflectional gestures are made from root word gestures, with prefix, suffix and particle gestures added in the order in which they appear, all of which is unique to SIBI. This research aims to find a suitable model that can quickly and reliably perform SIBI to text translation on inflectional word gestures. The hand movement of the signer is captured by a Kinect camera. The Kinect data was then processed to yield features for the models to use recognize the gestures. Extant research have been able to translate the alphabet, root words, and numbers from SIBI to text, but none has been able to translate SIBI inflectional word gestures. In order for the translation system to work as efficiently as possible, this research developed a new method that splits an inflectional word into three feature vector sets root, prefix, suffix . This ensures that a minimally descriptive feature sets are used. Without using this, the feature sets would otherwise be as big as the Cartesian product of the prefixes, suffixes and root words feature sets of the inflectional word gestures. Four types of machine learning models were tested Conditional Random Fields, Hidden Markov Model, Long Short Term Memory Net, dan Gated Recurrent Unit. The 2 layer LSTM, with an accuracy of 77.04 , has been proven to be the most suitable. This model 39 s performance is due to the fact that it can take entire sequences as input and doesn 39 t rely on pre clustered per frame data. The 2 layer LSTM performed the best, being 95.4 accurate with root words. The lower accuracy with inflectional words is due to difficulties in recognizing prefix and suffix gestures."
2016
D2244
UI - Disertasi Membership  Universitas Indonesia Library
cover
Alzy Maulana Bermanto
"Sistem pengenalan wajah (face recognition system) merupakan salah satu sistem yang dibangun berdasarkan pre-trained model. Sistem ini memanfaatkan teknik biometrik yang menggunakan wajah sebagai pengenalan atau identifikasi seseorang. Implementasi sistem pengenalan wajah dapat diaplikasikan dalam berbagai macam aplikasi seperti sistem absensi untuk mengecek kehadiran, sistem monitoring pengunjung di tempat wisata ataupun tempat-tempat publik, hingga dapat digunakan untuk mengenali tingkah laku seseorang untuk analisis-analisis yang dibutuhkan di berbagai bidang. Dalam penelitian ini, akan diimplementasikan sistem pengenalan wajah untuk sistem absensi menggunakan metode pembelajaran deep learning. Proses training data dan validasi hasil pengenalan wajah akan dibandingkan antara model CNN (Convolutional Neural Network) berarsitektur ResNet-50 dengan VGG16 yang telah dilatih sebelumnya menggunakan dataset Open Data Science (ODSC) untuk mendapatkan model perancangan sistem wajah terbaik. Simulasi real-time dilakukan dengan menggunakan model latih dengan validasi akurasi tertinggi sebesar 98.2%. Model latih yang digunakan dalam simulasi adalah ResNet-50 dengan dataset B sebagai data training serta learning rate sebesar 0.01. Hasil analisis menunjukkan bahwa proses training menggunakan model ResNet-50 jauh lebih ringan dan memberikan hasil model pelatihan dengan validasi akurasi yang lebih tinggi dibanding dengan model VGG16 yang membutuhkan banyak resource selama proses training berlangsung. Pengujian real-time yang dilakukan menunjukkan bahwa model ResNet-50 akan akurat jika memperhatikan beberapa kondisi yang diperlukan seperti jarak deteksi harus 50 hingga 100 cm dari kamera deteksi dan posisi wajah harus lurus menghadap kamera deteksi.

The face recognition system is a system that is built based on a pre-trained model. This system utilizes biometric techniques that use the face as an identification or authentication of a person. The facial recognition system can be applied in various applications such as attendance systems to check attendance, visitor monitoring systems at tourist attractions or public places, and to identify a person's behavior for the analyzes needed in various fields. In this study, a facial recognition system will be implemented for the attendance system using deep learning methods. To obtain the best system design, training, and validation of facial recognition results will be compared between the CNN (Convolutional Neural Network) model with the ResNet-50 and VGG16, which has been previously trained using the Open Data Science (ODSC) dataset. Real-time simulations were carried out using a training model with the highest validation accuracy of 98.2%. The training model used in the simulation is ResNet-50 with dataset B as training data and a learning rate of 0.01. The analysis results show that the training process using the ResNet-50 model is much lighter and provides results with higher accuracy validation than the VGG16 model, which requires a lot of resources during the training process. Real-time testing has shown that the ResNet-50 model will be accurate if it considers several conditions, such as the detection distance must be 50 to 100 cm from the detection camera, and the face position must be in a straight facing towards the detection camera."
Depok: Fakultas Teknik Universitas Indonesia, 2022
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Martin Hizkia Parasi
"

Perkembangan teknologi pemrosesan ucapan sangat pesat akhir-akhir ini. Namun, fokus penelitian dalam Bahasa Indonesia masih terbilang sedikit, walaupun manfaat dan benefit yang dapat diperoleh sangat banyak dari pengembangan tersebut. Hal tersebut yang melatarbelakangi dilakukan penelitian ini. Pada penelitian ini digunakan model transfer learning (Inception dan ResNet) dan CNN untuk melakukan prediksi emosi terhadap suara manusia berbahasa Indonesia. Kumpulan data yang digunakan dalam penelitian ini, diperoleh dari berbagai film dalam Bahasa Indonesia. Film-film tersebut dipotong menjadi potongan yang lebih kecil dan dilakukan dua metode ekstraksi fitur dari potongan audio tersebut. Ekstraksi fitur yang digunakan adalah Mel-Spectrogram dan MelFrequency Cepstral Coefficient (MFCC). Data yang diperoleh dari kedua ekstraksi fitur tersebut dilatih pada tiga model yang digunakan (Inception, ResNet, serta CNN). Dari percobaan yang telah dilakukan, didapatkan bahwa model ResNet memiliki performa yang lebih baik dibanding Inception dan CNN, dengan rata-rata akurasi 49%. Pelatihan model menggunakan hyperparameter dengan batch size sebesar 16 dan dropout (0,2 untuk Mel-Spectrogram dan 0,4 untuk MFCC) demi mendapatkan performa terbaik.


Speech processing technology advancement has been snowballing for these several years. Nevertheless, research in the Indonesian language can be counted to be little compared to other technology research. Because of that, this research was done. In this research, the transfer learning models, focused on Inception and ResNet, were used to do the speech emotion recognition prediction based on human speech in the Indonesian language. The dataset that is used in this research was collected manually from several films and movies in Indonesian. The films were cut into several smaller parts and were extracted using the Mel-Spectrogram and Mel-frequency Cepstrum Coefficient (MFCC) feature extraction. The data, which is consist of the picture of Mel-spectrogram and MFCC, was trained on the models followed by testing. Based on the experiments done, the ResNet model has better accuracy and performance compared to the Inception and simple CNN, with 49% of accuracy. The experiments also showed that the best hyperparameter for this type of training is 16 batch size, 0.2 dropout sizes for Mel-spectrogram feature extraction, and 0.4 dropout sizes for MFCC to get the best performance out of the model used.

"
Depok: Fakultas Teknik Universitas Indonesia, 2022
S-Pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Bella Septina Ika Hartanti
"Bencana banjir merupakan salah satu peristiwa alam yang sering terjadi di dunia, termasuk Indonesia, dan terjadi ketika aliran air yang berlebihan menggenangi daratan dalam jangka waktu tertentu. Perubahan iklim, cuaca ekstrem, urbanisasi yang tidak terkendali, dan kondisi geografis yang kompleks telah berkontribusi terhadap peningkatan frekuensi dan intensitas banjir, terutama di daerah perkotaan. Analisis banjir otomatis dan deteksi citra dapat memberikan panduan dan informasi yang berguna dalam membuat keputusan untuk mengurangi dampak destruktif seperti korban jiwa dan ekonomi, salah satunya dengan melakukan segmentasi untuk membantu proses pembuatan peta kerawanan banjir. Namun, sejumlah kecil data beresolusi tinggi dan berlabel yang tersedia membuat proses segmentasi sulit untuk dilakukan. Oleh karena itu, penulis mengusulkan pendekatan semi-supervised yaitu mean teacher dengan memanfaatkan teknik deep learning. Adapun dataset yang digunakan adalah citra SAR Sentinel-1 C-band yang telah diolah sebelumnya. Hasil penelitian menunjukkan bahwa model usulan memberikan kenaikan performa yang cukup signifikan pada metrik IoU sebesar 5% terhadap baseline yang mengimplementasikan teknik pseudo-labeling.

Floods are one of the natural disaster events that occur in the world. Floods happen when excessive water flows and submerges land for a certain period of time. Climate change, extreme weather, uncontrolled urbanization, and complex geographical conditions have contributed to the increase in the frequency and intensity of floods, especially in urban areas. Automatic flood analysis and detection of imagery can provide useful guidance and information in making decisions to reduce destructive impacts such as loss of life and economy. However, the small amount of high-resolution and labeled data available makes the segmentation process difficult for flood detection. Therefore, the author proposes a semi-supervised approach, namely mean teacher by utilizing the deep learning architecture. The dataset used is the SAR image of Sentinel-1 C-band which has been processed. The results show that the proposed model provides a significant increase in performance on the IoU metric by 5% against the baseline that implements the pseudo-labeling technique."
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2023
T-pdf
UI - Tesis Membership  Universitas Indonesia Library
<<   1 2 3 4 5 6 7 8 9 10   >>