Emosi merupakan hal penting yang dimiliki oleh manusia. Banyak riset yang sudah dilakukan untuk menganalisis emosi seseorang secara langsung maupun tidak langsung. Salah satu topik dari machine learning yang berkembang adalah sistem yang mampu mempelajari isi suara manusia untuk menentukan emosi seseorang yang dinamakan speech emotion recognition. Banyak riset yang sudah dilakukan masih menggunakan dataset berbahasa Inggris, untuk itu diperlukan penelitian speech emotion recognition dengan menggunakan dataset berbahasa Indonesia. Pada penelitian ini dilakukan analisa speech emotion recognition menggunakan 4 model berbeda yaitu Convolutional Neural Network (CNN), Support Vector Machines (SVM), K-Nearest Neighbor (KNN), dan Logistic Regression (LR). Penelitian ini dilakukan dengan menggunakan hasil ekstraksi dari Mel-frequency Cepstral Coefficient (MFCC) yang dimasukkan ke dalam bentuk matriks 2D sebagai input menuju model percobaan. Dataset yang digunakan merupakan cuplikan dialog berbahasa Indonesia dengan karakteristik emosi tertentu yang sudah dikelompokkan terlebih dahulu. Dari percobaan yang telah dilakukan, didapatkan hasil bahwa model SVM memiliki tingkat rata-rata akurasi tertinggi jika dibandingkan dengan model lainnya, yaitu sebesar 59%. Sedangkan untuk model LR, KNN, dan CNN didapatkan tingkat akurasi rata-rata secara berurutan sebesar 54,5%; 53,5%; dan 47,7%.
Emotions are important things in human life. A lot of research had been done to analyze persons' emotions directly or indirectly. One of the topics of machine learning that is developing is a system that could understand the content of the human voice to determine a person's emotions called speech emotion recognition. Much of the research that had been done still uses English datasets. Therefore, speech emotion recognition research using Indonesian language datasets is needed. In this study, Speech Emotion Recognition analysis was performed using 4 different models, such as Convolutional Neural Network (CNN), Support Vector Machines (SVM), K-Nearest Neighbor (KNN), and Logistic Regression (LR). This study was conducted using the extraction outputs from the Mel-frequency Cepstral Coefficient (MFCC) which was converted into a 2D matrix. The output would be used as an input to the model. The dataset used was a snippet of Indonesian dialogue with several emotional characteristics that had been grouped. Based on this study, the results showed that the SVM model had the highest average level of accuracy around 59%. Meanwhile, for the LR, KNN, and CNN models, the average accuracy rate were 54.5%; 53.5%; and 47.7%.
Supermarket merupakan tempat pilihan terbaik untuk berbelanja kebutuhan rumah saat ini karena pelanggan dapat memilih produk yang ingin dibelinya tanpa perlu mengantre. Namun untuk melakukan pembayaran saat ini pelanggan masih perlu mengantre di kasir. Oleh karena itu, penelitian ini akan mengimplementasikan sistem cashierless yang dapat melakukan checkout secara otomatis dan efisien sehingga pelanggan tidak perlu mengantre lagi di kasir. Sistem cashierless yang digunakan pada penelitian ini adalah smart trolley, sistem ini dapat melakukan deteksi produk yang masuk atau keluar dari troli pelanggan lalu melakukan checkout secara otomatis saat pelanggan keluar dari supermarket. Untuk dapat melakukan deteksi produk diperlukan model machine learning yang berjenis object detection. Model juga harus dapat diimplementasikan pada edge device karena deteksi akan dilakukan di troli yang memiliki keterbatasan ruang. Maka model yang digunakan adalah YOLOv5 karena memiliki akurasi serta performa tinggi supaya tetap dapat diimplementasikan pada edge device. Hasil pengujian variasi backbone menunjukkan backbone original lebih baik dari backbone Swin Transformer dengan nilai F1-Score sebesar 98.64%, ukuran model sebesar 7.7 MB, dan dapat berjalan dengan 3.87 FPS di komputer pengujian dan 0.74 FPS di Raspberry Pi 4B. Hasil pengujian variasi dataset menunjukkan kombinasi dataset bergerak dengan statis blur dapat menghasilkan model yang memiliki akurasi yang paling baik dengan nilai 99.53% pada fase pelatihan dan 99.44% pada fase testing. Hasil pengujian intensitas cahaya menunjukkan penggunaan lampu untuk meningkatkan pencahayaan di sekitar wilayah deteksi di dalam troli dapat meningkatkan F1-Score hasil deteksi yang dilakukan hingga 63.55%. Hasil pengujian variasi kecepatan produk menunjukkan kecepatan ideal yang dapat digunakan pada saat proses deteksi di komputer pengujian adalah hingga 36 cm/s dan untuk proses yang dilakukan di Raspberry Pi 4B adalah di bawah 7 cm/s. Hasil pengujian dengan penambahan sampling rate dapat mendeteksi produk di komputer pengujian dengan kecepatan hingga 124 cm/s pada produk-produk dengan ukuran yang cukup lebar. ......Supermarkets are the best place to shop for home needs today because customers can choose what products they want to buy without the need to queue. However, today customers still need to queue at the cashier to make payments. Therefore, this research will implement a cashier-less system that can do checkout automatically and efficiently so that customers don't have to queue at the cashier anymore. The cashier-less system used in this study is a smart trolley, this system can detect products entering or leaving the customer's trolley and then checkout automatically when the customer leaves the supermarket. To be able to perform product detection, a machine learning model of the object detection type is needed. The model must be able implemented on edge devices because the detection will be done in the cart with limited space. So, the model used is YOLOv5 because it has high accuracy and performance so it can implement on edge devices. The backbone variation test results show that the original backbone is better than the Swin-Transformer backbone with an F1-Score value of 98.64%, a model size of 7.7 MB, and can run with 3.87 FPS on a test computer and 0.74 FPS on a Raspberry Pi 4B. The dataset variation test results show that the combination of moving datasets with static blur can produce a model with the best accuracy of 99.53% in the training phase and 99.44% in the testing phase. The light intensity variation test results show that the use of lamps to increase the lighting around the detection area in the trolley can increase the F1-Score of the detection results made up to 63.55%. The product speed variation results show that the ideal speed that can use during the detection process on the testing computer is up to 36 cm/s and for the process carried out on the Raspberry Pi 4B it is below 7 cm/s. The sampling rate addition results can detect products on the test computer at speeds up to 124 cm/s on products with a wide size