Sitem pengenal aksi manusia saat ini sudah mulai menarik perhatian bannyak orang. Salah satu modalitas yang digunakan dalam sistem pengenal aksi manusia adalah sistem pengenal aksi manusia berbasis kerangka manusia. Banyak pendekatan yang menggunakan metode GCNs untuk melakukan klasifikasi aksi yang mana ini merupakan salah satu bagian terpenting dari sistem pengenal aksi mansia. Walaupun banyak hasil positif yang telah dihasilkan dari penelitian yang menggunakan pendekatan berbasis GCNs, GCNs memiliki keterbatasan dalam ketahanan, interoperabilitas, dan skalabilitas. Penelitian ini menggunakan PoseConv3D dalam sistem pengenal aksi manusia untuk bagian aksi klasifikasi. PoseConv3D yang berbasis 3D-CNN dapat mengatasi keterbatasan yang terjadi pada pendekatan berbasis GCNs. Sistem pada penelitian yang telah ada sebelumnya memiliki kekurangan dimana sistem tidak dapat melakukan ekstraksi pose terhadap video dengan ketinggian dan sudut kamera pengambilan video thermal yang berbeda. Kekurangan sistem juga terjadi pada kemampuan pengenalan aksi, sistem tidak dapat mengenali aksi masing-masing manusia yang berada dalam video thermal. Pada penelitian kali ini, penulis mengembangkan model sistem pengenal aksi manusia penelitian yang telah dilakukan sebelumnya, dengan menggabungan metode spasial-temporal dan PoseConv3D pada tahapan klasifikasi aksi. Penelitian ini juga menggunakan metode CenterNet pada tahapan ekstraksi pose. Model hasil pelatihan memiliki akurasi yang bagus dalam melakukan pengenalan aksi masing-masing aksi dan ekstraksi pose terhadap video dengan ketinggian dan sudut kamera pengambilan video yang bervariasi.
Human action recognition systems have started to attract the attention of many people. One of the modalities used in human action recognition systems is the human skeleton-based human action recognition system. Many approaches use GCNs method to perform action classification which is one of the most important parts of human action recognition system. Although many positive results have been generated from research using GCNs-based approaches, GCNs have limitations in robustness, interoperability, and scalability. This research uses PoseConv3D in the human action recognition system for the action classification part. PoseConv3D which is based on 3D-CNN can overcome the limitations that occur in GCNs-based approaches. The system in previous research has shortcomings where the system cannot extract poses from videos with different heights and camera angles of thermal video capture. System deficiencies also occur in action recognition capabilities, the system cannot recognize the actions of each human in a thermal video. In this research, the author develops a human action recognition system model of research that has been done before, by combining spatial-temporal methods and PoseConv3D at the action classification stage. This research also uses the CenterNet method in the pose extraction stage. The trained model has good accuracy in performing action recognition and pose extraction for videos with varying heights and camera angles.