UI - Skripsi Membership :: Kembali

UI - Skripsi Membership :: Kembali

Rancang Bangun Agen Virtual Percakapan Multimodal dengan Generasi Gestur Berbasis Large Language Model (LLM) = Design and Implementation of a Multimodal Conversational Virtual Agent with Large Language Model (LLM) Based Gesture Generation

Daffa Anis Fahrizi; Lubis, Muhammad Firdaus Syawaludin, supervisor; Yan Maraden, examiner; I Gde Dharma Nugraha, examiner (Fakultas Teknik Universitas Indonesia, 2025)

 Abstrak

Interaksi manusia-komputer sering terbatas pada komunikasi verbal, mengabaikan pentingnya gestur non-verbal dalam komunikasi manusia. Penelitian ini merancang dan membangun agen virtual percakapan multimodal yang menghasilkan gestur tubuh berbasis Large Language Model (LLM). Sistem ini mengintegrasikan LLM (OpenAI GPT-4o-mini) sebagai generator label gestur, Google Cloud Speech-to- Text (STT) untuk input suara, dan Text-to-Speech (TTS) untuk output suara. Label gestur diekstrak dari respons LLM dan dipetakan ke animasi pra-rekaman pada avatar Profesor Kamala di Unity 3D. Sebuah studi evaluasi dengan 54 partisipan membandingkan kualitas gestur dari zero-shot prompting dan few-shot prompting. Dinilai menggunakan metrik Human Likeness dan Appropriateness (GENEA Challenge 2022, skala Likert 1-6), hasil uji Paired Samples t-test menunjukkan tidak ada perbedaan yang signifikan secara statistik antara kedua teknik prompting tersebut (Human Likeness: t(52) = -0.833, p = 0.409; Appropriateness: t(52) = 0.247, p = 0.806). Ukuran efek (Cohen’s d) yang sangat kecil (-0.114 dan 0.034) mengonfirmasi perbedaan yang diobservasi tidak signifikan secara praktis. Disimpulkan bahwa system prompt yang komprehensif dan ketat cukup efektif dalam memandu LLM menghasilkan gestur berkualitas serupa, sehingga contoh dialog few-shot tidak memberikan peningkatan signifikan dalam tugas generasi label gestur ini. Penelitian ini berkontribusi pada pemahaman prompt engineering LLM untuk kontrol perilaku non-verbal agen virtual.

Human-computer interaction often limits itself to verbal communication, neglecting the crucial role of non-verbal gestures in human multimodal communication. This research designs and develops a multimodal conversational virtual agent that generates body gestures based on a Large Language Model (LLM). The system integrates an LLM (OpenAI GPT-4o-mini) as the gesture label generator, Google Cloud Speech-to-Text (STT) for voice input, and Text-to-Speech (TTS) for voice output. Gesture labels are extracted from LLM responses and mapped to pre-recorded animations, triggered on the Profesor Kamala avatar in Unity 3D. A user evaluation study with 54 participants compared gesture quality from zeroshot prompting and few-shot prompting. Assessed using Human Likeness and Appropriateness metrics (GENEA Challenge 2022, 1-6 Likert scale), Paired Samples t-test results showed no statistically significant difference between the two prompting techniques for either Human Likeness (t(52) = -0.833, p = 0.409) or Appropriateness (t(52) = 0.247, p = 0.806). Very small effect sizes (Cohen’s d of -0.114 and 0.034) confirmed the observed differences were not practically significant. The study concludes that a comprehensive and strict system prompt is effective enough in guiding the LLM to generate gestures of similar quality, thus few-shot dialogue examples provided no significant improvement in this gesture label generation task. This research contributes to understanding LLM prompt engineering’s effectiveness for controlling virtual agent non-verbal behavior.

 File Digital: 1

Shelf
 S-Daffa Anis Fahrizi.pdf :: Unduh

LOGIN required

 Metadata

Jenis Koleksi : UI - Skripsi Membership
No. Panggil : S-pdf
Entri utama-Nama orang :
Entri tambahan-Nama orang :
Entri tambahan-Nama badan :
Program Studi :
Subjek :
Penerbitan : Depok: Fakultas Teknik Universitas Indonesia, 2025
Bahasa : ind
Sumber Pengatalogan : LibUI ind rda
Tipe Konten : text
Tipe Media : computer
Tipe Carrier : online resource
Deskripsi Fisik : xvi, 74 pages : illustration
Naskah Ringkas :
Lembaga Pemilik : Universitas Indonesia
Lokasi : Perpustakaan UI
  • Ketersediaan
  • Ulasan
  • Sampul
No. Panggil No. Barkod Ketersediaan
S-pdf 14-25-75699053 TERSEDIA
Ulasan:
Tidak ada ulasan pada koleksi ini: 9999920571493
Cover