ระบบแปลภาษามือแบบเรียลไทม์ ตรวจจับ skeleton ด้วย MediaPipe + CNN, จับ sequence ด้วย LSTM และใช้ MLP รวมสัญญาณ ก่อนทำ NLP เพื่อถอดความเป็นข้อความและเสียง
ดึง keypoints ของมือ/ลำตัวแบบเรียลไทม์เพื่อป้อนให้ CNN และ LSTM
แปลงเฟรมเดี่ยวเป็น embedding และใช้ MLP รวมฟีเจอร์มือทั้งสองข้าง
เรียนรู้ลำดับท่าทางภาษามือ ต่อเนื่องหลายเฟรมเพื่อเพิ่มความแม่นยำ
แมปสัญญาณเป็นข้อความ พร้อม text-to-speech ส่งออกเสียงตอบกลับ