Hiện nay, con người chủ yếu tương tác với máy tính qua bàn phím và chuột nhưng với sự phát triển nhanh chóng của khoa học kỹ máy tính các tương tác mới được tìm ra như sử dụng giọng nói, cử chỉ mang lại sự trực quan dễ dàng hơn cho người sử dụng. Theo đó các hệ thống tương tác giữa con người và máy tính được tập trung nghiên cứu. Việc sử dụng cử chỉ, hành động người được xem là một ý tưởng hiệu quả để con người giao tiếp với nhau trong thế giới thực. Hành động của một sự kết hợp của nhiều bộ phận khác nhau trên cơ thể mang hàm ý tuyền đạt thông tin. Do đó trong bài báo này chúng tôi sẽ nghiên cứu phát triển hệ thống nhận dạng cử chỉ, hành động trong nhà thông minh. Đây là bước tiếp theo phát triển của bài báo [1] đã công bố trong hội thảo NICS. Mục tiêu của bài báo là thực hiện tìm hiểu cách tương tác giữa con người và máy tính giúp điều khiển các thiết bị điện tử. Trong bài báo này chúng tôi sử dụng các hành động như đứng lên, ngồi xuống, ngửa người về phía sau, đi giầy, và phẩy tay để thực hiện việc tương tác giữa con người và máy tính. hệ thống chuyển sang định dạng tensorflow lite để có thể dễ dàng chạy trên một thiết bị thông minh như là điện thoại di động giúp giảm băng thông phía máy chủ, giảm độ trễ và cải thiện tốc độ phản hồi của trí tuệ nhân tạo (AI). Qua đó giảm chi phí lưu lượng truy cập di động cho người dùng vì không cần phải tải một lượng lớn dữ liệu thô trên máy tính. Phần còn lại của bài báo được trình bày như sau. Trong phần II chúng tôi sẽ khảo sát qua về các hệ thống hiện có. Trong phần III và phần IV, chúng tôi lần lượt trình bày mô hình và đánh giá kết quả của mô hình để ra. Cuối cùng, chúng tôi kết luận bài báo trong phần V
Nghiên cứu được thực hiện bởi nhóm tác giả: Nguyễn Hữu Phát Bộ môn Mạch và Xử lý tín hiệu, Viện Điện tử viễn thông, Đại học Bách Khoa Hà Nội và Nguyễn Thị Thu Hương Viện Điện tử viễn thông, Đại học Bách Khoa Hà Nội
Tổng quan về hệ thống Hệ thống đề xuất được xây dựng dựa trên [10] để ứng dụng trong các mô hình nhà thông minh.
Mục tiêu của hệ thống này là xây dựng dữ liệu hành động đơn giản. Các cử chỉ được đề xuất bao gồm năm hành động, cụ thể là đứng lên, ngồi xuống, ngửa người về phía sau, đi giầy, và phẩy tay. Đầu tiên là trích xuất đặc trưng của dữ liệu đầu vào bằng mạng mobilenetV2 sau đó đưa vào mạng SSD để dự đoán kết quả. Kết quả thu được sau quá trình train được chuyển đổi sang định dạng tensorflow lite (.tflite) để dễ dàng chạy trên các thiết bị di động.
Các bước thực hiện Tensorflow có thể được sử dụng cho việc tạo các mô hình, đào tạo, thao tác dữ liệu và thực hiện dự đoán như trên hình 2 dựa trên [11]. Vấn đề là, học máy, đặc biệt là học sâu, cần sức mạnh tính toán lớn. Có thể thực hiện đào tạo trong thiết bị di động và thiết bị nhúng, nhưng sẽ tốn rất nhiều thời gian. Vì vậy, sẽ sử dụng Tensorflow cho giai đoạn đào tạo và Tensorflow Lite có thể được sử dụng cho giai đoạn suy luận.
Phương pháp thực hiện quá trình huấn luyện gồm các bước sau: Bước 1: Chuẩn bị dữ liệu của riêng bạn. Bước 2: Gán nhãn cho dữ liệu. Bước 3: Sử dụng mạng mobilemetV2 trích xuất đặc trưng. Bước 4: Sử dụng đầu ra của mạng mobilenetV2 làm đầu vào của mạng SSD để phát hiện đối tượng. Bước 5: Chuyển đổi sang định dạng Tensorflow Lite Bước 6: Tạo app Android chạy mô hình Tensorflow Lite
KẾT LUẬN Bài báo tập trung vào nghiên cứu việc sử dụng các mạng nơ-ron trong việc nhận diện hành động của con người. Trong bài báo này chúng tôi đã nhận diện được các hành động với độ chính xác trên 90 phần trăm. Tuy nhiên hệ thống vẫn còn nhược điểm như kết quả nhận diện các hành động chưa cao và tốc độ khung hình trên giây còn thấp. Do đó hướng tiếp theo chúng tôi sẽ thực hiện các bước như tăng tốc độ khung hình trên giây, cải thiện độ chinh xác bằng cách tăng độ phân giải của ảnh đầu vào hoặc sử dụng phương pháp tiền xử lý đã thực hiện trong bài báo trước [22], [23], cũng như kết hợp mạng nơ-ron với các mạng khác để tăng hiệu quả tính toán và thực hiện với đối tượng bất kỳ. |