Nhóm sinh viên dùng AI chuyển đổi thủ ngữ sang giọng nói và văn bản

6 sinh viên trường ĐH Bách khoa (ĐHQG TP. HCM) đã nghiên cứu chế tạo một thiết bị dùng AI để chuyển ngôn ngữ ký hiệu (thủ ngữ) sang giọng nói và văn bản, giúp người khiếm thanh và khiếm thính có thể giao tiếp dễ dàng với cộng đồng.

Nhóm gồm Nguyễn Quang Đức, Lê Đỗ Thanh Bình, Phan Quốc Long, Nguyễn Thành Lưu, Bùi Ngô Hoàng Long (cùng khóa 2018, khoa Khoa học và Kỹ thuật Máy tính) và Cao Khánh Gia Hy (khóa 2020, khoa Quản lý Công nghiệp).

Theo trưởng nhóm Nguyễn Quang Đức, nước ta hiện có khoảng 1 đến 2,5 triệu người khiếm thanh và người khiếm thính, tương đương dân số một tỉnh. Tuy nhiên có rất ít phiên dịch viên ngôn ngữ ký hiệu. Riêng tại Hà Nội hiện chỉ có 6 người đạt đến trình độ có thể dịch các lĩnh vực cho người điếc, trong cả nước có khoảng 10 người. Hiện nay, những người khiếm thanh, khiếm thính hiện vẫn đang sử dụng thủ ngữ (ngôn ngữ ký hiệu Việt Nam) để giao tiếp trong cuộc sống. Cách này có nhiều điểm hạn chế như: người tương tác buộc phải biết thủ ngữ, thời gian tương tác lâu, dễ nhầm lẫn. Đặc biệt, nhu cầu lớn nhưng nước ta rất ít các trung tâm dạy thủ ngữ.

Nhóm sinh viên dùng AI chuyển đổi thủ ngữ sang giọng nói và văn bản ảnh 1
Nhóm nghiên cứu và các giảng viên tư vấn gồm TS Quản Thành Thơ và TS Võ Thanh Hằng.

Đức cho biết, dự án “Thiết bị giao tiếp thông minh dành cho người khiếm thanh, khiếm thính – Speak your mind” (SYM) là thiết bị giao tiếp sử dụng công nghệ AI để chuyển ngôn ngữ ký hiệu sang văn bản và giọng nói phát ra từ các thiết bị điện thoại thông minh để những người khiếm thanh, khiếm thính dễ dàng trao đổi thông tin với mọi người.

Sản phẩm là một thiết bị tích hợp phần mềm thông minh nhằm hỗ trợ người khiếm thanh có thể tương tác với mọi người một cách dễ dàng và thuận tiện hơn bằng cách chuyển đổi thủ ngữ thành văn bản và giọng nói. Thiết bị bao gồm bao gồm hai thành phần: mô-đun camera được gắn trên nón và ứng dụng trên điện thoại Android.

Theo Hoàng Long, chuỗi hình ảnh thủ ngữ của người dùng được ghi nhận từ camera sẽ đi qua bộ nhận diện các điểm chốt của bàn tay MediaPipe của Facebook và được trích xuất thành các đặc trưng. Mô hình AI được huấn luyện trước bằng mạng học sâu sẽ dự đoán từ tương ứng. Kết quả này sẽ xuất ra dưới dạng văn bản và giọng nói thông qua Text2Speech API của Google.

Mô phỏng hoạt động của thiết bị qua chiếc nón.

Camera nhỏ gọn và các linh kiện điện tử được lắp đặt trong hộp nhựa gắn vào nón của người dùng. Vật liệu sử dụng cho hộp chứa linh kiện điện tử là nhựa sinh học (Polylactic Acid – PLA) không độc hại, không gây ảnh hưởng đến sức khỏe người tiêu dùng và có khả năng dễ phân hủy, thân thiện với môi trường

Khi người dùng nhấn nút khởi động của thiết bị, camera này sẽ ghi nhận và chuyển dòng hình ảnh vào ứng dụng của chúng tôi đã cài đặt sẵn trên điện thoại thông minh của người dùng. Ứng dụng sẽ sử dụng các công nghệ ở trên để chuyển dòng hình ảnh thủ ngữ thành văn bản và giọng nói tương ứng hiện lên màn hình và phát ra loa. Bằng cách này, người đối diện có thể hiểu được điều mà người khiếm thanh, khiếm thính cần truyền đạt mà không cần phải học qua thủ ngữ. Ngoài ra, ứng dụng còn có chức năng lưu lại thủ ngữ cùng với văn bản và phát âm tương ứng. Chức năng này giúp cho những người muốn học thủ ngữ có thể lưu trữ bài học một cách dễ dàng. Nói cách khác, hệ thống của chúng tôi vừa là thiết bị dịch thủ ngữ sang văn bản và lời nói, vừa là ứng dụng hỗ trợ học thủ ngữ hiệu quả.

Đối tượng khách hàng mục tiêu trước mắt của sản phẩm hướng đến trong 3 năm tới là cá nhân những người khiếm thanh, khiếm thính và phụ huynh của những người bị khiếm thanh, khiếm thính tại Việt Nam.

Theo đánh giá của nhóm tư vấn gồm TS Võ Thanh Hằng (Khoa Môi trường và tài nguyện) và TS Quản Thành Thơ (Phó Khoa Khoa học và kỹ thuật máy tính), tính độc đáo và sáng tạo của SYM còn là toàn bộ sản phẩm được mã hóa bằng tiếng Việt, dễ dàng sử dụng đối với khách hàng. Bên cạnh đó, thiết bị cũng tích hợp các ngôn ngữ khác nhau đáp ứng các đối tượng khách hàng.

Quang Đức cho biết, giá thành sản phẩm thấp cũng là một ưu thế của dự án: “Nhóm người điếc/khiếm thính có thu nhập bình quân cao nhất ở mức 3 triệu đồng một tháng, so với mức thu nhập chung trên cả nước 5,4 triệu đồng một tháng.”

Nhóm sinh viên dùng AI chuyển đổi thủ ngữ sang giọng nói và văn bản ảnh 3
Tổng quan giao diện của ứng dụng trên thiết bị Android.

Dựa vào chi phí cố định 1 sản phẩm (dao động khoảng 405.600 VND) và chi phí biến động, phân khúc thị trường cùng những dòng sản phẩm cạnh tranh cùng phân khúc, SYM định giá sản phẩm phân phối đến tay người dùng chỉ từ 800.000 – 1 triệu đồng. Một nghiên cứu tiến hành tại Hà Nội, Thái Nguyên, Nghệ An, TP.HCM và Đà Nẵng 2017 với 574 người khuyết tật chỉ ra rằng những người khuyết tật nói chung, người khiếm thanh, khiếm thính nói riêng rất khó khăn để tiếp cận các dịch vụ y tế, giáo dục, tỷ lệ thất nghiệp cao, cảm nhận bị kỳ thị ảnh hưởng đến đời sống vật chất, tinh thần.

Dự án của nhóm đang tham gia cuộc thi “Sinh viên với quyền sở hữu trí tuệ S&IP” năm 2021 với chủ đề “Từ ý tưởng đến cơ hội kinh doanh” do Trung tâm Sở hữu trí tuệ và Chuyển giao Công nghệ (IPTC) ĐHQG TP.HCM phối hợp cùng Khu Công nghệ phần mềm (Khu CNPM) ĐHQG TP. HCM và Trung tâm Nghiên cứu Đào tạo và Hỗ trợ tư vấn, Cục Sở hữu trí tuệ, Bộ KH – CN tổ chức.

Tuấn Anh/TH

CÓ THỂ BẠN QUAN TÂM