Cách đây bốn thế kỷ, phụ nữ người Dao ở tỉnh Hồ Nam, Trung Quốc đã sáng tạo ra một hệ thống chữ viết tên là Nüshu - nghĩa đen là “chữ viết của phụ nữ” để bí mật giao tiếp với nhau.
Tuy nhiên, khi phụ nữ dần tiếp cận được nền giáo dục chính thống vào đầu thế kỷ 20, việc sử dụng chữ viết này suy giảm, và nhiều văn bản Nüshu đã bị mất hoặc phá hủy. Từ đầu thế kỷ 21, Trung Quốc đã có những nỗ lực lâu dài để cứu vãn hệ thống chữ viết này khỏi nguy cơ tuyệt chủng.
Ivory Yang - một nghiên cứu sinh ngành khoa học máy tính (ĐH Dartmouth, Guarini), người từng học vài từ Nüshu từ bà ngoại, hiện đang nghiên cứu cách mô hình AI có thể hỗ trợ bảo tồn và phục hồi loại chữ viết quý hiếm này.
Cô cùng các cộng sự gồm: Weicheng Ma (Guarini 24) và phó giáo sư Soroush Vosoughi đã xây dựng một nền tảng có tên NüshuRescue, dựa trên AI, có thể mở rộng áp dụng cho các ngôn ngữ “ít tài nguyên” khác, tức là, có rất ít văn bản hoặc bản dịch để huấn luyện cho hệ thống AI.
Nền tảng này chỉ dùng 35 cặp câu tương ứng giữa tiếng Trung và Nüshu để huấn luyện một mô hình ngôn ngữ lớn (LLM) không có kiến thức trước về Nüshu. Mô hình này đã học được cách dịch từ tiếng Trung sang Nüshu, mở rộng cơ sở dữ liệu chữ viết.
Bộ dữ liệu ban đầu được lấy từ quyển Tổng hợp chữ viết Nüshu Trung Quốc, bộ sưu tập đầy đủ và chính xác nhất hiện nay. Nhóm nghiên cứu đã làm việc với các chuyên gia ngôn ngữ học tính toán để xây dựng bộ dữ liệu gồm 500 cặp câu tiếng Trung–Nüshu đã số hóa, bao gồm nhiều từ được đối chiếu mới.
Khi huấn luyện mô hình GPT-4 Turbo bằng 35 mẫu, kết quả cho thấy mô hình bắt đầu hiểu được ngữ hệ Nüshu và dịch được các cụm từ mới không nằm trong dữ liệu huấn luyện. Đây là bộ dữ liệu số hóa đầu tiên được xác thực bởi chuyên gia về Nüshu–Trung.
Yang mong muốn mở rộng mô hình sang các phương tiện khác, như khăn tay hay quạt giấy có khắc chữ Nüshu. Cô nói:
“Bước tiếp theo là xây dựng các mô hình đa phương thức có thể dùng thị giác máy tính để nhận diện và dịch ký tự từ hình ảnh.”
Công trình của họ đã được công bố tại Hội nghị Quốc tế lần thứ 31 về Ngôn ngữ học Tính toán (COLING 2025), chứng minh rằng mô hình AI thế hệ mới có thể được áp dụng hiệu quả cho các ngôn ngữ ít tài nguyên như tiếng Cherokee.
Tuy nhiên, Vosoughi lưu ý rằng những mô hình này có thể mang theo thiên kiến văn hóa từ các ngôn ngữ thống trị, làm sai lệch hoặc đơn giản hóa bản sắc văn hóa. Do đó, cần có sự tham gia chủ động từ người bản ngữ và nhà ngôn ngữ học để đảm bảo tính xác thực.
Đánh giá công nghệ hiện có
Bên cạnh việc tạo ra công cụ mới, nhóm cũng xem xét các công nghệ ngôn ngữ hiện tại, vốn được thiết kế chủ yếu cho các ngôn ngữ phổ biến.
Một ví dụ điển hình là Google Translate LangID, hiện không hỗ trợ hầu hết ngôn ngữ bản địa châu Mỹ, bao gồm cả tiếng Navajo, dù đây là một trong những ngôn ngữ bản địa được nói rộng rãi nhất ở Bắc Mỹ. Hệ thống của Google thậm chí không thể nhận diện được tiếng Navajo.
Trong một bài nghiên cứu mới được công bố và sẽ trình bày tại Hội nghị ACL khu vực châu Mỹ, Yang và nhóm phát hiện Google LangID thường nhận diện sai tiếng Navajo thành các ngôn ngữ không liên quan.
Để khắc phục, họ đã xây dựng một mô hình nhận diện ngôn ngữ chính xác cao cho tiếng Navajo và các ngôn ngữ Athabaskan liên quan, giúp phân biệt hiệu quả giữa các ngôn ngữ bản địa và các ngôn ngữ bị nhận diện sai.
AI hỗ trợ bảo tồn ngôn ngữ
Giáo sư Rolando Coto Solano, chuyên về ngôn ngữ học tại ĐH Dartmouth, đang xây dựng các mô hình nhận dạng tiếng nói (ASR) cho tiếng Māori quần đảo Cook, giúp tự động chuyển giọng nói thành văn bản từ các bản ghi âm.
Ông cho biết:
“Nhiều công việc của các nhà ngôn ngữ học rất tỉ mỉ, lặp lại và tốn thời gian - chính là những việc máy tính có thể hỗ trợ tốt.”
Từ đó, ông phát triển các mô hình nhận dạng giọng nói cho các ngôn ngữ bản địa khác như Bribri và Cabécar ở Costa Rica, nhằm tăng tốc việc phiên âm, giúp lưu giữ và số hóa các câu chuyện, truyền thống và văn hóa.
Ngoài ra, ông còn phát triển các công cụ chuyển văn bản thành tiếng nói (TTS) và dịch máy (MT), tạo điều kiện để giới trẻ và cộng đồng người di cư tiếp cận nội dung bằng tiếng mẹ đẻ.
“Chúng tôi cũng tổ chức hội thảo để đào tạo người dân quần đảo Cook về ngôn ngữ học và xử lý ngôn ngữ tự nhiên” - ông nói. Mục tiêu là xây dựng các công cụ dễ sử dụng không chỉ cho giới nghiên cứu mà cho cả cộng đồng.
Chương trình nghiên cứu ngôn ngữ của khoa Ngôn ngữ học cũng đang triển khai thực địa tại New Zealand và Rarotonga, nơi sinh viên học tiếng Māori và nghiên cứu thực địa.
“Tại châu Mỹ và nhiều nơi trên thế giới, rất nhiều ngôn ngữ đang bên bờ vực biến mất. Bất kỳ công cụ nào có thể giúp ngăn chặn điều đó đều cấp bách và cần thiết” - Coto Solano kết luận.
|