Trí tuệ nhân tạo [ Đăng ngày (24/04/2025) ]
AI hỗ trợ con người trong nỗ lực bảo tồn ngôn ngữ
Các nhà khoa học máy tính và ngôn ngữ học đang nỗ lực xây dựng công nghệ AI để củng cố các ngôn ngữ có nguy cơ mai một.

Cách đây bốn thế kỷ, phụ nữ người Dao ở tỉnh Hồ Nam, Trung Quốc đã sáng tạo ra một hệ thống chữ viết tên là Nüshu - nghĩa đen là “chữ viết của phụ nữ” để bí mật giao tiếp với nhau.

Tuy nhiên, khi phụ nữ dần tiếp cận được nền giáo dục chính thống vào đầu thế kỷ 20, việc sử dụng chữ viết này suy giảm, và nhiều văn bản Nüshu đã bị mất hoặc phá hủy. Từ đầu thế kỷ 21, Trung Quốc đã có những nỗ lực lâu dài để cứu vãn hệ thống chữ viết này khỏi nguy cơ tuyệt chủng.

Ivory Yang - một nghiên cứu sinh ngành khoa học máy tính (ĐH Dartmouth, Guarini), người từng học vài từ Nüshu từ bà ngoại, hiện đang nghiên cứu cách mô hình AI có thể hỗ trợ bảo tồn và phục hồi loại chữ viết quý hiếm này.

Cô cùng các cộng sự gồm: Weicheng Ma (Guarini 24) và phó giáo sư Soroush Vosoughi đã xây dựng một nền tảng có tên NüshuRescue, dựa trên AI, có thể mở rộng áp dụng cho các ngôn ngữ “ít tài nguyên” khác, tức là, có rất ít văn bản hoặc bản dịch để huấn luyện cho hệ thống AI.

Nền tảng này chỉ dùng 35 cặp câu tương ứng giữa tiếng Trung và Nüshu để huấn luyện một mô hình ngôn ngữ lớn (LLM) không có kiến thức trước về Nüshu. Mô hình này đã học được cách dịch từ tiếng Trung sang Nüshu, mở rộng cơ sở dữ liệu chữ viết.

Bộ dữ liệu ban đầu được lấy từ quyển Tổng hợp chữ viết Nüshu Trung Quốc, bộ sưu tập đầy đủ và chính xác nhất hiện nay. Nhóm nghiên cứu đã làm việc với các chuyên gia ngôn ngữ học tính toán để xây dựng bộ dữ liệu gồm 500 cặp câu tiếng Trung–Nüshu đã số hóa, bao gồm nhiều từ được đối chiếu mới.

Khi huấn luyện mô hình GPT-4 Turbo bằng 35 mẫu, kết quả cho thấy mô hình bắt đầu hiểu được ngữ hệ Nüshu và dịch được các cụm từ mới không nằm trong dữ liệu huấn luyện. Đây là bộ dữ liệu số hóa đầu tiên được xác thực bởi chuyên gia về Nüshu–Trung.

Yang mong muốn mở rộng mô hình sang các phương tiện khác, như khăn tay hay quạt giấy có khắc chữ Nüshu. Cô nói:

“Bước tiếp theo là xây dựng các mô hình đa phương thức có thể dùng thị giác máy tính để nhận diện và dịch ký tự từ hình ảnh.”

Công trình của họ đã được công bố tại Hội nghị Quốc tế lần thứ 31 về Ngôn ngữ học Tính toán (COLING 2025), chứng minh rằng mô hình AI thế hệ mới có thể được áp dụng hiệu quả cho các ngôn ngữ ít tài nguyên như tiếng Cherokee.

Tuy nhiên, Vosoughi lưu ý rằng những mô hình này có thể mang theo thiên kiến văn hóa từ các ngôn ngữ thống trị, làm sai lệch hoặc đơn giản hóa bản sắc văn hóa. Do đó, cần có sự tham gia chủ động từ người bản ngữ và nhà ngôn ngữ học để đảm bảo tính xác thực.

Đánh giá công nghệ hiện có

Bên cạnh việc tạo ra công cụ mới, nhóm cũng xem xét các công nghệ ngôn ngữ hiện tại, vốn được thiết kế chủ yếu cho các ngôn ngữ phổ biến.

Một ví dụ điển hình là Google Translate LangID, hiện không hỗ trợ hầu hết ngôn ngữ bản địa châu Mỹ, bao gồm cả tiếng Navajo, dù đây là một trong những ngôn ngữ bản địa được nói rộng rãi nhất ở Bắc Mỹ. Hệ thống của Google thậm chí không thể nhận diện được tiếng Navajo.

Trong một bài nghiên cứu mới được công bố và sẽ trình bày tại Hội nghị ACL khu vực châu Mỹ, Yang và nhóm phát hiện Google LangID thường nhận diện sai tiếng Navajo thành các ngôn ngữ không liên quan.

Để khắc phục, họ đã xây dựng một mô hình nhận diện ngôn ngữ chính xác cao cho tiếng Navajo và các ngôn ngữ Athabaskan liên quan, giúp phân biệt hiệu quả giữa các ngôn ngữ bản địa và các ngôn ngữ bị nhận diện sai.

AI hỗ trợ bảo tồn ngôn ngữ

Giáo sư Rolando Coto Solano, chuyên về ngôn ngữ học tại ĐH Dartmouth, đang xây dựng các mô hình nhận dạng tiếng nói (ASR) cho tiếng Māori quần đảo Cook, giúp tự động chuyển giọng nói thành văn bản từ các bản ghi âm.

Ông cho biết:

“Nhiều công việc của các nhà ngôn ngữ học rất tỉ mỉ, lặp lại và tốn thời gian - chính là những việc máy tính có thể hỗ trợ tốt.”

Từ đó, ông phát triển các mô hình nhận dạng giọng nói cho các ngôn ngữ bản địa khác như Bribri và Cabécar ở Costa Rica, nhằm tăng tốc việc phiên âm, giúp lưu giữ và số hóa các câu chuyện, truyền thống và văn hóa.

Ngoài ra, ông còn phát triển các công cụ chuyển văn bản thành tiếng nói (TTS) và dịch máy (MT), tạo điều kiện để giới trẻ và cộng đồng người di cư tiếp cận nội dung bằng tiếng mẹ đẻ.

“Chúng tôi cũng tổ chức hội thảo để đào tạo người dân quần đảo Cook về ngôn ngữ học và xử lý ngôn ngữ tự nhiên” - ông nói. Mục tiêu là xây dựng các công cụ dễ sử dụng không chỉ cho giới nghiên cứu mà cho cả cộng đồng.

Chương trình nghiên cứu ngôn ngữ của khoa Ngôn ngữ học cũng đang triển khai thực địa tại New Zealand và Rarotonga, nơi sinh viên học tiếng Māori và nghiên cứu thực địa.

“Tại châu Mỹ và nhiều nơi trên thế giới, rất nhiều ngôn ngữ đang bên bờ vực biến mất. Bất kỳ công cụ nào có thể giúp ngăn chặn điều đó đều cấp bách và cần thiết” - Coto Solano kết luận.

htquyen (lược dịch)
Theo https://home.dartmouth.edu/news/2025/04/language-preservations-efforts-get-ai-boost
In bài viết  
Bookmark
Ý kiến của bạn

Xem nhiều

Tiêu điểm

Microsoft cáo buộc nhóm tin tặc đứng sau mạng lưới Deepfake AI
Công nghệ lưu trữ lượng tử vừa đạt đột phá: Chứa 5.000 phim 4K trên một tinh thể bé hơn đầu ngón tay?
Sony tuyên bố hợp tác gây chấn động ngành game, mang tính năng độc quyền trên AMD RX 9000 đến PS5 Pro, vạch ra tương lai cho PS6
Startup xe điện Dat Bike đã không còn "trong tay” người Việt
Trung Quốc tự đẩy mình vào 'thời khắc sinh tử': 300 startup xe điện chỉ còn 7 hãng lớn có thể tồn tại, chiến trường xe điện khốc liệt hơn bất kỳ lúc nào
Chuyên gia Phạm Chi Lan chỉ ra 4 điểm yếu của các nhà sáng lập Việt: Nhiều startup cho rằng xuất khẩu được mới 'oai', trong khi thị trường nội còn khó hơn ngoại
Startup KAMEREO ‘ấm bụng’ trong ‘mùa đông gọi vốn’: Hoàn tất vòng Series B với 7,8 triệu USD từ 5 ‘đồng hương’ Nhật Bản
Founder - CEO Amslink: Kiến tạo tương lai Anh ngữ cho thế hệ trẻ Việt
CASTI Awards 2024 - Tôn vinh sản phẩm khoa học, công nghệ và đổi mới sáng tạo
Thông cáo báo chí Hội thảo “Phát triển hệ sinh thái số về nguồn tin khoa học, công nghệ và đổi mới sáng tạo phục vụ phát triển kinh tế - xã hội thành phố Cần Thơ”
Khai mạc Chợ công nghệ và thiết bị chuyên ngành Nông nghiệp Cần Thơ 2024 – Tech4Agri CanTho 2024
Lãnh đạo thành phố tham quan, trải nghiệm các công nghệ, thiết bị tại Tech4Agri CanTho 2024
Các ứng dụng AI trong nông nghiệp
Hành trình Tech4Agri CanTho 2024 – với chủ đề “Khoa học, công nghệ và đổi mới sáng tạo – Đánh thức nền nông nghiệp đa giá trị”
Gần 300 công nghệ, thiết bị và sản phẩm dự kiến trưng bày, giới thiệu tại Tech4Agri CanTho 2024
Siêu thị số  
 
Việt Nam chỉ xếp sau Trung Quốc về tiềm năng kiếm tiền qua app
Các nhà phát triển ứng dụng (app) Việt Nam giờ đây không còn gặp nhiều trở ngại khi vươn ra thị trường quốc tế. Nhiều studio game Việt đã lọt vào top đầu thế giới về lượt tải xuống.


 
Công nghệ 4.0  
 
Dự báo 05 xu hướng AI định hình tương lai Hành chính công trong năm 2025
Trong năm 2025, AI dự kiến sẽ trở thành một phần thiết yếu trong hoạt động của khu vực công, thay đổi cách thức ra quyết định và phục vụ công dân.


 
Tin học  
 
Việt Nam chỉ xếp sau Trung Quốc về tiềm năng kiếm tiền qua app
Các nhà phát triển ứng dụng (app) Việt Nam giờ đây không còn gặp nhiều trở ngại khi vươn ra thị trường quốc tế. Nhiều studio game Việt đã lọt vào top đầu thế giới về lượt tải xuống.


 



© Copyright 2020 Trung tâm Thông tin Khoa học và Công nghệ - Sở Khoa học & Công nghệ TP. Cần Thơ
Địa chỉ: 118/3 Trần Phú - Phường Cái Khế - Quận Ninh Kiều - thành phố Cần Thơ
Giấy phép số: 05/ GP-TTĐT, do Sở Thông tin và Truyền Thông thành phố Cần Thơ cấp ngày 23/5/2017
Trưởng Ban biên tập: Ông Vũ Minh Hải - Giám Đốc Trung tâm Thông tin Khoa học và Công nghệ - Sở Khoa học & Công nghệ TP. Cần Thơ
Ghi rõ nguồn www.trithuckhoahoc.vn khi bạn sử dụng lại thông tin từ website này
-->