Truyền thông [ Đăng ngày (26/05/2023) ]
Dữ liệu trên nền tảng AI có thực sự chọn lọc và kiểm duyệt kĩ càng?
Mặc dù Google, Meta quảng bá trước công chúng về việc sử dụng bộ dữ liệu “được chọn lọc” và thông qua kiểm duyệt kĩ càng để tạo nên các công cụ AI, nhưng trên thực tế chúng vẫn chứa những nội dung độc hại và vô cùng nguy hiểm.

Trong thời gian vừa qua, các chat bot như ChatGPT của OpenAI hay Bard của Google đang trở thành cơn sốt bởi đây là hệ thống AI có khả năng vượt trội, có thể tạo văn bản theo nhu cầu, tạo những hình ảnh và đoạn phim mới dựa trên những gì đã học được từ cơ sở dữ liệu khổng lồ về sách kỹ thuật số, bài viết trực tuyến và các phương tiện khác.

Hàng triệu người dùng đã thích thú trải nghiệm công cụ này, dùng nó để viết những bài thơ hay bài hát khác lạ, cố gắng khiến nó phạm lỗi hoặc vì các mục đích thực dụng hơn như soạn thư điện tử. Cùng với đó, tất cả những trải nghiệm trên đang giúp nó trở nên thông minh hơn. Tuy nhiên, những bất cập và mặt trái của những nền tảng này liên quan trực tiếp đến việc tạo ra xu hướng xấu cho người dùng, lệ thuộc trong học tập của giới trẻ, điều hướng nhận thức lệch lạc bằng những thông tin không chính thống về lịch sử, tin tức,... với nhiều ngôn từ thù ghét bạo lực, phản cảm… dẫn tới nhiều tranh cãi xung quanh các nền tảng này. Liệu chúng có thực sự được lập nên bởi nguồn dữ liệu đã được chọn lọc và làm sạch?

C4, hay Colossal Clean Crawled Corpus, là bộ dữ liệu như vậy, được Google tập hợp từ hơn 15 triệu website trên toàn cầu và đang được dùng cho các mô hình ngôn ngữ lớn của Google lẫn LLaMA của Meta. Theo Google, C4 được làm sạch, tức không còn chứa nội dung độc hại, ngôn ngữ xúc phạm hoặc phân biệt chủng tộc. Tuy nhiên, theo Washington Post, sự "sạch sẽ" của bộ dữ liệu này chỉ là bề ngoài. Phân tích cho thấy C4 có mặt của hơn 1.000 website theo chủ nghĩa dân tộc da trắng, hay Bookzz - kho lưu trữ sách điện tử vi phạm bản quyền khổng lồ, từng bị FBI đánh sập năm 2022. Google chưa bình luận về thông tin trên.

C4 không phải bộ dữ liệu duy nhất tiềm ẩn nội dung độc hại. Một số thậm chí không có quy trình làm sạch như của Google. Công ty Stability AI, có trụ sở tại London, tuần trước phát hành LLM riêng với tên gọi StableLM. Theo công bố, StableLM được đào tạo trên Pile với dung lượng 850 GB. Phía sau bộ dữ liệu này là EleutherAI, đơn vị tự mô tả là "phòng nghiên cứu AI phi lợi nhuận".

Theo Guardian, EleutherAI từng gây tranh cãi khi thừa nhận dữ liệu Pile được tập hợp từ mọi ngóc ngách trên Internet, trong đó có 100 GB sách điện tử lấy từ website vi phạm bản quyền Bibliotik, 100 GB mã nguồn từ Github và 228 GB nội dung website trên toàn cầu từ 2008. Tất cả đều không có sự đồng ý của tác giả đứng sau. Stability AI cho biết Pile "đem lại cho StableLM hiệu suất cao đáng ngạc nhiên trong các tác vụ và viết mã". Công ty sử dụng dữ liệu mã nguồn mở nhằm "thúc đẩy tính minh bạch và củng cố niềm tin", nhưng không bình luận về vấn đề vi phạm bản quyền của Pile. 

Michael Wooldridge, giáo sư khoa học máy tính tại Đại học Oxford, cho rằng mô hình LLM đứng sau ChatGPT của OpenAI hay Bard của Google vẫn đang tiếp tục thu thập lượng dữ liệu khổng lồ. "Nó gồm mọi thứ trên Internet, mọi liên kết ở mọi website. Trong lượng dữ liệu không thể tưởng tượng đó có lẽ có thông tin của bạn và tôi. Chúng cũng không lưu trữ một chỗ, mà tỏa trên mạng lưới thần kinh khổng lồ và khó xác định", Wooldridge nói. Theo ông, dữ liệu độc hại và vi phạm bản quyền sẽ là hai vấn đề có khả năng trở thành "cơn bão sắp diễn ra" đối với các Công ty AI. "Sẽ có nhiều trận chiến pháp lý thời gian tới", ông dự đoán.

Khánh Mai (t/h)
Theo vietq (nhahuy)
In bài viết  
Bookmark
Ý kiến của bạn

Xem nhiều

Tiêu điểm

Microsoft cáo buộc nhóm tin tặc đứng sau mạng lưới Deepfake AI
Công nghệ lưu trữ lượng tử vừa đạt đột phá: Chứa 5.000 phim 4K trên một tinh thể bé hơn đầu ngón tay?
Sony tuyên bố hợp tác gây chấn động ngành game, mang tính năng độc quyền trên AMD RX 9000 đến PS5 Pro, vạch ra tương lai cho PS6
Startup xe điện Dat Bike đã không còn "trong tay” người Việt
Trung Quốc tự đẩy mình vào 'thời khắc sinh tử': 300 startup xe điện chỉ còn 7 hãng lớn có thể tồn tại, chiến trường xe điện khốc liệt hơn bất kỳ lúc nào
Chuyên gia Phạm Chi Lan chỉ ra 4 điểm yếu của các nhà sáng lập Việt: Nhiều startup cho rằng xuất khẩu được mới 'oai', trong khi thị trường nội còn khó hơn ngoại
Startup KAMEREO ‘ấm bụng’ trong ‘mùa đông gọi vốn’: Hoàn tất vòng Series B với 7,8 triệu USD từ 5 ‘đồng hương’ Nhật Bản
Founder - CEO Amslink: Kiến tạo tương lai Anh ngữ cho thế hệ trẻ Việt
CASTI Awards 2024 - Tôn vinh sản phẩm khoa học, công nghệ và đổi mới sáng tạo
Thông cáo báo chí Hội thảo “Phát triển hệ sinh thái số về nguồn tin khoa học, công nghệ và đổi mới sáng tạo phục vụ phát triển kinh tế - xã hội thành phố Cần Thơ”
Khai mạc Chợ công nghệ và thiết bị chuyên ngành Nông nghiệp Cần Thơ 2024 – Tech4Agri CanTho 2024
Lãnh đạo thành phố tham quan, trải nghiệm các công nghệ, thiết bị tại Tech4Agri CanTho 2024
Các ứng dụng AI trong nông nghiệp
Hành trình Tech4Agri CanTho 2024 – với chủ đề “Khoa học, công nghệ và đổi mới sáng tạo – Đánh thức nền nông nghiệp đa giá trị”
Gần 300 công nghệ, thiết bị và sản phẩm dự kiến trưng bày, giới thiệu tại Tech4Agri CanTho 2024
Siêu thị số  
 
Google phát hành lỗ hổng zero-day định danh CVE-2025-2783
Google vừa phát hành bản vá khẩn cấp cho trình duyệt Chrome nhằm khắc phục một lỗ hổng zero-day nghiêm trọng đầu tiên được phát hiện trong năm 2025. Lỗ hổng này định danh CVE-2025-2783 đã bị tin tặc khai thác trong thực tế.


 
Công nghệ 4.0  
 
Phụ thuộc vào AI có thể làm chúng ta bị động trong tư duy
Trong kỷ nguyên công nghệ số hiện nay, trí tuệ nhân tạo (AI) đã và đang đóng vai trò quan trọng trong hầu hết các lĩnh vực của đời sống nhưng cũng đặt ra nhiều vấn đề đáng suy ngẫm, trong đó, có vấn đề phụ thuộc quá mức vào AI.


 
Điện tử  
   
Tin học  
 
Google phát hành lỗ hổng zero-day định danh CVE-2025-2783
Google vừa phát hành bản vá khẩn cấp cho trình duyệt Chrome nhằm khắc phục một lỗ hổng zero-day nghiêm trọng đầu tiên được phát hiện trong năm 2025. Lỗ hổng này định danh CVE-2025-2783 đã bị tin tặc khai thác trong thực tế.


 



© Copyright 2020 Trung tâm Thông tin Khoa học và Công nghệ - Sở Khoa học & Công nghệ TP. Cần Thơ
Địa chỉ: 118/3 Trần Phú - Phường Cái Khế - Quận Ninh Kiều - thành phố Cần Thơ
Giấy phép số: 05/ GP-TTĐT, do Sở Thông tin và Truyền Thông thành phố Cần Thơ cấp ngày 23/5/2017
Trưởng Ban biên tập: Ông Vũ Minh Hải - Giám Đốc Trung tâm Thông tin Khoa học và Công nghệ - Sở Khoa học & Công nghệ TP. Cần Thơ
Ghi rõ nguồn www.trithuckhoahoc.vn khi bạn sử dụng lại thông tin từ website này
-->