Trí tuệ nhân tạo [ Đăng ngày (22/03/2024) ]
Apple đạt được đột phá trong AI tạo sinh: ra mắt mô hình AI mới giúp xóa nhòa khoảng cách giữa hình ảnh và văn bản
Mô hình ngôn ngữ MM1 mới của Apple có thể hiểu được nội dung, đối tượng, chủ thể và bối cảnh của một bức ảnh để trả lời các câu hỏi liên quan.

Apple đang âm thầm tiến nhanh hơn trong lĩnh vực trí tuệ nhân tạo tạo sinh khi vừa đạt được bước đột phá mới của mình, mô hình ngôn ngữ lớn đa phương tiện MM1. Bước tiến này được mô tả trong tài liệu nghiên cứu mới có tên "MM1: Phương pháp, Phân tích & Hiểu biết từ Việc Huấn luyện trước các mô hình ngôn ngữ lớn Đa phương tiện", cho thấy các khả năng ấn tượng đối với việc nhận diện hình ảnh và suy luận dựa trên ngôn ngữ tự nhiên.

Mô hình MM1 sẽ có 3 kích thước bao gồm 3 tỷ, 7 tỷ và 30 tỷ tham số. Các nhà nghiên cứu đã sử dụng những mô hình này để thực hiện thí nghiệm, xác định các yếu tố then chốt ảnh hưởng đến hiệu suất. Điều thú vị là khác với các bộ dữ liệu được huấn luyện trước khác, đối với MM1, độ phân giải và số lượng thẻ gắn vào hình ảnh có ảnh hưởng lớn đến hiệu quả hoạt động của mô hình, lớn hơn nhiều so với các kết nối ngôn ngữ và hình ảnh.

Nhóm nghiên cứu đã xây dựng MM1 một cách tỉ mỉ khi sử dụng kiến trúc "Mixture of Experts" và phương pháp "Top-2 Gating". Cách tiếp cận này không chỉ mang lại kết quả xuất sắc trong các phép đo benchmark huấn luyện trước mà còn chuyển hóa thành hiệu suất mạnh mẽ đối với các phép đo benchmark đa phương tiện hiện có. Ngay cả sau khi được tinh chỉnh cho các nhiệm vụ cụ thể, các mô hình MM1 vẫn duy trì hiệu suất rất đáng kể.

"Chúng tôi chứng minh rằng đối với việc đào tạo trước đối với các mô hình đa phương thức quy mô lớn, việc sử dụng kết hợp tỉ mỉ các dữ liệu chú thích hình ảnh, văn bản hình ảnh xen kẽ và chỉ thuần văn bản là rất quan trọng để đạt được kết quả chụp vài ảnh hiện đại trên nhiều điểm chuẩn," Các nhà nghiên cứu giải thích. Bằng cách đào tạo các mô hình trên một tập dữ liệu đa dạng bao gồm thông tin ngôn ngữ và hình ảnh, các mô hình MM1 có thể thực hiện xuất sắc các nhiệm vụ như chú thích hình ảnh, trả lời câu hỏi bằng hình ảnh và suy luận ngôn ngữ tự nhiên.

Các thử nghiệm đã tiết lộ rằng các mô hình MM1-3B-Chat và MM1-7B-Chat vượt trội so với hầu hết các đối thủ cùng kích cỡ trên thị trường. Các mô hình này đặc biệt nổi bật trong các nhiệm vụ như VQAv2 (trả lời câu hỏi dựa trên hình ảnh và văn bản), TextVQA (trả lời câu hỏi dựa trên văn bản về một hình ảnh), và ScienceQA (trả lời câu hỏi khoa học).

Điều đáng ngạc nhiên là dù phiên bản lớn nhất của mô hình MM1 chỉ có 30 tỷ tham số nhưng lại thể hiện tốt khả năng học tập theo ngữ cảnh, cho phép nó thực hiện lý luận nhiều bước đối với hàng loạt hình ảnh đầu vào bằng cách sử dụng lời nhắc "chuỗi suy nghĩ". Điều này chỉ ra tiềm năng cho thấy các mô hình đa phương thức lớn hơn có thể giải quyết các vấn đề phức tạp, có kết thúc mở, thường phải có sự hiểu biết và tạo ra ngôn ngữ có căn cứ.

Tuy nhiên, hiệu suất tổng thể của MM1 chưa thực sự vượt qua được mô hình Gemini của Google hoặc GPT-4V của OpenAI. Mặc dù MM1 chưa phải là người dẫn đầu tuyệt đối, nó vẫn là một bước tiến lớn của Apple trong lĩnh vực trí tuệ nhân tạo tạo sinh. Đầu năm nay, công ty cũng đã mua lại DarwinAI, một startup ứng dụng AI trong hoạt động kiểm tra chất lượng của quy trình sản xuất, giúp nâng cao chất lượng sản phẩm.

Ngoài ra, trước đó nhiều nguồn tin cho biết Apple đang nghiên cứu một framework mô hình ngôn ngữ lớn có tên là "Ajax" cũng như một chatbot có tên nội bộ là "Apple GPT". Mục tiêu là tích hợp các công nghệ này vào Siri, Messages, Apple Music cũng như các ứng dụng và dịch vụ khác.

Apple có lịch sử là người theo sau hiệu quả thay vì người tiên phong trong các bước ngoặt công nghệ lớn. Nhưng với AI có thể sẽ biến đổi mọi khía cạnh của thế giới số, sức ép duy trì vị thế cạnh tranh cho Apple là rất lớn. Việc công bố MM1 cho thấy Apple có tài năng và nguồn lực để tạo ra những tiến bộ mới, nhưng vẫn cần thời gian để biết được liệu nhà sản xuất iPhone có bắt kịp các đối thủ đi trước hay không.

Nguyễn Hải
Theo https://genk.vn (hthtam)
In bài viết  
Bookmark
Ý kiến của bạn

Hiệu chuẩn cảm biến áp lực đất trong điều kiện phòng thí nghiệm
Cảm biến áp lực đất được sử dụng phổ biến trong lĩnh vực địa kỹ thuật nhằm xác định ứng suất đất tại vị trí lắp đặt trong khối đất hoặc tại giao diện giữa đất và kết cấu công trình. Tuy nhiên, giá trị đo được từ cảm biến chịu ảnh hưởng đáng kể bởi điều kiện làm việc, môi trường đo và phương pháp hiệu chuẩn. Do đó, việc hiệu chuẩn cảm biến áp lực đất trước khi đưa vào sử dụng thực tế là yêu cầu bắt buộc nhằm đảm bảo độ chính xác của kết quả đo. Bài báo này tập trung nghiên cứu hiệu chuẩn cảm biến áp lực đất dạng màng ngăn có đường kính 30 mm (earth pressure cell – EPC) của hãng Kyowa trong điều kiện phòng thí nghiệm. Quá trình hiệu chuẩn được thực hiện trong hai môi trường khác nhau là môi trường chất lỏng và môi trường đất cát bão hòa nhằm đánh giá sự khác biệt về độ nhạy của cảm biến. Kết quả nghiên cứu cho thấy cảm biến có độ nhạy cao hơn khi hiệu chuẩn trong môi trường chất lỏng so với môi trường đất cát bão hòa với chiều dày lớp cát bằng 6,5 lần đường kính cảm biến. Các phương trình hiệu chuẩn thu được đều có dạng tuyến tính, với hệ số tương quan và độ tin cậy cao. Kết quả nghiên cứu là cơ sở quan trọng cho việc ứng dụng cảm biến áp lực đất trong đo đạc ứng suất đất phục vụ thiết kế và thi công công trình địa kỹ thuật.

Xem nhiều

Tiêu điểm

Chuyển đổi số tại Cần Thơ: Thực trạng và giải pháp hoàn thiện hệ thống chính sách nâng cao năng lực đổi mới sáng tạo của các doanh nghiệp
86.000 trận động đất bí ẩn được AI tiết lộ ở Yellowstone
Nỗ lực hoàn thiện hạ tầng công nghệ thông tin, đảm bảo kết nối thông suốt
Tập trung cao độ cho phát triển kinh tế - xã hội thành phố
Nâng cao chất lượng đội ngũ cán bộ làm công tác đối ngoại
Lãnh đạo UBND thành phố Cần Thơ làm việc với Sở Khoa học và Công nghệ về tình hình hoạt động sau khi hợp nhất ba địa phương
Hội đồng tư vấn, giao trực tiếp tổ chức chủ trì nhiệm vụ KH&CN (Tư vấn và chứng nhận Tiêu chuẩn ISO 9001:2015 – Hệ thống quản lý chất lượng - Các yêu cầu và Tiêu chuẩn ISO 14001:2015 – Hệ thống quản lý môi trường) thuộc Chương trình NSCL năm 2025
Khám phá ra protein quan trọng đằng sau sức mạnh chống lão hóa của việc tập thể dục
4 triệu chứng chính của ung thư đại tràng
Bộ não bị lão hóa nhanh là do ảnh hưởng từ 64 gene
Ứng dụng di động hỗ trợ phục hồi chức năng liệt nửa người do đột quỵ
Microsoft cáo buộc nhóm tin tặc đứng sau mạng lưới Deepfake AI
Công nghệ lưu trữ lượng tử vừa đạt đột phá: Chứa 5.000 phim 4K trên một tinh thể bé hơn đầu ngón tay?
Sony tuyên bố hợp tác gây chấn động ngành game, mang tính năng độc quyền trên AMD RX 9000 đến PS5 Pro, vạch ra tương lai cho PS6
Đại học Harvard công bố 4 loại trái cây giúp hỗ trợ sống 'trường thọ' nên ăn thường xuyên
Siêu thị số  
 
Nghiên cứu thiết kế và chế tạo mô hình hỗ trợ đào tạo lái ô tô dựa trên mô phỏng thực tế
Việc ứng dụng công nghệ mô phỏng trong đào tạo lái xe ô tô đang ngày càng được quan tâm nhằm nâng cao chất lượng giảng dạy, giảm chi phí và hạn chế rủi ro trong quá trình học tập. Nghiên cứu này trình bày quá trình thiết kế và chế tạo mô hình hỗ trợ tự học lái ô tô thông qua mô phỏng các thao tác điều khiển phương tiện theo tiêu chuẩn sát hạch lái xe hiện hành của Việt Nam. Mô hình được xây dựng với cấu trúc phần cứng tương tự cabin ô tô thực tế, bao gồm hệ thống vô lăng, bàn đạp ga, phanh, ly hợp, cần số, ghế ngồi điều chỉnh, dây an toàn và màn hình hiển thị kích thước lớn. Phần mềm mô phỏng được triển khai dựa trên nền tảng Euro Truck Simulator 2, cho phép tái hiện các bài thi sa hình, điều kiện thời tiết và tình huống giao thông đa dạng. Kết quả thử nghiệm cho thấy mô hình hoạt động ổn định, mang lại cảm giác lái chân thực, góp phần hỗ trợ người học rèn luyện kỹ năng lái xe, đồng thời tiết kiệm thời gian và chi phí đào tạo.


 
Công nghệ 4.0  
 
Một tầm nhìn do cộng đồng đề xuất về nguồn tri thức mới cho trí tuệ nhân tạo
Nghiên cứu do nhóm các tác giả Vinay K Chaudhri, Chaitan Baru, Brandon Bennett, Mehul Bhatt, Darion Cassel, Anthony G Cohn, Rina Dechter, Esra Erdem, Dave Ferrucci, Ken Forbus, Gregory Gelfond, Michael Genesereth, Andrew S. Gordon, Benjamin Grosof, Gopal Gupta, Jim Hendler, Sharat Israni, Tyler R. Josephson, Patrick Kyllonen, Yuliya Lierler, Vladimir Lifschitz, Clifton McFate, Hande Küçük McGinty, Leora Morgenstern, Alessandro Oltramari, Praveen Paritosh, Dan Roth, Blake Shepard, Cogan Shimizu, Denny Vrandečić, Mark Whiting, Michael Witbrock thuộc Công ty TNHH Nghiên cứu Hệ thống Tri thức, Sunnyvale, Hoa Kỳ thực hiện.


 
Tin học  
 
Nghiên cứu thiết kế và chế tạo mô hình hỗ trợ đào tạo lái ô tô dựa trên mô phỏng thực tế
Việc ứng dụng công nghệ mô phỏng trong đào tạo lái xe ô tô đang ngày càng được quan tâm nhằm nâng cao chất lượng giảng dạy, giảm chi phí và hạn chế rủi ro trong quá trình học tập. Nghiên cứu này trình bày quá trình thiết kế và chế tạo mô hình hỗ trợ tự học lái ô tô thông qua mô phỏng các thao tác điều khiển phương tiện theo tiêu chuẩn sát hạch lái xe hiện hành của Việt Nam. Mô hình được xây dựng với cấu trúc phần cứng tương tự cabin ô tô thực tế, bao gồm hệ thống vô lăng, bàn đạp ga, phanh, ly hợp, cần số, ghế ngồi điều chỉnh, dây an toàn và màn hình hiển thị kích thước lớn. Phần mềm mô phỏng được triển khai dựa trên nền tảng Euro Truck Simulator 2, cho phép tái hiện các bài thi sa hình, điều kiện thời tiết và tình huống giao thông đa dạng. Kết quả thử nghiệm cho thấy mô hình hoạt động ổn định, mang lại cảm giác lái chân thực, góp phần hỗ trợ người học rèn luyện kỹ năng lái xe, đồng thời tiết kiệm thời gian và chi phí đào tạo.


 



© Copyright 2020 Trung tâm Khởi nghiệp và Đổi mới sáng tạo - Sở Khoa học và Công nghệ TP. Cần Thơ
Địa chỉ: 118/3 Trần Phú - Phường Cái Khế - thành phố Cần Thơ
Giấy phép số: 05/ GP-TTĐT, do Sở Thông tin và Truyền Thông thành phố Cần Thơ cấp ngày 23/5/2017
Trưởng Ban biên tập: Ông Vũ Minh Hải - Giám đốc Trung tâm Khởi nghiệp và Đổi mới sáng tạo - Sở Khoa học & Công nghệ TP. Cần Thơ
Ghi rõ nguồn www.trithuckhoahoc.vn khi bạn sử dụng lại thông tin từ website này