Khi ô tô di chuyển dọc theo một con phố hẹp trong thành phố, phản chiếu từ lớp sơn bóng hoặc gương chiếu hậu của những phương tiện đang đỗ có thể giúp người lái nhìn thoáng qua những thứ mà lẽ ra sẽ bị che khuất khỏi tầm nhìn, chẳng hạn như một đứa trẻ đang chơi trên vỉa hè phía sau những chiếc ô tô đang đỗ.
Dựa trên ý tưởng này, các nhà nghiên cứu từ MIT và Đại học Rice đã tạo ra một kỹ thuật thị giác máy tính tận dụng các phản xạ để hình ảnh thế giới. Phương pháp của họ sử dụng phản xạ để biến các vật thể bóng loáng thành “máy ảnh”, cho phép người dùng nhìn thế giới như thể họ đang nhìn qua “lăng kính” của các vật dụng hàng ngày như cốc cà phê bằng gốm hoặc chặn giấy kim loại.
Sử dụng hình ảnh của một vật thể được chụp từ các góc độ khác nhau, kỹ thuật này sẽ chuyển đổi bề mặt của vật thể đó thành một cảm biến ảo ghi lại các phản xạ. Hệ thống AI lập bản đồ những phản xạ này theo cách cho phép hệ thống ước tính độ sâu trong cảnh và ghi lại những góc nhìn mới lạ mà chỉ có thể nhìn thấy từ góc nhìn của đối tượng. Người ta có thể sử dụng kỹ thuật này để nhìn xung quanh các góc hoặc bên ngoài các vật thể chặn tầm nhìn của người quan sát.
Phương pháp này có thể đặc biệt hữu ích trong các phương tiện tự lái. Chẳng hạn, nó có thể cho phép ô tô tự lái sử dụng phản xạ từ các vật thể mà nó đi qua, như cột đèn hoặc tòa nhà, để nhìn xung quanh một chiếc xe tải đang đỗ.
“Chúng tôi đã chỉ ra rằng bất kỳ bề mặt nào cũng có thể được chuyển đổi thành cảm biến với công thức chuyển đổi vật thể thành pixel ảo và cảm biến ảo này. Điều này có thể được áp dụng trong nhiều lĩnh vực khác nhau,” Kushagra Tiwary, nghiên cứu sinh của Nhóm Văn hóa Máy ảnh tại Media Lab và là đồng tác giả chính của bài báo về nghiên cứu này, cho biết.
Tiwary được đồng tác giả chính Akshat Dave, một sinh viên tốt nghiệp tại Đại học Rice, tham gia vào bài báo; Nikhil Behari, cộng tác viên hỗ trợ nghiên cứu của MIT; Tzofi Klinghoffer, một sinh viên tốt nghiệp MIT; Ashok Veeraraghavan, giáo sư kỹ thuật điện và máy tính tại Đại học Rice; và tác giả cấp cao Ramesh Raskar, phó giáo sư khoa học và nghệ thuật truyền thông, đồng thời là lãnh đạo của Nhóm Văn hóa Máy ảnh tại MIT. Nghiên cứu sẽ được trình bày tại Hội nghị về Tầm nhìn Máy tính và Nhận dạng Mẫu.
Suy ngẫm về phản xạ
Các anh hùng trong các chương trình truyền hình về tội phạm thường “phóng to và nâng cao” cảnh quay giám sát để ghi lại hình ảnh phản chiếu — có lẽ là hình ảnh phản chiếu trong kính râm của kẻ tình nghi — giúp họ phá án.
“Trong cuộc sống thực, việc khai thác những phản xạ này không dễ dàng như việc chỉ cần nhấn nút nâng cao. Dave cho biết rất khó để có được thông tin hữu ích từ những hình ảnh phản chiếu này vì những hình ảnh phản chiếu cho chúng ta một cái nhìn méo mó về thế giới.
Sự biến dạng này phụ thuộc vào hình dạng của vật thể và thế giới mà vật thể đó đang phản ánh, cả hai điều này các nhà nghiên cứu có thể có thông tin không đầy đủ về. Ngoài ra, đối tượng bóng có thể có màu sắc và kết cấu riêng trộn lẫn với phản xạ. Ngoài ra, hình ảnh phản chiếu là hình chiếu hai chiều của thế giới ba chiều, khiến cho việc đánh giá độ sâu trong các cảnh được phản chiếu trở nên khó khăn.
Các nhà nghiên cứu đã tìm ra cách để vượt qua những thách thức này. Kỹ thuật của họ, được gọi là ORCa (viết tắt của Objects as Radiance-Field Cameras), hoạt động theo ba bước. Đầu tiên, họ chụp ảnh một vật thể từ nhiều điểm thuận lợi, chụp nhiều hình ảnh phản chiếu trên vật thể bóng loáng đó.
Sau đó, đối với mỗi hình ảnh từ máy ảnh thực, ORCa sử dụng máy học để chuyển đổi bề mặt của vật thể thành cảm biến ảo thu nhận ánh sáng và phản xạ chiếu vào từng pixel ảo trên bề mặt của vật thể. Cuối cùng, hệ thống sử dụng các pixel ảo trên bề mặt của đối tượng để mô hình hóa môi trường 3D theo quan điểm của đối tượng.
Chụp ảnh đối tượng từ nhiều góc độ cho phép ORCa chụp các phản xạ đa góc nhìn mà hệ thống sử dụng để ước tính độ sâu giữa đối tượng bóng và các đối tượng khác trong cảnh, ngoài việc ước tính hình dạng của đối tượng bóng. ORCa lập mô hình cảnh dưới dạng trường bức xạ 5D, trường này ghi lại thông tin bổ sung về cường độ và hướng của các tia sáng phát ra và chiếu vào từng điểm trong cảnh.
Thông tin bổ sung có trong trường bức xạ 5D này cũng giúp ORCa ước tính chính xác độ sâu. Và vì cảnh được thể hiện dưới dạng trường rạng rỡ 5D, thay vì hình ảnh 2D, nên người dùng có thể nhìn thấy các đặc điểm ẩn mà nếu không sẽ bị các góc hoặc vật cản che khuất.
Trên thực tế, một khi ORCa đã chụp được trường bức xạ 5D này, người dùng có thể đặt một máy ảnh ảo ở bất kỳ đâu trong cảnh và tổng hợp những gì máy ảnh đó sẽ nhìn thấy, Dave giải thích. Người dùng cũng có thể chèn các đối tượng ảo vào môi trường hoặc thay đổi hình thức của một đối tượng, chẳng hạn như từ gốm sang kim loại.
“Việc chuyển từ hình ảnh 2D sang môi trường 5D đặc biệt khó khăn. Bạn phải đảm bảo rằng việc lập bản đồ hoạt động và chính xác về mặt vật lý, do đó, nó dựa trên cách ánh sáng di chuyển trong không gian và cách ánh sáng tương tác với môi trường. Chúng tôi đã dành rất nhiều thời gian để suy nghĩ về cách chúng tôi có thể mô hình hóa một bề mặt,” Tiwary nói.
Ước tính chính xác
Các nhà nghiên cứu đã đánh giá kỹ thuật của họ bằng cách so sánh nó với các phương pháp khác lập mô hình phản xạ, đây là một nhiệm vụ hơi khác so với ORCa thực hiện. Phương pháp của họ hoạt động tốt trong việc tách màu thực của đối tượng khỏi phản xạ và nó vượt trội so với các đường cơ sở bằng cách trích xuất hình học và kết cấu đối tượng chính xác hơn.
Họ đã so sánh ước tính độ sâu của hệ thống với dữ liệu chân thực mặt đất mô phỏng về khoảng cách thực tế giữa các vật thể trong hiện trường và nhận thấy dự đoán của ORCa là đáng tin cậy.
“Một cách nhất quán, với ORCa, nó không chỉ ước tính chính xác môi trường dưới dạng hình ảnh 5D, mà để đạt được điều đó, trong các bước trung gian, nó còn thực hiện tốt công việc ước tính hình dạng của đối tượng và tách phản xạ khỏi kết cấu đối tượng,” Dave nói.
Dựa trên bằng chứng về khái niệm này, các nhà nghiên cứu muốn áp dụng kỹ thuật này để chụp ảnh bằng máy bay không người lái. ORCa có thể sử dụng phản xạ mờ nhạt từ các vật thể mà máy bay không người lái bay qua để dựng lại cảnh từ mặt đất. Họ cũng muốn tăng cường ORCa để nó có thể sử dụng các tín hiệu khác, chẳng hạn như bóng đổ, để tái tạo lại thông tin ẩn hoặc kết hợp phản xạ từ hai đối tượng để hình ảnh các phần mới của cảnh.
Raskar cho biết: “Việc ước tính các phản xạ gương thực sự quan trọng để nhìn xung quanh các góc và đây là bước tự nhiên tiếp theo để nhìn xung quanh các góc bằng cách sử dụng các phản xạ mờ trong cảnh,” Raskar nói.
“Thông thường, hệ thống thị giác khó xử lý các vật thể sáng bóng. Bài báo này rất sáng tạo vì nó biến điểm yếu lâu nay của độ bóng của vật thể thành một lợi thế. Bằng cách khai thác sự phản chiếu của môi trường đối với một vật thể sáng bóng, bài báo không chỉ có thể nhìn thấy các phần khuất của cảnh mà còn hiểu được cách cảnh được thắp sáng. Điều này cho phép các ứng dụng trong nhận thức 3D bao gồm, nhưng không giới hạn ở khả năng kết hợp các đối tượng ảo vào các cảnh thực theo cách có vẻ liền mạch, ngay cả trong điều kiện ánh sáng khó khăn,” Achuta Kadambi, trợ lý giáo sư kỹ thuật điện và khoa học máy tính tại Đại học California tại Los Angeles, người không tham gia vào công việc này. “Một lý do khiến những người khác không thể sử dụng các đồ vật sáng bóng theo kiểu này là hầu hết các tác phẩm trước đây đều yêu cầu các bề mặt có hình học hoặc kết cấu đã biết. Các tác giả đã rút ra một công thức mới, hấp dẫn mà không cần kiến thức như vậy.”
|