Tự nhiên [ Đăng ngày (19/05/2025) ]
Phát hiện tương đồng hình ảnh trong bài báo khoa học bằng phương pháp xử lý ảnh kết hợp mạng học sâu ResNet50
Nghiên cứu do các tác giả Trần Thanh Điện, Lê Duy Anh, Nguyễn Thị Kim Quyên - Trường Đại học Cần Thơ, Nguyễn Bạch Đan, Nguyễn Thanh Hải, Nguyễn Thái Nghe, Trần Thị Trúc Linh - Viettel Store, Cần Thơ thực hiện nhằm đề xuất mô hình học sâu ResNet50 để phân loại hình ảnh trong bài báo khoa học, nhằm phát hiện tương đồng và cải thiện tìm kiếm hình ảnh.

Trong bối cảnh phát triển mạnh mẽ của công nghệ và mạng xã hội, việc xử lý và lưu trữ hình ảnh ngày càng trở nên phổ biến. Hình ảnh đóng vai trò quan trọng trong nhiều lĩnh vực như y tế, giáo dục và khoa học. Tuy nhiên, việc tìm kiếm và phát hiện sự trùng lặp hình ảnh trong các bài báo khoa học vẫn là một thách thức đáng kể. Trí tuệ nhân tạo (Artificial Intelligence - AI) là một lĩnh vực nghiên cứu nhằm giúp máy tính có thể tự động hóa các hành vi thông minh của con người. Các hệ thống AI hoạt động bằng cách thu thập dữ liệu gán nhãn, phân tích các mẫu và mối tương quan để đưa ra dự đoán chính xác. Đặc biệt, học máy (machine learning - ML),  một nhánh của AI, có khả năng học tập và đưa ra quyết định dựa trên dữ liệu đầu vào mà không cần lập trình cụ thể (Russell & Norvig, 2021; McCorduck, 2004). Do đó, ML trở thành công cụ hữu ích trong việc phân tích và tính toán tương đồng hình ảnh.

Trí tuệ nhân tạo được chính thức trở thành một lĩnh vực nghiên cứu từ năm 1956 (McCorduck, 2004), trải qua nhiều giai đoạn phát triển mạnh mẽ. Trong đó, ML được xem là một trong những công nghệ cốt lõi, hỗ trợ nhiều ứng dụng trong thực tế. Thay vì lập trình tường minh cho từng tác vụ, ML sử dụng các thuật toán để phân tích dữ liệu, học hỏi từ các mẫu và đưa ra dự đoán hoặc quyết định. Trong lĩnh vực xử lý hình ảnh, các mô hình AI có thể phân loại, tìm kiếm và phát hiện các hình ảnh tương đồng từ một tập dữ liệu lớn. Một trong những phương pháp quan trọng trong xử lý ảnh là trích xuất đặc trưng (Feature Extraction) (Guyon & Elisseeff, 2006). Đây là quá trình trích xuất các điểm đặc trưng từ hình ảnh để biểu diễn dưới dạng vector số, giúp so sánh và xác định mức độ tương đồng giữa các hình ảnh. Phương pháp này có ý nghĩa quan trọng trong phát hiện trùng lặp hình ảnh trong bài báo khoa học và đảm bảo tính chính xác của nghiên cứu.

Học sâu (Deep learning - DL) sử dụng các mạng nơ-ron nhân tạo để phân tích dữ liệu ở nhiều cấp độ trừu tượng khác nhau. Một trong những mô hình nổi bật của deep learning trong xử lý ảnh là mạng nơron tích chập (Convolutional Neural Network - CNN). CNN đã chứng minh hiệu quả vượt trội trong nhận diện, phân loại, phát hiện đối tượng và phân đoạn hình ảnh. Các mô hình CNN tiêu biểu bao gồm: AlexNet (2012), VGG16 (2014), GoogleNet Inception-V1 (2014), ResNet50 (2015), DenseNet (2016) (He et al., 2016).

Trong thời gian diễn ra đại dịch COVID-19, một nhóm nghiên cứu đã đề xuất một hệ thống nhận diện và cảnh báo khi phát hiện người không đeo hoặc đeo khẩu trang sai cách dựa trên các kỹ thuật học sâu AlexNet, GoogLeNet và VGG16 (Luu et al., 2022). Nghiên cứu này nhấn mạnh tầm quan trọng của việc đeo khẩu trang trong không gian công cộng để giảm nguy cơ lây nhiễm. Bằng cách sử dụng tập dữ liệu với 4.950 ảnh với 3 lớp (không đeo khẩu trang, đeo sai cách, đeo đúng cách), nghiên cứu đã cho kết quả dự đoán độ chính xác của hệ thống đạt trên 95%. Trong khi đó, một nghiên cứu khác đề xuất một phương pháp sử dụng kỹ thuật học máy để phân loại chất lượng tấm pin năng lượng mặt trời sử dụng ba mô hình gồm hồi quy logistic (Logistic Regression), máy vector hỗ trợ (Support Vector Machine) và mạng nơ-ron nhân tạo (Artificial Neural Network). Hình ảnh các tấm pin được thu thập bằng camera hồng ngoại trong phòng tối với 900 ảnh được chia thành 4 lớp, mỗi lớp biểu thị mức độ hư hỏng khác nhau. Kết quả cho thấy, máy vector hỗ trợ là mô hình tối ưu nhất cho bài toán phân loại chất lượng tấm pin với độ chính xác cao nhất đạt khoảng 97% (Luu et al., 2023).

Trong nghiên cứu này, ResNet50 được lựa chọn để phân tích, xử lý và tính toán tương đồng hình ảnh, đồng thời so sánh với hai mô hình học sâu phổ biến khác là AlexNet và VGG16 để so sánh hiệu suất phân loại của từng mô hình, trong đó sâu ResNet50 chứng minh được khả năng tổng quát hóa tốt nhất, là lựa chọn tối ưu cho các bài toán nhận diện và phân loại ảnh có độ phức tạp cao. ResNet50 là một phiên bản của kiến trúc ResNet với 50 lớp, bao gồm các lớp tích chập (convolutional layers) kết hợp với các Residual Blocks (khối trong mạng nơ-ron sâu giúp giải quyết các vấn đề khi mạng trở nên quá sâu gây suy giảm đạo hàm và giảm hiệu suất huấn luyện) để cải thiện khả năng học của mô hình, được giới thiệu lần đầu bởi nhóm nghiên cứu của Kaiming He, Xiangyu Zhang, Shaoqing Ren và Jian Sun trong bài báo "Deep Residual Learning for Image Recognition" tại hội nghị CVPR 2015 (He et  al., 2016).

Nghiên cứu này đề xuất mô hình học sâu ResNet50 để phân loại hình ảnh trong bài báo khoa học, nhằm phát hiện tương đồng và cải thiện tìm kiếm hình ảnh. Mô hình sử dụng ResNet50 đã được huấn luyện trước, kết hợp với tập dữ liệu gồm 12.049 ảnh thuộc 11 lớp, trích xuất từ Tạp chí Khoa học Đại học Cần Thơ bằng PyMuPDF. Phương pháp Activation Map Visualization giúp làm nổi bật vùng dữ liệu huấn luyện thông qua sáu kênh đầu tiên của từng lớp khác nhau trên mô hình học sâu.

Qua thời gian nghiên cứu, kết quả cho thấy, hệ thống cơ sở dữ liệu chứa hình ảnh từ các bài báo khoa học, kết hợp với phương pháp phân loại và trích xuất đặc trưng phục vụ cho tìm kiếm hình ảnh tương đồng với độ chính xác cao được xây dựng trong nghiên cứu. Bằng cách áp dụng mô hình ResNet50, hệ thống có khả năng nhận diện và so sánh hình ảnh một cách hiệu quả, giúp tối ưu hóa quá trình truy xuất thông tin trong lĩnh vực khoa học. Hơn nữa, nghiên cứu đã chứng minh tính hiệu quả của việc sử dụng các thuật toán tối ưu hóa nhằm cải thiện độ chính xác trong phân tích hình ảnh. Hiệu suất của mô hình ResNet50 cũng được đánh giá thông qua việc so sánh với hai mô hình học sâu phổ biến khác là AlexNet và VGG16 trong bài toán phân loại hình ảnh khoa học. Kết quả cho thấy ResNet50 là mô hình phù hợp nhất để áp dụng vào các bài toán phân loại ảnh có độ phức tạp cao.

Tạp chí Khoa học Đại học Cần Thơ - Tập 61, Số 2A (2025) (nthang)
In bài viết  
Bookmark
Ý kiến của bạn

Xã hội-Nhân văn  
 
Sống chậm lại – yêu thương nhiều hơn
Dường như trong cuộc đời mỗi người đều đều sẽ phải trải qua những khoảng thời gian rơi vào guồng quay của công việc: ngày đi làm, tối về việc gia đình, rồi đi ngủ, sáng hôm sau một chu trình như vậy lại được lặp lại. Trong guồng quay đó, mọi người đã có lúc bỏ lỡ những giá trị của cuộc sống thậm chí không còn chút khoảng lặng để chính mình được nghỉ ngơi rằng tại sao lại sống vội vã đến thế. Những lúc như thế nếu bạn cảm thấy mệt mỏi, đừng ép buộc bản thân mình quá mà hãy để cơ thể và tâm trí bạn có cơ hội để nghỉ ngơi.


 

Video




© Copyright 2020 Trung tâm Thông tin Khoa học và Công nghệ - Sở Khoa học & Công nghệ TP. Cần Thơ
Địa chỉ: 118/3 Trần Phú - Phường Cái Khế - Quận Ninh Kiều - thành phố Cần Thơ
Giấy phép số: 05/ GP-TTĐT, do Sở Thông tin và Truyền Thông thành phố Cần Thơ cấp ngày 23/5/2017
Trưởng Ban biên tập: Ông Vũ Minh Hải - Giám Đốc Trung tâm Thông tin Khoa học và Công nghệ - Sở Khoa học & Công nghệ TP. Cần Thơ
Ghi rõ nguồn www.trithuckhoahoc.vn khi bạn sử dụng lại thông tin từ website này
-->