Trong bối cảnh phát triển mạnh mẽ của công nghệ và mạng xã hội, việc xử lý và lưu trữ hình ảnh ngày càng trở nên phổ biến. Hình ảnh đóng vai trò quan trọng trong nhiều lĩnh vực như y tế, giáo dục và khoa học. Tuy nhiên, việc tìm kiếm và phát hiện sự trùng lặp hình ảnh trong các bài báo khoa học vẫn là một thách thức đáng kể. Trí tuệ nhân tạo (Artificial Intelligence - AI) là một lĩnh vực nghiên cứu nhằm giúp máy tính có thể tự động hóa các hành vi thông minh của con người. Các hệ thống AI hoạt động bằng cách thu thập dữ liệu gán nhãn, phân tích các mẫu và mối tương quan để đưa ra dự đoán chính xác. Đặc biệt, học máy (machine learning - ML), một nhánh của AI, có khả năng học tập và đưa ra quyết định dựa trên dữ liệu đầu vào mà không cần lập trình cụ thể (Russell & Norvig, 2021; McCorduck, 2004). Do đó, ML trở thành công cụ hữu ích trong việc phân tích và tính toán tương đồng hình ảnh.
Trí tuệ nhân tạo được chính thức trở thành một lĩnh vực nghiên cứu từ năm 1956 (McCorduck, 2004), trải qua nhiều giai đoạn phát triển mạnh mẽ. Trong đó, ML được xem là một trong những công nghệ cốt lõi, hỗ trợ nhiều ứng dụng trong thực tế. Thay vì lập trình tường minh cho từng tác vụ, ML sử dụng các thuật toán để phân tích dữ liệu, học hỏi từ các mẫu và đưa ra dự đoán hoặc quyết định. Trong lĩnh vực xử lý hình ảnh, các mô hình AI có thể phân loại, tìm kiếm và phát hiện các hình ảnh tương đồng từ một tập dữ liệu lớn. Một trong những phương pháp quan trọng trong xử lý ảnh là trích xuất đặc trưng (Feature Extraction) (Guyon & Elisseeff, 2006). Đây là quá trình trích xuất các điểm đặc trưng từ hình ảnh để biểu diễn dưới dạng vector số, giúp so sánh và xác định mức độ tương đồng giữa các hình ảnh. Phương pháp này có ý nghĩa quan trọng trong phát hiện trùng lặp hình ảnh trong bài báo khoa học và đảm bảo tính chính xác của nghiên cứu.
Học sâu (Deep learning - DL) sử dụng các mạng nơ-ron nhân tạo để phân tích dữ liệu ở nhiều cấp độ trừu tượng khác nhau. Một trong những mô hình nổi bật của deep learning trong xử lý ảnh là mạng nơron tích chập (Convolutional Neural Network - CNN). CNN đã chứng minh hiệu quả vượt trội trong nhận diện, phân loại, phát hiện đối tượng và phân đoạn hình ảnh. Các mô hình CNN tiêu biểu bao gồm: AlexNet (2012), VGG16 (2014), GoogleNet Inception-V1 (2014), ResNet50 (2015), DenseNet (2016) (He et al., 2016).
Trong thời gian diễn ra đại dịch COVID-19, một nhóm nghiên cứu đã đề xuất một hệ thống nhận diện và cảnh báo khi phát hiện người không đeo hoặc đeo khẩu trang sai cách dựa trên các kỹ thuật học sâu AlexNet, GoogLeNet và VGG16 (Luu et al., 2022). Nghiên cứu này nhấn mạnh tầm quan trọng của việc đeo khẩu trang trong không gian công cộng để giảm nguy cơ lây nhiễm. Bằng cách sử dụng tập dữ liệu với 4.950 ảnh với 3 lớp (không đeo khẩu trang, đeo sai cách, đeo đúng cách), nghiên cứu đã cho kết quả dự đoán độ chính xác của hệ thống đạt trên 95%. Trong khi đó, một nghiên cứu khác đề xuất một phương pháp sử dụng kỹ thuật học máy để phân loại chất lượng tấm pin năng lượng mặt trời sử dụng ba mô hình gồm hồi quy logistic (Logistic Regression), máy vector hỗ trợ (Support Vector Machine) và mạng nơ-ron nhân tạo (Artificial Neural Network). Hình ảnh các tấm pin được thu thập bằng camera hồng ngoại trong phòng tối với 900 ảnh được chia thành 4 lớp, mỗi lớp biểu thị mức độ hư hỏng khác nhau. Kết quả cho thấy, máy vector hỗ trợ là mô hình tối ưu nhất cho bài toán phân loại chất lượng tấm pin với độ chính xác cao nhất đạt khoảng 97% (Luu et al., 2023).
Trong nghiên cứu này, ResNet50 được lựa chọn để phân tích, xử lý và tính toán tương đồng hình ảnh, đồng thời so sánh với hai mô hình học sâu phổ biến khác là AlexNet và VGG16 để so sánh hiệu suất phân loại của từng mô hình, trong đó sâu ResNet50 chứng minh được khả năng tổng quát hóa tốt nhất, là lựa chọn tối ưu cho các bài toán nhận diện và phân loại ảnh có độ phức tạp cao. ResNet50 là một phiên bản của kiến trúc ResNet với 50 lớp, bao gồm các lớp tích chập (convolutional layers) kết hợp với các Residual Blocks (khối trong mạng nơ-ron sâu giúp giải quyết các vấn đề khi mạng trở nên quá sâu gây suy giảm đạo hàm và giảm hiệu suất huấn luyện) để cải thiện khả năng học của mô hình, được giới thiệu lần đầu bởi nhóm nghiên cứu của Kaiming He, Xiangyu Zhang, Shaoqing Ren và Jian Sun trong bài báo "Deep Residual Learning for Image Recognition" tại hội nghị CVPR 2015 (He et al., 2016).
Nghiên cứu này đề xuất mô hình học sâu ResNet50 để phân loại hình ảnh trong bài báo khoa học, nhằm phát hiện tương đồng và cải thiện tìm kiếm hình ảnh. Mô hình sử dụng ResNet50 đã được huấn luyện trước, kết hợp với tập dữ liệu gồm 12.049 ảnh thuộc 11 lớp, trích xuất từ Tạp chí Khoa học Đại học Cần Thơ bằng PyMuPDF. Phương pháp Activation Map Visualization giúp làm nổi bật vùng dữ liệu huấn luyện thông qua sáu kênh đầu tiên của từng lớp khác nhau trên mô hình học sâu.
Qua thời gian nghiên cứu, kết quả cho thấy, hệ thống cơ sở dữ liệu chứa hình ảnh từ các bài báo khoa học, kết hợp với phương pháp phân loại và trích xuất đặc trưng phục vụ cho tìm kiếm hình ảnh tương đồng với độ chính xác cao được xây dựng trong nghiên cứu. Bằng cách áp dụng mô hình ResNet50, hệ thống có khả năng nhận diện và so sánh hình ảnh một cách hiệu quả, giúp tối ưu hóa quá trình truy xuất thông tin trong lĩnh vực khoa học. Hơn nữa, nghiên cứu đã chứng minh tính hiệu quả của việc sử dụng các thuật toán tối ưu hóa nhằm cải thiện độ chính xác trong phân tích hình ảnh. Hiệu suất của mô hình ResNet50 cũng được đánh giá thông qua việc so sánh với hai mô hình học sâu phổ biến khác là AlexNet và VGG16 trong bài toán phân loại hình ảnh khoa học. Kết quả cho thấy ResNet50 là mô hình phù hợp nhất để áp dụng vào các bài toán phân loại ảnh có độ phức tạp cao. |