Tin học [ Đăng ngày (29/03/2025) ]
Đánh giá các thuật toán lọc hiệu quả trong xử lý dữ liệu lớn
Nghiên cứu được thực hiện bởi nhóm tác giả Phan Thượng Cang, Trần Thị Tố Quyên và Triệu Thanh Ngoan thuộc Trường Công nghệ Thông tin và Truyền thông, Trường Đại học Cần Thơ. Nghiên cứu được đăng trên Tạp chí Khoa học Đại học Cần Thơ Tập 60, Số 5A (2024): 59-68.

Trong kỷ nguyên dữ liệu lớn, việc xử lý và phân tích dữ liệu nhanh chóng và hiệu quả là thách thức lớn. Khả năng lọc và truy xuất thông tin liên quan từ tập dữ liệu khổng lồ trở nên quan trọng trong nhiều ứng dụng như khai phá dữ liệu, học máy, phân tích thời gian thực và hỗ trợ ra quyết định. Vì vậy, nghiên cứu và tối ưu hóa các thuật toán lọc đã thu hút sự quan tâm lớn của cộng đồng khoa học và chuyên gia ngành. Các thuật toán lọc giúp cải thiện đáng kể hiệu suất xử lý dữ liệu lớn bằng cách loại bỏ dữ liệu không liên quan hoặc dư thừa, giảm chi phí tính toán và rút ngắn thời gian truy vấn. Hiệu quả của chúng tác động trực tiếp tới hiệu năng tổng thể và khả năng mở rộng của hệ thống xử lý dữ liệu lớn, khiến việc tối ưu hóa thuật toán lọc trở thành lĩnh vực nghiên cứu quan trọng Các thuật toán lọc phổ biến như Bloom Filter, Cuckoo Filter, Quotient Filter, Morton Filter và Vacuum Filter đều có ưu nhược điểm riêng về hiệu quả lưu trữ, tốc độ chèn và truy vấn, tỷ lệ dương tính giả và khả năng thích ứng với đặc tính dữ liệu khác nhau. Việc hiểu rõ sự đánh đổi của từng thuật toán và lựa chọn giải pháp phù hợp cho từng bài toán cụ thể là rất quan trọng để tối ưu hóa hiệu suất xử lý.

Bên cạnh đó, sự phát triển của các framework tính toán phân tán như Apache Spark đã tạo ra cuộc cách mạng trong xử lý dữ liệu lớn thông qua việc cho phép thực thi song song và phân tán các thuật toán lọc trên cụm máy tính lớn. Tích hợp các thuật toán lọc với các framework này hứa hẹn tăng tốc đáng kể tốc độ xử lý và khả năng xử lý khối lượng dữ liệu ngày càng tăng. Tuy nhiên, việc đánh giá và phân tích hiệu năng của các thuật toán lọc trong môi trường phân tán là cần thiết do sự khác biệt với môi trường truyền thống. Nhiều nghiên cứu gần đây đã tập trung vào ứng dụng và cải tiến các bộ lọc cấu trúc dữ liệu xác suất trong nhiều lĩnh vực khác nhau. Maulana et al. (2023) đề xuất sử dụng bộ lọc Bloom, Xor và Cuckoo để tối ưu hóa truy vấn cơ sở dữ liệu cho doanh nghiệp vừa và nhỏ. Ezzaki et al. (2020) cung cấp tổng quan về các biến thể của bộ lọc Bloom. Burdakov et al. (2019) áp dụng Bloom Filter Cascade trên Spark để tối ưu truy vấn SQL. Một số nghiên cứu khác tập trung vào bài toán tìm kiếm và kết hợp tương đồng chuỗi sử dụng các phương pháp lọc. Các nghiên cứu này chỉ ra sự phát triển tích cực và tiềm năng ứng dụng rộng rãi của các phương pháp lọc dữ liệu.

Nghiên cứu này nhằm giải quyết nhu cầu cấp thiết về đánh giá và so sánh toàn diện hiệu năng của các thuật toán lọc khác nhau trong bối cảnh xử lý dữ liệu lớn. Thông qua thử nghiệm và so sánh mở rộng, việc đánh giá ưu nhược điểm của từng thuật toán và sự phù hợp của chúng trong các tình huống cụ thể được thực hiện; đồng thời, nghiên cứu tác động của việc tích hợp các thuật toán này với Apache Spark, chỉ ra tiềm năng cải thiện hiệu suất đáng kể thông qua xử lý song song và phân tán.

Qua quá trình nghiên cứu có thể kết luận như sau: các thuật toán lọc hiệu quả trong môi trường xử lý dữ liệu lớn như Bloom Filter, Cuckoo Filter, Quotient Filter, Morton Filter và Vacuum Filter được trình bày chi tiết và đánh giá hiệu suất. Kết quả thực nghiệm cho thấy Quotient Filter là thuật toán hiệu quả nhất về mặt lưu trữ và cân bằng tốt giữa các tiêu chí hiệu năng. Quotient Filter sử dụng ít không gian lưu trữ nhất cho mỗi phần tử và đạt tốc độ chèn, tìm kiếm, xóa ở mức cao và ổn định. Bên cạnh đó, các thuật toán khác cũng thể hiện những ưu điểm riêng phù hợp với các yêu cầu cụ thể. Bloom Filter có tốc độ tốt, thích hợp cho các ứng dụng yêu cầu chèn và tìm kiếm nhanh trên dữ liệu tĩnh. Morton Filter nổi trội về tốc độ tìm kiếm nhưng chậm hơn khi chèn dữ liệu mới, phù hợp khi ưu tiên tốc độ đọc. Vacuum Filter, mặc dù có thời gian chèn chậm nhất, nhưng cung cấp khả năng tìm kiếm và xóa nhanh, là một lựa chọn tốt cho các trường hợp yêu cầu tìm kiếm và xóa nhanh mà không cần chèn dữ liệu thường xuyên. Khi được triển khai trên nền tảng Spark với khả năng xử lý song song và phân tán, tốc độ xử lý của các thuật toán được cải thiện đáng kể. Đặc biệt, Quotient Filter đạt mức cải thiện vượt bậc, hơn 50% khi chạy trên cluster so với môi trường local. Điều này mở ra triển vọng ứng dụng hiệu quả các thuật toán lọc, đặc biệt là Quotient Filter, để xử lý dữ liệu lớn và phân tán.

nhahuy
Theo Tạp chí Khoa học Đại học Cần Thơ Tập 60, Số 5A (2024): 59-68
In bài viết  
Bookmark
Ý kiến của bạn

Xem nhiều

Tiêu điểm

Microsoft cáo buộc nhóm tin tặc đứng sau mạng lưới Deepfake AI
Công nghệ lưu trữ lượng tử vừa đạt đột phá: Chứa 5.000 phim 4K trên một tinh thể bé hơn đầu ngón tay?
Sony tuyên bố hợp tác gây chấn động ngành game, mang tính năng độc quyền trên AMD RX 9000 đến PS5 Pro, vạch ra tương lai cho PS6
Startup xe điện Dat Bike đã không còn "trong tay” người Việt
Trung Quốc tự đẩy mình vào 'thời khắc sinh tử': 300 startup xe điện chỉ còn 7 hãng lớn có thể tồn tại, chiến trường xe điện khốc liệt hơn bất kỳ lúc nào
Chuyên gia Phạm Chi Lan chỉ ra 4 điểm yếu của các nhà sáng lập Việt: Nhiều startup cho rằng xuất khẩu được mới 'oai', trong khi thị trường nội còn khó hơn ngoại
Startup KAMEREO ‘ấm bụng’ trong ‘mùa đông gọi vốn’: Hoàn tất vòng Series B với 7,8 triệu USD từ 5 ‘đồng hương’ Nhật Bản
Founder - CEO Amslink: Kiến tạo tương lai Anh ngữ cho thế hệ trẻ Việt
CASTI Awards 2024 - Tôn vinh sản phẩm khoa học, công nghệ và đổi mới sáng tạo
Thông cáo báo chí Hội thảo “Phát triển hệ sinh thái số về nguồn tin khoa học, công nghệ và đổi mới sáng tạo phục vụ phát triển kinh tế - xã hội thành phố Cần Thơ”
Khai mạc Chợ công nghệ và thiết bị chuyên ngành Nông nghiệp Cần Thơ 2024 – Tech4Agri CanTho 2024
Lãnh đạo thành phố tham quan, trải nghiệm các công nghệ, thiết bị tại Tech4Agri CanTho 2024
Các ứng dụng AI trong nông nghiệp
Hành trình Tech4Agri CanTho 2024 – với chủ đề “Khoa học, công nghệ và đổi mới sáng tạo – Đánh thức nền nông nghiệp đa giá trị”
Gần 300 công nghệ, thiết bị và sản phẩm dự kiến trưng bày, giới thiệu tại Tech4Agri CanTho 2024
Siêu thị số  
 
Thiết kế, chế tạo và thử nghiệm hệ thống cân đa đầu
Nghiên cứu được thực hiện bởi nhóm tác giả Trần Nhựt Thanh, Dương Công Thương, Nguyễn Phước Ân, Đái Tiến Trung và Nguyễn Hoàng Dũng thuộc Khoa Tự động hóa, Trường Bách Khoa, Trường Đại học Cần Thơ. Nghiên cứu được đăng trên Tạp chí Khoa học Đại học Cần Thơ Tập 60, Số Chuyên đề SDMD (2024): 305-315.


 
Công nghệ 4.0  
 
AI có mô phỏng được cách viết của con người không?
Với sự phát triển của các mô hình ngôn ngữ lớn (LLMs) như ChatGPT và Llama, một câu hỏi luôn thường trực là liệu các mô hình này có thể mô phỏng được cách viết của con người hay không. Một nhóm các nhà nghiên cứu từ Đại học Carnegie Mellon đã tìm kiếm câu trả lời cho câu hỏi này và công bố kết quả nghiên cứu trên tạp chí Proceedings of the National Academy of Sciences (PNAS).


 
Điện tử  
 
Thiết kế bộ sạc pin điều khiển mờ tối ưu dùng giải thuật di truyền
Nguồn năng lượng pin đang là một trong những chủ đề nóng trong ngành công nghiệp tự động, từ bộ lưu điện (Uninterruptible Power Supply – UPS) đến cuộc đua xe điện của nhiều hãng xe lớn. Tuy vậy, thử thách lớn nhất trong sử dụng pin chính là thời gian sạc, nhiệt độ và tuổi thọ của pin.


 
Tin học  
 
Thiết kế, chế tạo và thử nghiệm hệ thống cân đa đầu
Nghiên cứu được thực hiện bởi nhóm tác giả Trần Nhựt Thanh, Dương Công Thương, Nguyễn Phước Ân, Đái Tiến Trung và Nguyễn Hoàng Dũng thuộc Khoa Tự động hóa, Trường Bách Khoa, Trường Đại học Cần Thơ. Nghiên cứu được đăng trên Tạp chí Khoa học Đại học Cần Thơ Tập 60, Số Chuyên đề SDMD (2024): 305-315.


 



© Copyright 2020 Trung tâm Thông tin Khoa học và Công nghệ - Sở Khoa học & Công nghệ TP. Cần Thơ
Địa chỉ: 118/3 Trần Phú - Phường Cái Khế - Quận Ninh Kiều - thành phố Cần Thơ
Giấy phép số: 05/ GP-TTĐT, do Sở Thông tin và Truyền Thông thành phố Cần Thơ cấp ngày 23/5/2017
Trưởng Ban biên tập: Ông Vũ Minh Hải - Giám Đốc Trung tâm Thông tin Khoa học và Công nghệ - Sở Khoa học & Công nghệ TP. Cần Thơ
Ghi rõ nguồn www.trithuckhoahoc.vn khi bạn sử dụng lại thông tin từ website này
-->