Trí tuệ nhân tạo [ Đăng ngày (05/10/2022) ]
Một phương pháp xây dựng dữ liệu cho hệ thống học sâu trong chẩn đoán một số bệnh thông thường ở trẻ em
Xây dựng một hệ thống hỗ trợ chăm sóc sức khỏe hoặc thăm khám bệnh tự động là mong muốn đã có từ lâu. Với sự phát triển của khoa học máy tính, và nhất là sự phát triển của các phương pháp học sâu, nhu cầu này càng trở nên được quan tâm hơn và cũng càng có cơ sở thành công hơn.

Trên thế giới đã có nhiều công trình nghiên cứu về lĩnh vực này [1]. Các công trình này nghiên cứu ứng dụng từ nhiều lĩnh vực khác nhau của khoa học máy tính như thị giác máy tính, nhận dạng giọng nói cũng như xử lý ngôn ngữ tự nhiên cho tiếng Anh. Những công trình xử lý bài toán chuyên sâu theo chuyên ngành hẹp như [5] và [6] đòi hỏi công sức rất lớn và cũng thu được những kết quả rất tốt. Việc thu thập kiến thức và hiểu biết từ dữ liệu y sinh phức tạp, nhiều chiều và không đồng nhất vẫn là một thách thức quan trọng trong việc xây dựng kho dữ liệu để huấn luyện các hệ thống deep learning. Nhiều loại dữ liệu khác nhau đã và đang xuất hiện trong nghiên cứu y sinh hiện đại, bao gồm hồ sơ sức khỏe điện tử, hình ảnh, dữ liệu cảm biến … Đặc điểm chung của các loại dữ liệu này là phức tạp, không đồng nhất, chú thích kém và nói chung là không có cấu trúc. Việc xử lý các dữ liệu này đòi hỏi nền tảng kiến thức miền đầy đủ.

Nhiều khái niệm và mối quan hệ đang nằm trong các dữ liệu y tế như: các tóm tắt xuất viện, các kết quả xét nghiệm, các công trình nghiên cứu khoa học… Những dữ liệu này được tạo ra liên tục hằng ngày và đang lưu trữ với nhiều dạng khác nhau như: âm thanh, hình ảnh và văn bản. Cụ thể, văn bản tường thuật (clinical arratives) chứa nhiều khái niệm đề cập đến các điều kiện lâm sàng, các vị trí giải phẫu trên cơ thể, các loại thuốc được sử dụng trong quá trình điều trị và những thủ tục (thủ thuật). Việc rút trích các khái niệm và mối quan hệ giữa chúng là cơ sở nền tảng để phát triển các ứng dụng như: tìm kiếm thông tin, hỏi đáp, tóm tắt văn bản và hệ thống hỗ trợ ra quyết định. Nhiều hình thức mặt chữ (surface forms) biểu diễn cùng khái niệm, cho nên việc rút trích và ánh xạ những khái niệm xuất hiện trong tài liệu văn bản đến những thuật ngữ đã được định nghĩa trong các từ vựng hoặc ontology (hay gọi là chuẩn hóa) nhằm giúp cho người dùng dễ dàng nhận biết và hiểu được các khái niệm và mối quan hệ một cách dễ dàng. Trong lĩnh vực y học có nhiều nguồn tài nguyên từ vựng và ontology phong phú, có thể được tận dụng để nhận diện các khái niệm và liên kết các khái niệm hoặc chuẩn hóa. Một trong những nguồn tài nguyên đó là UMLS (Unified Medical Language System), nó chứa trên 130 từ vựng (lexicons/thesauri) với các thuật ngữ từ nhiều ngôn ngữ khác nhau, trong đó UMLS Metathesaurus tích hợp những nguồn tài nguyên chuẩn như: SNOMED-CT, ICD9 và RxNORMđược sử dụng rộng rãi trên thế giới trong chăm sóc lâm sàng, y tế cộng đồng và dịch tể học. Ngoài ra, UMLS cũng cung cấp một mạng ngữ nghĩa, trong đó mỗi khái niệm trong Metathesaurus được biểu diễn bởi một ký hiệu nhận dạng duy nhất khái niệm (CUI - Concept Unique Identifier) và được phân loại ngữ nghĩa [16]. Trong phần tiếp theo của bài báo, các tác giả sẽ trình bày một số công trình liên quan ở mục 2. Mục 3 sẽ trình bày về phương pháp thực hiện từ quá trình xử lý dữ liệu đến các cấu hình của một số giải thuật học sâu dùng trong thử nghiệm của bài báo. Mục 4 các tác giả sẽ trình bày kết quả đạt được và các ý kiến thảo luận. Các tác giả sẽ trình bày những ý kiến kết quận và hướng phát triển tiếp dựa trên kết quả đạt được từ bài báo này trong mục 5.

Nghiên cứu được thực hiện bởi nhóm tác giả: Huỳnh Trung Trụ và Tân Hạnh, Học Viện Công Nghệ Bưu Chính Viễn Thông cơ sở tại TP.HCM

Các bệnh án điện tử có nhiều yếu tố như số đo huyết áp, thân nhiệt, hoặc các chỉ trong xét nghiệm … là những giá trị có ý nghĩa quan trọng thuộc về chuyên ngành khoa học sức khỏe. Nếu chỉ xem các giá trị này như một từ hoặc cụm từ thông thường sẽ dẫn đến chẩn đoán hoặc nhận định sai trong khám chữa bệnh. Tuy nhiên, ngoài những chỉ số kết quả của quá trình khám cận lâm sàng có tính chuyên môn sâu về y khoa, các thông số của quá trình khám tổng quát như chiều cao, cân nặng, huyết áp … không đòi độ chính xác cao. Đây là các thông số cơ bản góp phần vào nhận định phân loại bệnh trong giai đoạn đầu của quá trình khám chữa bệnh. Trong bài báo này các tác giả trình bày phương pháp tiếp cận xử lý các thông tin ban đầu này thành cơ sở tri thức nhằm khai thác khả năng của các hệ thống học sâu cho mục đích hỗ trợ phân loại một số bệnh ở giai đoạn đầu của quá trình khám chữa bệnh.

Dữ liệu mà các tác giả thu thập là các bệnh án điện tử một số bệnh viện và phòng khám tư nhân. Quá trình xử lý tạo kho dữ liệu được thực hiện theo các bước:

Bước 1: Rút trích dữ liệu theo từng ca khám và kết luận của các bác sỹ.

Bước 2: Tạo văn bản cho mỗi ca khám bệnh. Mỗi ca tạo thành một văn bản. Mỗi câu trong văn bản là một thông tin theo khía cạnh như tiền sử bệnh, chẩn đoán, kết luận.

Dữ liệu văn bản được chuyển đổi về dạng ma trận trọng số để sử dụng huấn luyện các mô hình học sâu. Bài báo này sử dụng công cụ word2vec [8] cho việc chuyển đổi này. Word2vec chứa mô hình Continuous Bag-of-Words (CBOW) và mô hình Skip-Gram [9]. Mô hình CBOW dự đoán từ mục tiêu (ví dụ: từ “mặc” có thể tìm ra khi dùng từ “kệ” nếu trong kho ngữ liệu hai từ này có mối quan hệ) từ các từ cùng ngữ cảnh với nó, trong khi mô hình SkipGram thực hiện ngược lại, dự đoán các từ ngữ cảnh được đưa ra từ mục tiêu.

Kết luận: Kết quả thu được của bài báo này cho thấy phương pháp tiếp cận của bài báo là khá triển vọng. Mô hình nhận định bệnh của bài báo có ưu điểm là linh hoạt, dễ tiếp cận và sử dụng với nhiều đối tượng người nếu triển khai dưới dạng website hoặc ứng dụng di động. Tuy vậy, để có thể đánh giá đầy đủ sự hiệu quả của phương phái đề xuất của bài báo, cũng như có thể ứng dụng phương pháp này vào thực tế, thời gian tới các tác giả sẽ thu thập thêm dữ liệu cho nhiều loại bệnh hơn và thử nghiệm với nhiều mô hình học sâu khác.

ntdien
Theo Tạp chí KHCN Thông tin và Truyền thông số 04B (CS.01) 2020
In bài viết  
Bookmark
Ý kiến của bạn


Video

PandaOmics - khám phá và ưu tiên mục tiêu mới
PandaOmics là một trong ba trụ cột chính của nền tảng Pharma.AI của Insilico Medicine. PandaOmics đóng vai trò cực kỳ quan trọng trong giai đoạn đầu của quá trình phát hiện thuốc: khám phá mục tiêu bệnh (target discovery) và tìm kiếm dấu ấn sinh học (biomarker discovery).


Giá trị khách hàng trong khởi nghiệp: Cách đo lường và tối ưu hóa hiệu quả
Trong bối cảnh khởi nghiệp đầy cạnh tranh, việc thu hút và giữ chân khách hàng là yếu tố quyết định sự thành bại của doanh nghiệp. Một sản phẩm hoặc dịch vụ không chỉ cần đáp ứng nhu cầu mà còn phải tạo ra giá trị vượt trội để chinh phục khách hàng. Hiểu và tối ưu hóa giá trị khách hàng giúp startup xây dựng lợi thế cạnh tranh bền vững, gia tăng sự hài lòng và thúc đẩy tăng trưởng doanh thu. Bài viết này sẽ giúp bạn hiểu rõ hơn về khái niệm giá trị khách hàng, cách đo lường và phương pháp tối ưu hóa để đạt hiệu quả kinh doanh cao nhất.





© Copyright 2020 Trung tâm Thông tin Khoa học và Công nghệ - Sở Khoa học & Công nghệ TP. Cần Thơ
Địa chỉ: 118/3 Trần Phú - Phường Cái Khế - Quận Ninh Kiều - thành phố Cần Thơ
Giấy phép số: 05/ GP-TTĐT, do Sở Thông tin và Truyền Thông thành phố Cần Thơ cấp ngày 23/5/2017
Trưởng Ban biên tập: Ông Vũ Minh Hải - Giám Đốc Trung tâm Thông tin Khoa học và Công nghệ - Sở Khoa học & Công nghệ TP. Cần Thơ
Ghi rõ nguồn www.trithuckhoahoc.vn khi bạn sử dụng lại thông tin từ website này
-->