[ad_1]
Chia sẻ dữ liệu xuyên biên giới hoặc nhiều địa điểm có thể là thách thức do sự khác biệt trong các quy định và luật pháp, cũng như các mối quan tâm về quyền riêng tư, bảo mật và quyền sở hữu dữ liệu. Tuy nhiên, nhu cầu tiến hành ngày càng tăng
các nghiên cứu lâm sàng đa quốc gia và đa địa điểm quy mô lớn để tạo ra bằng chứng mạnh mẽ và kịp thời hơn cho việc chăm sóc sức khỏe tốt hơn. Để giải quyết vấn đề này, nhóm Federated Open Science tại Roche tin tưởng vào Federated Analytics (phân tích thống kê phi tập trung tăng cường quyền riêng tư) như một giải pháp đầy hứa hẹn để tạo điều kiện cho nhiều sự hợp tác đa địa điểm và dựa trên dữ liệu hơn.
Tính khả dụng và khả năng truy cập dữ liệu cấp độ bệnh nhân chất lượng cao (được chọn lọc) vẫn là một nút thắt dai dẳng đối với sự tiến bộ. Mô hình liên kết là một trong những công cụ hỗ trợ phân tích cộng tác và học máy trong lĩnh vực y tế mà không cần di chuyển bất kỳ dữ liệu cấp độ bệnh nhân nhạy cảm nào.
Ý tưởng của mô hình liên bang là đưa phân tích vào dữ liệu, chứ không phải đưa dữ liệu vào phân tích.
Điều đó có nghĩa là dữ liệu vẫn nằm trong ranh giới của các tổ chức tương ứng và nỗ lực phân tích hợp tác không có nghĩa là sao chép dữ liệu ra bên ngoài cơ sở hạ tầng cục bộ hay cấp quyền truy cập không giới hạn vào các truy vấn dữ liệu.
Nó có nhiều ưu điểm bao gồm:
- Giảm thiểu rủi ro rò rỉ dữ liệu
- Không có bản sao dữ liệu khó theo dõi và quản lý rời khỏi cơ sở
- Tránh chi phí ban đầu và công sức xây dựng hồ dữ liệu
- Vượt qua ranh giới quy định
- Cách tương tác để thử các phương pháp phân tích và chức năng khác nhau
Hãy sử dụng một ví dụ đơn giản về bệnh nhân tiểu đường từ ba bệnh viện khác nhau. Giả sử nhà khoa học dữ liệu bên ngoài muốn phân tích độ tuổi trung bình của bệnh nhân.
Các nhà khoa học dữ liệu từ xa không được chủ sở hữu dữ liệu tin tưởng hoàn toàn, không được phép truy cập dữ liệu, không có quyền truy cập vào bất kỳ dữ liệu cấp hàng nào và không thể gửi bất kỳ truy vấn nào họ muốn (chẳng hạn như DataFrame.get) nhưng họ có thể gọi các hàm liên kết và lấy các giá trị trung bình tổng hợp trong mạng.
Chủ sở hữu dữ liệu cho phép các nhà khoa học dữ liệu từ xa chạy chức năng liên kết nghĩa là so với các nhóm và biến số được chỉ định (ví dụ Tuổi).
Khả năng phân tích tiên tiến như vậy là giá trị gia tăng và hỗ trợ tuyệt vời khi tiến hành các nghiên cứu quan sát để đánh giá hiệu quả điều trị ở nhiều nhóm dân số khác nhau trên khắp các khu vực.
Đây là hình ảnh từ góc nhìn của nhà khoa học dữ liệu sử dụng giải pháp Phân tích liên bang phổ biến có tên là DataSHIELD.
DataSHIELD là gì?
DataSHIELD là một hệ thống cho phép bạn phân tích dữ liệu nhạy cảm mà không cần xem hoặc suy ra bất kỳ thông tin tiết lộ nào về các chủ đề có trong đó.
Dự án này được thúc đẩy bởi dự án học thuật DataSHIELD (Đại học Liverpool) và obiba.org (Đại học McGill).
Đây là giải pháp mã nguồn mở có sẵn trên GitHubgiúp tăng cường sự tin cậy và minh bạch vì mã này chạy sau tường lửa bên trong cơ sở hạ tầng của chủ sở hữu dữ liệu.
Nó còn hơn thế nữa mười năm trên thị trường và đã được sử dụng trong nhiều dự án thành công.
Những ưu điểm chính của DataSHIELD là:
- Các chức năng phân tích liên bang nâng cao với các kiểm tra tiết lộ và tổng hợp thông minh các kết quả
- Xác thực và ủy quyền liên bang, trao quyền cho chủ sở hữu dữ liệu kiểm soát hoàn toàn việc ai làm gì với dữ liệu của họ
- API để tự động hóa tất cả các phần của kiến trúc
- Cơ chế mở rộng tích hợp để tạo các hàm liên kết tùy chỉnh
- Gói cộng đồng các chức năng bổ sung
- Minh bạch hoàn toàn, tất cả mã đều có trên GitHub
Chủ sở hữu dữ liệu có trách nhiệm:
- Triển khai nút DataSHIELD Opal và Rock cục bộ trong cơ sở hạ tầng của họ
- Quản lý người dùng, quyền (chức năng đến biến)
- Cấu hình bộ lọc kiểm tra tiết lộ
- Xem xét và chấp nhận các chức năng tùy chỉnh và triển khai cục bộ của chúng
Các nhà phân tích dữ liệu là:
- Gọi các hàm liên bang và tổng hợp kết quả, thường có độ chính xác cao thay vì phân tích tổng hợp, luôn có bảo vệ tiết lộ dữ liệu
- Viết và thử nghiệm các chức năng liên kết tùy chỉnh của họ sau đó được chia sẻ với mạng để triển khai trong tất cả các nút bởi chủ sở hữu dữ liệu và sau đó được sử dụng trong các nỗ lực phân tích hợp tác
OHDSI được biết đến nhiều nhất với sự hài hòa và chuẩn hóa dữ liệu được gọi là Mô hình dữ liệu chung (CDM) của Quan hệ đối tác về kết quả y tế quan sát (OMOP).
Phiên bản hiện tại của tiêu chuẩn là 5.4, trong khi nó đang phát triển để đáp ứng phản hồi từ các ứng dụng thực tế và các yêu cầu mới, nó đã hoàn thiện và được hỗ trợ bởi các công cụ từ hệ sinh thái OHDSI như BẢN ĐỒ, HADES Và Chiến lược gia.
Hệ thống OHDSI đã có tuổi đời hơn mười năm và có nhiều lần triển khai thực tế thành công.
OHDSI không yêu cầu các bệnh viện và các nguồn dữ liệu khác phải công khai dữ liệu hoặc API của họ trên web nên việc phân tích có thể được thực hiện bằng cách cung cấp thông số kỹ thuật phân tích cho chủ sở hữu dữ liệu, người thực hiện các truy vấn và thuật toán phân tích, xem xét đầu ra và gửi chúng qua các kênh an toàn đến phía phân tích. OHDSI cung cấp các công cụ đầu cuối để hỗ trợ tất cả các bước của quy trình làm việc này.
DataSHIELD, mặc dù yêu cầu kết nối với API máy chủ phân tích (Opal), nhưng cho phép phân tích dữ liệu theo cách tương tác trong khi vẫn bảo vệ quyền riêng tư dữ liệu bằng cách sử dụng một bộ các hàm phân tích không tiết lộ và các kiểm tra tiết lộ nâng cao tích hợp sẵn.
Điều này làm cho việc phân tích trở nên linh hoạt hơn, mang tính khám phá hơn (ở một mức độ nào đó) và cho phép các nhà phân tích dữ liệu thử các phương pháp phân tích khác nhau để học hỏi từ dữ liệu.
Trong trường hợp phương pháp OHDSI truyền thống, mã được cố định trong định nghĩa nghiên cứu đã xác định và được thực hiện thủ công bởi chủ sở hữu dữ liệu. Điều này dẫn đến thời gian chờ đợi lâu hơn để có kết quả (phụ thuộc vào con người) lên đến nhiều tuần và nhiều tháng tùy thuộc vào tổ chức cụ thể. Trong trường hợp phương pháp Phân tích liên bang được mô tả, kết quả có sẵn trong vài giây.
Mặt khác, không có đánh giá thủ công nào về kết quả được gửi lại cho các nhà phân tích bên ngoài, chủ sở hữu dữ liệu được kỳ vọng sẽ tin tưởng vào các chức năng liên kết tích hợp và kiểm tra tiết lộ. Ngoài ra, kết nối web là bắt buộc đối với các phương pháp liên kết.
Tóm tắt lợi ích:
- DataSHIELD cho phép có kết quả ngay lập tức và tự động
- tổng hợp liên bang tích hợp dẫn đến độ chính xác được cải thiện
- bảo vệ tiết lộ bảo vệ dữ liệu thô
- tái sử dụng đầu tư vào việc điều hòa dữ liệu OMOP CDM
- cải thiện chất lượng dữ liệu thông qua việc điều hòa sử dụng OMOP → kết quả phân tích chất lượng cao hơn
Nói cách khác, người ta có thể tận dụng tối đa cả hai phương pháp để cải thiện kết quả phân tích trong các ứng dụng chăm sóc sức khỏe thực tế.
Chúng tôi, hợp tác với Nhóm DataSHIELDđã xác định bốn kịch bản tích hợp chính. Vai trò của chúng tôi (Nhóm Khoa học Mở Liên bang) không chỉ là thể hiện sự quan tâm và lý do kinh doanh của chúng tôi đối với việc tích hợp, mà còn xác định các kiến trúc tích hợp khả thi và định nghĩa bằng chứng về khái niệm.
Tùy chọn 1. Trích xuất, tải và chuyển đổi (ETL) dữ liệu từ nguồn dữ liệu OMOP CDM sang kho dữ liệu DataSHIELD (khi bắt đầu dự án).
Trong phương pháp này, chúng tôi sử dụng phương pháp ETL cổ điển để trích xuất dữ liệu từ nguồn dữ liệu OHDSI và chuyển đổi nó thành dữ liệu sẽ trở thành nguồn dữ liệu, sau đó thêm nó dưới dạng tài nguyên hoặc nhập trực tiếp vào máy chủ DataSHIELD Opal.
Tùy chọn 2. OMOP CDM là nguồn dữ liệu được hỗ trợ gốc trong DataSHIELD.
DataSHIELD hỗ trợ nhiều nguồn dữ liệu khác nhau (tệp phẳng như CSV, dữ liệu có cấu trúc như XML, JSON, cơ sở dữ liệu quan hệ và các tệp khác) nhưng không cung cấp hỗ trợ trực tiếp cho nguồn dữ liệu OHDSI OMOP CDM.
Mục tiêu của thư viện dsOMOP (đang được phát triển) là cung cấp tiện ích mở rộng cho DataSHIELD để cung cấp hỗ trợ hạng nhất cho các nguồn dữ liệu OMOP CDM.
Tùy chọn 3. Sử dụng REST API để truy xuất các tập hợp dữ liệu khi cần.
Tùy chọn này không bỏ qua các lớp API của ngăn xếp OHDSI và hoạt động như cầu nối API DataSHIELD tới các công cụ OHDSI, lớp điều phối và dịch thuật.
Tùy chọn 4. Nhúng DataSHIELD vào ngăn xếp OHDSI.
Điều này có nghĩa là phải tích hợp sâu cả hai hệ sinh thái để tối đa hóa lợi ích, với cái giá phải trả là nỗ lực và sự phối hợp cao giữa hai nhóm (nhóm công nghệ DataSHIELD và OHDSI).
Cả giải pháp và cộng đồng đều có thành tích về các dự án phân tích thành công khi sử dụng các công cụ và phương pháp tiếp cận tương ứng của họ. Trước đây, DataSHIELD đã có những nỗ lực hạn chế trong việc áp dụng OMOP CDM và các thư viện truy vấn (tức là GitHub — sib-swiss/dsSwissKnifesớm https://github.com/isglobal-brge/dsomop).
Vấn đề chính mà chúng tôi cố gắng giải quyết là nhận thức hạn chế liên tục về mô hình liên bang, mà chúng tôi vui vẻ trình bày tại OHDSI Châu Âu 2024 Hội thảo tại Rotterdam với phản hồi rất tích cực, ghi nhận những lợi ích của việc tích hợp trong tương lai. Các cuộc trình diễn thực hành về cách Federated Analytics hoạt động theo quan điểm của nhà phân tích dữ liệu rất hữu ích để truyền tải thông điệp. Câu hỏi chính được đặt ra về việc tích hợp theo kế hoạch là “khi nào” chứ không phải “tại sao”, chúng tôi coi đó là một dấu hiệu tốt và sự khích lệ cho tương lai.
Cả hai hệ sinh thái công nghệ (DataSHIELD, OHDSI) đều đã trưởng thành, tuy nhiên việc tích hợp của chúng đang được phát triển (tính đến tháng 6 năm 2024) và chưa sẵn sàng đưa vào sản xuất. DataSHIELD có thể và đang được sử dụng mà không cần OMOP CDM và trong khi vấn đề về chất lượng dữ liệu và sự hài hòa được công nhận, OMOP chưa bao giờ là yêu cầu trực tiếp hoặc hướng dẫn cho các dự án liên bang.
Giá trị của các mạng lưới liên bang cũng có thể cao hơn nếu các dự án tập trung nhiều hơn vào các hợp tác dài hạn thay vì phân tích một lần, chi phí ban đầu để xây dựng các mạng lưới (từ mọi góc độ) có thể được tái sử dụng khi có nhiều hơn một nghiên cứu được thực hiện trong các tập đoàn. Có những dấu hiệu tiến triển trong lĩnh vực này, trong khi phần lớn các dự án liên bang là các dự án nghiên cứu đơn lẻ.
Quan điểm của chúng tôi về tiềm năng và tương lai của việc tích hợp OHDSI và DataSHIELD là lạc quan. Đây là điều mà ngành công nghiệp mong đợi sẽ xảy ra và được cả hai cộng đồng đón nhận nồng nhiệt.
Sự phát triển của thư viện dsOMOP R cho DataSHIELD đã tăng tốc gần đây.
Kết quả dự kiến sẽ cung cấp giải pháp toàn diện cho tích hợp nguồn dữ liệu (chiến lược số 2) và cho phép phát triển hơn nữa và hợp tác chặt chẽ hơn giữa cả hai hệ sinh thái. Các ứng dụng thực tế của tích hợp dự kiến luôn là cách tốt nhất để thu thập phản hồi vô giá và phát hiện các vấn đề.
Tác giả xin chân thành cảm ơn Jacek Chmiel để có tác động đáng kể đến bài đăng trên weblog cũng như những người đã giúp định hình nỗ lực này: Jacek Chmiel, Rebecca Wilson, Olly Bơ Và Frank DeFalco và nhóm Khoa học mở liên bang tại Roche.
[ad_2]
Source link