Lược dịch: Ds Phan Thị Thùy Linh *
* Bệnh viện Tâm Trí Đà Nẵng
Gần một năm sau khi ChatGPT được ra mắt, các ứng dụng về lâm sàng của trí tuệ nhân tạo và mô hình ngôn ngữ lớn (Large language models-LLM) được phát triển nhanh chóng. Về lâu dài, LLM có thể cách mạng hóa phần lớn y học lâm sàng, từ chẩn đoán đến điều trị. Tuy nhiên, trong ngắn hạn, các hoạt động lâm sàng hàng ngày sẽ được LLM thay đổi nhanh nhất và ít bị giám sát nhất. Cụ thể, LLM tóm tắt các ghi chú lâm sàng, thuốc và các dạng dữ liệu bệnh nhân khác đang được phát triển nâng cao để có thể sớm đưa đến tay bệnh nhân mà không cần sự giám sát của Cơ quan Quản lý Thực phẩm và Dược phẩm Hoa Kỳ (FDA). Dù điều này không đơn giản như vẻ ngoài của nó, sự thay đổi trong các bản tóm tắt do LLM tạo ra có thể gây ra những tác động quan trọng và khó lường đối với việc ra quyết định của bác sĩ.
Tóm tắt lâm sàng không có sự giám sát của FDA
LLM tóm tắt dữ liệu lâm sàng của nhiều lĩnh vực. Các công cụ tài liệu lâm sàng đơn giản hơn, hiện đã có sẵn, sử dụng LLM để tạo ra bản tóm tắt từ các đoạn ghi âm của những cuộc gặp gỡ bệnh nhân. Các công cụ LLM hỗ trợ bác sĩ đưa ra các quyết định phức tạp hơn đang được phát triển để tóm tắt thông tin bệnh nhân từ hồ sơ sức khỏe điện tử (electronic health record-EHR).
Ví dụ: LLM có thể tóm tắt các ghi chú thăm khám gần đây của bệnh nhân và kết quả xét nghiệm để tạo ra một “ảnh chụp nhanh” lâm sàng cập nhật trước cuộc hẹn tái khám. Chúng có thể tập hợp nhiều báo cáo X quang dài thành một đoạn ngắn có thể dễ dàng xem lại. Hoặc LLM có thể mô tả tất cả tình trạng phơi nhiễm kháng sinh của bệnh nhân trong năm qua.
EHR hiện tại được xây dựng để lưu trữ tài liệu và thanh toán với khả năng cho phép truy cập thông tin kém hiệu quả đi kèm nội dung khá dài dòng. Điều này có thể khiến bác sĩ gặp khó khăn khi theo dõi và gây ra sai sót lâm sàng. Nếu được triển khai tốt, các bản tóm tắt do LLM tạo ra sẽ mang lại nhiều ưu điểm vượt trội và có thể thay thế nhiều bước nhấp chuột trên EHR.
Tuy nhiên, các bản tóm tắt này cũng tiềm ẩn nhiều nguy cơ vì hoạt động của LLM không được FDA giám sát và có thể được thực hiện ở các phòng khám không có biện pháp bảo vệ an toàn và hiệu quả. Hướng dẫn mới nhất của FDA về phần mềm hỗ trợ quyết định lâm sàng – được xuất bản 2 tháng trước khi ChatGPT phát hành – tình cờ chỉ ra một “con đường” để LLM có thể tránh được sự giám sát của FDA. Ngay cả các LLM thực hiện các nhiệm vụ tóm tắt phức tạp cũng không đủ tiêu chuẩn rõ ràng vì chúng cung cấp kết quả đầu ra dựa trên ngôn ngữ thuật toán chung, thay vì dựa trên các dự đoán cụ thể hoặc ước tính số học về bệnh. Với việc triển khai cẩn thận, chúng tôi hy vọng rằng nhiều LLM tóm tắt dữ liệu lâm sàng có thể đáp ứng một số tiêu chí cụ thể.
Tóm tắt “chính xác” có thể gây hại
Hiện tại, không có tiêu chuẩn toàn diện nào cho các bản tóm tắt lâm sàng do LLM tạo ra ngoài tiêu chí chung rằng cần đảm bảo tính chính xác và ngắn gọn. Tuy nhiên, có nhiều cách để tóm tắt chính xác thông tin lâm sàng. Sự thay đổi về độ dài, bố cục và văn phong trong bản tóm tắt đều có thể tác động đến cách đọc hiểu của bác sĩ lâm sàng và các quyết định tiếp theo dù cố ý hay vô ý. Để minh họa cụ thể những thách thức này, chúng tôi đã yêu cầu ChatGPT-4 tóm tắt một bản mẫu tài liệu lâm sàng chưa định danh (Hình; Phụ lục điện tử trong Phần bổ sung) và rút ra được các đặc điểm sau.
Thứ nhất, các bản tóm tắt do LLM tạo ra đều có thể thay đổi vì 2 nguyên nhân: các thuật toán LLM mang tính xác suất; không có câu trả lời “luôn luôn đúng” cho việc lựa chọn và sắp xếp thông tin để đưa vào bản tóm tắt. Ví dụ: các bản tóm tắt với nhiệm vụ giống nhau nhưng lại lựa chọn đưa ra các thông tin khác nhau về tình trạng bệnh nhân và yếu tố lịch sử bệnh. Cần có các nghiên cứu lâm sàng cụ thể để đánh giá tác động của các bản tóm tắt khác nhau đối với việc chăm sóc bệnh nhân.
Thứ hai, những khác biệt dù nhỏ giữa các dự liệu được tóm tắt cũng có thể ảnh hưởng lớn đến kết quả cuối cùng. Đặc biệt, LLM có thể thể hiện sự thiên vị theo hướng “cá nhân hóa.” Giống như trợ lý cá nhân, sự thiên vị này xảy ra khi LLM điều chỉnh các phản hồi phù hợp với mong đợi của người dùng. Ví dụ, khi được nhắc tóm tắt những lần nhập viện trước đó của một bệnh nhân giả định, các bản tóm tắt sẽ khác nhau theo những cách có ý nghĩa lâm sàng, tùy thuộc vào việc người dùng (bác sĩ/bệnh nhân) lo ngại về nguy cơ nhồi máu cơ tim hay viêm phổi (Hình B).
Cuối cùng, những bản tóm tắt nhìn chung có vẻ chính xác cũng có thể chứa những lỗi nhỏ có ảnh hưởng quan trọng về mặt lâm sàng. Ví dụ, một báo cáo chụp X quang ngực ghi nhận các dấu hiệu ớn lạnh và ho không có đờm, nhưng bản tóm tắt LLM đã tự động thêm triệu chứng “sốt,” chúng tôi tạm gọi đây là lỗi “điều chỉnh bệnh sử” (Hình C). Sự bổ sung triệu chứng này có thể khiến bác sĩ chẩn đoán bệnh viêm phổi và bắt đầu sử dụng thuốc kháng sinh khi ban đầu có thể họ không đưa ra kết luận đó.
Khuyến nghị
Nếu không có những thay đổi về luật từ Quốc hội, FDA sẽ không có thẩm quyền pháp lý rõ ràng để điều chỉnh hầu hết các LLM tạo ra các bản tóm tắt lâm sàng. Tuy nhiên, việc làm rõ các quy định, cùng với các hoạt động tự nguyện từ phía nhân viên y tế, sẽ giúp ích rất nhiều trong việc bảo vệ bệnh nhân đồng thời duy trì các lợi ích của LLM.
Đầu tiên, chúng ta cần các tiêu chuẩn toàn diện cho các bản tóm tắt do LLM; các tiêu chuẩn này liên quan đến nhiều khía cạnh của “độ chính xác,” bao gồm cả việc kiểm tra nghiêm ngặt đối với tính đồng bộ và các lỗi nhỏ về bệnh sử nhưng quan trọng về mặt lâm sàng. Các tiêu chuẩn này phải phản ánh sự đồng thuận về mặt khoa học và lâm sàng, với ý kiến đóng góp của một số công ty công nghệ lớn đang phát triển LLM chăm sóc sức khỏe.
Thứ hai, mục đích cuối cùng các LLM thực hiện tóm tắt lâm sàng là để hỗ trợ lâm sàng. Bất kể quy định hiện hành của FDA, chúng tôi tin rằng chúng nên được thử nghiệm để xác định rõ tác hại và lợi ích lâm sàng trước khi triển khai rộng rãi. Các thử nghiệm này mang lại rủi ro tối thiểu và có thể được thực hiện để cải thiện chất lượng trong hệ thống y tế và giáo dục.
Thứ ba, LLM có thể tóm tắt có rủi ro để các bác sĩ lâm sàng có nhiều gợi ý mở hơn trong chẩn đoán. Chúng tôi khuyến khích FDA thiết lập các quy định về điều này trước. Những quy định này phải nêu rõ rằng một số nhiệm vụ (ví dụ: “tóm tắt tiền sử bệnh nhân liên quan đến nguy cơ suy tim”) khiến LLM hoạt động như một công cụ y tế đặc thù mặc dù bị hạn chế về mặt ngữ nghĩa đối với việc tóm tắt. FDA có thể đưa ra những quy định này trong hướng dẫn mới hoặc dưới dạng cập nhật cho hướng dẫn hiện có.
Việc các LLM tóm tắt dữ liệu lâm sàng hứa hẹn những cơ hội to lớn để hợp lý hóa việc thu thập thông tin từ EHR. Nhưng với sự đa dạng của ngôn ngữ khi tóm tắt, chúng cũng mang đến những rủi ro đặc biệt mà các biện pháp bảo vệ theo quy định hiện hành của FDA không thể giải quyết. Khi các công cụ tóm tắt tiến gần hơn đến thực hành lâm sàng, việc phát triển các tiêu chuẩn cho các bản tóm tắt lâm sàng do LLM tạo ra, kết hợp với các thử nghiệm và nghiên cứu thực tế, sẽ rất quan trọng đối với việc triển khai các công nghệ này một cách an toàn và hiệu quả. Chúng tôi khuyến khích FDA giám sát kĩ càng quá trình này trước khi việc tóm tắt trở thành một phần của quá trình chăm sóc bệnh nhân thông thường.
Nội dung bài được dịch từ bài AI-Generated Clinical Summaries Require More Than Accuracy đăng trên tạp chí JAMA ngày 29/1/2024
Link truy cập bài viết, vui lòng xem