永利赌场

永利赌场

【成果】清华-哈佛研究团队联合推出电子病历结构化大模型

学术成果、新闻动态、科研成果
发布时间:2024年12月05日

永利赌场-永利在线赌场网址 俞声课题组、哈佛大学生物统计系/生物医学信息系/CELEHS研究中心Tianxi Cai课题组与生物医学信息系Isaac Kohane课题组联合推出中英文电子病历结构化大型语言模型GENIE(Generative Note Information Extraction,中文名:病历精灵)。

B7E3C


GENIE/病历精灵

//huggingface.co/THUMedInfo/GENIE_zh_7b

//huggingface.co/THUMedInfo/GENIE_en_8b


电子病历自由文本的分析处理是医学信息技术中重要的底层技术。通过将病历文本结构化为计算机系统容易处理的格式,病历数据可以产生非常广泛而有价值的应用,包括促进医学研究(患者筛选、临床数据提取)、院内与跨机构数据交换与治理、卫生统计与政策研究、医保数据分析,和各种临床决策支持系统的开发等。

由于电子病历涉及庞大的医学背景知识和特殊的行业书写习惯,其分析一直以来极具挑战性。从系统建设的角度,电子病历分析系统相比基础的自然语言处理系统还需要增加诸多专业分析模块,给部署与维护造成巨大难度。GENIE的先进性在于将所有自然语言处理环节和模块简化为一个单一模型,将所有分析结果一次性输出为JSON格式,并利用大模型结合背景知识分析复杂语言的优势,提供比传统系统更智能和更具可迁移性的病历分析能力。

相比GPT-4o等通用大模型,GENIE具有免提示词、免样例、可在消费级硬件上本地部署、一次性输出多种分析、效果稳定等优势,特别是其巨大的成本优势使其适合机构进行大规模部署运行。

GENIE目前提供以下分析内容:

  • 术语识别:识别病历中的术语,并结合上下文自动进行缩写辨义和还原。可推断出常见隐形术语。对药品的商品名会自动额外输出其通用名称。

  • 语义类型:判断术语对应医学概念在BIOS生物医学信息学本体系统中的分类。

  • 叙述状态:对术语确定性、主语等属性的分类,包括存在、不存在、疑似、条件、假设、标题、非患者本人等。

  • 身体部位:疾病、症状、检查、手术等涉及的身体部位。

  • 修饰词:身体部位以外的修饰,如急慢性、严重程度、数量、形态等。

  • 数值:术语关联的数值,如化验结果等。可对连续数值(常见如生命体征、化验面板)进行主语推断。

  • 单位:数值对应的单位,对省略的单位可进行推断。

  • 目的:检查、手术、化验、用药等的目的。

    765BF?e=.png

    75715?e=.png

    57659?e=.png

    5414B?e=.png