在人工智能技术迅猛发展的背景下,医药行业正迎来前所未有的智能化转型浪潮。特别是以DeepSeek为代表的大语言模型,正在重塑药物研发、临床诊疗和医药情报分析等领域的传统范式。本书旨在系统阐述医药大模型从理论到实践的全景图,为行业从业者、科研人员及技术开发者提供指导。
本书详细阐述了医药大语言模型的基本概念、训练过程、技术特点及其在药物研发、临床试验、市场分析及循证医学等多方面的应用。本书通过丰富的案例与数据分析,展示了医药大语言模型如何提高药物研发效率、优化临床试验设计、精准分析市场动态并为临床决策提供科学依据。此外,本书还展望了医药大语言模型的未来发展趋势,包括在智能经济背景下的应用前景与医药数据的演进方向,为医药行业的智能化转型提供了宝贵的参考与指导。

《医药大模型:重塑医药产业未来》
高飞, 叶中楷, 吴刚 著
定价:89元
中国科学技术出版社·中科书院
本书获得包括CMAC理事长李景成、复旦大学教授张成洪、同济大学附属上海市肺科医院主任医师郑迪、北京积水潭医院主任医师孙成栋、映恩生物创始人朱忠远、参天制药大中华区研发总监叶盛强、药时代创始人郭劲松等一众专家的倾情推荐。
作者简介:
高飞 :中国卫生信息学会常务委员,慢性病防控信息技术委员会副主任委员,中国药学会高级会员,中国人工智能学会青年委员,CMAC 医学事务生成式 AI联盟委员,美国费城儿童医院(CHOP)访问学者。毕业于中国科学院大学,拥有临床药学、计算机、数学等多个学位与交叉学科背景。曾任职于多家知名药企从事肿瘤临床研究,任高级科学家。长期从事医药与人工智能结合方面的研究,曾负责北京协和医院临床科研平台研发,负责包括赛诺菲、吉利德、阿斯利康、罗氏、药明生物等多家知名药企数智化知识平台产品。
叶中楷:智慧芽生命科学工程技术总监,河南省科技成果奖获得者,清晖管理大赛一等奖获得者,国家级高级系统分析师,亚马逊国际架构师认证,复旦大学 MBA。领导智慧芽内部生物医药大数据管理平台的研发,管理国际化研发团队研发诸多产品。
吴刚:南京柯基数据首席执行官,CMAC医学事务生成式 AI联盟负责人,中国人民大学信息学院企业硕导。毕业于中科院软件所人机交互与智能信息处理专业。曾在全球领先的智能数据公司汤森路透担任中国区首席顾问。现担任中华预防医学会慢性病预防与控制分会委员,中国计算机学会数字医疗分会执行委员,中文信息学会医疗健康与生物信息专委执行委员。
试读章节
医药数据智能平台建设
在完成需求梳理与顶层设计之后,我们需要对整体数据层进行详细设计。整体平台需要明确数据的来源,以及数据如何扭转、如何对齐、如何链接。同时还需要考虑数据如何进行展示。在3.2与3.3章节中,我们详细讨论过数据的治理与获取问题。本章中我们需要结合数据平台,整体把握医药企业的核心应用场景。
1.数据智能平台设计
在需求分析中,确定了数据的范围。在顶层规划中,需要保证未来数据追加的灵活性。对于整个数据平台而言,需要明确数据源、数据存储字段设计、算法池、业务表设计等内容,如图5-19所示,给出了医药知识平台的通用架构设计,数据平台设计是基于前期各部门内部需求梳理而确定的。

图5-19 数据智能平台设计
整个医药知识平台的数据分为5个处理过程:原始数据采集、数据实体标准化、医药情报源数据、应用接口数据、产品信息。
原始数据采集属于原始数据的收集工作。包括从目标的数据源、前端埋点、爬虫系统等多种数据源获取数据。数据采集框架负责存储和管理各种结构化或非结构化的数据,包括数据表的组织和数据的查询、更新、删除和插入等基本操作。例如自动化的监控各国药监局动态,使用AI技术抽取医药新闻、临床试验、医药会议文献等数据中的实体药物与关系信息。
数据实体标准化是生物医药数据较独特的部分,无论是适应症、药物名称、靶点、药物类型等数据都需要构建标准字典表,这样才能将多个源获取到的数据进行对齐,使从不同数据源获取到的信息能够联通。例如我们获取了大量新闻与临床试验结果,需要使用曲美木单抗这个药品名称,将这些新闻与临床试验结果中有关曲美木单抗的内容进行提取。不同数据源药物名称的叫法多种多样,我们需要将药物名称归一到一个标准的药物名称上,才能够完成上述的信息合并。
医药情报元数据是指在原始采集数据经过数据治理后获得的元数据。数据治理包括数据清洗、数据转换、数据融合等关键技术,确保数据的质量和可靠性。对于生物医药数据的治理不仅包含提升数据价值的内容,如数据管理、数据目录、数据质量等,也包含数据消歧标准化等服务。
应用接口数据是指在完成标准化数据之后,将应用端数据封装为标准的API进行服务。应用接口数据已经是成熟的数据服务方式,能够接入各类系统进行数据传输。
产品信息本质上不是一种数据形态,而是向用户展示的最终产品形态。产品通过API获得数据,可以组合成各种各样的服务页面,也能进行各种数据分析。
2.数据消歧与标准化
数据消歧关注的是解决实体名称的歧义问题,而数据标准化则是通过数学变换将数据转换到同一尺度,以便于比较和分析。
数据消歧主要是指在自然语言处理(NLP)中,解决文本中实体的歧义问题。当一个实体名称可以指代多个不同的实体时,就需要进行消歧。例如,“BTC”可能指代一个商标,但在医药领域应该指胆管癌,数据消歧的目标是根据上下文信息确定实体的准确含义。
数据标准化是指药物、靶点、适应症都有很多不同的名称,药物的别名包括通用名、商品名、研发代码等,同一个药的名称最多可以高达30个以上,这些名称可能出现在新闻、专利、文献等多种文件中。数据标准化的目标就是将这些名称识别出并指向同一个药物,同理对于靶点、适应症等同样适用。
在医药数据消歧与标准化的前提下,医药知识平台才可能将不同来源的数据打通进行纵向分析。
您可以通过中国技术经济学会会员管理系统电脑版或手机版填写信息,加入学会。通过电脑版会员管理系统加入学会的方式为:登录学会网址(http://www.cste.org.cn),在首页导航条上点击“加入学会”,填写相关信息。通过手机版会员管理系统加入学会,可以扫描下图二维码,点击“加入学会”,填写相关信息。
请按照会员管理系统中的提示选择会员类别、等级、分支机构等,完善个人信息,自行注册。通过审核后,即可成为会员。审核时间为1—3个工作日。

中国技术经济学会
2025年7月4日

