匿名
未登录
登录
医学百科
搜索
查看“PMC”的源代码
来自医学百科
名字空间
页面
更多
更多
语言
页面选项
Read
查看源代码
历史
←
PMC
因为以下原因,您没有权限编辑本页:
您所请求的操作仅限于该用户组的用户使用:
用户
您可以查看和复制此页面的源代码。
{{Infobox | bodystyle = width: 300px; float: right; clear: right; margin: 0 0 1em 1em; border: 1px solid #a2a9b1; background: #f9f9f9; | abovestyle = background: #e0e0e0; font-size: 110%; font-weight: bold; text-align: center; | headerstyle = background: #eeeeee; font-weight: bold; | above = PubMed Central | image = | label1 = 英文缩写 | data1 = '''PMC''' | label2 = 维护机构 | data2 = [[NIH]] 下属的 NLM | label3 = 上线时间 | data3 = 2000年2月 | label4 = 核心特征 | data4 = '''免费全文''' (Free Full Text) | label5 = 收录文章数 | data5 = > 930 万篇 (2024年) | label6 = 法律依据 | data6 = NIH 公共获取政策<br>(Public Access Policy) | label7 = 对AI价值 | data7 = 医疗[[大模型]]训练的<br>最大全文语料库 }} '''PubMed Central'''(简称'''PMC'''),是由美国国家医学图书馆(NLM)运营的一个免费的、永久性的生物医学和生命科学期刊文献数字档案库。 与 [[PubMed]] 不同(PubMed 主要提供摘要),PMC 提供'''全文'''(Full Text)访问。它是全球开放科学(Open Science)运动的里程碑。所有由美国国立卫生研究院([[NIH]])资助的研究成果,在发表后必须强制上传至 PMC 供公众免费阅读。<ref name="PMC_About" /> == PMC 与 PubMed 的关键区别 == 这是初学者最容易混淆的概念,但对于数据工程师至关重要: * '''PubMed''' = '''搜索引擎'''(类似 Google)。 ** 它包含超过 3600 万条记录,但绝大多数只展示标题和摘要(Abstract)。 ** 如果您想看全文,通常需要点击链接跳转到出版商(如 Nature, Elsevier)的网站,而那里通常有付费墙(Paywall)。 * '''PMC''' = '''数字图书馆'''(类似书架)。 ** 它存储的是文章的物理文件(XML/PDF)。 ** 在 PMC 里的每一篇文章,您都可以直接免费下载全文。 ** ''关系'':PMC 收录的所有文章都能在 PubMed 里搜到,但 PubMed 里搜到的文章只有一部分(约 1/4)存放在 PMC 里。 == 核心数据集:PMC Open Access Subset == 对于您的“智慧医生”AI 项目,这是最有价值的部分。 * '''定义''':PMC 中有一部分文章不仅免费阅读,还允许'''机器挖掘'''(Text Mining)和二次使用。这就是 '''PMC Open Access Subset'''。 * '''规模''':包含数百万篇结构化良好的 XML 格式全文。 * '''用途''':这是目前训练医疗垂直大模型(LLM)最核心的全文语料库。 ** ''摘要 vs 全文'':仅训练摘要,AI 只能学会“结果”;训练全文,AI 才能学会“方法”和“逻辑推理”。例如,具体的药物配方、实验步骤、[[不良事件]]的详细描述,通常只存在于全文的“方法”或“讨论”章节中。 == 法律与政策背景 == PMC 的快速壮大得益于强有力的政策推动: * '''NIH 公共获取政策 (2008)''':美国法律规定,凡是拿了 NIH 经费(纳税人的钱)做出来的研究,必须在发表后的 12 个月内,将最终审稿手稿(Author Manuscript)上传到 PMC。<ref name="NIH_Policy" /> * '''Plan S (欧洲)''':类似的开放获取计划也在欧洲推行,催生了 PMC 的姊妹站点 '''Europe PMC'''。 == 对 AI 药物研发的意义 == * '''挖掘负面结果''':很多药物研发的失败案例(Negative Results)隐藏在全文的图表或附件中。通过挖掘 PMC 全文,AI 可以帮助药企避免重复前人的失败路径。 * '''多模态学习''':PMC 文章中包含大量病理切片、CT 影像和图表。这是训练多模态 AI(既能看图又能读文)的最佳数据源。 == 参见 == * [[PubMed]] * [[MEDLINE]] * [[NIH]] * [[开放获取]] (Open Access) * [[自然语言处理]] (NLP) == 参考资料 == <references> <ref name="PMC_About">National Library of Medicine. (2023). PMC Overview. [https://www.ncbi.nlm.nih.gov/pmc/about/intro/]</ref> <ref name="NIH_Policy">National Institutes of Health. (2008). NIH Public Access Policy Details. [https://publicaccess.nih.gov/]</ref> </references> [[Category:数字图书馆]] [[Category:生物信息学]] [[Category:开放获取]]
该页面使用的模板:
模板:Infobox
(
查看源代码
)
模板:Infobox/row
(
查看源代码
)
返回至
PMC
。
导航
导航
症状百科
疾病百科
药品百科
中医百科
中药百科
人体穴位图
全国医院列表
功能菜单
最近更改
随机页面
Wiki工具
Wiki工具
特殊页面
页面工具
页面工具
用户页面工具
更多
链入页面
相关更改
页面信息
页面日志