匿名
未登录
登录
医学百科
搜索
查看“自然语言处理”的源代码
来自医学百科
名字空间
页面
更多
更多
语言
页面选项
Read
查看源代码
历史
←
自然语言处理
因为以下原因,您没有权限编辑本页:
您所请求的操作仅限于该用户组的用户使用:
用户
您可以查看和复制此页面的源代码。
{{Infobox | bodystyle = width: 300px; float: right; clear: right; margin: 0 0 1em 1em; border: 1px solid #a2a9b1; background: #f9f9f9; | abovestyle = background: #e0e0e0; font-size: 110%; font-weight: bold; text-align: center; | headerstyle = background: #eeeeee; font-weight: bold; | above = 自然语言处理<br><small>Natural Language Processing</small> | image = [Image of NLP workflow diagram] | label1 = 英文缩写 | data1 = '''NLP''' | label2 = 所属领域 | data2 = [[人工智能]]、计算机科学、<br>语言学 | label3 = 核心目标 | data3 = 让计算机理解、生成和<br>处理人类语言 | label4 = 关键技术 | data4 = [[Transformer]]、[[大语言模型]]、<br>词嵌入 (Embedding) | label5 = 医疗应用 | data5 = [[电子病历]]结构化、CDSS、<br>医学文献挖掘 | label6 = 典型任务 | data6 = [[命名实体识别]] (NER)、<br>关系抽取 (RE)、机器翻译 }} '''自然语言处理'''({{lang-en|Natural Language Processing}},简称'''NLP'''),是[[人工智能]]和语言学领域的分支学科。它探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。 在深度学习时代,尤其是 [[Transformer]] 架构和[[大语言模型]](LLM)出现后,NLP 取得了突破性进展。对于生物医药行业,NLP 被认为是挖掘医疗大数据(如 [[PubMed]] 文献和 [[电子病历]])价值的最关键工具。<ref name="Nature_NLP" /> == 核心任务 (医疗场景) == 在您的“智慧医生”项目中,NLP 主要负责解决以下具体问题: === 1. 命名实体识别 (NER) === * '''定义''':从非结构化文本中识别出具有特定意义的实体。 * ''医疗案例'':从医生手写的病程记录中,自动提取出“吉西他滨”(药物)、“胰腺导管腺癌”(疾病)、“Grade 3”(严重程度)。 * ''技术关联'':提取出的实体通常会映射到 '''[[MeSH]]''' 词表,以实现标准化。 === 2. 关系抽取 (RE) === * '''定义''':确定两个实体之间的语义关系。 * ''医疗案例'':识别句子“吉西他滨显著抑制了 PANC-1 细胞的增殖”中的关系,输出三元组:`{吉西他滨, 抑制, PANC-1}`。这是构建'''知识图谱'''(Knowledge Graph)的基础。 === 3. 问答系统 (QA) === * '''定义''':根据用户的问题,从知识库中检索并生成准确的答案。 * ''医疗案例'':患者问“我爸胰腺癌晚期能吃什么?”,AI 结合营养学指南生成建议。现代 QA 系统常结合 '''RAG'''(检索增强生成)技术,引用 [[PubMed]] 摘要作为回答依据。 == 关键技术演进 == * '''统计机器学习 (1990s-2010s)''':使用 CRF、SVM 等模型。特征工程复杂,泛化能力差。 * '''深度学习 (2013-2017)''':引入 Word2Vec(词嵌入)和 RNN/LSTM。解决了词义向量化问题,但在处理长文本时有缺陷。 * '''预训练模型 (2018-至今)''':以 '''BERT''' 和 '''GPT''' 为代表的 Transformer 架构。 ** '''BioBERT/PubMedBERT''':专门在 [[PubMed]] 和 [[PMC]] 全文上进行预训练的模型。它们比通用的 GPT-4 更懂医学术语(例如,它们知道“CA”在医学语境下通常指“Cancer”而不是“California”)。<ref name="BioBERT" /> == 医疗 NLP 的挑战 == === 1. 术语歧义 === * 同一个缩写 "MS" 可能指“多发性硬化”(Multiple Sclerosis),也可能指“二尖瓣狭窄”(Mitral Stenosis)。AI 必须结合上下文(Context)进行消歧。 === 2. 幻觉 (Hallucination) === * 生成式 AI(如 GPT)有时会一本正经地胡编乱造不存在的药物或副作用。在严肃医疗场景下,必须通过引入外部知识库(如 [[MeSH]]、[[CTCAE]])来约束 AI 的生成。 === 3. 数据隐私 === * 处理 [[电子病历]] (EHR) 时,必须先进行'''去标识化'''(De-identification),去除患者姓名、身份证号等敏感信息,以符合 [[HIPAA]] 或中国《数据安全法》的要求。 == 参见 == * [[人工智能]] * [[大语言模型]] (LLM) * [[MeSH]] - 实体识别的标准库 * [[PubMed]] - 训练数据的来源 * [[电子病历]] - 应用场景 == 参考资料 == <references> <ref name="Nature_NLP">Topol, E. J. (2019). High-performance medicine: the convergence of human and artificial intelligence. ''Nature Medicine'', 25, 44–56.</ref> <ref name="BioBERT">Lee, J., et al. (2020). BioBERT: a pre-trained biomedical language representation model for biomedical text mining. ''Bioinformatics'', 36(4), 1234-1240. [https://doi.org/10.1093/bioinformatics/btz682]</ref> </references> [[Category:人工智能]] [[Category:自然语言处理]] [[Category:生物信息学]]
该页面使用的模板:
模板:Infobox
(
查看源代码
)
模板:Infobox/row
(
查看源代码
)
模板:Lang
(
查看源代码
)
模板:Lang-en
(
查看源代码
)
模板:LangWithName
(
查看源代码
)
返回至
自然语言处理
。
导航
导航
症状百科
疾病百科
药品百科
中医百科
中药百科
人体穴位图
全国医院列表
功能菜单
最近更改
随机页面
Wiki工具
Wiki工具
特殊页面
页面工具
页面工具
用户页面工具
更多
链入页面
相关更改
页面信息
页面日志