宁德核电发布全球最大参数量核工业大模型，引领新能源智能化浪潮

宁德核电推出全球参数量最大的核工业大模型

核电行业是工业场景中相对复杂、安全性能要求极高的场景。如果AI大模型在如此复杂的场景中被验证可行，其经验将为该技术在其他工业领域的应用带来极大的借鉴意义。InfoQ 数字化经纬获悉，中国广核集团福建宁德核电有限公司（以下简称“宁德核电”）日前发布了自主训练的大模型「锦书」，这是专为核工业领域打造的大语言模型，其参数规模达到 720 亿。

据了解，「锦书」在内部被称为“全民 GPT”项目，自 2023 年 5 月发起，旨在探索利用 AI 大模型解决核电行业面临的各种挑战，如知识管理不足、低脑力劳动过多、安全分析能力有待增强等。「锦书」主要训练两种参数规格的模型，分别是锦书-34B-Chat和锦书 -72b-Chat。

这也是目前在全球范围内参数量最大的核工业预训练大语言模型。此外，「锦书」拥有中国最大的核工业大模型语料库，训练语料超过 20 亿 token，涵盖了核运行、核物理、核燃料、水化学十余类通用核工业语料以及规程、系统设计书、经验反馈单等十余种工作文件语料。

此外，宁德核电团队首次开发适用于核工业的专属 Nuclear-embedding-v1-base-cn 词向量模型和 Nuclear-reranker-v1-base-cn 模型，在由 50 万条向量数据构建的 nuclear benchmark 数据集上展示了卓越的性能，top1 召回率超过 88%，top2 召回率超 91%，top5 召回率超过 95%。

基于「锦书」核工业大语言模型，宁德核电开发出国内首个核工业大语言模型应用平台「云中锦书」，该平台部署了基于系统化培训理念的智能培训系统、个人岗位晋升系统、PPT 生成等多个应用，实现企业降本提质增效的目的。

核工业大模型突破传统，高效整合海量知识，打破工种间的数据壁垒，开创“技术平权”新纪元。现场工程师仅需通过创新的知识模块排列组合，即可化身多位数字工程师，显著提升工作效率。

以专利管理为例，只需一键勾选专利及法律模块，即可快速进行深度专利审查，并精准输出风险分析报告，实现一人顶N人之效。

核工业首推多模态AI讲师书锦，融合文字、图像与语音智能交互，创新运用AIGC技术赋能SAT系统化培训，实现全天候7×24小时为一线工程师提供精准答疑和定制化课程指导，引领培训体验走向按图索骥的新境地。未来，颠覆“课程”传统认知，这一数字化基建下的培训新范式，将有力开辟核工业教育与培训的全新路径。资深数字工程师运用大语言模型的卓越理解力，精准抓取高价值偏差单，实现98%以上的识别准确率。原本需5人耗时整天的工作量，现仅需1人在3分钟内高效完成，年节省人力成本高达200万，彻底释放工程师，使其摆脱繁琐低效的手工劳动，专注于更高层次的创新挑战。

宁德核电人工智能实验室负责人王澍在接受 InfoQ 采访时表示，「锦书」既是人工智能时代的蓝图，也是献给核电的一封情书。大模型和生成式 AI 能力融入核行业的意义在于实现人员降本增效的同时，挖掘新的业务价值，有效地解决了在“双碳”背景之下，核电行业快速推进带来的复合突增和人员短缺问题，同时推动了传统行业数智化转型的整体进程。

近年来，宁德核电一直致力于推进数字化转型，积极探索 AI 在核电安全、运维、培训等领域的应用。自 2022 年底，公司便开始投用 AI 智能读表设备，显著提高了数据采集的准确性和效率。此外，宁德核电还实施了工业 AI+AR 智能解决方案，通过 AR 技术提现场操作的安全性和便捷性。随着「锦书」大语言模型在核工业领域的深入应用，其经验将为 AI 技术在其他工业领域的应用提供借鉴意义。

以下是 InfoQ 数字化经纬与宁德核电人工智能实验室负责人王澍的对话：

InfoQ：「锦书」的发起初衷是什么？这个项目对于核电领域的意义和影响会是什么？

王澍洞察：2023年初，GPT震撼登场，其卓越的对话智能与长文本生成技术惊艳全球，开辟了AI崭新风口。这项技术有力提升劳动效率、大幅削减成本，其革新性堪比推动第一次工业革命的蒸汽机。我们预见，这可能标志着第四次工业革命的序章已然奏响。

目前 AI 的能力以及逐步融入、下沉到各个垂直领域，“AI+ 媒体”、“AI+ 医疗”、“AI+ 金融”、“AI+ 政务”等跨界创新层出不穷。在此背景之下，我们也在思考“AI+ 核工业”会碰撞出什么样的火花？为此，我们重新梳理了核电行业的若干痛点，例如：知识需要被更好的管理、低脑力劳动需要被取代、安全分析需要被赋能...... 在分析的过程中，我们发现核电行业中的很多工作都值得用 AI 重新做一遍。例如，将运维领域的数据投入到国内开源模型中进行多轮训练，可以得到一个相关的 AI 小模型，这个小模型以“copilot”的形态存在，我们称之为 AI 运维助理。

在过去，工业现场需要 3-4 人才能完成的工作，在未来，有可能只需要一个人 + 一个“AI copilot“。AI 能力融入核电行业的意义在于实现了人员的降本增效的同时，挖掘新的业务价值，有效地解决了在“双碳”背景之下，核电行业快速推进带来的复合突增和人员短缺问题，同时推动了传统行业数智化转型的整体进程。

InfoQ：在核电领域的知识问答系统开发中，有面临哪些特别的挑战吗？

王澍：主要面临的挑战包括：

挑战“核电行业黑话”，即深度解读系统三字诀、设备九字码、国行标准及现场特有词汇等专业术语。预训练模型在构建词库时，忽视了核电高频词汇的收录；通用模型训练数据集中也鲜见核电相关内容，这无疑对模型提出了严峻考验。

核电行业文档繁多，涵盖通知、教材、图纸、报表、合同、规章等多元类型，知识问答系统须具备高效处理与精准解析各类文件的能力。

在核电行业，信息安全至关重要，因此我们在开发过程中严格执行数据安全标准，以零容忍态度防范任何潜在信息泄露风险，对所有数据实施严密保护措施。

InfoQ：项目团队是如何解决多轮对话能力弱、专业编码理解不足等问题的？

王澍：

提升 LLM 本身多轮对话能力：

2. 利用从用户那里收集的反馈信息，不断地评估和优化 AI 的对话能力。

提升 AI 平台系统对多轮的应对能力：

运用创新的agent自主检索技术，我们成功打造出高效智能RAG系统，无缝适配核电体系。一体化设计囊括自然语言理解、记忆管理、检索及生成等对话系统核心模块，实现AI平台对复杂多轮对话的精准驾驭与流畅协作，全面提升交互效能。

1. 使用 200k 长窗口的 LLM；

2. 使用 memory 压缩对话，有效存储和检索对话中的信息；

运用对话状态跟踪技术，精准记录用户对话全程的意图与需求，强化系统对各步骤间逻辑交互的理解力，在特定任务表现卓越。

王澍精准阐述：团队精心筛选并优化输入数据进行深度清洗，保障训练集质量上乘，此关键步骤有力避免模型产生幻觉性误差。

我们运用创新的RAG技术，先从海量知识库精准检索，确保在生成答案前囊括详尽信息，以提供更准确、具体的回答。

我们实行领域针对性微调，以通用模型为基础，宁德核电运用专属核电行业数据集进行深度优化。此举显著增强了模型对核电业深层次问题的理解与解答能力，效果斐然。

我们还运用人工审核与反馈机制，专业团队精准评估问答系统输出结果，基于准确度给予反馈，持续推动系统学习优化，实现智慧升级。

InfoQ：目前项目进展到哪个阶段了？已经取得了哪些成果？

王澍：我们已经初步完成了核工业垂直领域 LLM 的研发，可以初步实现核工业领域通用问题的问答。目前正在进一步清洗数据，准备更大规模的底层模型预训练重构，以扩展模型能力边界。同时也在基于特定任务开发 AI 插件（AI copilot），我们正在开发的包括：经验反馈筛选 AI 助理、质保检查报告编制 AI 助理、会议纪要 AI 助理、培训计划生成 AI 助理、课程编写 AI 助理、薪酬福利 AI 助理、岗位晋升路径规划 AI 助理、数据分析 AI 助理等等。

InfoQ：这几个月里，项目有哪些关键的里程碑？

王澍：主要有以下四个关键里程碑：

精简后优化文案：

探索核电行业，甄选适合AI重塑的关键业务场景。深度挖掘海量数据并进行大规模精细化清洗，以此为基础构建预训练模型。进而，以该底座模型为核心，研发各个细分领域内的AI-copilot助手，实现智慧赋能。

InfoQ：未来还有哪些领域或问题是团队考虑继续深入的？

王澍强调，核电行业视核安全为至高无上的核心。未来，我们将深化AI在安全分析领域的探索与应用，赋能核电厂提升设备可用性、强化隔离边界等核安全相关业务，矢志追求卓越高标准，以科技创新持续加固核电行业的安全性壁垒。同时，我们着力研发更智能的交互模式和高价值功能，并运用多模态技术助力现场问题高效解决。

InfoQ提问：在项目进程中遭遇了哪些始料未及的挑战？全民GPT应用的用户反馈如何？请分享一些具有代表性的成功案例。

王澍领军研发核工业大语言模型，团队勇闯技术与数据双重挑战。面对始料未及的复杂难题，他们深入攻克技术瓶颈，破解数据获取与处理的高难度任务，彰显卓越实力。

核工业历史文档繁多，涵盖PDF、扫描件、EXCEL、PPT等多种格式，且富含公式与逻辑图，导致数据清洗面临严峻挑战。

挑战：核工业术语与编号迷宫。独特黑话与专属编号系统充斥其间，传统模型在未经训练下难以驾驭这一复杂领域。

面对这些挑战，采取了一系列创新性的解决方案：

• 构筑国内核工业顶级语义库：系统整合海量教材、设计文件、工作文档及规程数据，打造超20b tokens的庞大数据量，成就国内规模最大、专业性最强的核工业知识宝库。

• 高效打造数据处理平台：研发出专为大语言模型定制的平台，能兼容多种格式数据，一键智能清洗，精准产出适于模型训练与微调的高质量数据集。

• 精准构建核工业黑话库：全面清洗整合国标、行标，注入本地知识库，专业训练模型，显著提升其在核工业领域的专业度与精确性。

通过上述努力，取得了显著的效果：

"借助大模型驱动的 SAT 系统，全天候一对一教学实现7×24小时无缝对接，有力驱动学习效率与生产力显著跃升。"

"运用大数据分析，精准定位培训知识点热度，为优化课程结构提供科学依据，建立高效正反馈机制，提升培训效果。"

"核工业大语言模型商城强势登场，开放个性化训练与上传功能，赋能用户按需定制专属模型，驱动个性化发展并大幅提升效率。"

大语言模型在核工业领域的应用潜力，在一系列成功案例中得以彰显，揭示了面对复杂挑战时，通过不懈创新与技术攻坚，可实现令人满意的解决方案。

InfoQ：在这样一个跨领域的项目中，团队是如何组织协作的？

王澍洞察到，垂直领域大模型研发中，仅依赖外包模式满足需求的时代已落幕。历经挫折后，他引领我们开创产学研深度合作的新路径，联手浙江大学 BEST 计划与箴理科技，共建人工智能实验室。三方共同投资、投入人力，如今科研团队规模壮大至近30人，且在核电行业的硬件配置上傲视群雄，稳居领先地位。

在宁德核电内部，汇聚了一群“跨界精英”科研团队，他们是各领域的领军人物。这支队伍深度钻研大模型技术原理及应用场景，并积极探索将人工智能技术巧妙融入各自岗位。创新采用的双层协作模式引人注目：首层以实验室为核心，集结了AI技术专家与核电业务权威，专注研发核电专属的大模型和无代码平台；第二层则围绕一线工作者构建，他们运用实验室提供的底层工具定制应用。而串联起双层协作的关键纽带，则是培养具备跨领域技能的“复合型人才”。

InfoQ：这个项目完成后，对核电行业乃至整个能源行业会产生怎样的影响？

王澍领导团队，勇尝螃蟹，稳踏石过河。此项目一旦完成，将有力驱动核电行业知识管理效能跃升，显著优化在岗培训流程，从而大幅削减低脑力劳动负担，使人才得以倾注更多时间和精力于更具价值、创新性的领域。

在核电领域，复杂度与安全标准严苛至极。若AI能力在此高难度场景中成功验证，实现核电检修策略自动生成、精准风险分析及各类长报告自动化撰写等突破，无疑将为化工、火电、制造业等相对简易的工业场景带来极具价值的借鉴与启示，推动其智能化进程。

-对此，您有什么看法见解？-

-欢迎在评论区留言探讨和分享。-

世良情感网

宁德核电发布全球最大参数量核工业大模型，引领新能源智能化浪潮

薪科技快评