大语言模型(LL)在传统的 RNN、LSt 和基础上进行了多方面的改进与升级,包括增大
模型规模、引入自注意力机制、采用 transforr 架构、扩大训练语料库以及利用多任务学习和迁
移学习等方法。这些改变使得大语言模型能够更好地捕捉文本中的语义和语法信息,处理长文本任
务,提高训练效率,拓展泛化能力,并在自然语言处理领域取得了显着的进步和成就。
电力行业是社会经济发展的基础能源,具有基础性、公共性、稳定性等特点。在电力行业的研
究中,需要关注电力转型、可持续发展、智能电网、新能源集成、电力市场和能源交易、电力系统
安全与稳定性等多领域课题。这些课题的研究对全球能源结构转型和节能减排战略的实施具有重要
意义,使得电力供应更加智能化、高效化、稳定化,能更好地满足社会的用电需求与经济的发展要
求。
电力行业的文献具有技术性、实践性、政策性、跨学科性和数据性等多个特点。文献中包含了
大量专业的技术术语和技术细节,并且与实际工程技术紧密相关。同时,政策法规、政策导向等方
面的内容也是文献中常见的一部分。由于电力行业的复杂性和多学科交叉性,电力行业的研究需要
广泛涉及多个学科知识并结合大量的数据进行分析和建模。这些文献的研究成果对于电力行业的发
展和实践具有重要的指导意义,有助于推动电力行业的高效安全稳定发展。
LcA(Life cycle Assessnt),即生命周期评价。生命周期评价是一种系统性的方法,用于
评估产品、服务或活动的整个生命周期中与环境和资源相关的影响,框架如图 1.1 所示。生命周期
评价已经成为评估和比较不同产品或活动环境绩效的重要工具,也是推动可持续生产和消费的重要
手段之一。
第 1~2 周:调研。查阅毕业设计相关资料,与指导老师讨论并确定题目及任务。
第 3~4 周:撰写开题报告。按照任务书要求,查阅资料(包括与毕设相关英文资料的查阅与翻
译),确定大致框架,撰写开题报告,进行开题答辩。
第 5~7 周:数据爬取,分析及挖掘。对电力 LcA 英文文献数据进行拆解,撰写相应部分的论
文,准备中期检查。
第 8 周:中期检查,构建向量知识库。
第 9~10 周:基于通用大模型搭建特定领域专业大模型。对模型性能进行测试,针对测试结果进
行优化。
第 11~13 周:撰写论文。完善结果,撰写论文。
第 14 周:提交论文资料。
第 15~16 周:答辩
1.主要内容
以有关电力行业的生命周期评价 LcA(Life cycle Assessnt)英文文献为研究对
象,对这些论文进行解析,构建大模型能直接调用的向量数据库,测试向量知识库
对大语言模型在特定领域的论文解析的专业能力。
2.目标
编写基于 Unstructured 库的文献处理程序,搭建基于通用大模型的特定领域专业大
模型,基于 chatbot 模式测试向量知识库对大语言模型在该领域的论文解析的专业
能力,并基于测试结果,对向量知识库进行优化。