写在GPT-5之前：设计评估体系，部署混合智能

Jun 2, 2024

本文探讨在GPT-5来临之前，个人和企业选择大模型时需要考虑的核心问题，并阐述通过设计评估体系来测试大模型在工作流中的实战能力，以避免单一大模型带来的不可靠性和“刷题类”大模型的污染。文章最初发布于我的个人微信公众号，发布时间为2024年5月9日。

自2022年11月ChatGPT界面发布以来，经过了一年半左右的发展，任何普通人现在都可以轻易通过网页和App来免费调用大语言模型（以下简称“大模型”）为自己的生活和工作带来创意、扎实可靠的说明和流程，甚至职场优势。在实时联网的状态下，在线大模型的优势无可比拟。在任何时候，拿出手机或打开网页就可以快速利用AI能力获取资讯和知识。

但在线大模型并不能覆盖全部的应用场景。不论是出于对个人隐私内容的关注，还是企业层面对于机密信息的保护，在本地直接部署大模型，或者说利用API构建私有大模型依旧有着大量且迫切的需求。

个人还是企业还要考虑的问题是，尽管当今的大模型已经能够胜任如工作流梳理、任务说明甚至在某种程度上呈现商业智能，但不同的大模型在针对不同领域的问题，如代码编写和数学题上的解答效果依然参差不齐。甚至，随着一些问题在互联网上广泛流传或者被AI开发者捕捉到之后，相关的语料和数据会被回收并对这些大模型进行训练，但往往这种经过了训练的大模型并不能做到“举一反三”，回答在相关逻辑或领域下的“非标准问题”时并不会展现其成熟的训练成果。

这种被称作“刷题类”的大模型可能在个人日常使用中不会造成太多问题，但完全不适合用于企业的生产环境。这就意味着将本地大模型用于工作的个人企业还需要一种方法，使其在投入生产环境之前进行一系列测试，以保证其可用性和可靠性。

这就需要提到目前在大模型领域比较常见的，针对这两大痛点的解题思路：设计提示词测试体系，和部署混合智能。

提示词测试体系：更具针对性和普适性的提示词工程

提示词测试体系基于提示词工程，以更加贴近生产用例和生活化的问题和用词为基本工具，并通过成套的问题来测试大模型的可用性和可靠性。任何人只要大致了解提示词工程的基础要点，就可以为自己或者企业提供具备一定价值的提示词测试体系。

当然，由于要在生产端测试大模型，行业知识以及日常工作中遇到的各种随机问题是建立提示词测试体系非常重要的基础，个人和企业需要在考虑采用本地大模型之前对自己所在领域有所认识，并对过往发生的一些突发意外事件有所记录和总结。

这也引出了部署本地大模型的一个行业共识，即：没有大模型开发和微调能力的企业，最佳的采用本地大模型的方法是利用稠密模型配合本地知识库，以更低的构建成本换取更大的模型效率。

回到正题。提示词测试体系可以不需要完整的本地知识库，但依然需要个人和企业员工对自身业务有一定的熟悉程度，这样才能够避免通过上网搜索得到的问题有可能是被预训练过，但不能做到举一反三的“刷题类”大模型。也就是说，若要更好地测试本地大模型的可用性，就需要基于个人和企业在不被公开的数据和案例的基础之上，来构建提示词测试体系。

比如某零售行业内部即将采用一款协助设计新产品的本地大模型，可能就需要结合公司过往的产品共性，某些特殊情况下的销售案例，以及基于公司产品特性的需求出发进行创意发散等角度设计提示词测试体系。这些数据和用例往往不会被大众和互联网所了解，但也不是最机密的公司核心数据，而是企业 — — 不论是公司还是员工 — — 在发展过程中留下的Know How。

在某些情况下，某些行业中，这类资产并非以一种结构化的方式储存，而是通过如PPT或者月度和季度报告的方式呈现。这一方面增加了企业内部回收此类资产的成本，也提高了将本地大模型嵌入工作流的难度。这就需要部分企业首先需要进行资产治理，再考虑是否采用本地大模型。

否则，不如将员工电脑开放权限，直接让员工利用已有的在线大模型，将在线大模型纳入工作流 — — 不过这也会为员工依赖在线大模型而无法为公司沉淀Know how等资产，或未来公司在部署本地大模型后员工难以转换工作流而埋下了隐患。若对人工智能、电子游戏感兴趣、不妨关注微信公众号：bradliublog，更多相关内容即将刊登，敬请期待。

部署混合智能：AI Agent也在努力的方向

正如上文所提到的，目前市面上主流的大模型并非全知全能，尤其是参数有限的本地大模型（如320亿、700亿、900亿参数等）在代码和数学领域反而不能很好地为用户提供精准的回答。为此，AI界的各路玩家都在针对这些领域进行优化，包括微软的Phi-3 mini微模型，零一万物的Yi-9b小参数模型等都针对代码编写和解答数学题这类工作上进行了细致的优化，并且微软的Phi-3 mini微模型甚至可以直接部署在手机上，仅依赖手机算力就能进行代码编写和解数学题，甚至一部分文档和网页处理工作。

自然，小参数模型由于其参数限制，在自然语言处理、回答长度和精度上都会有不小的劣势，这就意味着个人和企业想要不牺牲本地的代码和数学能力，就需要尝试部署多个大模型，和混合云一样，这种在本地部署多个模型，或者本地大模型和利用API构建私有化大模型共存的模式，就是“混合智能”模式。

个人或企业单纯地将数个大模型部署在本地可能比较简单，但若要让各个大模型协同工作，完整的UI设计和底层互通必不可少。一般情况下，构建合适的API，建立高效的通信机制和微服务就可以较好地联动各个大模型，但若需要更精细、完整地输出结果，本地共享知识库的构建也是重要的一环。

事实上，这一段时间在AI业界火热的词汇：“AI Agent”，在某个阶段的设想就是利用AI技术来协调各个专有大模型，以实现AGI能力。部分专家的设想是：AGI并不存在，而是需要AI Agent这样的智能体对不同领域的大模型进行统筹安排，以达到看似是AGI的能力。Lindy.ai等AI Agent初创企业就在尝试开发此类AI Agent，帮助各类组织实现自动化的大模型编排。

写在GPT-5到来之前

OpenAI CEO萨姆·奥尔特曼自2024年以来不断在公开场合表示GPT-5的到来将“再次震撼世界”，还表示“一切在过往大模型上的修改和优化都将变得毫无意义”。这不仅体现出奥尔特曼对GPT-5的信心，也体现出如今的大模型还有不论是本身还是其实际投入生产环境可用性都还有着极大的成长空间。笔者上述的内容也有可能在GPT-5到来之后变得一文不值。

目前的大模型不论在应用场景还是商业模式上都有着不可忽视的痛点，利用产业知识构建提示词测试体系和部署混合智能某种程度上只能算是当今时代下的权宜之计，并不能一劳永逸地解决根本问题。因此，行业人士对GPT-5解决这类问题，以及GPT-5还能达到何种智能保有热切的期待也情有可原。我们当然也对GPT-5的能力充满好奇，但在技术起点还未发生的当下，脚踏实地利用大模型能力，尝试解决各种实际问题，了解并收集大模型落地的阻碍，最终协同AI业界实现良性发展，才是对待大模型的正确之道。

写在GPT-5之前：设计评估体系，部署混合智能

提示词测试体系：更具针对性和普适性的提示词工程

部署混合智能：AI Agent也在努力的方向

写在GPT-5到来之前

Written by 竹田伊織

No responses yet