本文聊聊个人的核心生产力设备在面对本地大模型时仍存在的痛点,以及设备厂商对相应问题的解决方案。文章最初发布于我的个人微信公众号,发布时间为2024年2月27日。
请注意:本文不构成对特定产品的购买建议,而是为对本地大模型感兴趣的读者朋友提供一些个人生产力硬件值得关注的方向。
近一年来高强度网上冲浪的朋友应该能看到不少通过Stable Diffusion、Midjoureny或者DALL-E 3生成的大量俊男美女图片。笔者不会否认其中一些是通过每月支付高达20美元月费购买了官方提供的算力资源,但这其中也有相当一部分极客是将这些大模型下载到本地,通过本地强大的英伟达GeForce RTX 4090游戏显卡进行参数和提示词调优,最终生成各种图片的。尽管刚刚发布的Sora被许多行业专家证明大语言模型在生成视频这一方面需要极其庞大的算力,但图片和文字AIGC的本地化处理也已经成为了无可争议的事实。
不仅如此,但凡购买了2020年年底之后发布的中端CPU和GPU产品的消费者,其手中的PC设备已经完全能够毫不费力地在本地运行一些大规模的大语言模型,包括英伟达近期推出的Chat with RTX。这些大规模的大语言模型部分拥有超过600亿参数,体积也超过30GB,但即便如此,像是搭配了AMD Ryzen 5 5600X处理器和GeForce RTX 3060显卡的中端电脑,都能够很好地运行如此大规模的模型,且无需担心网络环境的好坏,只要在本地部署完毕,就可以随时唤醒这些大模型。而这样一套配置的电脑的价格,放到今天或许只需要3000元左右。也就是说,任何人只需要3000元的支出,就能够为自己打造一款“私人人工智能助手”,并且还能获得定期更新。
但了解DIY的读者朋友应该能发现,上述的PC配置仅限于不能随意移动的台式机,而如果想要采购一台相同性能且能随身携带的笔记本电脑产品,价格就会翻一倍不止。并且由于搭载了独立显卡,这些笔记本电脑产品的离电续航和重量等体验价值上都会大打折扣。此外,根据笔者使用本地大模型的经验,在Windows 11操作系统下,常驻后台的大模型往往会额外占用1GB左右的内存空间,这对部分不可拆卸内存的轻薄本或全能本产品的体验会带来负面影响。但由于32GB及以上内存的轻薄本或全能本产品往往价格不菲,许多只需轻度使用本地大模型的消费者大概率会对此望而却步。
好在不论是从半导体行业的发展规律还是从2024年初各大核心硬件厂商的态度来看,本地大模型“轻装上阵”的可能性越来越大,甚至能够以肉眼可见的速度快速推进。下面笔者就为大家简单介绍一下未来硬件厂商的发展趋势,并为对本地大模型感兴趣的读者朋友提供相关产品发展方向的参考。
SoC:CPU的新“代号”
在过去的消费者语境下,SoC往往指代手机中的核心硬件系统,即由CPU、GPU、ISP、NPU等多个处理模块集成在单颗芯片上的硬件。今天,不论是AMD还是英特尔的x86–64架构CPU产品,也开始逐步实现了SoC化,即将CPU之外的更多功能模块集成在一颗芯片当中。
提及SoC就不可避免地提到ARM和苹果。ARM早期致力于核心硬件一体化的努力让SoC在移动设备、智能家居、传感器、工业设备甚至军用设备中大放异彩,早早集成了NPU等硬件的ARM SoC让手机中的拍照算法、多语言翻译等AI能力都能够在极低功耗下静默运行。不过在大语言模型到来之际,仅依靠手机的性能和功耗限制还是无法良好运行这些庞大的能耗怪物,因此就当下而言,具备更大半导体规模的Arm芯片 — — 如苹果M2及以上芯片才能真正“带得动”这些本地大模型。
从时代观点而言,x86–64的消费级阵营虽然在游戏兼容性方面有着ARM无可比拟的历史优势,并且虽然AMD和英特尔分别在2011年和2010年开始了CPU的SoC化,集成GPU和内存控制器等关键组件,但步伐相比ARM还是稍显迟缓和保守。不过,随着本地大模型在爱好者和研究人员的快速推广和部署,两者也不得不开始在SoC的方向上快速追赶,比如增加NPU和ISP等更多受到广泛应用消费者功能组件。最新的AMD 8040系列处理器和英特尔酷睿Ultra系列处理器就是这一大背景下的产物,因此若要更高效、更便利地随时随地使用本地大模型,消费者们应当关注配备了文章发稿当下以及后续更新的处理器的便携电脑产品,无需再因性价比等因素选择2024年初之前的产品。
游戏显卡:私有算力怪兽
在以哈希数量论英雄(PoW),以太坊等各大虚拟货币价格大涨的5年前,所有PC DIY玩家都感受到了“矿潮”带来的无尽痛苦。买不到心仪的游戏显卡,或者价格大涨,又或者买到经过“锻炼”的二手垃圾显卡成为了许多DIY玩家难以忘却的经历。但随着虚拟货币交易彻底被逐出中国市场,ETH等货币转为PoS(股权证明)模式,游戏显卡不论在供应和价格上都回到了相对理性的区间。AIGC在2023年的快速崛起又开始让中高端游戏显卡逐渐显得炙手可热,好在显卡厂商也看到了这一趋势,未来当然会有更多针对AIGC进行优化的算力产品出现。
目前,领先的英伟达依靠深耕多年的Cuda软硬件生态取得了先发优势。近几年来,英伟达将业界流行的Transformer模型与自家Hooper架构和最新Ada架构显卡硬件深度优化、整合,为人工智能行业提供了海量的高性能算力设备,这一优势也被集成到了具备上述架构的游戏显卡当中。尽管相关的AI算力有所削减,但在民用领域仍是一把利剑,为生成式AI爱好者带来了强大的私有化算力怪兽。
不过AMD和英特尔也在2023这一年时间逐步发展出了相比英伟达更开放的AIGC生态。AMD自2016年推出的开放软件堆栈ROCm已经支持并针对LLAMA2等开放大模型进行了优化,并能够依靠AMD的整合能力让同时拥有AMD CPU、芯片组和GPU产品的用户通过ROCm生态最大化硬件生产力;英特尔在2018年推出的OpenVINO软件生态现在除了支持各种开放大模型之外,还对ARM/ARM64芯片有着良好支持。这意味着尽管英伟达在封闭生态中占据了绝对C位,但随着开放大模型和开放软硬件生态的不断完善,消费者消费者无需紧盯英伟达显卡不放,因为未来将会有更多选择 — — AMD Radeon RX6000和RX7000系列显卡在经过一轮驱动更新之后,也能够胜任利用大模型生成图片的工作,并且效率喜人。玩家若不追求极致的光线追踪特效,大可放心选择其他品牌的产品。
人人都有AI用
当然,目前还有许许多多的人对大语言模型、生成式AI以及AIGC的概念仅有着粗浅的认知,而简单的认知并不能让他们有效利用大语言模型做更多的事情。因此,依靠各个平台推广新的人工智能知识是最为重要的环节。普通人完全可以先拿起自己的手机,下载如“通义千问”、“文心一言”和“讯飞星火”这些在线的大语言模型服务,简单尝试一下这些新型人工智能应用带来的新奇感或便利性,如果确实对这样的人工智能服务感兴趣,再考虑建立本地大模型服务也不迟。
当对新形态的人工智能有了一定了解之后,就能为今后选购搭载大语言模型人工智能的硬件指明了清晰的方向。消费者应当关注CPU和GPU等核心硬件的AI处理能力、并尽量选择配备大容量内存和硬盘空间的产品,方便日后加载更大规模的大语言模型。此外,相关的软件生态也是必不可少的环节,不过随着开放部署平台越来越容易获取,快速部署本地大模型的环境将不再成为门槛。
当人工智能相关知识到位,并且软硬件生态部署完毕之后,每个人就都可以享受本地大模型带来的便利和惊喜了。随着大语言模型的本地化发展,个人电脑将迎来一场巨大的变革。消费者应做好准备,选择合适自己的硬件产品,并持续跟踪技术动态,以便在未来能够更好地利用这些强大的人工智能工具。
(本文末尾结论由零一万物自主研发的Yi-6b本地大模型生成。)