摘要:人工智能产品开发者需要提前一步,让用户体验自己的产品,与用户建立联系,培养粘性,从而在竞争中领先。
2024注定是人工智能行业热闹的一年。虽然刚刚进入3月,但关于人工智能的新闻已经多次占据头条。就在上个月,OpenAI发布了文本生成视频的大模型Sora,其逼真的效果直接清空了在这条细分轨道上努力工作的企业家。几天后,英伟达的市值达到了2万亿美元,成为历史上最快实现市值从1万亿美元到2万亿美元的企业。正所谓“当你发现金矿时,最好的生意不是挖矿,而是卖铲子”,英雄成为人工智能时代“军备竞赛”最大的赢家。
就在大家感叹的时候“世界上只有两种AI,一种是OpenAI,另一种是其它AI”沉默了很久的Anthropic发布了王炸,由OpenAI前研究副总裁创立的公司发布了最新的Claude3模型,各项指标已全面超过GPT4。
AI行业的风起云涌,也说明这个行业还处于初级阶段。技术迭代过快,暂时领先的企业可能会在一夜之间被新技术颠覆。虽然出现了一些令人眼花缭乱的新技术,但它们并没有公开或部署。比如上面提到的Sora,截至发文,还没有正式向公众开放。
生成AI的研发与本地部署之间存在差距。目前,大众使用的生成人工智能产品通常部署在云中,并在本地访问(如ChatGPT网页),但不能满足所有需求,并会产生一些隐患。
首先,随着大型模型的日益复杂,在有限的带宽下,云和本地之间的传输变得紧张。例如,波音787飞机每秒生成5G数据。如果上传到云、计算和输出结果并返回,飞机可能已经飞出几公里(按800公里/小时计算)。若在飞机上使用人工智能功能但在云中部署,则此传输速度不能满足要求。
另外,一些用户的敏感数据和隐私数据一定要上云吗?显然,放在本地比云更让用户放心。
无论生成式人工智能有多强大,如何部署到本地总是一个不可避免的问题。虽然目前面临一些困难,但这是行业发展的趋势。
困难在于如何把握“大模型”装入“小设备”。注意,这里的“大小”相对而言。云计算的背后可能是一个占地数万平方米的计算中心,而本地部署需要让生成人工智能在你的手机上运行。手机没有液氮冷却,没有无穷无尽的电力,如何部署人工智能?
异构计算是一种可能的解决方案
高通异构计算人工智能引擎(以下简称高通人工智能引擎)为行业提供了可行的解决方案。也就是通过CPU、GPU、NPU与高通传感器中心与内存子系统的合作,实现了人工智能部署的目的,大大提高了人工智能体验。
图:特殊的工业设计使不同的计算单元更加紧凑 来源:高通
异构计算的原理是让不同类型的处理器擅长不同的工作“专业人士做专业的事情”。CPU擅长顺序控制,适用于需要低延迟的应用场景。同时,卷积神经网络模型等一些较小的传统模型(CNN),或者一些特定的大语言模型(LLM),处理CPU也很方便。GPU更擅长并行处理高精度格式,如视频和游戏,对图像质量要求很高。
CPU和GPU的出现率很高,大众已经相当熟悉了,而NPU相对更像是一种新技术。NPU是专门为实现低功耗、加速人工智能推理而设计的神经网络处理器。NPU在持续使用AI时,需要以低功耗稳定输出高峰值性能,才能发挥最大优势。
例如,当用户玩重负荷游戏时,GPU将被完全占用,或者用户正在浏览多个网页,CPU将被完全占用。此时,NPU作为一个真正的人工智能专用引擎,将负担与人工智能相关的计算,以确保用户的人工智能体验平稳。
综上所述,CPU和GPU是为灵活性设计的通用处理器,易于编程。他们负责操作系统、游戏和其他应用。NPU诞生于人工智能。人工智能是它自己的工作。它通过牺牲一些易于编程的特性,实现了更高的峰值性能和能效,一路护送用户的人工智能体验。
当我们把 CPU、GPU、NPU 高通传感器中枢与内存子系统集成在一起,即异构计算架构。
图:高通AI引擎包括Hexagon NPU、Adreno GPU、高通Oryon或 Kryo CPU、高通传感器中心和内存子系统 来源:高通
高通人工智能引擎集成了高通 Oryon 或 Kryo CPU、 Adreno GPU 、 Hexagon NPU 以及高通传感器中心和内存子系统。Hexagon NPU作为核心组件,经过多年的升级迭代,已达到行业领先的AI处理水平。以手机平台为例,集成高通 AI 引擎的第三代骁龙 8 支持行业领先的LPDR5x内存,频率高达4.8GHz,使其能够以非常高速的芯片内存读取速度运行百川等大型语言模型Llama 二等,从而实现非常快的token生成率,为用户带来全新的体验。
图:随着AI用例和模型的不断演变,NPU实现了高性能、低功耗 来源:高通
近几年来,高通对NPU的研究并非如此。如果追溯Hexagon NPU的起源,回到2007年,也就是生成式AI进入公众视野的15年前。如果追溯Hexagon NPU的起源应该回到2007年,也就是生成人工智能进入公众视野的15年前。高通发布的第一个Hexagon DSP出现在骁龙平台上,DSP控制和标量架构成为高通未来多代NPU的基础。
2015年后,骁龙820处理器集成了第一个高通AI引擎;
2018年,高通在骁龙855中为Hexagon NPU增加了张量加速器;
2019年,高通在骁龙865上扩展了终端侧人工智能用例,包括AI成像、AI视频、AI语音等功能;
2020年,Hexagon NPU迎来了变革架构的更新。标量、向量、张量加速器的融合,为高通未来的NPU架构奠定了基础;
2022年,第二代骁龙8中的Hexagon NPU引进了一系列重大技术改进。标量、向量、张量加速器的融合,为高通未来的NPU架构奠定了基础;
2022年,第二代骁龙8中的Hexagon NPU引进了一系列重大技术改进。微切片技术提高了内存效率,降低了功耗,提高了人工智能性能的4.35倍。
第三代骁龙8于2023年10月25日正式发布。
作为高通技术公司第一个专门为生成人工智能精心打造的移动平台,其集成Hexagon NPU是目前高通面向生成人工智能的最新、最佳设计。
由于高通为人工智能开发者和下游制造商提供了一套完整的解决方案(这部分将在第三部分详细描述),而不是单独提供芯片或软件应用程序。
这意味着高通可以考虑硬件设计和优化,找出当前人工智能开发的瓶颈,并进行有针对性的改进。
例如,为什么要特别注意内存带宽的技术点?当我们将视角从芯片提升到AI大型模型开发时,我们会发现内存带宽是大型语言模型token产生的瓶颈。第三代骁龙8的NPU架构之所以能够帮助加快AI大型模型的开发,是因为它专门提高了内存带宽的效率。
这种效率的提高主要受益于两种技术的应用。
一是微切片推理。将神经网络分成多个独立执行的微切片,消除了10层以上的内存占用,最大限度地利用了Hexagon 标量、向量和张量加速器在NPU中,并降低功耗。二是本地4位整数(INT4)运算。它可以加速INT4层、神经网络和张量的吞吐量,同时提高内存带宽效率。
图:Hexagon,第三代骁龙8 NPU以低功耗实现更好的AI性能
2月26日,世界移动通信大会(MWC 2024)在巴塞罗那拉开帷幕。基于骁龙X Elite,高通向世界展示了世界上第一个在终端侧运行超过70亿参数的大型多模态语言模型(LMM)。该模型可以接收文本和音频输入(如音乐、交通环境音频等),并根据音频内容生成多轮对话。
因此,Hexagon集成 在NPU的移动终端上会有什么样的AI体验?它是怎么做到的?高通公司详细拆解了一个案例。
借助移动终端的AI旅行助手,用户可以直接要求模型规划旅行行程。AI助手可以立即给出航班行程建议,通过语音对话调整输出结果,最后通过Skyscaner插件创建完整的航班日程。
如何实现这种一步到位的体验?
第一步是通过自动语音识别用户的语音(ASR)将模型Whisper转换成文本。该模型有2.4亿参数,主要在高通传感器中心运行;
第二步是使用Llama 或者百川大语言模型基于文本内容生成文本回复,这个模型在Hexagon中 在NPU上运行;
第三步,开源TTS通过在CPU上运行(Text to Speech)模型将文本转换为语音;
最后一步是通过调制解调器技术进行网络连接,使用Skyscaner插件完成订票操作。
在行业井喷前夕,开发者需要抓住机遇
用不同的工具测试骁龙和高通平台的AI性能,可以发现其得分是同类竞争产品的几倍。
在行业井喷前夕,开发者需要抓住机遇
用不同的工具测试骁龙和高通平台的AI性能,可以发现其得分是同类竞争产品的几倍。从鲁大师AIMark V4.根据基准测试结果,第三代骁龙8的总分比竞品B高5.7倍,比竞品C高7.9倍。
在安兔兔AITuTu基准测试中,第三代骁龙8的总分是竞争产品B的6.3倍。MLComon MLPerf推理的不同子项,包括图像分类、语言理解和超级分辨率,也进行了详细的比较。
进一步比较骁龙X 在Resnet-50中,Elite与其他X86架构竞争、在Deeplabv3等测试中,骁龙X Elite显示出明显的领先地位,其基准测试分别是X86架构竞品A的3.4倍和竞品B的8.6倍。因此,无论是在PC端运行Microsoft, Copilot,或者文档摘要、文档写作等生成人工智能应用,体验非常流畅。
领先的人工智能性能并不全是高通人工智能引擎的功劳。确切地说,高通对人工智能制造商的授权是全方位的。
首先是高通AI引擎。
它包括Hexagon NPU、Adreno GPU、高通Oryon CPU(PC平台)、高通传感器中枢和内存子系统。该异构计算架构为终端侧产品提供了低功耗、高效率的开发平台,具有专门的工业设计和不同部件的良好协调。
基于先进的硬件,高通推出了人工智能软件栈(高通人工智能 Stack)。该产品的诞生是为了解决人工智能开发中的顽疾——对于不同的平台,应多次开发相同的功能,重复劳动。AI Stack支持所有主流人工智能框架,OEM制造商和开发者可以在平台上创建、优化和部署人工智能应用程序,并实现“一次开发,全平台部署”,大大减少了R&D人员的重复劳动。
图:高通AI软件栈帮助开发者“一次开发,全平台部署” 来源:高通
此外,还有高通刚刚在MWC2024上发布的AI Hub。
AI Hub是一个包含近80个人工智能模型的模型库,包括生成人工智能模型、传统人工智能模型、图像识别或面部识别模型、百川、Stable Diffusion、Whisper等模型。开发人员可以从人工智能开始 在Hub中选择要使用的模型生成二进制插件,实现人工智能 开发的“即插即用”。
总的来说,如果纵向看深度,高通在硬件(AI引擎)、软件(AI Stack)和素材库(AI Hub)全面加快制造商人工智能开发进度的三个维度。从横向上看,高通的产品已经覆盖了几乎所有的终端侧设备(第三代骁龙8支持手机等终端,X Elite赋能AI PC产品)。
人工智能应用正处于井喷前的酝酿期。
在教育领域,人工智能可以为学生的学习能力和进步制定个性化的教学计划;在医学领域, 人工智能可以用来探索新的抗生素类型;在养老方面,在未来一些社会老龄化问题严重的地区,人工智能终端可以用来收集老年人的所有个人数据,以帮助预防紧急医疗事故。
之所以叫“井喷前”,正是因为没有大规模的部署。另一方面,AI应用作为最容易让用户产生粘性的产品之一,具有很强的先发优势。
人工智能产品开发者需要提前一步,让用户体验自己的产品,与用户建立联系,培养粘性,从而在竞争中领先。
(文章转载自Deeptech深科技)
原创文章,作者:admin,如若转载,请注明出处:https://fakebroker.com/12447/