如下为演讲全文:各人上午好!我是高通技能公司万卫星。今天我想跟各人分享一下高通于终端侧AI以和混淆AI上的结果及思索。
起首,咱们来看一下AI运用于整个行业中的演进。第一个阶段可以称之为“感知AI”,包括各人比力认识的、传统的天然语言处置惩罚、语音降噪、图片辨认及支解等AI技能,咱们都称为感知AI。这些技能实在于许多年前就已经经于很多终端侧装备上实现贸易化落地。
第二个阶段,是跟着ChatGPT的鼓起而来的。这一阶段重要基在年夜量数据举行预练习,并于人类监视下完成某类详细使命,包括文生图、谈天呆板人,或者是使用年夜模子举行翻译等,这些都属在“天生式AI”的领域。
第三个阶段,咱们称之为“智能体AI”。与天生式AI比拟,智能体AI可以于险些没有人类监视或者无干涉干与的环境下,举行自立步履、猜测、用意理解与使命编排。咱们可以或许看到,只管今朝行业存眷点仍旧集中于天生式AI上,但整个财产实在正出现出从天生式AI向智能体AI演进的线路。
第四个阶段,咱们叫做“物理AI”。于这个阶段,AI可以理解真正的物理世界,并按照真正的物理定律与纪律做出响应的反馈及相应。今朝,物理AI尚处在研究及摸索的早期。
咱们看到于终端侧天生式AI的生态趋向中,跟着模子尺寸的不停增年夜,今朝手机可以撑持快要100亿参数的年夜模子部署,PC可以撑持约200亿参数的年夜模子终端侧部署。于车载场景中,模子撑持的范围则更年夜,可部署的参数目级已经到达200亿至600亿之间。
于模子尺寸不停扩展的同时,模子质量也不停晋升。本年年头咱们已经经可以或许将撑持思维链(CoT)及推理能力的模子彻底部署于端侧。于能力上所撑持的上下文长度也于显著增加——从两年前端侧仅能处置惩罚1K到2K的上下文,到去年已经晋升至4K,而本年则已经可以或许撑持8K到16K的典型用例于端侧举行部署。事实上,于本年9月的骁龙峰会上,咱们展示了于某些非凡场景下,已经经可以实现128K的文本于端侧的年夜模子部署。
从模态的角度来看,终端侧AI也出现出从单一的文字模态,向撑持文本、图片、视频、音频、语音等多模态,甚至全模态演进的趋向。
咱们再来看一下于端侧运行AI的上风,以和所面对的挑战。咱们认为于终端侧运行年夜模子或者AI,于终端侧运行年夜模子,最年夜的利益之一是个性化,数据的孕育发生也都于终端侧,于间隔数据孕育发生近来之处做推理,是天然而然的工作,同时也很是有益在掩护用户的隐私及安全。及云端比拟,端侧还有具有两个上风,一是彻底免费,二是无需任何收集毗连。
那末挑战有哪些呢?于这里我想着重分享两点。起首是内存限定,终端侧有限的内存巨细限定了可运行模子参数目的巨细,从而约束了终端侧模子的能力上限;其次是带宽限定,终端侧有限的带宽决议了AI的推理速率,是以会影响用户体验。固然,于手机这种集成度很是高的终端去运行年夜语言模子,对于能效节制也提出了极致要求,由于假如功耗太高,就轻易触发装备的温控机制。
面临这些挑战,高通公司都有哪些技能贮备及预研呢?第一是量化及压缩。从8bit、4bit到本年实现的2bit,经由过程更极致的量化压缩,咱们使端侧可以或许撑持的模子尺寸愈来愈年夜,其所占用的内存愈来愈小;第二是于端侧带宽约束下,咱们采用并行解码技能以提高峻预言模子的token速度;第三是经由过程进步前辈的NPU,包括eNPU的架谈判领先的异构计较体系,咱们让端侧AI从以往的被动式办事向自动式、个性化的AI办事迈进。
接下来,我想就并行解码技能再举行睁开解说。当前年夜语言模子年夜部门是基在自回归架构,它需要把所有的输入及权重全数加载到内存中,才能天生一个token。从效率的角度来说,这长短常不经济的举动。特别是跟着模子范围连续增年夜,token的天生速率会很是慢,进而致使时延增长、影响用户体验。高通经由过程并行解码技能,先于端侧运行一个较小的底稿模子,一次性推理出多个token,然后将这些token交予原始的、较年夜的模子举行校验。由于底稿模子是基在原始年夜模子练习而来,于原始年夜模子长进行token验证时,可以或许包管较高的接管率,从而实现并行解码,到达提高端侧解码速率的目的。
咱们正处于从天生式AI向智能体AI演进的路径上。从用例的角度来说,天生式AI重要能撑持要害的“单体”用例,好比及时翻译、文生图或者者内容创作、择要、续写等。智能体AI是更复合、更繁杂、更自动式的AI办事。实现智能体AI需要很多基础模块,起首需要一个具备推理能力的年夜模子,它可以于端侧或者者云上运行以理解用户用意;于理解用户的用意及使命以后,可以经由过程查询小我私家常识图谱等小我私家当地数据,天生个性化的使命编排;末了经由过程挪用当地或者云上的API履行响应的使命。
下面可以看一个详细的智能体AI用例:用户可以使用智能体发布微博。起首经由过程天然语言及智能体举行交互,当它理解了用户“用户需要发布微博”的用意后,会打开微博APP,搜刮需要发布的照片,同时它还有可以按照用户过往的小我私家偏好给照片加滤镜,终极完成整个发布历程。不仅云云,用户还有可以经由过程天然语言交互监测答复,并举行响应操作,好比我尤其喜欢某个评论时,可以去点赞或者答复。这个用例于本年9月的骁龙峰会长进行展示时,整个流程是全数运行于端侧的。
固然,高通公司除了了手机芯片以外,也笼罩了富厚品类的产物,包括智能眼镜、PC、汽车、智能腕表、IoT等,咱们可以或许撑持所有骁龙装备之间的智能互联。各人可以想象一下,智能眼镜、智能腕表等算力较小的装备,可以经由过程Wi-Fi或者者蓝牙与手机、汽车毗连,去同享它们之间的当地数据,将年夜模子推理从较小装备中转移得手机、PC甚至汽车等算力较年夜的装备上,实现漫衍式的个性化年夜模子推理。
末了,咱们信赖AI体验于将来会向混淆AI的标的目的成长,也就是说,于终端侧运行垂类的、比力高效的模子,提供更好的、更安全的个性化AI办事;于云端,运行更年夜尺寸的模子,提供能力更强、更通用、更极致的AI办事。高通公司也将依附低时延、高速且安全的毗连技tyc1286太阳成集团官网能,确保混淆AI场景下的端云协同及端云毗连。
版权所有,未经许可不患上转载
-tyc1286太阳成集团官网"/>?

【CNMO】12月10日,量子位MEET2026智能将来年夜会于北京启幕。本届年夜会以“共生无界 智启将来”为主题,打造了一个跨范畴、高密度的交流平台。近三十位来自科技、财产和学术范畴的领甲士物齐聚一堂,缭绕人工智能+、AI Infra、智能终端、智能驾驶、低空经济、能源电力等前沿科技话题发表前瞻不雅点,睁开深度对于话。 高通公司AI产物技能中国区卖力人万卫星出席年夜会,并发表了以“混淆AI:从云端到边沿智能”为主题的演讲。万卫星指出,当前AI正从天生式AI向智能体AI演进;生态体系从单体模子转向复合模子,将成为迈向智能体AI的基础。他还有于演讲中尤其提到,将来的AI体验将朝着混淆AI标的目的扩大。为告竣这一愿景,高通已经经经由过程量化压缩、并行解码、NPU和异构计较架构等技能立异,鞭策端侧AI向更自动、更高效的办事形态成长,构建端云协同系统,为用户提供更个性化的智能办事。 如下为演讲全文:各人上午好!我是高通技能公司万卫星。今天我想跟各人分享一下高通于终端侧AI以和混淆AI上的结果及思索。 起首,咱们来看一下AI运用于整个行业中的演进。第一个阶段可以称之为“感知AI”,包括各人比力认识的、传统的天然语言处置惩罚、语音降噪、图片辨认及支解等AI技能,咱们都称为感知AI。这些技能实在于许多年前就已经经于很多终端侧装备上实现贸易化落地。 第二个阶段,是跟着ChatGPT的鼓起而来的。这一阶段重要基在年夜量数据举行预练习,并于人类监视下完成某类详细使命,包括文生图、谈天呆板人,或者是使用年夜模子举行翻译等,这些都属在“天生式AI”的领域。 第三个阶段,咱们称之为“智能体AI”。与天生式AI比拟,智能体AI可以于险些没有人类监视或者无干涉干与的环境下,举行自立步履、猜测、用意理解与使命编排。咱们可以或许看到,只管今朝行业存眷点仍旧集中于天生式AI上,但整个财产实在正出现出从天生式AI向智能体AI演进的线路。 第四个阶段,咱们叫做“物理AI”。于这个阶段,AI可以理解真正的物理世界,并按照真正的物理定律与纪律做出响应的反馈及相应。今朝,物理AI尚处在研究及摸索的早期。 咱们看到于终端侧天生式AI的生态趋向中,跟着模子尺寸的不停增年夜,今朝手机可以撑持快要100亿参数的年夜模子部署,PC可以撑持约200亿参数的年夜模子终端侧部署。于车载场景中,模子撑持的范围则更年夜,可部署的参数目级已经到达200亿至600亿之间。 于模子尺寸不停扩展的同时,模子质量也不停晋升。本年年头咱们已经经可以或许将撑持思维链(CoT)及推理能力的模子彻底部署于端侧。于能力上所撑持的上下文长度也于显著增加——从两年前端侧仅能处置惩罚1K到2K的上下文,到去年已经晋升至4K,而本年则已经可以或许撑持8K到16K的典型用例于端侧举行部署。事实上,于本年9月的骁龙峰会上,咱们展示了于某些非凡场景下,已经经可以实现128K的文本于端侧的年夜模子部署。 从模态的角度来看,终端侧AI也出现出从单一的文字模态,向撑持文本、图片、视频、音频、语音等多模态,甚至全模态演进的趋向。 咱们再来看一下于端侧运行AI的上风,以和所面对的挑战。咱们认为于终端侧运行年夜模子或者AI,于终端侧运行年夜模子,最年夜的利益之一是个性化,数据的孕育发生也都于终端侧,于间隔数据孕育发生近来之处做推理,是天然而然的工作,同时也很是有益在掩护用户的隐私及安全。及云端比拟,端侧还有具有两个上风,一是彻底免费,二是无需任何收集毗连。 那末挑战有哪些呢?于这里我想着重分享两点。起首是内存限定,终端侧有限的内存巨细限定了可运行模子参数目的巨细,从而约束了终端侧模子的能力上限;其次是带宽限定,终端侧有限的带宽决议了AI的推理速率,是以会影响用户体验。固然,于手机这种集成度很是高的终端去运行年夜语言模子,对于能效节制也提出了极致要求,由于假如功耗太高,就轻易触发装备的温控机制。 面临这些挑战,高通公司都有哪些技能贮备及预研呢?第一是量化及压缩。从8bit、4bit到本年实现的2bit,经由过程更极致的量化压缩,咱们使端侧可以或许撑持的模子尺寸愈来愈年夜,其所占用的内存愈来愈小;第二是于端侧带宽约束下,咱们采用并行解码技能以提高峻预言模子的token速度;第三是经由过程进步前辈的NPU,包括eNPU的架谈判领先的异构计较体系,咱们让端侧AI从以往的被动式办事向自动式、个性化的AI办事迈进。 接下来,我想就并行解码技能再举行睁开解说。当前年夜语言模子年夜部门是基在自回归架构,它需要把所有的输入及权重全数加载到内存中,才能天生一个token。从效率的角度来说,这长短常不经济的举动。特别是跟着模子范围连续增年夜,token的天生速率会很是慢,进而致使时延增长、影响用户体验。高通经由过程并行解码技能,先于端侧运行一个较小的底稿模子,一次性推理出多个token,然后将这些token交予原始的、较年夜的模子举行校验。由于底稿模子是基在原始年夜模子练习而来,于原始年夜模子长进行token验证时,可以或许包管较高的接管率,从而实现并行解码,到达提高端侧解码速率的目的。 咱们正处于从天生式AI向智能体AI演进的路径上。从用例的角度来说,天生式AI重要能撑持要害的“单体”用例,好比及时翻译、文生图或者者内容创作、择要、续写等。智能体AI是更复合、更繁杂、更自动式的AI办事。实现智能体AI需要很多基础模块,起首需要一个具备推理能力的年夜模子,它可以于端侧或者者云上运行以理解用户用意;于理解用户的用意及使命以后,可以经由过程查询小我私家常识图谱等小我私家当地数据,天生个性化的使命编排;末了经由过程挪用当地或者云上的API履行响应的使命。 下面可以看一个详细的智能体AI用例:用户可以使用智能体发布微博。起首经由过程天然语言及智能体举行交互,当它理解了用户“用户需要发布微博”的用意后,会打开微博APP,搜刮需要发布的照片,同时它还有可以按照用户过往的小我私家偏好给照片加滤镜,终极完成整个发布历程。不仅云云,用户还有可以经由过程天然语言交互监测答复,并举行响应操作,好比我尤其喜欢某个评论时,可以去点赞或者答复。这个用例于本年9月的骁龙峰会长进行展示时,整个流程是全数运行于端侧的。 固然,高通公司除了了手机芯片以外,也笼罩了富厚品类的产物,包括智能眼镜、PC、汽车、智能腕表、IoT等,咱们可以或许撑持所有骁龙装备之间的智能互联。各人可以想象一下,智能眼镜、智能腕表等算力较小的装备,可以经由过程Wi-Fi或者者蓝牙与手机、汽车毗连,去同享它们之间的当地数据,将年夜模子推理从较小装备中转移得手机、PC甚至汽车等算力较年夜的装备上,实现漫衍式的个性化年夜模子推理。 末了,咱们信赖AI体验于将来会向混淆AI的标的目的成长,也就是说,于终端侧运行垂类的、比力高效的模子,提供更好的、更安全的个性化AI办事;于云端,运行更年夜尺寸的模子,提供能力更强、更通用、更极致的AI办事。高通公司也将依附低时延、高速且安全的毗连技tyc1286太阳成集团官网能,确保混淆AI场景下的端云协同及端云毗连。 版权所有,未经许可不患上转载