
黄仁勋的GPU,解一说念矩阵方程,要作念上亿次乘法。
一家中国公司,一步就给解了,用的是模拟蓄意。
这家公司叫安纳智芯(Anatrix)。

昔日几年,统统这个词AI行业简直都在往归并个标的决骤。GPU、TPU、LPU、CPU……寰球卷来卷去,现实上卷的其实如故数字蓄意:
更多晶体管、更先进的制程、更大带宽、更高糊涂。
但最近,咱们发现存一批公司,开动不按这个逻辑走了。
安纳便是其中之一。
他们遴选的,是一个也曾千里寂已久、但这两年又开动火热的标的:
模拟蓄意。
这个主张听着新,其实极少都不新。
早在数字蓄意机大界限提升之前,东说念主类就也曾在探讨模拟蓄意。最近很火的存算一体、光蓄意、量子蓄意、类脑芯片,往大了说,现实上也都属于这条道路。
之是以这两年重新被关切,一个很进军的原因在于:
模拟蓄意自然具备更高并行度、更低功耗,况且不像数字芯片那样高度依赖先进制程。
但它的问题也很彰着,数字蓄意现实上处理的是0和1,只须能分辩高下电平,过错就能被不停改变。
而传统模拟蓄意由于是径直用物理信号示意信息。电压、电流、电导这些量在传播经由中,容易积蓄噪声和漂移。
矩阵界限越大,过错放大得越夸张。
昔日几十年,数字蓄意靠着摩尔定律一皆狂飙,精度被不停“硬堆”上去;而模拟蓄意固然表面上更高效,却永远困在精度问题里。

行业里以致一直有一个很流行的不雅点:模拟蓄意很快、很省电,但不确实。精度,也因此成了模拟蓄意近几十年来最大的死结。
而安纳作念的,便是把它解开。
模拟蓄意的精度,不再是问题了
昔日近十年里,安纳的中枢科学家一直在作念归并件事——
把模拟蓄意的扫尾,作念得实足确实。
旧年,团队完成了精度比好意思数字芯片水平的旨趣性考证,在模拟蓄意领域达到断档式着手,而本年,有关芯片当前也曾干涉流片阶段。
在技巧道路上,安纳走的是一条尽头典型、但也尽头“硬核”的模拟蓄意道路:
基于存储器阵列,搭建非冯诺依曼架构芯片。
肤浅来说,便是把矩阵方程径直映射进物理电路,让电路自身成为方程求解器。

输入给进去,测输出,输出便是解。
也正因如斯,那些GPU没主张径直求解、只可靠海量迭代靠拢的矩阵方程,在安纳这里,不错一步完成,并保捏精准。
(注:GPU拿到一个512×512的矩阵方程后,第一件事并不是“径直解”。它会先把问题圮绝、转置、判辨,再转机成海量矩阵乘加运算,通过一轮轮迭代缓缓靠拢谜底。统统这个词经由,频频需要上亿次乘法。)
但专门念念的是。
即便精度问题开动被经管,今天大无数模拟蓄意公司依然莫得选拔这条路。
像Unconventional AI、Normal Computing、EnCharge AI这些近两年最受关切的模拟蓄意创业公司,主打的依然是低功耗、存算一体或者特定场景加快。

(注:模拟蓄意正在重新赢得成本商场关切。2025年底,主打低功耗模拟芯片的 Unconventional AI在种子轮便赢得Lightspeed Venture Partners和a16z聚集领投的4.75亿好意思元融资,估值接近45亿好意思元;专注热力学蓄意的Normal Computing于本年3月完成由三星领投的5000万好意思元融资;而存算一体公司EnCharge AI旧年也完成了逾越1亿好意思元的B轮融资。)
这背后其实对应着两种统统不同的探讨形而上学。
一种念念路是剿袭模拟蓄意存在过错,在低精度条款下寻找“够用”的诈欺场景。
另一种念念路,则是先把精度作念到极限,再探讨后果和成本。
安纳属于后者。
在与量子位相易时,团队反复提到一个不雅点:
统统蓄意平台的发展历史,简直都是先把精度作念到天花板,再凭证场景需求向下作念选择。
数字蓄意亦然如斯,AI模子造就里,先有FP32,再向下兼容FP16、INT8、INT4。
要是一开动就在低精度里寻找“够用”,好多才气可能永远莫得契机被考证。
从上世纪80年代末的类脑蓄意,到自后的模拟神经网罗,再到今天的存算一体,肖似的故事其实也曾反复出现过好屡次。
是以,并不是追求精度这件事有争议,而是在昔日很永劫期里,由于模拟蓄意精度低是固有的,寰球停留在这一层面,存在泄露上的偏差,于是只可退而求其次。
而安纳率先完成了泄露上的冲突,他们确切想作念的,便是把高精度模拟蓄意推向可用。
统统东说念主都在作念乘法,现金炸金花游戏软件中国官方平台安纳想把“除法”补转头
除了对精度的格调,安纳和其他模拟蓄意公司的不同,还在于他们选了一个统统不同样的标的:
矩阵求逆。
今天作念模拟蓄意的公司,无论是存算一体、模拟CIM,如故多样类脑、光蓄意道路,简直都在作念矩阵乘法。
这其实很好知晓,因为统统这个词AI产业,现实上便是建筑在矩阵乘法之上的。
一方面,GPU自身就极其擅长矩阵乘法;另一方面。大模子推理,也简直全是矩阵乘法,是以
统统这个词行业的念念路都很当然——
既然模拟蓄意更省电、更并行,那就拿它去替代一部分GPU的矩阵乘法,但安纳并莫得这样作念,他们选拔了更第一性的矩阵求逆。
那么,矩阵乘法和矩阵求逆有啥不同样呢?
肤浅来说,矩阵乘法,现实上是“知因求果”。权重已知、参数已知,乘起来、加起来,终末得到扫尾。
而矩阵求逆反过来。扫尾也曾知说念了,但中间确切的参数、权重、状况未知,你需要反过来把它求出来,从扫尾反推原因。
对应到大模子里也很好知晓:矩阵乘法更多对应推理,而矩阵求逆则更接近造就。
因为造就现实上,便是已知输入和输出,再反过来寻找中间最妥当的参数。

(注:今上帝流数字蓄意的作念法,依然是把正本需要径直求解的问题,转机成海量矩阵乘法,再通过不停迭代去靠拢谜底。)
事实上,矩阵求逆并不局限于大模子造就。现实寰宇里确切难的问题,好多其实都是“逆问题”。
比如,机器东说念主为什么会跌倒?自动驾驶若何从传感器数据里还原真实状况?通讯系统若何从混合信号里恢回应始信息?
这些问题,底层都在作念归并件事:从扫尾反推原因。
而这,恰正是GPU不擅长的。因为在数字芯片体系里,并不存在“原生矩阵求逆”这个算子。它的作念法,现实上是绕。
先把一个求逆问题圮绝,再转机成海量矩阵乘法,然后通过不停迭代,一轮轮靠拢最终谜底。
是以GPU不是“径直解”,而是在“靠拢解”,这亦然为什么,咱们前边会看到阿谁“一亿步”和“一步”的永诀。
为了愈加潜入地知晓这两者的互异,安纳还给咱们打了一个很形象的譬如。
比如你要建长城。矩阵求逆就像“砖”。而数字芯片手里其实莫得砖。它只须沙子、土壤、原料。
是以它得先和泥、烧制、成型,终末才能得到一块砖,再拿这块砖去建长城。
模拟蓄意芯片,则是径直把砖给你。你无用再从沙子开动。是以这不是“快极少”或者“省极少”的区别,而是蓄意范式自身不同。
一个是在不停迭代靠拢。
一个则是原生求解。
安纳想作念的,便是把这块缺失了好多年的“砖”,重新补转头。
让矩阵归模拟,让逻辑归数字
说到终末,一个很现实的问题摆在眼前:
模拟蓄意这块“砖”,到底若何插进今天也曾高度熟习的AI基础顺序里?
安纳给出的谜底很肤浅:让矩阵归模拟,让逻辑归数字。
据了解,他们的模拟芯片在接口、数据格式和互联方式上,都兼容现存GPU体系,不错径直接入今天也曾scale起来的AI Infra和算力中心。
更进军的是,它不依赖首先进制程。
当数字芯片还在3nm、2nm上不息向物理极限靠拢时,模拟蓄意某种真义上也曾跳出了那套“拼晶体管、拼工艺、拼堆叠”的竞争逻辑。
而一朝矩阵求逆这块“砖”确切补上,它带来的变化,可能会比设想中更大。
机器学习里的优化问题、具身智能的及时敞开驱散、自动驾驶的状况预料、6G通讯里的信号回应、端侧AI的在线学习……这些系统背后,现实上都在高频求解矩阵方程。
昔日好多问题不是不成作念,而是太慢、太贵、太耗电。
而矩阵求逆一朝大约被原生、高精度、低功耗地完成,好多昔日只可放在云霄、只可离线造就、只可近似求解的事情,可能都会开动发生变化。
是以回头再看,安纳想作念的,其实不仅仅一颗“更快更省电的芯片”。
他们确切想切入的,是下一代智能系统最底层的蓄意方式。
2012年,东说念主们第一次意志到,GPU不仅能绘制,还能造就神经网罗。
AI期间由此开启。
而今天,安纳试图回答的是另一个问题:
要是矩阵乘法界说了昔日十年的AI,那么模拟蓄意和矩阵求逆,会不会界说下一代智能系统?
至少当今现金炸金花游戏软件,他们也曾站在了这个问题的最前排。