据多家外媒 8 月 19 日报导,美国 AI 芯片草创公司 Cerebras Systems 推出了有史以来最大的芯片,这款名为“The Cerebras Wafer Scale Engine”的芯片(下文称 WSE)有 1.2 万亿个晶体管。
在芯片历史上,1971 年,英特尔的第一个 4004 处理器只要 2300 个晶体管,而最近的一个高档微设备处理器也只要 320 亿个晶体管。三星也曾制作过一款具有 2 万亿个晶体管的闪存芯片( eUFS 芯片),可是不适用于 AI 核算。
WSE,这个创纪录的最大芯片,它为 AI 核算而生。
(来历:Cerebras Systems)
数据显现,这个 42,225 平方毫米的芯片,有着 400,000 个核,这些中心经过一个细粒度、全硬件的片内网状衔接的通讯网络衔接在一起,供给每秒 100 PB 的总带宽。更多的中心、更多的本地内存和低推迟的高带宽结构,创建了加速人工智能作业的最佳架构。WSE 比最大的 GPU 还要大 56.7 倍,具有 18 GB 的 on-chip sram。
事实上,现在的大多数芯片是在 12 英寸硅片基础上制作的多芯片集成。但 Cerebras Systems 公司的这款芯片是晶体管在单晶硅圆片上制作相互衔接的独立芯片。其相互衔接的规划,能够让一切的晶体管都能如一个全体一般高速作业。
(来历:Cerebras Systems)
浅显地解说,这款产品彻底便是核算机中的学霸,比核算才能和存储带宽,不好意思,人家的等级仍是新词汇——拍字节(Petabytes,1PB=1024TB=10^6GB=2^50bit),速度大约是现在英伟达公司最大的图形处理器(GPU,浮点运算才能很强,常用于 AI 相关研讨)的 3000 倍,存储带宽则是 1000 倍。
如此强壮的才能来历于其片上的 1.2 万亿个晶体管,要知道 1971 年 Intel 的 4004 处理器才有 2300 个晶体管,依照摩尔定律来核算:“每 18 个月,芯片上晶体管数目翻倍”,到本年应该刚好 1 万亿个晶体管,多一个晶体管,能完结的核算才能就添加一分。其次,其芯片架构规划和芯片互联及通讯计划也是非常超前的,使得 1.2 万亿个晶体管之间的协同非常同步,推迟达纳秒(nanosecond)级,运行时,这 1.2 万亿个晶体管就像一个晶体管相同同步。
(来历:推特)
在人工智能范畴,芯片的巨细非常重要。因为大型芯片处理信息的速度更快,发生答案的时刻更短。削减调查的时刻,或“练习时刻”,能够让研讨人员测验更多的主意、运用更多的数据,并处理新的问题。谷歌、Facebook、OpenAI、腾讯、百度,以及其他许多公司都以为,现在人工智能开展的底子约束在于,练习模型的时刻太长。因而,削减练习时刻将消除整个职业前进的一个首要瓶颈。
当然,芯片制作商一般不出产大型芯片也是有原因的。在单个晶圆片上,制作过程中一般会呈现一些杂质。一点杂质就能够导致芯片毛病,严峻的乃至会击穿几个芯片。假如单个晶圆片上只制作一个芯片,那么它含有杂质的或许性是 100%,杂质必定会使芯片失效。可是 Cerebras Systems 的芯片规划是留有裕量的,能够确保一个或许少数杂质不会使整个芯片失效。
图| Andrew Feldman(来历:Dean Takahashi)
Cerebras Systems 公司 CEO Feldman 在一份声明中说,“公司的 WSE 芯片专为人工智能而规划,包含根本的立异,处理了约束芯片尺寸几十年的技能应战,如 十字穿插衔接、良率、功率输出和封装。每一个架构决议计划都是为了优化人工智能作业的功用。其结果是,WSE 芯片在功耗和空间很小的情况下,依据作业负载供给了现有处理计划数百或数千倍的功用。”
这些功用的进步是经过加速神经网络练习的一切要从来完结的。神经网络是一个多级核算反应回路。输入经过循环回路的速度越快,回路学习或“练习”的速度就越快。让输入更快地经过循环的办法是加速循环内的核算和通讯的速度。
在通讯架构上,因为在 WSE 上运用了中继处理器,集群通讯的架构突破了传统通讯技能中部分功率耗费而导致的带宽和延时的问题。经过运用二维阵列结构将 400,000 个根据 WSE 的处理器衔接在一起,集群架构完结了低延时以及高带宽的特性,其整体带宽能够高达每秒 100 拍字节(1017 字节/每秒)。即便没有装置任何的额定软件,这样的集群结构也能够支撑大局信息处理,并由相应的处理器对所接收到的信息进行处理。
(来历:Cerebras Systems)
关于这款产品,量产和散热或许会是其面对的首要应战。可是,WSE 的面世,自身的亮点现已满意。
Linley Group 首席分析师 Linley Gwennap 在一份声明中表明:“Cerebras Systems 在晶圆级封装( wafer-scale package)的技能上取得了巨大前进,在一块硅片上完结的处理功用远远超出任何人的幻想。为了完结这一豪举,该公司现已处理了困扰该职业数十年的一系列工程应战,包含完结高速模对模通讯、处理制作缺点、封装如此大的芯片、供给高密度电源和冷却系统。Cerebras Systems 经过将不同学科的顶尖工程师集合在一起,发明了新技能,并在短短几年内交付了一个产品,这是一个令人形象深入的成果。”
Tirias Research 首席分析师兼开创人 Jim McGregor 在一份声明中表明:“到目前为止,重新配置的图形处理器满意了人工智能对核算才能的巨大需求。现在的处理计划将数百个这些重新配置的图形处理器衔接在一起,还需要数月的时刻装置,运用数百千瓦的电力,并要对人工智能软件进行广泛修正,乃至还要数月的时刻来完结功用。与之比较,单片 WSE 芯片的肯定巨细能够完结更多的核算、更高功用的内存和更大的带宽。经过晶圆级 (wafer-scale) 封装的集成技能,WSE 芯片避免了松懈衔接、慢内存、根据缓存、以图形为中心的处理器的芯片固有的传统功用约束。
(来历:Cerebras Systems)
Cerebras Systems 成立于 2016 年,自成立以来在业界适当奥秘低沉,专心于为数据中心进行练习供给芯片产品,曾被 CB Insights 评为“全球最值得等待的 100 家芯片公司”。材料显现,该公司曾于 2016 年完结 2500 万美元 A 轮融资,出资方为闻名风投 Benchmark,后又取得多轮融资,截止 2017 年 9 月共取得 1.12 亿美元融资,估值 8.6 亿美元。
公司的开创团队布景实力也非常微弱。联合开创人及 CEO Andrew Feldman,从前创建过芯片公司 SeaMicro,后被 AMD 在 2012 年以 3.34 亿美元收买。SeaMicro 被 AMD 收买后,原班人马大都进入 AMD 持续作业,所以当 Andrew Feldman 大旗一挥要持续创业时,许多老同事都挑选了跟从,其他首要团队成员大都与开创人 Andrew Feldman 师出同门。
其间值得一提的人物是 Gary Lauterbach。在上世纪 90 时代 Sun 公司如日中天之时,Gary Lauterbach 就曾担任公司的高档芯片规划师,加之后来在 SeaMicro 首要从事低功耗服务器规划,能够说公司在创世之初就累积了一大批低功耗芯片规划的元老级人物,这对一般创业公司来说无疑能够说是赢在了起跑线上。
随后,在 2018 年,又有一位重量级人物加盟 Cerebras Systems,前 Intel 公司架构副总裁、数据中心首席技能官 Dhiraj Mallick 正式出任主管工程和商务的副总裁。此人在 Intel 任职期间,2018 年第二季度收入同比上一年增加 10 亿美元,仅 2018 年上半年就将公司数据中心的收入进步到了 100 亿美元,是一位公认的技能与商业奇才。而他也正是 Andrew Feldman 在 SeaMicro 及 AMD 的老同事。现在,这家公司已有 194 名职工。
Cerebras Systems 未来要走的路还很长,但不难幻想,AI 正带来一股核算机体系结构和芯片封装技能立异潮,能够等待,咱们将见证更多更风趣乃至意想不到的 AI 芯片诞生。
-End-
参阅:
https://venturebeat.com/2019/08/19/cerebras-systems-unveils-a-record-1-2-trillion-transistor-chip-for-ai/amp/?from=timeline