原文链接源于 Medium.com:https://medium.com/@Synced/california-startup-gti-releases-ai-chips-to-challenge-nvidia-and-intel-eb20944e2b5c 

2019年1月28日| 作者:托尼·彭(Tony Peng)

加州大学伯克利分校的博士生Lin Yang 在1988年的IEEE论文《Cellular Neural Networks: Theory》中 提出了细胞神经网络理论,该理论是卷积神经网络(CNN)的前身,后来掀起了机器学习的革命。根据这一理论,Yang在大学实验室中绘制了20 * 20并行模拟电路芯片的蓝图。

从那时起,世界见证了以CNN为代表的深度学习技术的空前增长。Yang 31年前设计的经过实验室测试的计算芯片也已经发展成为工业级的人工智能加速器。

国际数据公司(International Data Corporation)在2016年的一份报告中预测,“到2019年,将有45%的数据将在边缘进行存储,分析和处理。” 充满希望的AI芯片市场吸引了规模不大但富有创新精神的初创公司,他们希望彻底改变芯片的设计方式。去年英国AI芯片制造商Graphcore和中国AI芯片创业公司Cambricon等市场领先的创业公司各自筹集了超过1亿美元的资金。

2017年,时任清华大学终身教授的Yang认为,现在是将其理论付诸实践的时候了。他与Qi Dong合作 在硅谷成立了Gyrfalcon Technology Inc(GTI)。该创业公司的目标很简单:通过一组专用处理器提高AI应用程序的性能。GTI已推出了三款旗舰产品-Lightspeeur 2801S,Lightspeeur 2802M,Lightspeeur 2803S-专为从边缘设备到云数据中心的部署方案而设计。

Lightspeeur 2801S是一款28nm基于边缘的专用集成电路(ASIC),其中包含约28,000个并行计算核心,并且不需要外部存储器即可进行AI推理。高效率是它的卖点:2801S的300mW和9.3TOPS / W的速度为每秒2.8 tera操作(TOPS)。该芯片帮助GTI确保了包括富士通,LG和三星在内的大客户。


Lightspeeur 2801S

GTI的最新合作伙伴关系已在最近的CES 2019上揭晓。日本物联网公司Mtes Neural Network宣布将把GTI芯片嵌入智能路灯中,从而可以有效检测异常事件,例如老人独自行走或可疑人员。

GTI还将Lightspeeur 2801S包装到Laceli AI Compute Stick中,这是一种USB棒,可在连接到笔记本电脑时提高计算能力。Laceli的效率是其竞争对手英特尔于2017年推出的Movidius神经计算棒(0.1 TOPS / W)的90倍。

2801S出色效率的背后是GTI的内存处理架构。称为APiM(内存中的AI处理)的技术可大大降低与存储和内存之间的数据交换相关的成本。2801S在计算核心上嵌入了9MB的静态随机存取存储器(SRAM)。

“我们可以一次将网络模型和数据以及激活单元预加载到芯片上。不需要频繁的数据交换。我们可以节省大量的电力消耗,这就是性能如此出色的原因。”GTI首席科学家的Yang说。

杨在 GTI的 CES新闻发布会上

促成2801S强大性能的另一个因素是,该芯片基于CNN架构,并且只能处理卷积运算。这是一个大胆的设计选择,因为2801S牺牲了灵活性,以换取其在基于CNN的应用程序中的更高性能。Yang说:“ CNN是当今所有AI应用的基础。我们发现ResNet和MobileNet仍然是市场上的主要网络模型,我们需要做的就是支持最主流的网络模型。”

继Lightspeeur 2801S之后,GTI通过在其下一代22nm芯片Lightspeeur 2802M中集成磁RAM(MRAM)来推进内存处理。2802M凭借40MB嵌入式内存,可以处理多个神经网络模型或更复杂的应用程序,而这是2801S所不具备的。

MRAM是一种使用电子自旋来存储数据的存储技术,尽管SRAM仍是当今芯片上存储器的主要解决方案,但MRAM承诺了几个关键优势,包括非易失性(不掉电不会丢失数据),更低的功耗以及更好的密度。MRAM开发进行了数十年,但没有达到期望。现在,随着对AI芯片的芯片上存储器的需求不断增加,MRAM逐渐成为一种有吸引力的替代方案。

GTI的最新创新是28nm Lightspeeur 2803S。单个2803S芯片可在0.7W功率下提供16.8 TOPS并支持PCIe接口。GTI还为数据中心运营商提供了G.A.I.N.系列2803,这是一个集成了2803S芯片的多芯片板服务器,可以添加到现有机架中。基于2803S的16芯片服务器在28W功率下可提供271 TOPS,比NVIDIA Tesla(在70 W功率下为65 TOPS)的功率效率高10倍。

尽管GTI尚未开发自己的编程软件堆栈,但它提供了一组称为“ DevKit”的开发资源,以帮助公司在智能手机,计算机或工业设备等现有设备上开始使用新的GTI芯片。该套件包括自指导的在线资源,USB 3.0 dongle和小型无线WiFi配件。

在GTI设想的未来人工智能社会中,芯片将扮演一个基础性的角色,在这个社会里,车库开瓶器或婴儿监护仪不需要超级计算机来实现它的人工智能能力,因为一个厘米大小的芯片就可以完成这项工作。早在1988年,世界或许还没有准备好迎接这样一场革命性的变革,但现在已经准备好了。