原文源于 Semiconductor Engineering:http://semiengineering.com/ai-accelerator-gyrfalcon-soars-post-stealth/

人工智能加速器Gyrfalcon隐身后腾飞

第二代推​​理加速器ASIC面向数据中心

总部位于加州米尔皮塔斯市的初创公司 Gyrfalcon Technology Inc. (GTI)于9月从半隐身模式中脱颖而出,最近宣布推出了以数据中心为重点的第二代神经网络加速器,该产品最初是针对终端用户。

GTI并不孤单:终端市场正在增长。 国际数据公司(IDC:International Data Corporation)预测,到2022年,将有25%的 终端设备将执行AI算法(用于神经网络应用程序的推理)。此外,根据Deloitte的说法,在数据中心中运行机器学习的数据中心芯片中,有25%将是FPGA和ASICS,而不是GPU(目前处理大多数训练)和CPU(处理大多数推理)。

许多初创公司承诺提供针对机器学习应用进行了优化的新架构。Nvidia,Intel以及已建立的FPGA和SoC提供商列表都做了同样的事情。这些架构中的大多数尚未在市场上出售。

GTI的首款产品Lightspeeur 2801S ASIC在2018年1月于拉斯维加斯举行的消费电子展(Consumer Electronics Show)上推出后已限量供应。GTI已与三星、富士通 和LG Electronics等客户达成协议 ,预计该芯片将于年底出现在终端设备上。

GTI营销副总裁Mark Nadell表示,2801S能够处理数据中心中的推理任务,但主要是对功耗,空间和热量需求非常低的终端设备而设计的。

“您将获得的功能是,可以使用足够低的功耗将主机功能从主机芯片上卸载AI功能并以高精度和高速度执行,无论主机是GPU,CPU还是其他设备,都可以将其添加到手机或其他边缘设备、或将其内置到数据中心的主板中。” Nadell说。

该公司的第二代产品Lightspeeur 2803 AI Accelerator专为数据中心服务器的推理任务 而设计 ,并将封装在GTI设计的主板中,通常每块主板支持16个芯片。

Nadell说,主板和芯片被设计为可与现有机架和处理器一起使用,在不需要大量额外电源或冷却的情况下增加了加速,最大程度地提高了云提供商或数据中心所有者的潜在投资回报率,以尽可能经济高效地增加神经网络功能。 

回到未来
2803于10月22日发布,距GTI正式从隐身状态正式出现仅五周。但是,开发的时间尺度并没有看起来那么紧缩。

该公司在研究论文中称之为领域特定架构卷积神经网络(DSA-CNN)的大部分方法和技术均基于GTI首席科学家Lin Yang在加州大学伯克利分校(University of California at Berkeley)攻读博士学位时开始的研究工作。

1988年,Yang与人合著了一篇介绍细胞神经网络的论文,该 论文自发表以来已在其他研究中被引用了近4,000次,描述了“使用神经网络的方式可以节省能源并更快地处理数据,超出了人们的想象。”纳德尔说。

Gryfalcon Technology的Lightspeeur 2803 AI Accelerator的矩阵处理引擎。资料来源:Gryfalcon Technology Inc.

Yang拥有这项技术的专利,但由于与其他机器语言/人工智能方法一样,对于当时可用的硬件而言,计算量太大,因此无法将其商业化开发。

Nadell说,当硬件最终赶上时,Yang扩展了他在此期间所做的工作,并对原始概念进行了调整,将模拟处理转换为数字处理,以便可以在内存中处理大部分工作,从而减少了功耗和延迟。

结果是设计了一种针对非常广泛的应用而设计的芯片,该芯片针对二维矩阵处理进行了优化,在ASIC中嵌入SRAM来存储接近处理逻辑的数据,从而可以快速处理数据,而无需将数据移入和移出中央处理器。

第一代Lightspeeur 2801S被包装为独立的加速器和USB计算棒,旨在与英特尔的Neural Compute Stick竞争。它是采用矩阵处理引擎(MPE)设计的ASIC,它使用GTI的内存中AI处理(APiM)技术。GTI的商标是在近似计算的内存实例化,它在机器学习处理器(如谷歌的Tensor处理单元(TPU)ASIC)中越来越流行,因为其能够在复杂的矩阵计算中能够减少功耗提高吞吐量,这些计算可以容忍低精度的初始结果。

GTI联合创始人兼首席科学家Lin Yang在9月18日发布的声明中说:“平衡成本-性能-能源平衡一直是寻求将具有AI功能的设备大规模推向市场的开发商来说是一个挑战。几十年来,GTI的创始团队一直在关注着这个行业如何应对这一挑战,并相信我们的内存人工智能处理和矩阵处理引擎提供了一种优秀的解决方案,以避免不得不做出取舍。通过在标准的商品化ASIC上部署APiM和MPE,GTI使我们的客户能够将创新的,支持AI的设备推向大众。”

2801是一种 7 mm x 7 mm 的ASIC,采用28nm工艺设计,典型功耗为300mW,每瓦每秒可提供28,000 teraops(TOPS),最高性能为9.3 TOPS,能够在一块电路板上组合多达32个芯片.根据GTI的说法,一块板上的芯片可用于繁重的计算负载或离散任务处理,并且总成本比竞争对手的硬件低10倍 。AT CES GTI将其Laceli AI计算棒(USB 3.0可用于基于图像的深度学习,用于自然语言,图像,视频和其他AI应用)与英特尔Movidius USB Stick 的性能进行了比较,后者的性能为 1W0.1 TOPS。英特尔声称,Myriad X版本的VPU芯片性能高达4 TOPS,这是Movidius神经计算引擎的实例。

Nadell说,第二代芯片 Lightspeeur 2803 AI Accelerator 被设计为数据中心推理加速器,通常可在单个GTI GAIN 2803板上以16个芯片的倍数安装,以700 mW和2 ms的延迟下加速云应用,性能高达16.8 TOPS。

Nadell说,芯片设计中的大约28,000个节点能够使用整个芯片中大约10MB的内存来处理168 x 168的矩阵,而无需在处理之前使用外部存储器或离散区域来存储数据。

2803芯片尺寸为9 mm x 9 mm,在28 nm工艺上采用PCIe接口(包括ResNet,MobilNet,ShiftNet和VGG神经网络)连接,每个芯片的模型大小从4.4 MB到17.6 MB,用于训练和推理。

2803已被完成设计,现在可以向合作伙伴提供样品。Nadell表示,它将在2018年第四季度批量发售。

Nadell说,这两款芯片均由台积电(TSMC)制造,可以以单个单元或组的形式进行封装,并且可以使用GTI生产的开发工具尽可能简单地将其设计为现有设备的附加模块,这些开发工具使开发人员无需对ML架构或处理进行深入的专业化,就可以轻松实现ML。

该公司预计,首款采用其2801芯片的端点和边缘产品将在今年年底推出。