技术论文

论文

摘要

基于Super Characters的低功耗CNN加速器装置的多模态情感分析

通过AAAI 2020情感内容分析研讨会

近年来,NLP研究见证了DNN模型取得了破纪录的精度提高。但是,功耗是部署NLP系统的实际问题之一。 目前大多数最先进的算法都是在GPU上实现的,这种算法不仅不节能,而且部署成本很高。另一方面,CNN领域专用加速器(CNN-DSA)已投入批量生产,可提供低功耗和低成本的计算能力。在本文中,我们将在CNN-DSA上实现“Super Characters”方法。此外,我们修改了Super Characters方法以利用多模式数据,即CL-Aff共享任务中的文本加表格数据。

在Raspberry pi和CNN领域专用加速器上,使用SuperChat方法的On-device聊天机器人系统

通过KDD2019研讨会BigMine2019

聊天机器人是一种流行的互动娱乐设备,需要对输入查询进行语义理解和自然语言处理,并做出适当的个性化回应。当前,由于边缘设备上计算能力的限制,大多数聊天机器人服务都提供了到云的连接,这带来了隐私和延迟方面的顾虑。但是,最近对SuperChat方法的研究表明,可以使用二维CNN模型来解决聊天任务。此外,自过去两三年以来,低功率CNN领域专用加速器已广泛应用。本文在Raspberry pi 3.0上实现了SuperChat方法,通过USB连接到一个低功耗CNN加速芯片上,加载了量化权重的二维CNN模型。该系统具有高功率,高存储效率和极低的功耗,可以达到令人信服的精度。

9.3tops/Watt超高效CNN领域专用加速器在计算机视觉和NLP中的应用演示

通过ICME 2019

随着低功耗、高性能人工智能芯片的大量生产,计算机视觉和自然语言处理(NLP)应用正逐渐出现在边缘设备和移动平台上。SPR2801s是CNN领域专用加速器(CNN- DSA),对于输入图像大小为224x224x3,功耗仅为300mW,推理速度可超过140fps。卷积计算全部在SPR2801s芯片上完成,该芯片作为协处理器工作。在此演示中,我们将演示在SPR2801上运行的演示,这些演示用于计算机视觉和NLP应用,包括图像分类,文本分类,情感分析和视频分析紧凑描述符(CDVA,Compact Descriptor for Video Analysis)。这些应用程序可以在单芯片和多芯片板上演示。单芯片是通过USB连接到主机处理器的dongle。八芯片板显示了PCIe或M.2接口的并行处理能力。

针对On-Device NLP应用,使用特定领域CNN加速器对跨视觉和文本转移学习的系统演示

通过IJCAI 2019 Tusion Workshop

高效的CNN域专用加速器(CNN-DSA)芯片目前广泛应用于移动设备。这些芯片主要用于计算机视觉应用。然而,最近使用二维CNN模型进行文本分类和情感分析任务的Super Characters方法,通过从视觉到文本的转移学习取得了最新的成果。在本文中,我们使用CNN-DSA芯片在移动设备上实现了文本分类和情感分析应用程序。在CNN-DSA芯片中,使用了1位和3位精度为系数,5位激活精度的紧凑网络表示,功耗小于300mW。对于内存和计算受限的边缘设备,通过近似CNN-DSA芯片内的外部完全连接(FC)层,进一步压缩网络。在研讨会上,我们有两个NLP任务的系统演示。第一个演示是将输入的英语维基百科句子分为14个本体之一。第二个演示是将中国网购评论分为正面评论和负面评论。

SuperCaptioning:使用二维词嵌入的图像标注

通过IJCAI 2019 Tusion Workshop

在当前的图像标注工作中,语言和视觉被作为两个不同的模型进行处理。但是,最近有关“Super Characters”方法的研究表明,二维词嵌入可以有效地将文本分类问题转换为图像分类问题。在本文中,我们提出了SuperCaptioning方法,该方法借鉴了SuperCaptioning方法中的二维词嵌入概念,并在单个CNN模型中同时处理语言和视觉信息。在Flickr30k数据上的实验结果表明,该方法可提供高质量的图像标注。一个交互式演示已经准备好在研讨会上展示了。

SuperChat:通过使用二维词嵌入和预训练的ImageNet CNN模型从视觉到语言的转移学习来生成对话

通过CVPR2019语言和视觉研讨会

最近在文本分类任务中,使用二维字嵌入的Super Characters方法取得了最新技术成果,展示了这种新方法的前景。本文借鉴了“Super Characters”方法和二维嵌入的思想,并提出了一种为开放域对话生成对话响应的方法。在公共数据集上的实验结果表明,提出的SuperChat方法可生成高质量的响应。准备在研讨会上演示一个交互式演示。

SuperTML:二维词嵌入,用于结构化表格数据的预识别

通过CVPR2019语言和视觉研讨会

表格数据是行业中最常用的数据形式。梯度提升树(Gradient Boosting Trees),支持向量机( Support Vector Machine),随机森林(Random Forest)和逻辑回归(Logistic Regression)通常用于表格数据的分类任务。使用分类嵌入的DNN模型也适用于此任务,但是到目前为止,所有尝试都使用了一维嵌入。最近在文本分类任务中,使用二维字嵌入的Super Characters方法取得了最新技术成果,展示了这种新方法的前景。在本文中,我们提出了SuperTML方法,该方法借用了Super Characters方法和二维嵌入的思想来解决表格数据的分类问题。对于表格数据的每次输入,特征首先像图像一样投影到二维嵌入中,然后将该图像输入到经过微调的二维CNN模型中进行分类。实验结果表明,所提出的SuperTML方法在大数据集和小数据集上均取得了最新的结果。

Squared English Word:一种生成字形的方法,使用超级字符进行情感分析

提交给AAAI2019

Super Characters方法首先将输入文本转换成图像,然后应用2D-CNN模型对情感进行分类,从而解决情感分析问题。它在许多基准数据集上实现了较先进的性能。然而,在拉丁语中的应用不像在亚洲语言中那样简单。因为2D-CNN模型是用来识别二维图像的,所以最好以符号的形式输入。在本文中,我们提出了SEW(Square English Word)方法,该方法通过在字母表级别绘制每个英文单词的Super Characters图像,然后将平方字形组合在一起,形成一个完整的Super Characters图像,再应用CNN模型对句子中的情感进行分类。我们将SEW方法应用于维基百科数据集,与原始的Super Characters方法相比,准确率提高了2.1%。对于同时具有结构化表格数据和非结构化自然语言文本的多模式数据,改进的SEW方法将数据集成到单个图像中,并使用统一的CNN模型对情感进行分类。

MRAM为移动和物联网应用共同设计了内存处理CNN加速器

通过NIPS 2018 MLPCD研讨会

我们设计了一种采用非易失性MRAM存储器和内存计算协同设计架构的卷积神经网络应用装置。它已经使用22nm技术节点CMOS Si工艺成功制造。 提供9.9TOPS / W的40MB以上MRAM密度。它在单个芯片内支持用于移动和物联网设备应用的多种模型。

Super Characters: 从情感分类到图像分类的转换

通过EMNLP2018研讨会

我们提出了一种名为“Super Characters”的情感分类方法。通过将文本投影到图像中,然后将CNN模型用于分类,该方法将情感分类问题转换为图像分类问题。从生成的“Super Characters”图像中自动提取文本特征,因此不需要任何明确的步骤即可将单词或字符嵌入数字矢量表示中。在大型社交媒体语料库上的实验结果表明,在包含中文、日文、韩文和英文四种不同语言的数百万内容的十个大型社交媒体数据集上,“Super Characters”方法在情感分类和主题分类任务上始终优于其他方法。

具有9.3 TOPS / Watt的超高能效CNN域特定架构,适用于移动和嵌入式应用

通过CVPR 2018高效深度学习计算机视觉研讨会

近年来,卷积神经网络(CNN)大大提高了计算机视觉性能。当前,使用CNN算法的应用程序主要部署在通用硬件上,例如CPU,GPU或FPGA。然而,在移动和嵌入式应用中,功耗,速度,精度, 内存占用和芯片尺寸都应考虑在内。 CNN的特定领域架构(DSA)是CNN部署和实施的高效实用的解决方案。我们设计并生产了28nm二维CNN-DSA加速器,具有9.3TOPS / Watt的极致能效,并且所有处理都在内部存储器而不是外部DRAM中进行。它以超过140fps的速度对224×224 RGB图像输入进行分类,峰值功耗低于300mW,其精度可与VGG基准相当。 CNN-DSA加速器可重新配置,以支持各种层大小和层类型的CNN模型系数,包括卷积,深度卷积,快捷连接,最大池化和ReLU。此外,为了更好地支持各种应用场景的实际部署,尤其是对于低端移动和嵌入式平台以及MCU(Microcontroller Units),我们还设计了算法,以通过减少对外部加速器的依赖性来有效地充分利用CNN-DSA加速器,包括在加速器内实现全连接(FC)层以及压缩从CNN-DSA加速器提取的特征。我们的CNN-DSA加速器在移动和嵌入式系统上的实时演示展示了其在现实中广泛且实际应用的功能。