摘要
量子神经网络(Quantum Neural Networks,QNN)已经提出了几种架构,目的是在量子数据上有效地执行机器学习任务。对于特定的量子神经网络结构,迫切需要严格的扩展结果,以了解哪些结构是可以大规模训练的。在这里,研究人员分析了最近提出的一种架构的梯度扩展(以及可训练性),称之为耗散量子神经网络(dissipative QNN,DQNN),其中每一层的输入量子比特在该层的输出被丢弃。研究人员发现,DQNN可以表现出贫瘠高原,即梯度随量子比特的数量呈指数级消失。此外,研究人员提供了不同条件下DQNN梯度扩展的定量界限,如不同的损失函数和电路深度,并表明可训练性并不总是得到保证。这项工作代表了第一个基于感知器的QNN(perceptron-based QNN)可扩展性的严格分析。
研究领域:量子神经网络,机器学习
论文题目:
Trainability of Dissipative Perceptron-Based Quantum Neural Networks
论文链接:
https://journals.aps.org/prl/abstract/10.1103/PhysRevLett.128.180505
1
神经网络(neural network,NN)已经影响了许多领域,如神经科学、工程、计算机科学、化学和物理学。然而,由于严重的技术挑战,它们的历史发展在进步期与停滞期之间徘徊。感知器很早就作为一种人工神经元被引入,但后来才意识到多层感知器比单层感知器有更大的能力。但仍然存在着如何训练多层感知器的主要问题,这一点最终由反向传播法解决。
在神经网络的成功和 NISQ(Noisy Intermediate-Scale Quantum)设备出现的激励下,人们一直在努力开发量子神经网络(Quantum Neural Network,QNN),希望量子神经网络能够利用量子计算机的力量,在机器学习任务上胜过经典计算机,特别是对于量子数据或本质上属于量子的任务。
尽管有几个QNN方案已经成功实施,但仍需对特定架构的优势和局限性进行更多研究。深入研究QNN的潜在可扩展性问题可以帮助防止这些模型出现“冬天”,就像历史上经典神经网络的情况一样。这推动了最近研究QNN中梯度扩展的工作。该研究表明,旨在训练QNN完成特定任务的变分量子算法,可能表现出梯度随系统大小呈指数性消失。这种所谓的“贫瘠高原现象”,被证明适用于硬件高效的QNN,其中量子门被安排在与量子设备的连接相匹配的块状结构中。
在这里,研究人员考虑一类不同的QNN,称之为耗散量子神经网络(Dissipative Neural Network,DQNN)。在DQNN中,网络中的每个节点都对应于一个量子比特,而网络中的连接由量子感知器模拟。耗散指的是辅助量子比特构成输出层,而输入层的量子比特被丢弃的事实。这种架构最近受到了极大的关注,并被提议作为QNN的一种可扩展的方法。
图:基于耗散感知器的量子神经网络(DQNN)的示意图。
顶部:DQNN由输入层、隐藏层和输出层组成。网络中的每个节点都对应于一个量子比特,它可以通过感知器(以线表示)连接到相邻层的量子比特。DQNN的输入和输出是量子状态,分别记为ρin和ρout。第l层的第j个量子比特表示为qjl。每个感知器对应于它所连接的量子位上的一个单元操作,Vjl表示第l层的第j个感知器。
2
研究人员首先证明,DQNN的可训练性并不总是有保证的,因为它们在损失函数中可能表现出贫瘠高原现象。这种贫瘠高原的存在与感知器和损失函数的局部性有关。具体而言,研究人员证明:(1)具有深度全局感知器的DQNN是不可训练的,尽管该结构具有耗散性;(2)对于浅层和局部感知器,采用全局损失函数会导致贫瘠高原现象,而采用局部损失函数则可以避免该现象。
此外,研究人员还为DQNN提供了一种特定的体系结构,该体系结构具有局部浅层感知器,可以精确地映射到分层硬件高效的QNN。这一结果不仅表明DQNN与硬件效率高的QNN一样具有可表达性,而且还允许研究人员为这些DQNN提供可训练性保证。在这种情况下,由于感知器是局部的,每个神经元只从前一层的少量量子比特接收信息。这种结构让人想起经典的卷积神经网络,众所周知,卷积神经网络可以避免完全连接网络的一些可训练性问题。
3
这些结果表明,要理解QNN的可训练性,并确保它们实际上比经典神经网络具有优势,还有很多工作要做。例如,有趣的未来研究方向是QNN特定的优化器,分析QNN对噪声的容错性,以及防止贫瘠高原现象的策略。此外,探索DQNN和硬件高效的QNN之外的体系结构,尤其是如果此类体系结构具有大规模可训练性,将是一个有意义的课题。
潘佳栋 | 作者
邓一雪 | 编辑
商务合作及投稿转载 swarma@swarma.org
搜索公众号:集智俱乐部
加入“没有围墙的研究所”
让苹果砸得更猛烈些吧!