主页 > 商业信息 > 财讯：告别2019：属于深度学习的十年，哪些我们必需知道的经典

财讯：告别2019：属于深度学习的十年，哪些我们必需知道的经典

来源：网络转载更新时间：2021-01-17 13:57:01阅读：

本篇文章6035字，读完约15分钟

当前版本is IOS-- & GT；机器的心

从leogao.dev中选择

作者: leo gao

参加:一鸣，泽南，小鸡蛋

新年快乐！

今天太阳升起时，我们正式告别了前十年。

这十年来，随着计算能力和大数据方面的迅速发展，深度学习在解决曾经困扰我们的问题，特别是计算机视觉和自然语言方面克服了很多。另外，深入的学习技术也进入了我们的生活，无处不在。

这个副本总结了过去10年在深度学习行业有很大影响的论文，从relu、alexnet、gan到transformer、bert。每年都有很多荣誉提名，有很多包括名声在内的研究成果。

年:激活函数relu

《deepsparserectifierneuralnetworks ( relu )》

论文链接: Proceedings.MLR.Press/v 15/GLO Rot 11 a/GLO Rot 11 a.PDF (引用量4071 )

初期的神经网络多采用sigmoid激活函数。这是有效的，但随着层数的增加，该激活函数更容易衰减梯度。年的这篇论文中，relu正式提交了。处理坡度消失的问题，有助于向神经网络添加深度道路。

sigmoid及其导数

当然，relu也有一点缺点。函数为0时不是微小的，神经元可能会“死”。经过多年，还提出了许多对比度relu的改善。

年度荣誉提名:(今年的研究大部分集中在改善激活函数上)

1、《rectifiernonlinearitiesimproveneuralnetworkacousticmodels ( leaky relu )》

基于改良relu的激活函数，x为负时不取0。

论文链接: AI.Stanford.EDU/~ AMA AS/PaPers/Relu _ Hybrid _ ICML _ Fina

2、《fastandaccuratedeepnetworklearningbyexponentiallinearunits ( ELUS )》

论文链接: arxiv/abs/1511.07289

3、《self-normalizingneuralnetworks ( selus )》

论文链接: arxiv/abs/1706.02515

4、“gaussian error linear units (gelus )”

这个激活函数表明比relu更有效，采用了bert等模型。

论文链接: arxiv/abs/1606.08415

年:掀起了深刻的学习浪潮的alexnet

“imagenetclassificationwithdeepconvolutionalneuralnetworks ( Alex net )”

论文链接: PaPers.NIPS.CC/PaPer/4824-IMagenet-class ification-with-deep-convolutional-neural

alexnet体系结构

alexnet在imagenet挑战中的错误率比上次冠军减少了10%以上，多被认为是比亚军高10.8个百分点的人工智能波的起点。 alexnet是多伦多大学supervision集团设计的，由alex krizhevsky、geoffrey hinton和ilya sutskever组成。

alexnet是8层卷积神经网络，使用relu激活函数，共计有6千万参数量。 alexnet最大的贡献是解释深度学习的能力。也是第一个使用并行计算和gpu加速的互联网。

在imagenet中，alexnet表现得很好。认识错误率从26.2%下降到15.3%。显着的性能提高吸引了业界高度关注的学习，alexnet成为目前这个行业最受引用的论文。

年度荣誉提名:

1、“imagenet:a large-scalehierarchicalimagedatabase ( imagenet )”

imagenet是斯坦福大学李飞飞等人完成的用于图像识别的数据集，是计算机视觉行业验证模型性能的基准数据集。

论文链接: image-net/papers/imagenet _ cvpr 09.PDF

imagenet

2、“flexible，highperformanceconvolutionalneuralnetworksforimageclassification ( Jurgenschmidhuber是通信制作者)”

论文链接: PeoPle.ID SIA.ch/~ Juergen/IJ CAI.PDF

3、《gradient-basedlearningappliedtodocumentrecognition》

论文链接: vision.Stanford.edu/cs 598 _ spring 07/papers/le Cun 98.PDF

年: nlp经典word2vec；开启深度强化学习时代

《distributedrepresentationsofwordsandphrasesandtheircompositionality ( word2vec )》

论文链接: PaPers.NIPS.CC/PaPer/5021-distributed-re Presentations-of-words-and-Phrases -。

word2vec是Google研究小组的thomas mikolov等人提出的模型，可以根据非常大的数据集计算出用于表达词语的连续型向量。 word2vec成为nlp行业深度学习的主要复制编码方法。基于同样的语境，出现词有相似意义的想法，将副本作为矢量嵌入，可以用于其他下游任务。

财讯：告别2019：属于深度学习的十年，哪些我们必需知道的经典

年度荣誉提名:

1、《glove:globalvectorsforwordrepresentation》

论文链接: NLP.Stanford.EDU/PUBS/Glove.PDF

2、《playingatariwithdeepreinforcementlearning》

论文链接: CS.Toronto.EDU/~ VM NIH/DOCS/DQN.PDF (被引用量3251 )

deepmind的dqn模型玩意大利游戏

使用了deepmind今年提倡的dqn的阿塔里游戏打开了深度强化学习研究的大门。强化学习过去经常在低维环境中使用，在更多复杂的环境中很少采用。雅达利游戏是加强高维环境下学习的第一个应用。该研究提出了deepq学习算法，采用了基于价值的奖励函数。

财讯：告别2019：属于深度学习的十年，哪些我们必需知道的经典

年度荣誉提名:

1、“learningfromdelayedrewards ( q-learning )”

论文链接: cs.rhul.AC.uk/~ chrisw/new _ thesis.PDF

年: gan； adam； attention机制

《『generativeadversarialnetworks』》

论文链接: PaPers.NIPS.CC/PaPer/5423-generative-adversarial-nets (引用量13917 )

gan ( generativeadversarialnetwork )的生成是ian goodefellow等人提出的非监视性学习方法，通过使两个神经网络相互游戏的方法进行学习。年gan互联网发布以来，在计算机视觉( computer vision )等行业受到广泛关注。

反互联网( gan )生成的成功是可以生成真实的图像。该互联网通过采用生成器和判别器之间的最小最大( minimax )游戏，gan可以建模高纬度、多样且复杂的数据分布。在gan中，生成器被用于生成假样本，判别器进行评价(是否是生成数据)。

财讯：告别2019：属于深度学习的十年，哪些我们必需知道的经典

年度荣誉提名:

1、wasserstein gan &； improvedtrainingofwassersteingans ( wgan )”

wgan是gan的改良版，取得了更好的效果。

论文链接: arxiv/abs/1701.07875

2、《风格枪》

stylegan生成的图像

论文链接: arxiv/abs/1812.04948

3、“neuralmachinetranslationbyjointlylearningtoalignandtranslate ( attention机制)”

论文链接: arxiv/abs/1409.0473 (引用量9882 )

观察力的可视化结果

这篇论文介绍了观察力机制的想法。与其把所有新闻压缩到一个rnn的隐藏层，不如把整个上下文留在内存里。这将确保所有输出都支持输入。除了被机器翻译采用外，attention机制还被用于gan等模型。

《Adam:amethodforstochasticoptimization》

论文链接: arxiv/abs/1412.6980 (引用量34082 )

adam因容易微调的特点而被广泛采用。这基于适应各个参数不同的学习率的思想。最近出现了质疑adam性能的论文，但依然是深入学习中最受欢迎的目的函数。

年度荣誉提名:

1、《decoupledweightdecayregularization》

论文地址: arxiv/abs/1711.05101

2、rmsprop

和adam一样有名的目的函数。

论文地址cs.Toronto.edu/~ tij men/CSC 321/slides/lecture _ slides _ LEC6. PDF *

:超越人类的resnet；魔法分批正规化

《deepresiduallearningforimagerecognition》

论文链接: arxiv/abs/1512.03385 (引用量34635 )

residual block结构。

有名的resnet从resnet开始，神经网络在视觉分类任务中的性能首次超过了人类。这种方法获得了imagenet和coco比赛的冠军，并获得了cvpr的最高论文奖。这项研究的作者是何开明、张祥雨、任少卿和孙剑。

最初的resnet设计是为了解决深层cnn结构中的梯度消失和梯度爆炸问题，现在residual block几乎成为所有cnn结构中的基本结构。

这个想法很简单。将“输入”从卷积层的每个块添加到“输出”。残差互联网以后的启示是神经网络不应该分解为越来越多的层数，在最不优选的情况下，可以简单地将其他层设定为恒等映射( identity mapping )。但是现实中，更深的网络在训练上经常遇到困难。残差互联网使每个层次更容易学习恒等映射，同时减少了坡度消失的问题。

财讯：告别2019：属于深度学习的十年，哪些我们必需知道的经典

虽然不太复杂，但是残差互联网比以往的cnn架构有很大的优势，特别是在应用于更深的互联网的情况下。

一些cnn之间的对象。

许多cnn体系结构都在争夺“领导椅”，下面是一些具有代表性意义的样本。

inceptionv1结构。

年度荣誉提名:

1、going deeper with convolutions

论文链接: arxiv/abs/1409.4842

2、《verydeepconvolutionalnetworksforlarge-scaleimagerecognition》

论文链接: arxiv/abs/1409.1556

3、《neuralordinarydifferentialequations》

论文链接: arxiv/abs/1806.07366(nips最佳论文奖)

“batch normalization:acceleratingdeepnetworktrainingbyreducinginternalcovariateshift (批处理归一化)”

论文链接: arxiv/ABS/1502.03167 (引用14384次)

批处理归一化( batch normalization )是当今大部分神经网络的主流趋势。批处理基于另一个简单但很棒的想法:通过在训练中保持平均和方差的统计，将activation的范围转换为零平均和单位方差。

关于分批正规化效果的确切原因还不清楚，但在实践中确实有效。

年度荣誉提名:

不同归一化技术的可视化表示。

1、“层规格化”

论文链接: arxiv/abs/1607.06450

2、“实例规范化”。

论文链接: arxiv/abs/1607.08022

3、“组规范化( group normalization )”

论文链接: arxiv/abs/1803.08494

年:被攻陷最多的游戏——阿尔法戈

nature的alphago论文《masteringthegameofgowithdeepneuralnetworksandtreesearch》

论文链接: nature/articles/nature16961 (引用量6310 )

很多人对现代ai的理解是从deepmind的围棋程序alpha go开始的。阿尔法go研究项目始于年，目的是测试使用深度学习的神经网络在go中如何竞争。

阿尔法戈比以往的go程序有了显着的改进，在与其他可用的围棋程序(包括crazy stone和zen )的500场比赛中，在一台计算机上运行的阿尔法戈取得了除了一个以外的所有胜利，在多台计算机上运行，年10月的分散版本采用了1，202个cpu和176个gpu，当时以5: 0的比分打败了欧洲围棋冠军樊麾(职业2级选手)，引起了轩然大波。

财讯：告别2019：属于深度学习的十年，哪些我们必需知道的经典

计算机围棋程序在全球棋盘( 19 × 19 )上无让子地打败人类职业棋手还是第一次。年3月，在自我游戏中练习的强化版阿尔法戈以4: 1击败了世界围棋冠军李世石，成为第一个用无让子打败围棋9段棋手的电脑程序，记载在史书上。比赛后，阿尔法戈被韩国棋院授予名誉职业9级称号。

财讯：告别2019：属于深度学习的十年，哪些我们必需知道的经典

年度荣誉提名:

1、deepmind的另一篇alphago nature论文《masteringthegameofgowithouthumanknowledge》

论文链接: nature/articles/nature24270

作为阿尔法戈的后续版本，去年10月，deepmind发布了最新强化版阿尔法戈零。这是不需要人类专业棋谱的版本，比以前的版本更强大。通过自我游戏，alpha goro在3天的学习中超过了alpha gory的水平，21天后达到了alpha goro大师的实力，在40天内超过了前所有版本。

财讯：告别2019：属于深度学习的十年，哪些我们必需知道的经典

年:大部分人使用的transformer

attention is all you need

论文链接: PaPers.NIPS.CC/PaPer/7181-attention-IS-all-you-Need.PDF (引用量5059 )

出现了有名的transformer体系结构。年6月，谷歌又宣布在机器翻译方面更进一步，完全实现了基于attention的transformer机器翻译互联网架构，同时在wmt的多语言对翻译任务中超越了以前facebook的成绩，取得了新

在编码器解码器配置中，显性序列的显性传输模型基于各种各样的rnn或cnn。为了表现最佳的模型，需要通过观察力机制连接编码器和解码器。

谷歌是一种新的简单的互联网体系结构——提出了——transformer。这完全基于观察力的机制，完全放弃了循环和卷积。两个机器翻译任务的实验表明这些模型的翻译质量更好，更并行，所需的训练时间也大幅度减少。新模型在从wmt英语到德语的翻译任务中取得了bleu分数28.4的成绩，领先了两个以上现在最好的结果(包括集成模型)。在wmt英语到法语的翻译任务中，在8个gpu训练3.5天后，新模型获得了新单曲榜的顶级bleu得分41.0。只是现在文献中最好的型号培训价格的一小部分。

财讯：告别2019：属于深度学习的十年，哪些我们必需知道的经典

transformer在其他任务中也被泛化，成功地分解了具有很多训练数据和有限训练数据的英语小组。

《neuralarchitecturesearchwithreinforcementlearning》

论文链接: openreview/forum？ id=r1ue8hcxg (引用量1186 )

神经结构搜索( nas )表示自动设计人工神经网络( ann )的过程，人工神经网络是机器学习行业广泛采用的模型。神经网络采用nas的各种方法设计，与手工设计的体系结构具有同等以上的性能。在搜索空期间，可以根据搜索策略和性能判断策略三个方面对nas的做法进行分类。其他做法采用了进化算法，如“regularizedevolutionforimageclassifierarchitecturesearch”(即amoebanet )。

财讯：告别2019：属于深度学习的十年，哪些我们必需知道的经典

年:预备训练模式很热

当然，谷歌的nlp预备训练模型BERT :“BERT:pre-Training OFDEEPBIDIRectional Transforlanguage understanding”中，这篇论文现在被引用了3025次

论文链接: arxiv/abs/1810.04805

本文介绍了一种新的语言表达模型来自bert―transformer的双向编码器表达。与最近的语言表现模型不同，bert的目的是根据全层左右的语境预先训练深度双向表现。 bert是基于在大量语句级和token级任务中获得当前最佳性能的第一个微调的表现模型，其性能超过了采用任务固有架构的多个系统，更新了11个nlp任务的当前最佳性能记录。

财讯：告别2019：属于深度学习的十年，哪些我们必需知道的经典

bert、gpt-2和elmo的模型结构

年度荣誉提名:

自从bert被提出以来，基于transformer的语言模型显示了井喷的趋势。这些论文还需要时间，很难说哪个影响最大。

1、《deepcontextualizedwordrepresentations》

论文链接: arxiv/abs/1802.05365

2、《improvinglanguageunderstandingbygenerativepre-training》

论文链接: S3-us-west-2.Amazonaws/open AI-assets/research-covers/language-unsupervised /

3、“languagemodelsareunsupervisedmultitasklearners”- OPT AI于2月发售的参数量达到15亿的预备训练模型gpt-2。

论文链接: D4 mucfpksywv.cloudfront/better-language-models/language _ models _ are _ unsupervised _。

4、《transformer-XL:attentivelanguagemodelsbeyondafixed-length context》

传统的transformer互联网由于上下文长度是固定的，所以长期学习关系的可能性有限。本文提出的新神经网络transformer-xl可以超越固定长度学习依赖性，也可以应对语境的碎片化问题。

论文链接: arxiv/abs/1901.02860

5、《xlnet:generalizedautoregressivepretraining forlanguageunderstanding》

bert带来的影响还没有平息，cmu和谷歌的大脑在6月份提出的xlnet在20个任务中超过了bert的表现，在18个任务中获得了sota。

论文链接: arxiv/abs/1906.08237

6、《neuralmachinetranslationofrarewordswithsubwordunits》

论文链接: arxiv/abs/1508.07909

2019年:深入学习的原理改进

在论文“deep doubledescent:wherebiggermodelsandmoredatahurt”中，本文讨论的double descent现象与古典机器学习和现代深度学习中的流行观点相去甚远。

论文链接: arxiv/abs/1912.02292

本文说明了各种现代深度学习任务表现出“双重下降”现象，同时随着模型尺寸的增大性能首先变差，然后变好。另外，二重下降不仅作为模型尺寸的函数出现，还可以作为训练时间点数的函数使用。研究者通过定义新的多样性尺度(比较有效的模型复杂性，称为effective model complexity )统一了上述现象，与该尺度相比推测了广义的二重下降。另外，他们可以用模型多而复杂的概念，明确一些方案。在这些方案中，增加训练样品的数量(再增加4倍)实际上会损害测试性能。

财讯：告别2019：属于深度学习的十年，哪些我们必需知道的经典