财讯:告别2019:属于深度学习的十年,哪些我们必需知道的经典
本篇文章6035字,读完约15分钟
当前版本is IOS-- & GT; 机器的心
从leogao.dev中选择
作者: leo gao
参加:一鸣,泽南,小鸡蛋
新年快乐!
今天太阳升起时,我们正式告别了前十年。
这十年来,随着计算能力和大数据方面的迅速发展,深度学习在解决曾经困扰我们的问题,特别是计算机视觉和自然语言方面克服了很多。 另外,深入的学习技术也进入了我们的生活,无处不在。
这个副本总结了过去10年在深度学习行业有很大影响的论文,从relu、alexnet、gan到transformer、bert。 每年都有很多荣誉提名,有很多包括名声在内的研究成果。
年:激活函数relu
《deepsparserectifierneuralnetworks ( relu )》
论文链接: Proceedings.MLR.Press/v 15/GLO Rot 11 a/GLO Rot 11 a.PDF (引用量4071 )
初期的神经网络多采用sigmoid激活函数。 这是有效的,但随着层数的增加,该激活函数更容易衰减梯度。 年的这篇论文中,relu正式提交了。 处理坡度消失的问题,有助于向神经网络添加深度道路。
sigmoid及其导数
当然,relu也有一点缺点。 函数为0时不是微小的,神经元可能会“死”。 经过多年,还提出了许多对比度relu的改善。
年度荣誉提名:(今年的研究大部分集中在改善激活函数上)
1、《rectifiernonlinearitiesimproveneuralnetworkacousticmodels ( leaky relu )》
基于改良relu的激活函数,x为负时不取0。
论文链接: AI.Stanford.EDU/~ AMA AS/PaPers/Relu _ Hybrid _ ICML _ Fina
2、《fastandaccuratedeepnetworklearningbyexponentiallinearunits ( ELUS )》
论文链接: arxiv/abs/1511.07289
3、《self-normalizingneuralnetworks ( selus )》
论文链接: arxiv/abs/1706.02515
4、“gaussian error linear units (gelus )”
这个激活函数表明比relu更有效,采用了bert等模型。
论文链接: arxiv/abs/1606.08415
年:掀起了深刻的学习浪潮的alexnet
“imagenetclassificationwithdeepconvolutionalneuralnetworks ( Alex net )”
论文链接: PaPers.NIPS.CC/PaPer/4824-IMagenet-class ification-with-deep-convolutional-neural
alexnet体系结构
alexnet在imagenet挑战中的错误率比上次冠军减少了10%以上,多被认为是比亚军高10.8个百分点的人工智能波的起点。 alexnet是多伦多大学supervision集团设计的,由alex krizhevsky、geoffrey hinton和ilya sutskever组成。
alexnet是8层卷积神经网络,使用relu激活函数,共计有6千万参数量。 alexnet最大的贡献是解释深度学习的能力。 也是第一个使用并行计算和gpu加速的互联网。
在imagenet中,alexnet表现得很好。 认识错误率从26.2%下降到15.3%。 显着的性能提高吸引了业界高度关注的学习,alexnet成为目前这个行业最受引用的论文。
年度荣誉提名:
1、“imagenet:a large-scalehierarchicalimagedatabase ( imagenet )”
imagenet是斯坦福大学李飞飞等人完成的用于图像识别的数据集,是计算机视觉行业验证模型性能的基准数据集。
论文链接: image-net/papers/imagenet _ cvpr 09.PDF
imagenet
2、“flexible,highperformanceconvolutionalneuralnetworksforimageclassification ( Jurgenschmidhuber是通信制作者)”
论文链接: PeoPle.ID SIA.ch/~ Juergen/IJ CAI.PDF
3、《gradient-basedlearningappliedtodocumentrecognition》
论文链接: vision.Stanford.edu/cs 598 _ spring 07/papers/le Cun 98.PDF
年: nlp经典word2vec; 开启深度强化学习时代
《distributedrepresentationsofwordsandphrasesandtheircompositionality ( word2vec )》
论文链接: PaPers.NIPS.CC/PaPer/5021-distributed-re Presentations-of-words-and-Phrases -。
word2vec是Google研究小组的thomas mikolov等人提出的模型,可以根据非常大的数据集计算出用于表达词语的连续型向量。 word2vec成为nlp行业深度学习的主要复制编码方法。 基于同样的语境,出现词有相似意义的想法,将副本作为矢量嵌入,可以用于其他下游任务。
年度荣誉提名:
1、《glove:globalvectorsforwordrepresentation》
论文链接: NLP.Stanford.EDU/PUBS/Glove.PDF
2、《playingatariwithdeepreinforcementlearning》
论文链接: CS.Toronto.EDU/~ VM NIH/DOCS/DQN.PDF (被引用量3251 )
deepmind的dqn模型玩意大利游戏
使用了deepmind今年提倡的dqn的阿塔里游戏打开了深度强化学习研究的大门。 强化学习过去经常在低维环境中使用,在更多复杂的环境中很少采用。 雅达利游戏是加强高维环境下学习的第一个应用。 该研究提出了deepq学习算法,采用了基于价值的奖励函数。
年度荣誉提名:
1、“learningfromdelayedrewards ( q-learning )”
论文链接: cs.rhul.AC.uk/~ chrisw/new _ thesis.PDF
年: gan; adam; attention机制
《『generativeadversarialnetworks』》
论文链接: PaPers.NIPS.CC/PaPer/5423-generative-adversarial-nets (引用量13917 )
gan ( generativeadversarialnetwork )的生成是ian goodefellow等人提出的非监视性学习方法,通过使两个神经网络相互游戏的方法进行学习。 年gan互联网发布以来,在计算机视觉( computer vision )等行业受到广泛关注。
反互联网( gan )生成的成功是可以生成真实的图像。 该互联网通过采用生成器和判别器之间的最小最大( minimax )游戏,gan可以建模高纬度、多样且复杂的数据分布。 在gan中,生成器被用于生成假样本,判别器进行评价(是否是生成数据)。
年度荣誉提名:
1、wasserstein gan &; improvedtrainingofwassersteingans ( wgan )”
wgan是gan的改良版,取得了更好的效果。
论文链接: arxiv/abs/1701.07875
2、《风格枪》
stylegan生成的图像
论文链接: arxiv/abs/1812.04948
3、“neuralmachinetranslationbyjointlylearningtoalignandtranslate ( attention机制)”
论文链接: arxiv/abs/1409.0473 (引用量9882 )
观察力的可视化结果
这篇论文介绍了观察力机制的想法。 与其把所有新闻压缩到一个rnn的隐藏层,不如把整个上下文留在内存里。 这将确保所有输出都支持输入。 除了被机器翻译采用外,attention机制还被用于gan等模型。
《Adam:amethodforstochasticoptimization》
论文链接: arxiv/abs/1412.6980 (引用量34082 )
adam因容易微调的特点而被广泛采用。 这基于适应各个参数不同的学习率的思想。 最近出现了质疑adam性能的论文,但依然是深入学习中最受欢迎的目的函数。
年度荣誉提名:
1、《decoupledweightdecayregularization》
论文地址: arxiv/abs/1711.05101
2、rmsprop
和adam一样有名的目的函数。
论文地址cs.Toronto.edu/~ tij men/CSC 321/slides/lecture _ slides _ LEC6. PDF *
:超越人类的resnet; 魔法分批正规化
《deepresiduallearningforimagerecognition》
论文链接: arxiv/abs/1512.03385 (引用量34635 )
residual block结构。
有名的resnet从resnet开始,神经网络在视觉分类任务中的性能首次超过了人类。 这种方法获得了imagenet和coco比赛的冠军,并获得了cvpr的最高论文奖。 这项研究的作者是何开明、张祥雨、任少卿和孙剑。
最初的resnet设计是为了解决深层cnn结构中的梯度消失和梯度爆炸问题,现在residual block几乎成为所有cnn结构中的基本结构。
这个想法很简单。 将“输入”从卷积层的每个块添加到“输出”。 残差互联网以后的启示是神经网络不应该分解为越来越多的层数,在最不优选的情况下,可以简单地将其他层设定为恒等映射( identity mapping )。 但是现实中,更深的网络在训练上经常遇到困难。 残差互联网使每个层次更容易学习恒等映射,同时减少了坡度消失的问题。
虽然不太复杂,但是残差互联网比以往的cnn架构有很大的优势,特别是在应用于更深的互联网的情况下。
一些cnn之间的对象。
许多cnn体系结构都在争夺“领导椅”,下面是一些具有代表性意义的样本。
inceptionv1结构。
年度荣誉提名:
1、going deeper with convolutions
论文链接: arxiv/abs/1409.4842
2、《verydeepconvolutionalnetworksforlarge-scaleimagerecognition》
论文链接: arxiv/abs/1409.1556
3、《neuralordinarydifferentialequations》
论文链接: arxiv/abs/1806.07366(nips最佳论文奖)
“batch normalization:acceleratingdeepnetworktrainingbyreducinginternalcovariateshift (批处理归一化)”
论文链接: arxiv/ABS/1502.03167 (引用14384次)
批处理归一化( batch normalization )是当今大部分神经网络的主流趋势。 批处理基于另一个简单但很棒的想法:通过在训练中保持平均和方差的统计,将activation的范围转换为零平均和单位方差。
关于分批正规化效果的确切原因还不清楚,但在实践中确实有效。
年度荣誉提名:
不同归一化技术的可视化表示。
1、“层规格化”
论文链接: arxiv/abs/1607.06450
2、“实例规范化”。
论文链接: arxiv/abs/1607.08022
3、“组规范化( group normalization )”
论文链接: arxiv/abs/1803.08494
年:被攻陷最多的游戏——阿尔法戈
nature的alphago论文《masteringthegameofgowithdeepneuralnetworksandtreesearch》
论文链接: nature/articles/nature16961 (引用量6310 )
很多人对现代ai的理解是从deepmind的围棋程序alpha go开始的。 阿尔法go研究项目始于年,目的是测试使用深度学习的神经网络在go中如何竞争。
阿尔法戈比以往的go程序有了显着的改进,在与其他可用的围棋程序(包括crazy stone和zen )的500场比赛中,在一台计算机上运行的阿尔法戈取得了除了一个以外的所有胜利,在多台计算机上运行, 年10月的分散版本采用了1,202个cpu和176个gpu,当时以5: 0的比分打败了欧洲围棋冠军樊麾(职业2级选手),引起了轩然大波。
计算机围棋程序在全球棋盘( 19 × 19 )上无让子地打败人类职业棋手还是第一次。 年3月,在自我游戏中练习的强化版阿尔法戈以4: 1击败了世界围棋冠军李世石,成为第一个用无让子打败围棋9段棋手的电脑程序,记载在史书上。 比赛后,阿尔法戈被韩国棋院授予名誉职业9级称号。
年度荣誉提名:
1、deepmind的另一篇alphago nature论文《masteringthegameofgowithouthumanknowledge》
论文链接: nature/articles/nature24270
作为阿尔法戈的后续版本,去年10月,deepmind发布了最新强化版阿尔法戈零。 这是不需要人类专业棋谱的版本,比以前的版本更强大。 通过自我游戏,alpha goro在3天的学习中超过了alpha gory的水平,21天后达到了alpha goro大师的实力,在40天内超过了前所有版本。
年:大部分人使用的transformer
attention is all you need
论文链接: PaPers.NIPS.CC/PaPer/7181-attention-IS-all-you-Need.PDF (引用量5059 )
出现了有名的transformer体系结构。 年6月,谷歌又宣布在机器翻译方面更进一步,完全实现了基于attention的transformer机器翻译互联网架构,同时在wmt的多语言对翻译任务中超越了以前facebook的成绩,取得了新
在编码器解码器配置中,显性序列的显性传输模型基于各种各样的rnn或cnn。 为了表现最佳的模型,需要通过观察力机制连接编码器和解码器。
谷歌是一种新的简单的互联网体系结构——提出了——transformer。 这完全基于观察力的机制,完全放弃了循环和卷积。 两个机器翻译任务的实验表明这些模型的翻译质量更好,更并行,所需的训练时间也大幅度减少。 新模型在从wmt英语到德语的翻译任务中取得了bleu分数28.4的成绩,领先了两个以上现在最好的结果(包括集成模型)。 在wmt英语到法语的翻译任务中,在8个gpu训练3.5天后,新模型获得了新单曲榜的顶级bleu得分41.0。 只是现在文献中最好的型号培训价格的一小部分。
transformer在其他任务中也被泛化,成功地分解了具有很多训练数据和有限训练数据的英语小组。
《neuralarchitecturesearchwithreinforcementlearning》
论文链接: openreview/forum? id=r1ue8hcxg (引用量1186 )
神经结构搜索( nas )表示自动设计人工神经网络( ann )的过程,人工神经网络是机器学习行业广泛采用的模型。 神经网络采用nas的各种方法设计,与手工设计的体系结构具有同等以上的性能。 在搜索空期间,可以根据搜索策略和性能判断策略三个方面对nas的做法进行分类。 其他做法采用了进化算法,如“regularizedevolutionforimageclassifierarchitecturesearch”(即amoebanet )。
年:预备训练模式很热
当然,谷歌的nlp预备训练模型BERT :“BERT:pre-Training OFDEEPBIDIRectional Transforlanguage understanding”中,这篇论文现在被引用了3025次
论文链接: arxiv/abs/1810.04805
本文介绍了一种新的语言表达模型来自bert―transformer的双向编码器表达。 与最近的语言表现模型不同,bert的目的是根据全层左右的语境预先训练深度双向表现。 bert是基于在大量语句级和token级任务中获得当前最佳性能的第一个微调的表现模型,其性能超过了采用任务固有架构的多个系统,更新了11个nlp任务的当前最佳性能记录。
bert、gpt-2和elmo的模型结构
年度荣誉提名:
自从bert被提出以来,基于transformer的语言模型显示了井喷的趋势。 这些论文还需要时间,很难说哪个影响最大。
1、《deepcontextualizedwordrepresentations》
论文链接: arxiv/abs/1802.05365
2、《improvinglanguageunderstandingbygenerativepre-training》
论文链接: S3-us-west-2.Amazonaws/open AI-assets/research-covers/language-unsupervised /
3、“languagemodelsareunsupervisedmultitasklearners”- OPT AI于2月发售的参数量达到15亿的预备训练模型gpt-2。
论文链接: D4 mucfpksywv.cloudfront/better-language-models/language _ models _ are _ unsupervised _。
4、《transformer-XL:attentivelanguagemodelsbeyondafixed-length context》
传统的transformer互联网由于上下文长度是固定的,所以长期学习关系的可能性有限。 本文提出的新神经网络transformer-xl可以超越固定长度学习依赖性,也可以应对语境的碎片化问题。
论文链接: arxiv/abs/1901.02860
5、《xlnet:generalizedautoregressivepretraining forlanguageunderstanding》
bert带来的影响还没有平息,cmu和谷歌的大脑在6月份提出的xlnet在20个任务中超过了bert的表现,在18个任务中获得了sota。
论文链接: arxiv/abs/1906.08237
6、《neuralmachinetranslationofrarewordswithsubwordunits》
论文链接: arxiv/abs/1508.07909
2019年:深入学习的原理改进
在论文“deep doubledescent:wherebiggermodelsandmoredatahurt”中,本文讨论的double descent现象与古典机器学习和现代深度学习中的流行观点相去甚远。
论文链接: arxiv/abs/1912.02292
本文说明了各种现代深度学习任务表现出“双重下降”现象,同时随着模型尺寸的增大性能首先变差,然后变好。 另外,二重下降不仅作为模型尺寸的函数出现,还可以作为训练时间点数的函数使用。 研究者通过定义新的多样性尺度(比较有效的模型复杂性,称为effective model complexity )统一了上述现象,与该尺度相比推测了广义的二重下降。 另外,他们可以用模型多而复杂的概念,明确一些方案。 在这些方案中,增加训练样品的数量(再增加4倍)实际上会损害测试性能。
mit csail研究者的论文《ThelotterytickethyPothesis:Findings Parse,trainable neural networks》也获得iclr 2019最佳论文奖。
论文链接: arxiv/abs/1803.03635
研究者们发现标准的神经网络剪枝技术自然地发现了子网,这些子网被初始化后可以比较有效地训练。 基于这些结果,研究者提出了“彩票假设”( lottery ticket hypothesis ) :密集随机初始化的前馈互联网包括子互联网(“彩票”),在独立训练时,这些
未来?
基于深度学习和梯度的神经网络取得了技术创新,因此过去十年是人工智能迅速发展的时期。 这是因为芯片的计算能力显着提高,神经网络越来越大,性能也进一步提高。 从计算机视觉到自然语言解决,新方法大大取代了以前流传的ai技术。
但是,神经网络也有缺点。 这些需要连续地组合大量标记的数据,无法说明自己的估计机制,难以在单一任务之外进行宣传。 但是,随着深入学习的推进,ai行业得到了高速发展,更多的研究者正在努力解决这些课题。
今后几年,人们对神经网络的理解会提高。 人工智能前景还很光明:深度学习是ai行业最强大的工具,它使我们接近真正的智能。
我们期待今年的新成果吧。
参考链接: leogao.dev/2019/12/31/the-decade-of-deep-learning /
根据最近腾讯天美工作室发行的热门moba类手游“王者荣耀”,腾讯ai lab发表了在深度强化学习中为智能体预测游戏动作研究成果,在机器心中最新的一期AAI线上共享,论文一作,腾讯AI
原标题:《分手2019 :属于深度学习的十年,我们应该知道的古典是什么》
阅读原文。
标题:财讯:告别2019:属于深度学习的十年,哪些我们必需知道的经典
地址:http://www.mnscw.cn/syxx/10563.html
免责声明:民生财经杂志网致力于提供权威、全面、专业、及时的财经资讯,的部分内容转载于网络,不为其真实性负责,只为传播网络信息为目的,非商业用途,如有异议请及时联系btr2031@163.com,民生财经杂志网将予以删除。