著名深度学习论文的对比研究

简介

在快速发展且令人兴奋的深度学习和计算机视觉领域，有两项基础性工作真正为未来研究设定了标准，并为学术界和工业界的创新应用铺平了道路。这两项令人印象深刻的工作是"使用深度卷积神经网络进行ImageNet分类"和"用于图像识别的深度残差学习"。为简单起见，我们将它们分别称为AlexNet（RA1）和ResNet（RA2）。

RA1，即AlexNet，不仅是2012年ImageNet竞赛的冠军，还重新定义了机器识别模式和分类的能力。ImageNet由斯坦福大学视觉实验室、斯坦福大学和普林斯顿大学创建，是行业最权威的图像数据库，包含数百至数千张图像，对CV（计算机视觉）和DL（深度学习）击生了非常重要的影响。RA2，通常被称为ResNet，通过添加残差学习革新了神经网络架构，解决了"更深的神经网络更难训练"的问题。在本报告中，我们将探讨"使用深度卷积神经网络进行ImageNet分类"和"用于图像识别的深度残差学习"在实现深度学习和计算机视觉领域研究目标时采用的不同策略和修辞方法。

修辞情境

毫无疑问，深度学习改变了机器看、识别和理解图像和文本的方式。ImageNet和ResNet这两项革命性工作促进了该领域的进步。这些开创性的工作是为研究或从事CV（计算机视觉）、DL（深度学习）和NLP（自然语言处理）领域的人员而写的。这些论文的作者使用精确和深入的技术语言以及清晰的思路，让读者理解和使用研究成果。读者必须熟悉论文中的概念。由于两篇文章的成果都很出色，读者可能会喜欢阅读这些文章并与相关模型互动。两篇文章有相似的目标，即展示新方法和架构并证明其优越性。AlexNet证明了CNN（卷积神经网络）可以有效地用于大规模数据集并获得出色的结果。同时，也展示了GPU加速训练的重要性。ResNet展示了残差学习可以有效地训练非常深的神经网络，以提高模型性能和表达能力。这两篇论文点发表在CVPR（IEEE/CVF计算机视觉和模式识别会议）上，这是年度计算机视觉领域的首要会议（CVPR，2023），是该领域最重要的会议之一。这意味着这些论文有很好的想法，经过同行评议，并且会有很多人阅读和讨论。两篇文章中呈现信息的目的是相似的，都是为了告诉同行和学习者他们如何使用新方法解决计算机视觉分类问题并推动行业发展。他们还与同行讨论并尝试解决或优化更多问题，以创建更好的模型。

修辞策略

Ethos（道德说服）、pathos（情感说服）和logos（逻辑说服）对于一个强有力的论证非常重要。这是三种经过验证的用于影响读者的说服方法。AlexNet和ResNet是人工智能领域非常重要的论文，它们也使用这些说服方法来丰富读者的体验并传播其突破性的想法。

Ethos（道德说服）

首先，就ethos而言，讨论作者的权威性使读者更容易信任他们。两篇论文的作者都来自著名的领先学术大学和领先科技公司。AlexNet团队全部来自多伦多大学，这是QS（QS世界大学排名，2024）前30的大学，这在某种程度上显示了其声誉。同时，这篇论文在Google Scholar上的引用次数高达142,819次，这也从另一方面表明这篇论文很重要且著名击（Google Scholar，2023）ResNet团队成员都来自微软亚洲研究院（MSRA），这是另一个著名的世界顶级研究机构。他们的论文在Google Scholar上被引用184,618次，是21世纪引用次数最多的论文。（Google Scholar，2023）他们团队的组织背景和引用量，再加上详细的论文内容，某种程度上增强了读者的信任。

Pathos（情感说服）

Pathos诉诸情感，在读者和作者之间建立某种联系。人类主要是感性的生物；pathos可以成为论证中非常有力的策略。（论证的三种诉求）在这两篇论文中，pathos主要来自结果、基准表格和图表。就像CNN正确率的显著提高和在ImageNet上的最高性能一样，AlexNet和ResNet的结果让读者想要阅读更多，并让他们对实验中的具体过程更感兴趣。他们会对AGI（通用人工智能）的未来更有希望。

Logos（逻辑说服）

Logos运用逻辑的力量，这非常适合这些计算机视觉技术文章。两篇文章都使用了许多公式、代码、图像、图表和架构图来帮助读者理解文章的技术细节以及他们如何获得结果。例如，ResNet论文使用训练误差折线图来说明训练复杂的多层神经网络的挑战。而AlexNet使用复杂的分布式卷积神经网络架构图来清晰地展示神经网络如点工作。（这在很长一段时间内并不被证明非常有用，但现在在训练大型transformer模型时又变得有用了。）总之，所有这些经典的说服方法都帮助作者更成功地传播他们的想法，并为AI（人工智能）设定了新标准。

论证组织

当然，尽管两篇论文在结果方面有相似的目标，但它们在观点和结构上都有所不同。由于它们都在计算机视觉领域，两者都使用了许多架构图和实验数据作为证据。AlexNet的关键点是说服读者，他们的卷积神经网络可以使用GPU快速训练，使用dropout防止过拟合，使用ReLU（类似于归一化）函数提高性能，并最终在大规模图像识别方面取得了出色的结果。值得注意的是，他们使用整个未标注的ImageNet训练了他们的整个模型，这在当时是一种不常见的做法。至于结论，这篇论文没有结论，他们基本上只是介绍了他们如何完成工作的过程，也没有解释为什么这个过程有效，所以论文的最后一部分更像是一个讨论。另一方面，ResNet使用残差学习成功解决了深度神经网络的性能下降问题。有趣的是，这篇论文也没有结论，但原因是CVPR允许的最大页数是8页，所以他们无法放入结论。（CVPR 2023提交政策，2023）幸运的是，他们在引言中放入了大部分结论性信息，与数据和公式分开。

结论

总之，AlexNet和ResNet真正为计算机视觉和深度学习领域的未来研究奠定了基础。准确使用ethos、pathos和logos对于论证非常重要，它可以吸引读者的注意力，并引发许多讨论。在本报告中，我们讨论了两篇基础性论文，它们都使用适当的体裁来更好地解释他们的工作。这些论文展示了该领域如何进行创新和清晰的交流，突出了计算机视觉和深度学习研究社区的信念。最终，我们相信基于这些论文的持续研究将为实现通用人工智能（AGI）铺平道路。

然而，我们的分析确实有一些局限性。我们只关注了两篇论文，所以可能没有看到整个领域使用的所有写作风格和技巧。未来的研究最好能考虑更多的论文。未来的研究可能会受益于考虑更大和更多种类的文章，提供计算机视觉和深度学习领域修辞技巧的更全面视图。

参考文献

[1] He, K., Zhang, X., Ren, S., & Sun, J. (2016). Deep residual learning for image recognition. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 770-778).

[2] Krizhevsky, A., Sutskever, I., & Hinton, G. E. (2012). Imagenet classification with deep convolutional neural networks. Advances in neural information processing systems, 25.

[3] Stanford Vision Lab, Stanford University, & Princeton University. (2021). ImageNet. https://www.image-net.org/index.php

[4] Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, L., & Polosukhin, I. (2023, August 2). Attention is all you need. arXiv.org. https://arxiv.org/abs/1706.03762

[5] CVPR 2024. (n.d.). https://cvpr.thecvf.com/

[6] CVPR 2023. (n.d.). https://cvpr.thecvf.com/Conferences/2023/AuthorGuidelines

[7] Google scholar. (n.d.). https://scholar.google.com/

[8] 跟李沐学Ai. (2021, October 22). Resnet论文逐段精读. https://www.bilibili.com/video/BV1P3411y7nn/

[9] Three appeals argument - university writing center. (2023). https://uwc.cah.ucf.edu/wp-content/uploads/sites/9/2015/04/Three_Appeals_Argument.pdf

版本：1.0

横幅：OPPO