はじめに

ディープラーニングとコンピュータビジョンの急速で刺激的な世界において、2つの基礎的な研究が将来の研究の基準を設定し、学術界と産業界における興味深いアプリケーションへの道を築きました。その2つの印象的な研究は、「ImageNet Classification with Deep Convolutional Neural Networks」と「Deep Residual Learning for Image Recognition」です。簡単のため、これらをAlexNet(RA1)とResNet(RA2)と呼びます。

RA1、つまりAlexNetは、2012年のImageNet競争の優勝者であっただけでなく、機械がパターンと分類を識別できる能力を再定義しました。スタンフォード大学ビジョンラボ、スタンフォード大学、プリンストン大学によって作成されたImageNetは、業界で決定的な画像データベースとなり、数百から数千の画像を含み、CV(コンピュータビジョン)とDL(ディープラーニング)に非常に重要な影響を与えました。RA2、一般的にResNetとして知られる研究は、残差学習を追加することによってニューラルネットワークのアーキテクチャを革新し、「より深いニューラルネットワークは学習が困難である」という問題を解決しました。このレポートでは、「ImageNet Classification with Deep Convolutional Neural Networks」と「Deep Residual Learning for Image Recognition」が、ディープラーニングとコンピュータビジョンの分野で研究目標を達成するために適用した異なる戦略とレトリックアプローチを探ります。

レトリック状況

疑問の余地なく、ディープラーニングは機械が画像やテキストを見て、認識し、理解する方法を変えました。ImageNetとResNetという2つの革新的な研究は、この分野の進歩を促進しました。これらの画期的な研究は、CV(コンピュータビジョン)、DL(ディープラーニング)、NLP(自然言語処理)の分野で研究または仕事をしている人々のために書かれました。これらのエッセイの著者は、正確で深い技術的言語と明確なアイデアを使用して、聴衆が結果を理解し使用できるようにしています。読者はエッセイの概念に精通している必要があります。両方の論文の成果は顕著であるため、読者は論文を読み、付随するモデルに取り組むことを楽しむかもしれません。両方の論文は、新しい方法とアーキテクチャを実証し、その優位性を証明するという同様の目標を持っています。AlexNetは、CNN(畳み込みニューラルネットワーク)が効果的で、大規模なデータセットで使用でき、素晴らしい結果を得られることを証明しました。同時に、GPU加速学習の重要性も実証されました。ResNetは、残差学習が非常に深いニューラルネットワークを効率的に学習し、モデルのパフォーマンスと表現力を向上させることができることを示しました。これらの論文はいずれも、コンピュータビジョン分野で最も重要な会議の一つであるCVPR(IEEE/CVFコンピュータビジョンとパターン認識会議)で発表されました(CVPR、2023)。これは、これらの論文が優れたアイデアを持ち、ピアレビューを受け、多くの人々が読み、議論することを意味します。2つの論文のジャンルで提示された情報の目的は似ており、両方の論文は、コンピュータビジョンの分類問題を解決し、業界を前進させるために新しい方法をどのように使用したかを仲間や学習者に伝えることでした。彼らはまた、仲間と議論し、より良いモデルを作成できるように、より多くの問題を解決または最適化しようとしています。

レトリック戦略

エトス、パトス、ロゴスは強力な議論にとって非常に重要です。これらは読者に影響を与えるために使用される3つの検証された説得的方法です。AlexNetとResNetは人工知能分野で非常に重要なエッセイであり、これらの説得的方法を使用して読者の体験を豊かにし、画期的なアイデアを広めています。

エトス

まず、エトスの観点から、著者の権威について議論し、これにより聴衆が彼らを信頼しやすくなります。両方のエッセイの著者は、有名な主要な学術機関と主要なテクノロジー企業から来ています。AlexNetチームはすべてQS(QSワールドユニバーシティランキング、2024)で30位以内のトロント大学(UoT)から来ており、これは評判を示しています。同時に、この論文のGoogle Scholarでの引用数は142,819回と高く、これはこのエッセイが重要で有名であることを示しています(Google Scholar、2023)。ResNetチームのメンバーはすべてMSRA(Microsoft Research Asia)から来ており、これは別の人気のある世界トップの研究機関です。彼らのエッセイはGoogle Scholarで184,618回引用されており、21世紀で最も高い引用数を持っています(Google Scholar、2023)。彼らのチームの組織と引用数は、詳細なエッセイと組み合わさって、読者の信頼を高めています。

パトス

パトスは感情に訴えかけ、読者と作者の間にある種のつながりがあります。人間は主に感情的な生き物であり、パトスは議論において非常に強力な戦略となり得ます(The Three Appeals of Argument)。これら2つのエッセイでは、パトスは主に結果、ベンチマークテーブル、グラフから生まれています。CNNの正解率の劇的な向上とImageNetでの最高のパフォーマンスのように、AlexNetとResNetの結果は、聴衆にもっと読みたいと思わせ、実験で行った具体的なプロセスにより興味を持たせました。彼らはAGI(人工汎用知能)の未来に対してより希望を持つようになります。

ロゴス

ロゴスは論理の力を使用し、これらのコンピュータビジョン技術論文に非常に適しています。両方の論文は、多くの数式、コード、画像、グラフ、アーキテクチャグラフを使用して、読者が論文の技術的詳細と結果の導出方法を理解するのを助けています。例えば、ResNet論文は、複雑な多層ニューラルネットワークの学習の課題を説明するために学習誤差の折れ線グラフを使用しています。そしてAlexNetは、ニューラルネットワークの動作を明確に示すために、複雑な分散畳み込みニューラルネットワークアーキテクチャ図を使用しました(長い間あまり有用ではないと証明されましたが、現在は巨大なトランスフォーマーモデルを学習する際に再び有用になっています)。要約すると、これらすべての古典的な説得的方法は、著者がアイデアをより成功的に広め、AI(人工知能)の新しい基準を設定するのを助けています。

議論の構成

確かに、両方のエッセイは結果に関して同様の目標を持っていますが、異なる視点と構造を持っています。コンピュータビジョンの分野にあるため、両方とも多くのアーキテクチャグラフと実験データを証拠として使用しています。AlexNetの主要なポイントは、彼らの畳み込みニューラルネットワークがGPUを使用して高速に学習でき、ドロップアウトを使用してオーバーフィッティングを防ぎ、ReLU(正規化に似た)関数を使用してパフォーマンスを向上させ、最終的に巨大な画像認識において素晴らしい結果を得られることを読者に納得させることです。特筆すべきは、当時は一般的ではなかった実践として、教師なしのImageNet全体を使用してモデル全体を学習したことです。結論に関して、このエッセイには結論がなく、基本的に仕事の進め方を紹介するだけで、このプロセスが機能する理由の説明はないため、エッセイの最後の部分はより議論に近いものとなっています。一方、ResNetは残差学習を使用して、深層ニューラルネットワークにおけるネットワークパフォーマンス低下問題を成功裏に解決しています。興味深いことに、このエッセイにも結論がありませんが、その理由はCVPRの最大ページ制限が8ページであるため、結論を入れることができなかったためです(CVPR 2023 Submission Policies、2023)。幸いなことに、彼らは結論的な情報のほとんどをデータと数式で分けて導入部に入れています。

結論

結論として、AlexNetとResNetは本当にコンピュータビジョンとディープラーニングの分野における将来の研究の基準を設定しました。エトス、パトス、ロゴスの正確な使用は議論にとって非常に重要で、聴衆の注目を集め、多くの議論につながります。このレポートでは、2つの基礎的なエッセイを議論し、両方とも適切なジャンルを使用して彼らの仕事をより良く説明しています。これらの論文は、この分野がどのようにイノベーションを行い、明確なコミュニケーションを取るかを示し、コンピュータビジョンとディープラーニング研究コミュニティの信念を強調しています。最終的に、これらの論文に基づく継続的な研究が、人工汎用知能(AGI)の達成への道を開くと私たちは信じています。

しかし、私たちの分析にはいくつかの限界があります。2つの論文だけに焦点を当てたため、分野全体で使用されているすべての文章スタイルと技術を見逃している可能性があります。将来の研究では、より多くの論文を検討することが良いでしょう。将来の研究は、より大きく、より多様な種類の論文を考慮することで、コンピュータビジョンとディープラーニング分野におけるレトリック技術のより全体的な視点を提供することができるかもしれません。

参考文献

[1] He, K., Zhang, X., Ren, S., & Sun, J. (2016). Deep residual learning for image recognition. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 770-778).

[2] Krizhevsky, A., Sutskever, I., & Hinton, G. E. (2012). Imagenet classification with deep convolutional neural networks. Advances in neural information processing systems, 25.

[3] Stanford Vision Lab, Stanford University, & Princeton University. (2021). ImageNet. https://www.image-net.org/index.php

[4] Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, L., & Polosukhin, I. (2023, August 2). Attention is all you need. arXiv.org. https://arxiv.org/abs/1706.03762

[5] CVPR 2024. (n.d.). https://cvpr.thecvf.com/

[6] CVPR 2023. (n.d.). https://cvpr.thecvf.com/Conferences/2023/AuthorGuidelines

[7] Google scholar. (n.d.). https://scholar.google.com/

[8] 跟李沐学Ai. (2021, October 22). Resnet论文逐段精读. https://www.bilibili.com/video/BV1P3411y7nn/

[9] Three appeals argument - university writing center. (2023). https://uwc.cah.ucf.edu/wp-content/uploads/sites/9/2015/04/Three_Appeals_Argument.pdf


Copyright © 2023 One All Rights Reserved

Version: 1.0

Banner: OPPO