一般的な弱点は、人とニューラルネットワークを組み合わせたものです

ビデオ: 一般的な弱点は、人とニューラルネットワークを組み合わせたものです

ビデオ: Deep Learning入門:ニューラルネットワーク学習の仕組み 2022, 12月
一般的な弱点は、人とニューラルネットワークを組み合わせたものです
一般的な弱点は、人とニューラルネットワークを組み合わせたものです
Anonim
Image
Image

1つのタイプのオブジェクトで画像を歪めるためのさまざまなオプション。

イランとフランスのエンジニアグループは、現代の畳み込みニューラルネットワークが人間とほぼ同じ画像認識の問題を経験していることを発見しました。人間とコンピューターの両方が画像の変位と回転に対処するのが最も簡単であり、両方の視覚系にとって最も難しいのは空間内のオブジェクトの回転です。研究の詳細は、コーネル大学にファイルされているプレプリントに記載されています。

現代の畳み込みニューラルネットワークのアーキテクチャは、画像処理を担当するニューロンの「実際の」生物学的ネットワークのアーキテクチャをいくらか思い出させます。どちらの場合も、画像はレイヤーごとに分析され、ニューロンの各レイヤー(生物学的またはコンピューター)でますます抽象的な特徴が区別されます。興味深いことに、どちらの場合も、画像はフラットなままです。3次元オブジェクトの認識を担当するレイヤーでさえ、空間モデルを構築しませんが、下にあるレイヤーが提供する機能のフラットパターンによってガイドされます。

アーキテクチャの明らかな類似性にもかかわらず、生物学的ビジョンとコンピュータビジョンの間には大きな違いがあるため、あるシステムの弱点が対応するシステムの弱点とどの程度一致するかは明らかではありません。この質問への答えを見つけるために、記事の著者は、人間のボランティアと2つの最新のニューラルネットワーク(KrizhevskyシステムとVery Deepネットワーク)の画像認識の複雑なタスクを提案しました。

タスクは、提案された写真を車、船、オートバイ、または動物の4つのカテゴリに分類することでした。ボランティアには12.5マイクロ秒だけ写真が表示され、その後、何が描かれているかを判断する必要がありました。

タスクの難しさは、最初に、オブジェクトが明るく不均一な背景上にあり、最も重要なこととして、次の4つの方法のいずれかで歪んでいたことでした:移動する(たとえば、車がフレームのさまざまな部分にある) )、スケーリング、画像平面での回転、および空間での回転(1つの同じオブジェクトがプロファイル、フルフェイス、4分の3などで回転しました)。

作業で使用される人とニューラルネットワークの両方が、動きに対処するのが最も簡単であり、次に平面上で回転するのが最も簡単であることが判明しました。スケーリングはどちらもさらに悪く、最大の問題は空間内のオブジェクトの回転によって引き起こされます。 「これは、人々が空間で3次元モデルを構築することによってではなく、主に2次元パターンとのマッチングを通じてオブジェクトを認識することを示唆している」と著者は結論付けています。

科学者は、生きている視聴者が理解できるように画像の予備分析を行うために、人間とのニューラルネットワークの一般的な弱点を使用することを提案しています。さらに、これらの弱点を理解することは、これらの弱点に悩まされない再設計されたマシンビジョンシステムの設計に不可欠である可能性があります。

興味深いことに、科学者たちは以前に神経回路網に他の弱点を発見しましたが、それは逆に人間の視覚の特徴ではありません。私たちは、ニューラルネットワークが見つけるように訓練されているという事実のためにニューラルネットワークが簡単に取る画像を特別に作成する能力について話しているが、このオブジェクトはそうではない。人間には、そのような画像はホワイトノイズとほとんど区別がつかないように見えます。

トピックによって人気があります

人気の投稿