プログラムは、テキストで写真のプロットを説明するように教えられました

ビデオ: プログラムは、テキストで写真のプロットを説明するように教えられました

ビデオ: 写真にテキストを入れる(画像に文字) Paintgraphic4 Pro 2022, 十一月
プログラムは、テキストで写真のプロットを説明するように教えられました
プログラムは、テキストで写真のプロットを説明するように教えられました
Anonim
Image
Image

自動生成された署名:「男が開いた傘に手を伸ばす」。

スタンフォード大学の科学者たちは、写真の内容を首尾一貫した文章で説明できるプログラムを作成しました。初期データとして必要なのは画像のみで、出力時にアルゴリズムは「黒いTシャツを着た男性がギターを弾いています」などのテキストを生成します。作品の説明はarXiv.orgのプレプリントに記載されています(原稿の最後の改訂は4月14日に追加されましたが、メディアは今だけそれに注目しました)。

科学者たちは問題を2つの段階に分けました。最初に、サブルーチンは、すでに作成されたテキストの説明からの単語に対応する写真の領域を見つけるように教えられました。次に、説明的な単語を写真のさまざまな領域に一致させ、それらを組み合わせて文にするように、別のルーチンがトレーニングされました。

アルゴリズムの両方の段階を実装するために、科学者は人工ニューラルネットワークを使用しました。彼らは、Flickr8K、Flickr30K、MSCOCOからの写真の選択についてトレーニングを受け、Amazon MechanicalTurkクラウドソーシングプラットフォームを使用して約150,000枚の画像に署名しました。

ニューラルネットワークをトレーニングした後、著者はトレーニングベースにない写真でアルゴリズムの動作をテストしました。科学者たちは実験の結果を同様のプログラムと比較しました。使用された基準は、人間によって作成された署名への準拠の程度でした。

Image
Image

自動署名:「2人の若い女の子が抱き締め、1人は自転車のヘルメットをかぶってサイクリストをバックにしています。」

Image
Image

自動署名:「女の子は、歯ブラシ、歯磨き粉、レゴタイプライターを持ってテーブルの横に立っています。」

新しいプログラムは、使用されたすべての基準に対して最良の結果を示したことが判明しました。著者はまた、結果の大規模なデータベースをオープンアクセスに置き、アルゴリズムの品質を確認するように全員を招待しました。

写真の細部を認識することは、人々が簡単に実行できるタスクの多くの例の1つですが、コンピューターに重大な問題を引き起こします。現在、この問題を解決するために、署名された写真のベースで最も類似した画像を検索し、そこからテキストまたはタグをコピーするアルゴリズムが最も頻繁に使用されます。新しい作業のアルゴリズムは、より効率的であることが判明しました。

トピックによって人気があります

人気の投稿