手書きや古びた文書であっても、OpenAIのGPT4-Visionを使えば、画像や文書の分析が簡単になります。こちらがその仕組みです。

発表以来、OpenAIのChatGPTは飛躍的に進化しました — 今ではテキストを生成するだけでなく、DALL-Eの統合のおかげで、自然言語プロンプトから画像を作成することもできます。

画像生成は一つのことですが、古いパンフレットや本のページの画像を解読したい場合もあるでしょう。画像を手動で分析することは困難で時間がかかる場合があり、このような場合にGPT-4 Visionが役立ちます。

2023年9月に、OpenAIはGPT-4とのやり取りを支援する2つの新機能を発表しました。特に、画像について質問する機能と、クエリへの入力として音声を使用する機能です。11月に、OpenAIはGPT-4 VisionへのAPIアクセスを発表しました。

ここでは、GPT-4 Visionの基礎技術と制限について見ていきます。

GPT-4 Visionとは何か?
GPT-4 Vision、またはGPT-4Vとも呼ばれるこの機能は、ユーザーがGPT-4に画像入力の分析を指示できるようにします。「大規模言語モデル(LLM)に画像入力などの追加モダリティを組み込むことは、一部の人々によって人工知能研究および開発の重要なフロンティアと見なされています」と、OpenAIの研究論文にあります。

GPT-4 Visionは、チャットボットをマルチモーダルにするOpenAIの一歩と見なされています — 画像、テキスト、音声入力の組み合わせを持つAIモデルです。ユーザーは画像を入力としてアップロードし、それについて質問することができます。このタスクは視覚的質問応答(VQA)として知られています。GPT-4 Visionは、テキストと画像、またはテキストと音声など、複数のモダリティで情報を取り入れ、それに基づいて反応を生成できる大規模マルチモーダルモデル、またはLMMです。これがLMMの初めてで唯一のものではありません。CogVLM、LLaVA、Kosmos-2など、他にも多くあります。LMMはマルチモーダル大規模言語モデル(MLLM)としても知られています。