ガリレージレポート LLMはドキュメントをどこまで読めるか ― Document VQAの性能検証はじめにDocument VQA (Visual Question Answering)とは、PDF/Word/PowerPoint/Excelなど文書の画像ファイルに対して自然言語の質問を投げると、文書内容に基づいて自動で答えを返す技術です。表や図、レイアウト(段組み・見出し・欄外)など「ドキュメントならでは」の情報を踏まえて推論できるのが特徴です。自然言語理解(NLP)、視覚情報処理(CV)、Document VQA2025.08.315分で読めます図表理解における視覚言語モデル(VLM)の課題と解決策概要Galirageでは、ビジネス文書に不可欠なシステム図・フロー図の関係構造を高精度に解析するため、Vision Language Model(VLM)が抱える限界に挑戦しています。2025年に発表した論文「Overcoming Vision Language Model Challenges in Diagram Understanding」では、従来の「画像として読む」アプローチを転換し、EDocument VQA2025.08.315分で読めます