Меню

Schema-Guided Scene-Graph Reasoning based on Multi-Agent Large Language Model System

Schema-Guided Scene-Graph Reasoning based on Multi-Agent Large Language Model System

Архітектура системи та методологія

SG² (Schema-Guided Scene-Graph Reasoning – міркування за графами сцени на основі схеми) являє собою багатоагентну структуру, яка усуває фундаментальні обмеження великих мовних моделей при виконанні просторових міркувань на складних графах сцени. Система працює за ітеративною парадигмою «Міркуй-поки-витягуєш», де спеціалізовані агенти співпрацюють для розв’язання задач, ніколи не обробляючи повний граф сцени безпосередньо.

Малюнок 1: Порівняння парадигм міркувань. (а) «Лише міркування» безпосередньо обробляє повний граф сцени, часто призводячи до галюцинацій та відволікань. (b) «Витягти-потім-міркувати» виконує статичне витягнення перед міркуванням. (c) Підхід SG² «Міркуй-поки-витягуєш» забезпечує динамічний, ітеративний збір інформації за допомогою спеціалізованих агентів.

Структура складається з двох основних модулів: модуля міркувань, відповідального за планування задач та генерацію рішень, і модуля витягнення, який виконує програмне витягнення інформації з графів сцени. Кожен модуль містить спеціалізованих підагентів, які виконують різні обов’язки, зберігаючи при цьому розділені контексти для запобігання інформаційному перевантаженню.

Модуль міркувань включає планувальника задач, який організовує процес розв’язання проблем, генеруючи запити на витягнення інформації, викликаючи зовнішні інструменти або надаючи остаточні рішення. Він працює разом з викликачем інструментів, який перетворює високорівневі запити на виконуваний код Python. Модуль витягнення включає написання коду, який генерує виконувані програми на Python для програмного запиту графів сцени, і верифікатор, який перевіряє, чи задовольняє витягнута інформація початковим вимогам запиту.

Малюнок 2: Детальний робочий процес, що показує, як багатоагентна система обробляє задачу. Планувальник задач генерує запити на основі схеми графа сцени, тоді як написання коду виробляє виконуваний код для витягнення релевантної інформації, підтримуючи розділення контексту між операціями міркування та витягнення.

Обробка інформації на основі схеми

Ключовим нововведенням SG² є використання схем графів сцени як структурного керівництва як для операцій міркування, так і для операцій витягнення. Замість того, щоб перевантажувати агентів необробленими даними графа, система надає кожному агенту абстрактний опис структури графа, включаючи типи вузлів, відносини ребер та специфікації атрибутів.

Схема виконує кілька критично важливих функцій: вона дозволяє Планувальнику задач абстрактно міркувати про просторові відносини, не обробляючи непотрібні деталі, направляє Написання коду в генерації структурно правильного коду обходу графа та гарантує, що запити між модулями добре сформовані та можуть бути розібрані. Цей підхід, заснований на схемах, запобігає поширеній проблемі, коли великі мовні моделі відволікаються на нерелевантну інформацію в великих, складних середовищах.

Механізм програмного витягнення являє собою значне відхилення від традиційних підходів з фіксованим API. Замість того, щоб покладатися на заздалегідь визначені функції запиту, Написання коду генерує користувацький код Python, який може виконувати складні обходи графів, операції фільтрації та агрегацію даних. Така гнучкість дозволяє системі адаптуватися до різноманітних інформаційних потреб без необхідності обширного ручного курування API для конкретних задач.

Експериментальна оцінка та результати

Дослідники оцінили SG² в різних середовищах та типах задач, щоб продемонструвати його ефективність. Тестування проводилося в BabyAI (середовище 2D-сітки) для задач відповіді на числові питання та планування обходу, а також в VirtualHome для сценаріїв планування складних побутових задач.

Малюнок 3: Приклади задач з тестових середовищ. (а-b) Задачі BabyAI з підбору об’єктів, (c) числове міркування про просторові відносини, (d) планування побутових задач в VirtualHome, що вимагає багатоетапних послідовностей дій.

Результати демонструють чудову продуктивність SG² у всіх протестованих сценаріях. Для відповідей на числові питання в BabyAI SG² досяг 98% успіху порівняно з 86% у ReAct та традиційними методами підказок за графами, які зазвичай набирали менше 70%. У задачах планування переміщення SG² підтримував високу продуктивність (96-97% успіху), тоді як багато базових методів повністю провалювалися на варіаціях предметної області, опускаючись до 0% успіху.

Малюнок 4: Візуалізація того, як графи сцен представляють просторові середовища. Ієрархічна графова структура фіксує відносини між кімнатами, об’єктами та просторовими зв’язками, що дозволяє систематично міркувати про планування навколишнього середовища.

Можливо, найбільш значущим є те, що абляційні дослідження виявляють специфічний внесок проектних рішень SG². Коли ReAct був обмежений використанням обмежених API (ReAct-limit), його продуктивність різко впала (з 86% до 40% у числових питаннях та відповідях). Однак SG² з тими ж обмеженнями API (SG²-limit) все одно досяг 47% успіху, демонструючи, що сама по собі багатоагентна архітектура забезпечує значні переваги, запобігаючи накопиченню контексту та підтримуючи сфокусоване міркування.

Аналіз продуктивності та обчислювальна ефективність

Аналіз обчислювальної ефективності виявляє адаптивні можливості SG² з обробки інформації. Для логічно простих задач на великих графах система обробляє менше токенів за ітерацію, ніж знадобилося б для аналізу повного графа, демонструючи ефективну фільтрацію інформації. Для складних задач, що вимагають всебічного аналізу, SG² відповідно масштабує свої обчислювальні зусилля, зберігаючи при цьому продуктивність.

Малюнок 5: Порівняння продуктивності з використанням малих мовних моделей. Хоча всі методи демонструють зниження продуктивності з меншими моделями, SG² зберігає відносну перевагу, досягаючи 60% успіху з Phi4-14B порівняно з базовими методами, які зазвичай набирали менше 30%.

Оцінка з використанням малих мовних моделей (МММ) дає уявлення про доступність фреймворку. Хоча продуктивність значно падає для всіх методів при використанні таких моделей, як Phi4-14B, Qwen3-14B та DeepSeek-7B, SG² все одно перевершує базові підходи. З Phi4-14B SG² досяг 60% успіху порівняно з базовими методами, які зазвичай набирали менше 30%, що свідчить про те, що підхід, заснований на схемах, робить складне міркування більш доступним для менших, більш ефективних моделей.

Приклади виконання задач

У статті представлені детальні трасування виконання, що ілюструють, як SG² справляється зі складними багатоетапними міркуваннями. У задачах планування переміщення система демонструє витончене розуміння обмежень навколишнього середовища, таких як необхідність збору ключів перед відкриттям дверей або видалення перешкод перед навігацією.

Малюнок 6: Приклад трасування виконання для задачі підбору об’єкта. Система ітеративно запитує релевантну інформацію, генерує виклики інструментів для навігації та підтримує чіткий ланцюг міркувань, уникаючи несуттєвих деталей навколишнього середовища.

Для планування побутових задач в VirtualHome SG² успішно справляється з неявними передумовами дій, які збивають з пантелику інші підходи. Наприклад, при постановці задачі «покласти мило в шафу» система правильно визначає, що шафа повинна бути спочатку відкрита, перш ніж мило можна буде помістити всередину, демонструючи витончене розуміння послідовностей дій та обмежень навколишнього середовища.

Малюнок 7: Виконання задачі VirtualHome, що показує, як SG² обробляє передумови дій. Система коректно визначає, що шафа в ванній кімнаті повинна бути відкрита, перш ніж поміщати туди предмети, демонструючи розуміння неявних вимог до дій.

Обчислювальні витрати та масштабованість

Аналіз споживання токенів виявляє переваги SG² в ефективності. Система демонструє адаптивне масштабування обчислень, обробляючи інформацію пропорційно складності задачі, а не розміру середовища. Для простих запитів у великих середовищах SG² використовує значно менше токенів, ніж підходи, що обробляють повні графи сцен.

Малюнок 8: Споживання токенів для простого числового запиту. SG² обробляє менше токенів, ніж розмір повного графа (зелена лінія), демонструючи ефективну фільтрацію інформації для простих задач.

Для складних задач, що вимагають обширного міркування, система відповідно масштабує свої обчислювальні зусилля, зберігаючи при цьому ефективність за рахунок цільового витягнення інформації, а не обробки нерелевантних деталей середовища.

Малюнок 9: Споживання токенів для складного планування обходу. Хоча SG² вимагає більших обчислювальних витрат, він зберігає ефективність, обробляючи тільки релевантну для задачі інформацію через ітеративне витягнення, а не аналізуючи все середовище.

Значущість та майбутні напрямки

SG² розв’язує критичні обмеження в сучасних системах міркування на основі LLM для структурованих середовищ. Мультиагентна архітектура з програмним витягненням даних, керованим схемою, пропонує надійне рішення проблем, включаючи галюцинації, перевантаження контексту та негнучкі шаблони доступу до інформації, які характерні для існуючих підходів.

Успіх фреймворку в різних задачах та його стійкі переваги в продуктивності навіть в обмежених умовах передбачають широке застосування для втілених ШІ-додатків. Продемонстрована здатність працювати з меншими мовними моделями, хоча і зі зниженою продуктивністю, вказує на потенціал для створення більш доступних та розгортаємих систем.

Майбутні напрямки досліджень включають інтеграцію додаткових спеціалізованих агентів (таких як верифікатори рішень), вивчення мультимодальних можливостей для більш повного розуміння навколишнього середовища та оптимізацію довжин трасування міркувань для підвищення ефективності. Парадигма програмного витягнення може бути розширена на інші структуровані типи даних поза графами сцен, потенційно забезпечуючи аналогічні покращення в запитах до баз даних, міркуваннях за графами знань та інших задачах обробки структурованої інформації.

Ця робота закладає основу для більш складних мультиагентних LLM-систем, які можуть ефективно орієнтуватися в складності реального світу, зберігаючи при цьому надійність та ефективність, необхідні для практичного розгортання в робототехніці, віртуальних помічниках та додатках розумного середовища.

Коментарі