Открытые проекты, близкие к нашей мультиагентной архитектуре

Публичные репозитории на GitHub, которые целиком или частично реализуют слои нашей референсной схемы: оркестрация агентов, RAG+knowledge, policy/guardrails, observability. Звёзды и форки — снимок на дату сборки страницы.
Ни один публичный проект не повторяет нашу схему 1:1 (особенно связку OPA+Rego + MLflow registry + Temporal + RAG + HiL), но каждый блок архитектуры имеет зрелого OSS-представителя. Зелёный тег близко — репозиторий реализует тот же класс задач, что соответствующий слой. Оранжевый альтернатива — концептуально похожее решение, но на другом стеке.

Соответствие нашей референсной архитектуре Анализ покрытия

Сравнение топ-6 кандидатов по 16 блокам нашей схемы. Ни один проект не покрывает всё — это карта, что закрыто из коробки, а что придётся собирать вокруг выбранной базы.
есть как первый класс частично / сбоку нет
Блок архитектурыopen_deep_researchLangGraphCrewAIOpenHandsAutoGenMetaGPT
Граф-оркестратор
Планировщик как узел
Short-term state / checkpointer
Long-term memory / RAG
Tools + function calling
MCP-протокол
Tool binding (bounded)
Policy Engine (OPA / Rego)
Content safety (NeMo)
Schema validation (Pydantic)
HiL interrupt / resume
Durable execution (Temporal)
Model registry (LiteLLM / MLflow)
LLM tracing (Langfuse / OTel)
RAG eval (RAGAS)
Мультиагентность
Итоговая оценка8.5 / 108.5 / 106.5 / 105.5 / 105.0 / 103.5 / 10
Ключевые наблюдения. LangGraph и open_deep_research ближе всего к центру нашей схемы — они закрывают ядро оркестратора и HiL. CrewAI силён в ролевой декомпозиции (Layer 4), но слабее в durable state. OpenHands — самый production-grade, но заточен под агента-разработчика и не про операционные системы ERP/MES. MetaGPT и AutoGen — скорее research-tools, чем основа для enterprise-кейса.

Что не покрывает НИ ОДИН проект: Policy Engine (OPA+Rego), Durable Execution (Temporal), RAG eval (RAGAS), Ontology/Data catalog, интеграция через ESB/MCP как транспорт. Это дыры, которые придётся закрывать руками независимо от выбора базы.

Рекомендации что взять, добавить, убрать

✓ Взять как базу

  • LangGraph — ядро оркестратора, interrupt/resume для HiL из коробки
  • open_deep_research — готовый LangGraph-шаблон с RAG и HiL, стартовая точка для адаптации под домен
  • CrewAI — опционально, если ролевая декомпозиция Layer 4 важнее графовой оркестрации

+ Добавить сбоку

  • OPA + Rego как policy middleware перед каждым tool call
  • Temporal — обернуть LangGraph-узлы в activities, где нужно durable HiL-ожидание
  • LiteLLM как единый фасад перед всеми провайдерами моделей
  • RAGAS как оффлайн eval-слой на трейсах из Langfuse
  • NeMo Guardrails для content safety на входе/выходе
  • MCP как транспорт к переиспользуемым tools через n8n и ESB

− Снизить приоритет

  • MetaGPT / ChatDev — SOP-пайплайн жёстко зашит, несовместим с динамической оркестрацией
  • OpenHands — сильная инженерия (sandbox, bounded tools), но домен «агент-разработчик», не ERP/MES. Оставить как референс решений, не как базу
  • AutoGen — GroupChat слабее LangGraph-state-graph для stateful-кейсов с HiL

Скоринг и план дошивки усилие на закрытие дыр из нашего стека

Итоговая оценка по формуле: покрытие таблицы (●=2, ◐=1, ○=0, макс 32) · усилие на добавление недостающего из нашего стека (low/med/high) · архитектурный fit (совпадение парадигмы с нашей графово-stateful схемой). Для каждого — конкретно, что и как прикрутить.
LangGraph
8.5 / 10
покрытие 56% усилие: средне fit ⭐⭐⭐
Что дошить из нашего стека:
  • RAG / long-term memory — подключить pgvector + BGE-M3 как retriever node в граф. Усилие: low, это штатный pattern LangChain.
  • Policy / OPA — обернуть каждый tool call middleware-декоратором, который дёргает OPA sidecar (/v1/data/tools/allow). Усилие: medium, надо написать decorator и политики на Rego.
  • Durable execution — для долгих HiL-пауз обернуть граф в Temporal workflow, каждый узел = activity. Усилие: medium-high, требует переосмысления state-персистенции (LangGraph checkpointer ↔ Temporal history).
  • Content safetyNeMo Guardrails как pre-/post-processor на узлах LLM-вызова. Усилие: low.
  • Model registryLiteLLM как единая точка входа для всех LLM узлов + MLflow для регистрации промпт-версий. Усилие: low.
  • RAG evalRAGAS на экспортированных трейсах Langfuse, оффлайн-скоринг. Усилие: low.
Вердикт: базовый кандидат. Ядро уже совпадает с нашей схемой, дошивка — инженерная работа без концептуальных компромиссов.
open_deep_research
8.5 / 10
покрытие 66% усилие: низкое fit ⭐⭐⭐
Что дошить из нашего стека:
  • Policy / OPA — тот же OPA middleware, что и у LangGraph (это LangGraph-приложение). Усилие: medium.
  • Durable execution — Temporal-обёртка вокруг верхнеуровневого графа. Усилие: medium.
  • Domain retrievers — заменить встроенный web-search retriever на pgvector/Qdrant с доменными корпусами + подключить ESB/MCP как источник операционных данных. Усилие: low.
  • Content safety + RAG eval — NeMo + RAGAS сверху. Усилие: low.
Вердикт: лучший стартовый шаблон. Уже есть RAG, HiL, планировщик — по сути готовый скелет под адаптацию. Рекомендую как точку старта PoC.
CrewAI
6.5 / 10
покрытие 56% усилие: высокое fit ⭐⭐
Что дошить из нашего стека:
  • Stateful HiL interrupt/resume — у CrewAI нет первого класса, придётся писать callbacks и свою сериализацию состояния. Усилие: high.
  • Policy / OPA — обернуть BaseTool.run middleware'ом. Усилие: medium.
  • RAG / long-term memory — подключить pgvector как кастомный tool. Усилие: low-medium.
  • Durable execution — нет интеграции с Temporal, придётся писать свою. Усилие: high.
Вердикт: хорош для Layer 4 (ролевая декомпозиция команды агентов), но как база всей оркестрации уступает LangGraph из-за слабого state management и HiL. Рассматривать как дополнение, не замену.
OpenHands
5.5 / 10
покрытие 69% усилие: высокое fit ⭐
Что дошить из нашего стека:
  • Переориентация домена — OpenHands заточен под агента-разработчика (file ops, code execution, git). Для ERP/MES-кейсов придётся переписать большую часть action space. Усилие: very high.
  • Policy / OPA + durable + RAG eval — всё то же, что у остальных.
  • Плюсы, которые стоит заимствовать: sandbox-подход и физический tool binding — хорошая референс-реализация для нашего Layer «bounded».
Вердикт: не как база, а как источник инженерных решений. Высокое покрытие обманчиво — большая часть мимо нашего домена.
AutoGen
5.0 / 10
покрытие 50% усилие: высокое fit ⭐⭐
Что дошить из нашего стека:
  • State management — GroupChat концептуально слабее state-графа. Stateful HiL-паузы придётся эмулировать через кастомные message handlers. Усилие: high.
  • Policy / durable / RAG / eval — всё сверху, интеграций из коробки нет.
  • Модель мультиагентности — conversation-driven, а не граф-driven. Это несовместимо с нашей картинкой «Planner → LangGraph → CrewAI».
Вердикт: research-tool. Не рекомендуется как основа enterprise-кейса — концептуальный mismatch с нашей stateful-схемой.
MetaGPT
3.5 / 10
покрытие 41% усилие: очень высокое fit ⭐
Что дошить из нашего стека:
  • Отказ от SOP-парадигмы — MetaGPT жёстко зашивает SOP (Standard Operating Procedure) «виртуальной IT-компании». Для динамической оркестрации придётся переписать ядро. Усилие: very high.
  • HiL, policy, durable, RAG eval — всё отсутствует, всё сверху.
Вердикт: красивая демонстрация концепции ролевой декомпозиции, но как база production-стека — не подходит. Рекомендуется исключить из рассмотрения.

Фреймворки оркестрации Layer 3 — Agent Orchestrator

Граф-оркестраторы и мультиагентные runtime. Соответствуют блоку Planner → LangGraph → CrewAI/Temporal.
Граф-оркестратор состояний для LLM-агентов. Ровно тот LangGraph, что у нас на схеме. Поддерживает interrupt/resume для HiL.
⭐ 28.7k 🍴 4.9k
joaomdmoura/crewAIблизко
CrewAI — мультиагентная оркестрация по ролям. Тот самый CrewAI из нашей схемы.
⭐ 48.3k 🍴 6.6k
Десятки готовых мультиагентных кейсов поверх CrewAI — полезно как стартовые шаблоны.
⭐ 5.8k 🍴 2.1k
microsoft/autogenальтернатива
Мультиагентная среда от Microsoft. GroupChat ≈ оркестратор, AutoGen Studio — UI для сборки крю.
⭐ 56.8k 🍴 8.5k
Data framework + агенты. В нашей схеме — связующее звено между orchestrator и knowledge layer.
⭐ 48.4k 🍴 7.2k
Примеры durable execution на Temporal — ровно то, для чего Temporal у нас в оркестраторе (долгие HiL-ожидания).
⭐ 318 🍴 97

Готовые эталонные мультиагентные стеки покрывают несколько слоёв сразу

Проекты, которые целиком реализуют комбинацию «планировщик + специализированные агенты + инструменты + артефакты». Ближе всего к картинке целиком.
Продакшн-грейд агент-платформа (бывш. OpenDevin): оркестратор, инструменты, песочница, HiL approval. Покрывает Layer 1–4.
⭐ 70.8k 🍴 8.9k
geekan/MetaGPTблизко
Мультиагентная «компания»: роли, планировщик, артефакты. Хорошая иллюстрация Layer 4 (специализированные агенты).
⭐ 66.8k 🍴 8.5k
OpenBMB/ChatDevальтернатива
Мультиагентная среда в формате «виртуальной компании разработки». Демонстрирует ролевую декомпозицию задач.
⭐ 32.6k 🍴 4.0k
stanford-oval/stormальтернатива
Мультиагентный исследовательский планировщик + RAG. Пример связки Layer 2 (knowledge) + Layer 3 (orchestrator).
⭐ 28.1k 🍴 2.6k
Эталонный LangGraph-стек: планировщик + исследовательские агенты + HiL. Полезен как reference implementation.
⭐ 11.0k 🍴 1.6k
LangGraph-ассистент с HiL approval flow. Демонстрирует интеграцию approval как первого класса.
⭐ 2.2k 🍴 729

Enterprise-направленные стеки ближе к ГПН-кейсу по духу

Проекты с акцентом на governance, enterprise-интеграции, RAG.
Enterprise multi-agent framework от IBM с акцентом на governance и production-readiness.
⭐ 3.2k 🍴 423
NVIDIA/GenerativeAIExamplesальтернатива
RAG + агенты + observability на стеке NVIDIA NeMo. Полезно как reference для on-prem inference.
⭐ 3.9k 🍴 1.0k
deepset-ai/haystackальтернатива
Production-grade RAG-фреймворк с агентным модулем. Хорошая альтернатива связке LlamaIndex+LangGraph.
⭐ 24.8k 🍴 2.7k
deepset-ai/haystack-experimentalальтернатива
Экспериментальные агентные компоненты поверх Haystack.
⭐ 60 🍴 22

Policy / Guardrails Layer 2 — Policy Engine

Слой политик и ограничений. У нас это OPA+Rego + tool binding + service account + audit.
Сам OPA — policy engine на Rego. Базовый блок нашего Policy Layer.
⭐ 11.6k 🍴 1.5k
Policy layer специально для агентов: правила на вызовы инструментов, data flow контроль.
⭐ 412 🍴 46

Observability / LLM Tracing правый столбец нашей схемы

Наблюдаемость LLM-трафика, трейсинг цепочек агентов, quality monitoring.
langfuse/langfuseблизко
Open-source LLM observability. Ровно тот Langfuse, что у нас в блоке LLM tracing.
⭐ 24.6k 🍴 2.5k
Arize-ai/phoenixблизко
LLM observability + eval. Альтернатива Langfuse с сильным evaluation-модулем.
⭐ 9.2k 🍴 801
OpenTelemetry для LLM. Интегрируется с любым OTel-совместимым backend — наш путь, если уже есть OTel-стек.
⭐ 7.0k 🍴 921
whylabs/langkitальтернатива
Data/LLM quality monitoring toolkit. Подходит для блока «data quality» в observability-панели.
⭐ 980 🍴 73