Открытые проекты, близкие к нашей мультиагентной архитектуре

Публичные репозитории на GitHub, которые целиком или частично реализуют слои нашей референсной схемы: оркестрация агентов, RAG+knowledge, policy/guardrails, observability. Звёзды и форки — снимок на дату сборки страницы.
Ни один публичный проект не повторяет нашу схему 1:1 (особенно связку OPA+Rego + MLflow registry + Temporal + RAG + HiL), но каждый блок архитектуры имеет зрелого OSS-представителя. Зелёный тег близко — репозиторий реализует тот же класс задач, что соответствующий слой. Оранжевый альтернатива — концептуально похожее решение, но на другом стеке.

Парадигмы оркестрации уровни зрелости агентных фреймворков

Три подхода к оркестрации агентов — от простого к production-ready. Это не альтернативы для выбора, а уровни зрелости: каждый следующий закрывает ограничения предыдущего.
Графовая парадигма — это описание работы агентной системы как ориентированного графа, где узлы — шаги/состояния (вызов LLM, исполнение инструмента, проверка, HiL-апрув), а рёбра — правила переходов. Общее состояние проходит через все узлы, рантайм сам катает задачу по графу и сохраняет промежуточные снимки в checkpointer. Вместо скрипта с if-else — явная схема, которую видно и можно проверить политиками.

ReAct-скрипт

  • Кто: базовый LangChain AgentExecutor, llama-index query engine
  • Как: простой цикл Think → Act → Observe в одном процессе
  • Плюс: минимум кода, быстрый старт
  • Минус: нельзя паузить, нельзя ветвить, state теряется при падении

Role-based

  • Кто: CrewAI, ChatDev
  • Как: агенты-роли «разговаривают» друг с другом
  • Плюс: естественно моделирует команду
  • Минус: state размазан, HiL сбоку, нет гарантий

Graph-based

  • Кто: LangGraph, Temporal workflows
  • Как: узлы + рёбра + state, state machine
  • Плюс: HiL, durable state, аудит, policy checks
  • Минус: нужно продумать структуру графа

Соответствие нашей референсной архитектуре Анализ покрытия

Сравнение топ-6 кандидатов по 16 блокам нашей схемы. Ни один проект не покрывает всё — это карта, что закрыто из коробки, а что придётся собирать вокруг выбранной базы.
есть как первый класс частично / сбоку нет
Блок архитектурыLangGraphCrewAIOpenHandsopen_deep_research
Граф-оркестратор
Планировщик как узел
Short-term state / checkpointer
Long-term memory / RAG
Tools + function calling
MCP-протокол
Tool binding (bounded)
Policy Engine (OPA / Rego)
Content safety (NeMo)
Schema validation (Pydantic)
HiL interrupt / resume
Durable execution (Temporal)
Model registry (LiteLLM / MLflow)
LLM tracing (Langfuse / OTel)
RAG eval (RAGAS)
Мультиагентность
Активность репо (04.2026)● коммиты ежедневно● активен● активен✖ разработка остановлена
Итоговая оценка9.0 / 106.5 / 105.5 / 107.0 / 10
Ключевые наблюдения. LangGraph и open_deep_research ближе всего к центру нашей схемы — они закрывают ядро оркестратора и HiL. CrewAI силён в ролевой декомпозиции (Layer 4), но слабее в durable state. OpenHands — самый production-grade, но заточен под агента-разработчика и не про операционные системы ERP/MES. MetaGPT и AutoGen — скорее research-tools, чем основа для enterprise-кейса.

Что не покрывает НИ ОДИН проект: Policy Engine (OPA+Rego), Durable Execution (Temporal), RAG eval (RAGAS), Ontology/Data catalog, интеграция через ESB/MCP как транспорт. Это дыры, которые придётся закрывать руками независимо от выбора базы.

Рекомендации что взять, добавить, убрать

✓ Взять как базу

  • LangGraph — ядро оркестратора, interrupt/resume для HiL из коробки
  • open_deep_research — разработка остановлена, подойдёт для просмотра паттернов и примеров, не как база
  • CrewAI — опционально, если ролевая декомпозиция Layer 4 важнее графовой оркестрации

+ Добавить сбоку

  • OPA + Rego как policy middleware перед каждым tool call
  • Temporal — обернуть LangGraph-узлы в activities, где нужно durable HiL-ожидание
  • LiteLLM как единый фасад перед всеми провайдерами моделей
  • RAGAS как оффлайн eval-слой на трейсах из Langfuse
  • NeMo Guardrails для content safety на входе/выходе
  • MCP как транспорт к переиспользуемым tools через n8n и ESB

− Исключить / снизить приоритет

  • OpenHands — активен, но домен «агент-разработчик», не ERP/MES. Оставить как референс инженерных решений
  • open_deep_research — разработка остановлена, полезен только для изучения паттернов

Скоринг и план дошивки усилие на закрытие дыр из нашего стека

Итоговая оценка по формуле: покрытие таблицы (●=2, ◐=1, ○=0, макс 32) · усилие на добавление недостающего из нашего стека (low/med/high) · архитектурный fit (совпадение парадигмы с нашей графово-stateful схемой). Для каждого — конкретно, что и как прикрутить.
LangGraph
9.0 / 10
покрытие 56% усилие: средне fit ⭐⭐⭐ ● активен
Что дошить из нашего стека:
  • RAG / long-term memory — подключить pgvector + BGE-M3 как retriever node в граф. Усилие: low, это штатный pattern LangChain.
  • Policy / OPA — обернуть каждый tool call middleware-декоратором, который дёргает OPA sidecar (/v1/data/tools/allow). Усилие: medium, надо написать decorator и политики на Rego.
  • Durable execution — для долгих HiL-пауз обернуть граф в Temporal workflow, каждый узел = activity. Усилие: medium-high, требует переосмысления state-персистенции (LangGraph checkpointer ↔ Temporal history).
  • Content safetyNeMo Guardrails как pre-/post-processor на узлах LLM-вызова. Усилие: low.
  • Model registryLiteLLM как единая точка входа для всех LLM узлов + MLflow для регистрации промпт-версий. Усилие: low.
  • RAG evalRAGAS на экспортированных трейсах Langfuse, оффлайн-скоринг. Усилие: low.
Вердикт: лидер. Ядро совпадает с нашей схемой, коммиты ежедневно, активное комьюнити. Дошивка — инженерная работа без концептуальных компромиссов.
CrewAI
6.5 / 10
покрытие 56% усилие: высокое fit ⭐⭐ ● активен
Что дошить из нашего стека:
  • Stateful HiL interrupt/resume — у CrewAI нет первого класса, придётся писать callbacks и свою сериализацию состояния. Усилие: high.
  • Policy / OPA — обернуть BaseTool.run middleware'ом. Усилие: medium.
  • RAG / long-term memory — подключить pgvector как кастомный tool. Усилие: low-medium.
  • Durable execution — нет интеграции с Temporal, придётся писать свою. Усилие: high.
Вердикт: хорош для Layer 4 (ролевая декомпозиция команды агентов), но как база всей оркестрации уступает LangGraph из-за слабого state management и HiL. Рассматривать как дополнение, не замену.
OpenHands
5.5 / 10
покрытие 69% усилие: высокое fit ⭐ ● активен
Что дошить из нашего стека:
  • Переориентация домена — OpenHands заточен под агента-разработчика (file ops, code execution, git). Для ERP/MES-кейсов придётся переписать большую часть action space. Усилие: very high.
  • Policy / OPA + durable + RAG eval — всё то же, что у остальных.
  • Плюсы, которые стоит заимствовать: sandbox-подход и физический tool binding — хорошая референс-реализация для нашего Layer «bounded».
Вердикт: не как база, а как источник инженерных решений. Высокое покрытие обманчиво — большая часть мимо нашего домена.
open_deep_research
7.0 / 10
покрытие 66% усилие: низкое fit ⭐⭐⭐ ✖ разработка остановлена
Что дошить из нашего стека:
  • Policy / OPA — тот же OPA middleware, что и у LangGraph (это LangGraph-приложение). Усилие: medium.
  • Durable execution — Temporal-обёртка вокруг верхнеуровневого графа. Усилие: medium.
  • Domain retrievers — заменить встроенный web-search retriever на pgvector/Qdrant с доменными корпусами + подключить ESB/MCP как источник операционных данных. Усилие: low.
  • Content safety + RAG eval — NeMo + RAGAS сверху. Усилие: low.
Вердикт: разработка фактически остановилась (206 коммитов за всю историю, включая dependabot). Код можно использовать как одноразовый шаблон для PoC, но не как живую основу.

Фреймворки оркестрации Layer 3 — Agent Orchestrator

Граф-оркестраторы и мультиагентные runtime. Соответствуют блоку Planner → LangGraph → CrewAI/Temporal.
Граф-оркестратор состояний для LLM-агентов. Ровно тот LangGraph, что у нас на схеме. Поддерживает interrupt/resume для HiL.
⭐ 28.7k 🍴 4.9k
joaomdmoura/crewAIблизко
CrewAI — мультиагентная оркестрация по ролям. Тот самый CrewAI из нашей схемы.
⭐ 48.3k 🍴 6.6k
Десятки готовых мультиагентных кейсов поверх CrewAI — полезно как стартовые шаблоны.
⭐ 5.8k 🍴 2.1k
Data framework + агенты. В нашей схеме — связующее звено между orchestrator и knowledge layer.
⭐ 48.4k 🍴 7.2k
Примеры durable execution на Temporal — ровно то, для чего Temporal у нас в оркестраторе (долгие HiL-ожидания).
⭐ 318 🍴 97

Готовые эталонные мультиагентные стеки покрывают несколько слоёв сразу

Проекты, которые целиком реализуют комбинацию «планировщик + специализированные агенты + инструменты + артефакты». Ближе всего к картинке целиком.
Продакшн-грейд агент-платформа (бывш. OpenDevin): оркестратор, инструменты, песочница, HiL approval. Покрывает Layer 1–4.
⭐ 70.8k 🍴 8.9k
OpenBMB/ChatDevальтернатива
Мультиагентная среда в формате «виртуальной компании разработки». Демонстрирует ролевую декомпозицию задач.
⭐ 32.6k 🍴 4.0k
LangGraph-стек с RAG и HiL. Разработка остановлена. Полезен для изучения паттернов и примеров.
⭐ 11.0k 🍴 1.6k
LangGraph-ассистент с HiL approval flow. Демонстрирует интеграцию approval как первого класса.
⭐ 2.2k 🍴 729

Enterprise-направленные стеки ближе к ГПН-кейсу по духу

Проекты с акцентом на governance, enterprise-интеграции, RAG.
NVIDIA/GenerativeAIExamplesальтернатива
RAG + агенты + observability на стеке NVIDIA NeMo. Полезно как reference для on-prem inference.
⭐ 3.9k 🍴 1.0k
deepset-ai/haystackальтернатива
Production-grade RAG-фреймворк с агентным модулем. Хорошая альтернатива связке LlamaIndex+LangGraph.
⭐ 24.8k 🍴 2.7k
deepset-ai/haystack-experimentalальтернатива
Экспериментальные агентные компоненты поверх Haystack.
⭐ 60 🍴 22

Policy / Guardrails Layer 2 — Policy Engine

Слой политик и ограничений. У нас это OPA+Rego + tool binding + service account + audit.
Сам OPA — policy engine на Rego. Базовый блок нашего Policy Layer.
⭐ 11.6k 🍴 1.5k

Observability / LLM Tracing правый столбец нашей схемы

Наблюдаемость LLM-трафика, трейсинг цепочек агентов, quality monitoring.
langfuse/langfuseблизко
Open-source LLM observability. Ровно тот Langfuse, что у нас в блоке LLM tracing.
⭐ 24.6k 🍴 2.5k
Arize-ai/phoenixблизко
LLM observability + eval. Альтернатива Langfuse с сильным evaluation-модулем.
⭐ 9.2k 🍴 801
OpenTelemetry для LLM. Интегрируется с любым OTel-совместимым backend — наш путь, если уже есть OTel-стек.
⭐ 7.0k 🍴 921
whylabs/langkitальтернатива
Data/LLM quality monitoring toolkit. Подходит для блока «data quality» в observability-панели.
⭐ 980 🍴 73