Рефакторинг

2026-03-12 23:33:51 +03:00
parent 9066c292de
commit 15586f9a8c
133 changed files with 1011 additions and 894 deletions
--- a/README.md
+++ b/README.md
@@ -54,7 +54,7 @@

 - **Target Architecture** описывает то, к чему проект идёт.
 - **MVP-now** описывает то, что реально доводится сейчас через тесты.
- **MVP-now** не включает UI-интеграцию и не требует полного runtime orchestration.
+- **MVP-now** не включает UI-интеграцию и использует единый stage-based runtime.
 - **MVP-now** фокусируется на:
  - IntentRouterV2;
  - code-first retrieval;
@@ -72,9 +72,10 @@

 **MVP-now**

- isolated `CODE_QA` test pipeline;
- IntentRouterV2 as canonical router;
- router-driven layered retrieval;
+- единый `agent runtime`;
+- `IntentRouterV2` как канонический router и retrieval planner;
+- stage-based execution внутри `agent.runtime`;
+- infrastructure `rag` только для indexing/retrieval/storage;
 - evidence-first answer synthesis;
 - diagnostics-first tuning;
 - no UI dependency;
@@ -870,9 +871,9 @@ flowchart TD
 **Target Architecture**

 - Router
- Graphs / pipelines для `CODE`, `DOCS`, `CROSS_DOMAIN`, `GENERAL`
+- unified runtime
 - CODE RAG + DOCS RAG
- evidence gate
+- evidence gates
 - synthesis layer
 - diagnostics
 - генерация технической документации из code / docs / system analysis
@@ -880,8 +881,8 @@ flowchart TD

 **MVP-now**

- изолированный test-first пайплайн;
- цепочка: `user query → IntentRouterV2 → retrieval plan → layered retrieval → evidence gate → LLM answer → diagnostics`;
+- единый test-first runtime;
+- цепочка: `user query → IntentRouterV2 → retrieval planning → runtime retrieval → context normalization → evidence gate 1 → answer policy → LLM answer → evidence gate 2 → finalization/diagnostics`;
 - основной домен: `CODE`;
 - основные сценарии:
  - `OPEN_FILE`
@@ -889,35 +890,42 @@ flowchart TD
  - `FIND_TESTS`
  - `FIND_ENTRYPOINTS`
  - `GENERAL_QA`
+  - `TRACE_FLOW`
+  - `ARCHITECTURE`
 - UI-интеграция не требуется для текущего этапа;
 - docs retrieval не обязателен для текущего milestone;
- legacy `RouterService` не считается целевой архитектурой и в перспективе будет заменён.
+- legacy orchestration удалён из актуального execution path.

 ```mermaid
 flowchart TD
    U[User Query] --> R[IntentRouterV2]
-    R --> P[Retrieval Plan]
-    P --> G[Layered Retrieval]
-    G --> E[Evidence Gate]
-    E --> A[LLM Answer]
-    E --> D[Diagnostics]
-    A --> D
+    R --> P[Retrieval Planning]
+    P --> X[Runtime Retrieval]
+    X --> C[Context Normalization]
+    C --> E1[Evidence Gate 1]
+    E1 --> AP[Answer Policy]
+    AP --> A[LLM Answer]
+    AP --> D[Diagnostics]
+    A --> E2[Evidence Gate 2]
+    E2 --> F[Finalization]
+    F --> D
 ```

-Текущий milestone — test-first и code-first; этот пайплайн настраивается изолированно до интеграции в полный agent runtime.
+Текущий milestone — test-first и code-first; этот runtime уже является каноническим execution path для MVP.

-### 4.1.3. Канонический test-first пайплайн (CODE_QA)
+### 4.1.3. Канонический MVP runtime (CODE-first)

-Единая точка входа изолированного пайплайна — пакет `app.modules.rag.code_qa_pipeline`:
+Единая точка входа исполнения — пакет `app.modules.agent.runtime`:

- **Роутер:** только `IntentRouterV2`; legacy `RouterService` не используется.
- **Контракты:** `RouterResult` (IntentRouterResult), `RetrievalRequest`, `RetrievalResult`, `EvidenceBundle`, `AnswerSynthesisInput`, `DiagnosticsReport`.
- **Цепочка:** запрос → IntentRouterV2 → RetrievalRequest → layered retrieval (через адаптер) → нормализованный RetrievalResult → EvidenceBundle → evidence gate → AnswerSynthesisInput → diagnostics.
- **Evidence gate:** общая проверка достаточности evidence по сценарию (OPEN_FILE, EXPLAIN, FIND_TESTS, FIND_ENTRYPOINTS, GENERAL_QA); при недостатке — degraded/insufficient, без уверенного ответа.
- **Диагностика:** Level 1 (summary) и Level 2 (detail), машинно-читаемые коды причин (`failure_reasons`: `target_not_resolved`, `path_scope_empty`, `layer_c0_empty`, `insufficient_evidence`, `tests_not_found`, `entrypoints_not_found` и др.).
- **Запуск пайплайна в тестах:** `CodeQAPipelineRunner(router=..., retrieval_adapter=...)`; метод `run(user_query, rag_session_id)` возвращает `CodeQAPipelineResult` с полной диагностикой.
+- **Роутер:** `app.modules.agent.intent_router_v2`; он отвечает и за routing, и за retrieval planning.
+- **LLM-слой:** `app.modules.agent.llm`; здесь живут `AgentLlmService`, `PromptLoader` и системные prompt assets.
+- **Runtime:** `app.modules.agent.runtime`; внутри него stages разложены по подпакетам `retrieval`, `context`, `gates`, `answer_policy`, `generation`, `finalization`.
+- **Цепочка:** запрос → `IntentRouterV2` → retrieval planning → runtime retrieval adapter → нормализованный context/evidence → evidence gate 1 → answer policy → LLM generation → evidence gate 2 → finalization → diagnostics.
+- **Evidence gates:** pre/post проверки достаточности evidence и качества ответа по сценарию.
+- **Диагностика:** runtime возвращает machine-readable diagnostics и trace по стадиям.
+- **RAG:** `app.modules.rag` больше не содержит agent use-case слоев; он остается инфраструктурой indexing/retrieval/storage.

-Тесты: `tests/pipeline_setup/pipeline_intent_rag/test_canonical_code_qa_pipeline.py` (роутер → retrieval request, нормализованный результат, evidence gate, диагностика).
+Тесты: `pipeline_setup_v3` и связанные suite-ы проверяют канонический runtime и его stage-based execution.

 ## 4.2. Router

@@ -926,7 +934,7 @@ Router определяет:
 - intent;
 - sub-intent;
 - confidence;
- подходящий graph;
+- подходящий execution path;
 - требования к retrieval plan.

 Целевые домены:
@@ -935,9 +943,22 @@ Router определяет:
 - `CROSS_DOMAIN`
 - `GENERAL`

-## 4.3. Graphs / pipelines
+## 4.3. Runtime Stages

-Graph — это специализированный сценарий обработки запроса.
+В текущем MVP execution path реализован не через graph engine, а через единый runtime с явными stage-компонентами.
+
+Текущие стадии:
+- `IntentRouterV2`
+- `retrieval planning`
+- `runtime retrieval`
+- `context normalization`
+- `evidence gate 1`
+- `answer policy`
+- `LLM generation`
+- `evidence gate 2`
+- `finalization + diagnostics`
+
+Если сценарии в будущем начнут расходиться по структуре, а не только по policy-логике шагов, следующим шагом будет рассмотрен переход на graph-based orchestration.

 Для MVP целесообразны как минимум:
 - `CodeOpenGraph`
@@ -1186,4 +1207,3 @@ DOCS и CROSS_DOMAIN остаются частью target architecture; в те
 - богатые fact-индексы по всем доменам;
 - полный reference graph документации;
 - глубокая автоматизация подготовки системной аналитики.
-
--- a/src/app/modules/agent/README.md
+++ b/src/app/modules/agent/README.md
@@ -1,37 +1,37 @@
 # Модуль agent

 ## 1. Назначение
-Модуль обеспечивает выполнение code-QA пайплайна для pipeline_setup_v3 и интеграцию с chat-слоем через адаптер к контракту `AgentRunner`. Оркестрация основана на **IntentRouterV2** (RAG) и **CodeQaRuntimeExecutor** (роутинг → retrieval → evidence gate → генерация ответа).
+Модуль обеспечивает выполнение code-QA пайплайна для pipeline_setup_v3 и интеграцию с chat-слоем через адаптер к контракту `AgentRunner`. Оркестрация основана на **IntentRouterV2** (RAG) и **AgentRuntimeExecutor** (роутинг → retrieval → evidence gate → генерация ответа).

 ## 2. Состав модуля
- **code_qa_runtime/** — рантайм выполнения code-QA: роутер интентов, retrieval, evidence gate, выбор промпта и генерация ответа (LLM).
+- **runtime/** — единственный orchestration-слой. На верхнем уровне содержит только файлы рантайма, а шаги исполнения вынесены в `runtime/steps/*` (`retrieval`, `context`, `gates`, `answer_policy`, `generation`, `finalization`, `explain`). Публичный API: `AgentRuntimeExecutor`, `RuntimeRetrievalAdapter`, `RuntimeRepoContextFactory`, модели `Runtime*`.
 - **llm/** — сервис вызова LLM (GigaChat) с загрузкой системных промптов через `PromptLoader`.
- **prompt_loader.py** — загрузка текстов промптов из каталога `prompts/`.
- **code_qa_runner_adapter.py** — адаптер `CodeQaRuntimeExecutor` к протоколу `AgentRunner` для использования из chat (async `run` → sync `execute` в executor).
+- **llm/prompt_loader.py** — загрузка системных промптов из `llm/prompts.yml`.
+- **runtime/code_qa_runner_adapter.py** — адаптер `AgentRuntimeExecutor` к протоколу `AgentRunner` для использования из chat (async `run` → sync `execute` в executor).

 ## 3. Диаграмма зависимостей
 ```mermaid
 classDiagram
-    class CodeQaRuntimeExecutor
+    class AgentRuntimeExecutor
    class CodeQaRunnerAdapter
    class AgentLlmService
    class PromptLoader
    class IntentRouterV2
-    class CodeQaRetrievalAdapter
+    class RuntimeRetrievalAdapter

-    CodeQaRunnerAdapter --> CodeQaRuntimeExecutor
-    CodeQaRuntimeExecutor --> AgentLlmService
-    CodeQaRuntimeExecutor --> IntentRouterV2
-    CodeQaRuntimeExecutor --> CodeQaRetrievalAdapter
+    CodeQaRunnerAdapter --> AgentRuntimeExecutor
+    AgentRuntimeExecutor --> AgentLlmService
+    AgentRuntimeExecutor --> IntentRouterV2
+    AgentRuntimeExecutor --> RuntimeRetrievalAdapter
    AgentLlmService --> PromptLoader
 ```

 ## 4. Точки входа
- **Тесты pipeline_setup_v3**: `AgentRuntimeAdapter` импортирует `CodeQaRuntimeExecutor`, `IntentRouterV2`, `CodeQaRepoContextFactory`, `CodeQaRetrievalAdapter`, `AgentLlmService`, `PromptLoader` напрямую из соответствующих пакетов.
- **Приложение (chat)**: `ModularApplication` собирает `CodeQaRuntimeExecutor` и оборачивает его в `CodeQaRunnerAdapter`; chat передаёт адаптер как `agent_runner` в `ChatModule`.
+- **Тесты pipeline_setup_v3**: `AgentRuntimeAdapter` импортирует `AgentRuntimeExecutor`, `IntentRouterV2`, `RuntimeRepoContextFactory`, `RuntimeRetrievalAdapter`, `AgentLlmService`, `PromptLoader` из `app.modules.agent.runtime` и соответствующих пакетов.
+- **Приложение (chat)**: `ModularApplication` собирает `AgentRuntimeExecutor` и оборачивает его в `CodeQaRunnerAdapter`; chat передаёт адаптер как `agent_runner` в `ChatModule`.

 ## 5. Промпты
-Используются только промпты, загружаемые из `prompts/`:
+Используются только промпты, загружаемые из `llm/prompts.yml`:
 - **code_qa_*** — ответы по sub_intent (architecture, explain, find_entrypoints, find_tests, general, open_file, trace_flow, degraded, repair).
 - **rag_intent_router_v2** — классификация интента в IntentRouterV2.
 - **code_explain_answer_v2** — прямой code-explain в chat (direct_service).
--- a/src/app/modules/agent/code_qa_runtime/init.py
+++ b/src/app/modules/agent/code_qa_runtime/init.py
@@ -1,15 +0,0 @@
-from app.modules.agent.code_qa_runtime.executor import CodeQaRuntimeExecutor
-from app.modules.agent.code_qa_runtime.models import (
-    CodeQaDraftAnswer,
-    CodeQaExecutionState,
-    CodeQaFinalResult,
-    CodeQaValidationResult,
-)
-
-__all__ = [
-    "CodeQaDraftAnswer",
-    "CodeQaExecutionState",
-    "CodeQaFinalResult",
-    "CodeQaRuntimeExecutor",
-    "CodeQaValidationResult",
-]
--- a/src/app/modules/agent/code_qa_runtime/models.py
+++ b/src/app/modules/agent/code_qa_runtime/models.py
@@ -1,73 +0,0 @@
-from __future__ import annotations
-
-from typing import Any
-
-from pydantic import BaseModel, ConfigDict, Field
-
-from app.modules.rag.code_qa_pipeline.contracts import (
-    AnswerSynthesisInput as CodeQaAnswerSynthesisInput,
-)
-from app.modules.rag.code_qa_pipeline.contracts import (
-    DiagnosticsReport as CodeQaDiagnosticsReport,
-)
-from app.modules.rag.code_qa_pipeline.contracts import (
-    EvidenceBundle as CodeQaEvidencePack,
-)
-from app.modules.rag.code_qa_pipeline.contracts import (
-    RetrievalRequest as CodeQaRetrievalRequest,
-)
-from app.modules.rag.code_qa_pipeline.contracts import (
-    RetrievalResult as CodeQaRetrievalResult,
-)
-from app.modules.rag.intent_router_v2.models import ConversationState, IntentRouterResult, RepoContext
-
-
-class CodeQaDraftAnswer(BaseModel):
-    model_config = ConfigDict(extra="forbid")
-
-    prompt_name: str
-    prompt_payload: str
-    answer: str = ""
-
-
-class CodeQaValidationResult(BaseModel):
-    model_config = ConfigDict(extra="forbid")
-
-    passed: bool = False
-    action: str = "return"
-    reasons: list[str] = Field(default_factory=list)
-
-
-class CodeQaFinalResult(BaseModel):
-    model_config = ConfigDict(extra="forbid")
-
-    final_answer: str
-    answer_mode: str = "normal"
-    repair_used: bool = False
-    llm_used: bool = False
-    draft_answer: CodeQaDraftAnswer | None = None
-    validation: CodeQaValidationResult = Field(default_factory=CodeQaValidationResult)
-    router_result: IntentRouterResult | None = None
-    retrieval_request: CodeQaRetrievalRequest | None = None
-    retrieval_result: CodeQaRetrievalResult | None = None
-    evidence_pack: CodeQaEvidencePack | None = None
-    diagnostics: CodeQaDiagnosticsReport
-    runtime_trace: list[dict[str, Any]] = Field(default_factory=list)
-
-
-class CodeQaExecutionState(BaseModel):
-    model_config = ConfigDict(extra="forbid")
-
-    user_query: str
-    rag_session_id: str
-    conversation_state: ConversationState = Field(default_factory=ConversationState)
-    repo_context: RepoContext = Field(default_factory=RepoContext)
-    router_result: IntentRouterResult | None = None
-    retrieval_request: CodeQaRetrievalRequest | None = None
-    retrieval_result: CodeQaRetrievalResult | None = None
-    evidence_pack: CodeQaEvidencePack | None = None
-    synthesis_input: CodeQaAnswerSynthesisInput | None = None
-    diagnostics: CodeQaDiagnosticsReport | None = None
-    answer_mode: str = "normal"
-    degraded_message: str = ""
-    final_result: CodeQaFinalResult | None = None
--- a/src/app/modules/agent/engine/init.py
+++ b/src/app/modules/agent/engine/init.py
--- a/src/app/modules/agent/intent_router_v2/init.py
+++ b/src/app/modules/agent/intent_router_v2/init.py
@@ -0,0 +1,19 @@
+from app.modules.agent.intent_router_v2.models import (
+    ConversationState,
+    IntentDecision,
+    IntentRouterResult,
+    QueryAnchor,
+    QueryPlan,
+    RepoContext,
+)
+from app.modules.agent.intent_router_v2.router import IntentRouterV2
+
+__all__ = [
+    "ConversationState",
+    "IntentDecision",
+    "IntentRouterResult",
+    "IntentRouterV2",
+    "QueryAnchor",
+    "QueryPlan",
+    "RepoContext",
+]
--- a/src/app/modules/agent/intent_router_v2/analysis/init.py
+++ b/src/app/modules/agent/intent_router_v2/analysis/init.py
@@ -0,0 +1,4 @@
+from app.modules.agent.intent_router_v2.analysis.normalization import QueryNormalizer
+from app.modules.agent.intent_router_v2.analysis.query_plan_builder import QueryPlanBuilder
+
+__all__ = ["QueryNormalizer", "QueryPlanBuilder"]
--- a/src/app/modules/agent/intent_router_v2/analysis/anchor_extractor.py
+++ b/src/app/modules/agent/intent_router_v2/analysis/anchor_extractor.py
@@ -2,10 +2,10 @@ from __future__ import annotations

 import re

-from app.modules.rag.intent_router_v2.models import AnchorSpan, QueryAnchor
-from app.modules.rag.intent_router_v2.analysis.normalization_terms import KeyTermCanonicalizer
-from app.modules.rag.intent_router_v2.analysis.symbol_rules import COMMON_PATH_SEGMENTS, PY_KEYWORDS
-from app.modules.rag.intent_router_v2.analysis.term_mapping import RuEnTermMapper
+from app.modules.agent.intent_router_v2.models import AnchorSpan, QueryAnchor
+from app.modules.agent.intent_router_v2.analysis.normalization_terms import KeyTermCanonicalizer
+from app.modules.agent.intent_router_v2.analysis.symbol_rules import COMMON_PATH_SEGMENTS, PY_KEYWORDS
+from app.modules.agent.intent_router_v2.analysis.term_mapping import RuEnTermMapper

 _FILE_PATTERN = re.compile(r"(?P<value>\b(?:[\w.-]+/)*[\w.-]+\.(?:py|md|rst|txt|yaml|yml|json|toml|ini|cfg)\b)")
 _PATH_HINT_PATTERN = re.compile(r"(?P<value>\b(?:src|app|docs|tests)/[\w./-]*[\w-]\b)")
--- a/src/app/modules/agent/intent_router_v2/analysis/anchor_span_validator.py
+++ b/src/app/modules/agent/intent_router_v2/analysis/anchor_span_validator.py
@@ -1,6 +1,6 @@
 from __future__ import annotations

-from app.modules.rag.intent_router_v2.models import QueryAnchor
+from app.modules.agent.intent_router_v2.models import QueryAnchor


 class AnchorSpanValidator:
--- a/src/app/modules/agent/intent_router_v2/analysis/conversation_anchor_builder.py
+++ b/src/app/modules/agent/intent_router_v2/analysis/conversation_anchor_builder.py
@@ -1,7 +1,7 @@
 from __future__ import annotations

-from app.modules.rag.intent_router_v2.analysis.followup_detector import FollowUpDetector
-from app.modules.rag.intent_router_v2.models import ConversationState, QueryAnchor
+from app.modules.agent.intent_router_v2.analysis.followup_detector import FollowUpDetector
+from app.modules.agent.intent_router_v2.models import ConversationState, QueryAnchor


 class ConversationAnchorBuilder:
--- a/src/app/modules/agent/intent_router_v2/analysis/followup_detector.py
+++ b/src/app/modules/agent/intent_router_v2/analysis/followup_detector.py
--- a/src/app/modules/agent/intent_router_v2/analysis/keyword_hint_builder.py
+++ b/src/app/modules/agent/intent_router_v2/analysis/keyword_hint_builder.py
@@ -2,8 +2,8 @@ from __future__ import annotations

 import re

-from app.modules.rag.intent_router_v2.analysis.normalization import FILE_PATH_RE
-from app.modules.rag.intent_router_v2.analysis.symbol_rules import COMMON_PATH_SEGMENTS, PY_KEYWORDS
+from app.modules.agent.intent_router_v2.analysis.normalization import FILE_PATH_RE
+from app.modules.agent.intent_router_v2.analysis.symbol_rules import COMMON_PATH_SEGMENTS, PY_KEYWORDS

 _IDENTIFIER_RE = re.compile(r"[A-Za-z_][A-Za-z0-9_]{2,}")

--- a/src/app/modules/agent/intent_router_v2/analysis/keyword_hint_sanitizer.py
+++ b/src/app/modules/agent/intent_router_v2/analysis/keyword_hint_sanitizer.py
@@ -1,6 +1,6 @@
 from __future__ import annotations

-from app.modules.rag.intent_router_v2.models import QueryAnchor
+from app.modules.agent.intent_router_v2.models import QueryAnchor


 class KeywordHintSanitizer:
--- a/src/app/modules/agent/intent_router_v2/analysis/negation_detector.py
+++ b/src/app/modules/agent/intent_router_v2/analysis/negation_detector.py
--- a/src/app/modules/agent/intent_router_v2/analysis/normalization.py
+++ b/src/app/modules/agent/intent_router_v2/analysis/normalization.py
@@ -13,7 +13,7 @@ SNAKE_RE = re.compile(r"(?<!\w)[a-z][a-z0-9]*(?:_[a-z0-9]+)+(?!\w)")
 SPACE_BEFORE_PUNCT_RE = re.compile(r"\s+([,.:;?!])")
 SPACE_AFTER_PUNCT_RE = re.compile(r"([,.:;?!])(?=(?:[\"'(\[A-Za-zА-ЯЁа-яё]))")
 WS_RE = re.compile(r"\s+")
-QUOTE_TRANSLATION = str.maketrans({"«": '"', "»": '"', "“": '"', "”": '"', "‘": "'", "’": "'"})
+QUOTE_TRANSLATION = str.maketrans({"«": '"', "»": '"', "\u201c": '"', "\u201d": '"', "\u2018": "'", "\u2019": "'"})


 class QueryNormalizer:
--- a/src/app/modules/agent/intent_router_v2/analysis/normalization_terms.py
+++ b/src/app/modules/agent/intent_router_v2/analysis/normalization_terms.py
--- a/src/app/modules/agent/intent_router_v2/analysis/query_normalizer.py
+++ b/src/app/modules/agent/intent_router_v2/analysis/query_normalizer.py
@@ -0,0 +1,3 @@
+from app.modules.agent.intent_router_v2.analysis.normalization import QueryNormalizer
+
+__all__ = ["QueryNormalizer"]
--- a/src/app/modules/agent/intent_router_v2/analysis/query_plan_builder.py
+++ b/src/app/modules/agent/intent_router_v2/analysis/query_plan_builder.py
@@ -1,16 +1,16 @@
 from __future__ import annotations

-from app.modules.rag.intent_router_v2.analysis.anchor_extractor import AnchorExtractor
-from app.modules.rag.intent_router_v2.analysis.anchor_span_validator import AnchorSpanValidator
-from app.modules.rag.intent_router_v2.analysis.conversation_anchor_builder import ConversationAnchorBuilder
-from app.modules.rag.intent_router_v2.analysis.keyword_hint_builder import KeywordHintBuilder
-from app.modules.rag.intent_router_v2.analysis.keyword_hint_sanitizer import KeywordHintSanitizer
-from app.modules.rag.intent_router_v2.models import ConversationState, QueryAnchor, QueryPlan
-from app.modules.rag.intent_router_v2.analysis.negation_detector import NegationDetector
-from app.modules.rag.intent_router_v2.analysis.normalization import QueryNormalizer
-from app.modules.rag.intent_router_v2.analysis.sub_intent_detector import SubIntentDetector
-from app.modules.rag.intent_router_v2.analysis.test_signals import has_test_focus, is_negative_test_request, is_test_related_token
-from app.modules.rag.intent_router_v2.analysis.term_mapping import RuEnTermMapper
+from app.modules.agent.intent_router_v2.analysis.anchor_extractor import AnchorExtractor
+from app.modules.agent.intent_router_v2.analysis.anchor_span_validator import AnchorSpanValidator
+from app.modules.agent.intent_router_v2.analysis.conversation_anchor_builder import ConversationAnchorBuilder
+from app.modules.agent.intent_router_v2.analysis.keyword_hint_builder import KeywordHintBuilder
+from app.modules.agent.intent_router_v2.analysis.keyword_hint_sanitizer import KeywordHintSanitizer
+from app.modules.agent.intent_router_v2.models import ConversationState, QueryAnchor, QueryPlan
+from app.modules.agent.intent_router_v2.analysis.negation_detector import NegationDetector
+from app.modules.agent.intent_router_v2.analysis.normalization import QueryNormalizer
+from app.modules.agent.intent_router_v2.analysis.sub_intent_detector import SubIntentDetector
+from app.modules.agent.intent_router_v2.analysis.test_signals import has_test_focus, is_negative_test_request, is_test_related_token
+from app.modules.agent.intent_router_v2.analysis.term_mapping import RuEnTermMapper


 class QueryPlanBuilder:
--- a/src/app/modules/agent/intent_router_v2/analysis/sub_intent_detector.py
+++ b/src/app/modules/agent/intent_router_v2/analysis/sub_intent_detector.py
--- a/src/app/modules/agent/intent_router_v2/analysis/symbol_rules.py
+++ b/src/app/modules/agent/intent_router_v2/analysis/symbol_rules.py
--- a/src/app/modules/agent/intent_router_v2/analysis/term_mapping.py
+++ b/src/app/modules/agent/intent_router_v2/analysis/term_mapping.py
@@ -2,7 +2,7 @@ from __future__ import annotations

 import re

-from app.modules.rag.intent_router_v2.analysis.normalization_terms import KeyTermCanonicalizer
+from app.modules.agent.intent_router_v2.analysis.normalization_terms import KeyTermCanonicalizer

 _WORD_RE = re.compile(r"[A-Za-zА-Яа-яЁё-]+")

--- a/src/app/modules/agent/intent_router_v2/analysis/test_signals.py
+++ b/src/app/modules/agent/intent_router_v2/analysis/test_signals.py
--- a/src/app/modules/agent/intent_router_v2/factory.py
+++ b/src/app/modules/agent/intent_router_v2/factory.py
@@ -1,9 +1,9 @@
 from __future__ import annotations

 from app.modules.agent.llm import AgentLlmService
-from app.modules.agent.prompt_loader import PromptLoader
-from app.modules.rag.intent_router_v2.intent.classifier import IntentClassifierV2
-from app.modules.rag.intent_router_v2.router import IntentRouterV2
+from app.modules.agent.llm.prompt_loader import PromptLoader
+from app.modules.agent.intent_router_v2.intent.classifier import IntentClassifierV2
+from app.modules.agent.intent_router_v2.router import IntentRouterV2
 from app.modules.shared.env_loader import load_workspace_env
 from app.modules.shared.gigachat.client import GigaChatClient
 from app.modules.shared.gigachat.settings import GigaChatSettings
--- a/src/app/modules/agent/intent_router_v2/intent/init.py
+++ b/src/app/modules/agent/intent_router_v2/intent/init.py
@@ -0,0 +1,5 @@
+from app.modules.agent.intent_router_v2.intent.classifier import IntentClassifierV2
+from app.modules.agent.intent_router_v2.intent.conversation_policy import ConversationPolicy
+from app.modules.agent.intent_router_v2.intent.graph_id_resolver import GraphIdResolver
+
+__all__ = ["IntentClassifierV2", "ConversationPolicy", "GraphIdResolver"]
--- a/src/app/modules/agent/intent_router_v2/intent/classifier.py
+++ b/src/app/modules/agent/intent_router_v2/intent/classifier.py
@@ -3,9 +3,9 @@ from __future__ import annotations
 import json
 import re

-from app.modules.rag.intent_router_v2.models import ConversationState, IntentDecision
-from app.modules.rag.intent_router_v2.protocols import TextGenerator
-from app.modules.rag.intent_router_v2.analysis.test_signals import has_test_focus
+from app.modules.agent.intent_router_v2.models import ConversationState, IntentDecision
+from app.modules.agent.intent_router_v2.protocols import TextGenerator
+from app.modules.agent.intent_router_v2.analysis.test_signals import has_test_focus

 _CODE_FILE_PATH_RE = re.compile(
    r"\b(?:[\w.-]+/)*[\w.-]+\.(?:py|js|jsx|ts|tsx|java|kt|go|rb|php|c|cc|cpp|h|hpp|cs|swift|rs)(?!\w)\b",
--- a/src/app/modules/agent/intent_router_v2/intent/conversation_policy.py
+++ b/src/app/modules/agent/intent_router_v2/intent/conversation_policy.py
@@ -1,6 +1,6 @@
 from __future__ import annotations

-from app.modules.rag.intent_router_v2.models import ConversationState, IntentDecision
+from app.modules.agent.intent_router_v2.models import ConversationState, IntentDecision


 class ConversationPolicy:
--- a/src/app/modules/agent/intent_router_v2/intent/graph_id_resolver.py
+++ b/src/app/modules/agent/intent_router_v2/intent/graph_id_resolver.py
--- a/src/app/modules/agent/intent_router_v2/local_runner.py
+++ b/src/app/modules/agent/intent_router_v2/local_runner.py
@@ -2,8 +2,8 @@ from __future__ import annotations

 import logging

-from app.modules.rag.intent_router_v2.models import ConversationState, IntentRouterResult, RepoContext
-from app.modules.rag.intent_router_v2.router import IntentRouterV2
+from app.modules.agent.intent_router_v2.models import ConversationState, IntentRouterResult, RepoContext
+from app.modules.agent.intent_router_v2.router import IntentRouterV2

 LOGGER = logging.getLogger(__name__)

--- a/src/app/modules/agent/intent_router_v2/logger.py
+++ b/src/app/modules/agent/intent_router_v2/logger.py
@@ -3,7 +3,7 @@ from __future__ import annotations
 import json
 import logging

-from app.modules.rag.intent_router_v2.models import ConversationState, IntentRouterResult, RepoContext
+from app.modules.agent.intent_router_v2.models import ConversationState, IntentRouterResult, RepoContext

 LOGGER = logging.getLogger(__name__)

--- a/src/app/modules/agent/intent_router_v2/models.py
+++ b/src/app/modules/agent/intent_router_v2/models.py
--- a/src/app/modules/agent/intent_router_v2/protocols.py
+++ b/src/app/modules/agent/intent_router_v2/protocols.py
--- a/src/app/modules/agent/intent_router_v2/readme.md
+++ b/src/app/modules/agent/intent_router_v2/readme.md
--- a/src/app/modules/agent/intent_router_v2/retrieval_planning/init.py
+++ b/src/app/modules/agent/intent_router_v2/retrieval_planning/init.py
@@ -0,0 +1,4 @@
+from app.modules.agent.intent_router_v2.retrieval_planning.retrieval_spec_factory import RetrievalSpecFactory
+from app.modules.agent.intent_router_v2.retrieval_planning.retrieval_constraints_factory import RetrievalConstraintsFactory
+
+__all__ = ["RetrievalSpecFactory", "RetrievalConstraintsFactory"]
--- a/src/app/modules/agent/intent_router_v2/retrieval_planning/evidence_policy_factory.py
+++ b/src/app/modules/agent/intent_router_v2/retrieval_planning/evidence_policy_factory.py
@@ -1,6 +1,6 @@
 from __future__ import annotations

-from app.modules.rag.intent_router_v2.models import EvidencePolicy
+from app.modules.agent.intent_router_v2.models import EvidencePolicy


 class EvidencePolicyFactory:
--- a/src/app/modules/agent/intent_router_v2/retrieval_planning/layer_query_builder.py
+++ b/src/app/modules/agent/intent_router_v2/retrieval_planning/layer_query_builder.py
@@ -1,6 +1,6 @@
 from __future__ import annotations

-from app.modules.rag.intent_router_v2.models import LayerQuery, RepoContext
+from app.modules.agent.intent_router_v2.models import LayerQuery, RepoContext


 class LayerQueryBuilder:
--- a/src/app/modules/agent/intent_router_v2/retrieval_planning/retrieval_constraints_factory.py
+++ b/src/app/modules/agent/intent_router_v2/retrieval_planning/retrieval_constraints_factory.py
@@ -1,7 +1,7 @@
 from __future__ import annotations

-from app.modules.rag.intent_router_v2.models import QueryAnchor, RetrievalConstraints, RetrievalProfile
-from app.modules.rag.intent_router_v2.analysis.test_signals import has_test_focus, is_negative_test_request
+from app.modules.agent.intent_router_v2.models import QueryAnchor, RetrievalConstraints, RetrievalProfile
+from app.modules.agent.intent_router_v2.analysis.test_signals import has_test_focus, is_negative_test_request


 class RetrievalConstraintsFactory:
--- a/src/app/modules/agent/intent_router_v2/retrieval_planning/retrieval_filter_builder.py
+++ b/src/app/modules/agent/intent_router_v2/retrieval_planning/retrieval_filter_builder.py
@@ -1,6 +1,6 @@
 from __future__ import annotations

-from app.modules.rag.intent_router_v2.models import (
+from app.modules.agent.intent_router_v2.models import (
    CodeRetrievalFilters,
    ConversationState,
    DocsRetrievalFilters,
@@ -8,7 +8,7 @@ from app.modules.rag.intent_router_v2.models import (
    QueryAnchor,
    RepoContext,
 )
-from app.modules.rag.intent_router_v2.analysis.test_signals import has_test_focus, is_negative_test_request, is_test_related_token
+from app.modules.agent.intent_router_v2.analysis.test_signals import has_test_focus, is_negative_test_request, is_test_related_token


 class RetrievalFilterBuilder:
--- a/src/app/modules/agent/intent_router_v2/retrieval_planning/retrieval_spec_factory.py
+++ b/src/app/modules/agent/intent_router_v2/retrieval_planning/retrieval_spec_factory.py
@@ -1,9 +1,9 @@
 from __future__ import annotations

 from app.modules.rag.contracts.enums import RagLayer
-from app.modules.rag.intent_router_v2.retrieval.layer_query_builder import LayerQueryBuilder
-from app.modules.rag.intent_router_v2.models import ConversationState, QueryAnchor, RepoContext, RetrievalSpec
-from app.modules.rag.intent_router_v2.retrieval.retrieval_filter_builder import RetrievalFilterBuilder
+from app.modules.agent.intent_router_v2.retrieval_planning.layer_query_builder import LayerQueryBuilder
+from app.modules.agent.intent_router_v2.models import ConversationState, QueryAnchor, RepoContext, RetrievalSpec
+from app.modules.agent.intent_router_v2.retrieval_planning.retrieval_filter_builder import RetrievalFilterBuilder


 class RetrievalSpecFactory:
--- a/src/app/modules/agent/intent_router_v2/router.py
+++ b/src/app/modules/agent/intent_router_v2/router.py
@@ -1,14 +1,14 @@
 from __future__ import annotations

-from app.modules.rag.intent_router_v2.intent.classifier import IntentClassifierV2
-from app.modules.rag.intent_router_v2.intent.conversation_policy import ConversationPolicy
-from app.modules.rag.intent_router_v2.retrieval.evidence_policy_factory import EvidencePolicyFactory
-from app.modules.rag.intent_router_v2.intent.graph_id_resolver import GraphIdResolver
-from app.modules.rag.intent_router_v2.logger import IntentRouterLogger
-from app.modules.rag.intent_router_v2.models import ConversationState, IntentRouterResult, RepoContext, SymbolResolution
-from app.modules.rag.intent_router_v2.analysis.query_plan_builder import QueryPlanBuilder
-from app.modules.rag.intent_router_v2.retrieval.retrieval_constraints_factory import RetrievalConstraintsFactory
-from app.modules.rag.intent_router_v2.retrieval.retrieval_spec_factory import RetrievalSpecFactory
+from app.modules.agent.intent_router_v2.intent.classifier import IntentClassifierV2
+from app.modules.agent.intent_router_v2.intent.conversation_policy import ConversationPolicy
+from app.modules.agent.intent_router_v2.retrieval_planning.evidence_policy_factory import EvidencePolicyFactory
+from app.modules.agent.intent_router_v2.intent.graph_id_resolver import GraphIdResolver
+from app.modules.agent.intent_router_v2.logger import IntentRouterLogger
+from app.modules.agent.intent_router_v2.models import ConversationState, IntentRouterResult, RepoContext, SymbolResolution
+from app.modules.agent.intent_router_v2.analysis.query_plan_builder import QueryPlanBuilder
+from app.modules.agent.intent_router_v2.retrieval_planning.retrieval_constraints_factory import RetrievalConstraintsFactory
+from app.modules.agent.intent_router_v2.retrieval_planning.retrieval_spec_factory import RetrievalSpecFactory


 class IntentRouterV2:
--- a/src/app/modules/agent/llm/init.py
+++ b/src/app/modules/agent/llm/init.py
@@ -1,3 +1,4 @@
 from app.modules.agent.llm.service import AgentLlmService
+from app.modules.agent.llm.prompt_loader import PromptLoader

-__all__ = ["AgentLlmService"]
+__all__ = ["AgentLlmService", "PromptLoader"]
--- a/src/app/modules/agent/llm/prompt_loader.py
+++ b/src/app/modules/agent/llm/prompt_loader.py
@@ -0,0 +1,27 @@
+from pathlib import Path
+import os
+
+import yaml
+
+
+class PromptLoader:
+    def __init__(self, prompts_path: Path | None = None) -> None:
+        base = prompts_path or Path(__file__).resolve().parent / "prompts.yml"
+        env_override = os.getenv("AGENT_PROMPTS_DIR", "").strip()
+        raw_path = Path(env_override) if env_override else base
+        self._path = raw_path / "prompts.yml" if raw_path.is_dir() else raw_path
+        self._prompts = self._load_prompts()
+
+    def load(self, name: str) -> str:
+        return str(self._prompts.get(name, "") or "").strip()
+
+    def _load_prompts(self) -> dict[str, str]:
+        if not self._path.is_file():
+            return {}
+        payload = yaml.safe_load(self._path.read_text(encoding="utf-8")) or {}
+        if not isinstance(payload, dict):
+            return {}
+        prompts = payload.get("prompts", payload)
+        if not isinstance(prompts, dict):
+            return {}
+        return {str(key): str(value or "") for key, value in prompts.items()}
--- a/src/app/modules/agent/llm/prompts.yml
+++ b/src/app/modules/agent/llm/prompts.yml
@@ -0,0 +1,280 @@
+prompts:
+  code_explain_answer_v2: |
+    Объяснение кода осуществляется только с использованием предоставленного ExplainPack.
+
+    Правила:
+    - Сначала используйте доказательства.
+    - Каждый ключевой шаг в процессе должен содержать один или несколько идентификаторов доказательств в квадратных скобках, например, [entrypoint_1] или [excerpt_3].
+    - Не придумывайте символы, файлы, маршруты или фрагменты кода, отсутствующие в пакете.
+    - Если доказательства неполные, укажите это явно.
+    - В качестве якорей используйте выбранные точки входа и пути трассировки.
+
+    Верните Markdown со следующей структурой:
+    1. Краткое описание
+    2. Пошаговый процесс
+    3. Данные и побочные эффекты
+    4. Ошибки и граничные случаи
+    5. Указатели
+
+    Указатели должны представлять собой короткий маркированный список, сопоставляющий идентификаторы доказательств с местоположениями файлов.
+  code_qa_architecture_answer: |
+    Ты инженер, который объясняет устройство подсистемы только по наблюдаемым компонентам и связям из кода.
+
+    Отвечай только по коду и структуре проекта, которые есть в контексте.
+    Пиши естественным инженерным языком, без искусственных markdown-секций и без повторов одной и той же мысли.
+    Если ответ можно дать в 1-3 фразах, не раздувай его.
+    Упоминай файлы, классы, функции, методы и связи только если они реально присутствуют в извлечённых данных.
+    Каждое содержательное утверждение по возможности привязывай к конкретному наблюдаемому имени или факту из контекста: пути файла, имени класса, функции, метода, аргумента, поля, route path, вызова или связи.
+    Если конкретные имена, параметры, вызовы или связи не видны, прямо скажи, чего именно не видно, вместо общих формулировок.
+    Не вводи новые сущности, зависимости или сценарии, которых нет в контексте.
+    Явно различай подтверждённые факты и осторожные выводы по косвенным признакам.
+    Если данных мало, честно скажи об этом вместо общего обзора.
+    Не используй жирные заголовки блоков, если пользователь их не просил.
+    Строго соблюдай контракт sub-intent и не подменяй локальный ответ архитектурным обзором.
+    Избегай расплывчатых и пустых формулировок вроде: "различные аргументы", "ряд аргументов", "различные подпакеты", "основные службы", "ключевой компонент", "играет роль", "представляет собой", если после них нет конкретики.
+    Не добавляй очевидные метафразы о том, что ответ основан на контексте или на видимом фрагменте, если это ничего не добавляет по сути.
+    Если сущность не найдена, остановись на факте not_found и не объясняй её предполагаемое назначение по одному только названию.
+    Не выводи пустые разделы, пустые списки и формулировки вида "кандидатов нет", если это не помогает ответу.
+
+    Дай архитектурное объяснение без лишней теории.
+    Строй ответ вокруг concrete facts из payload: `must_mention_components`, `must_mention_relations`, `must_use_relation_verbs`.
+    Если эти списки непустые, назови хотя бы часть компонентов и хотя бы одну наблюдаемую связь между ними.
+    Описывай не просто компоненты, а связи типа: создаёт, вызывает, регистрирует, читает, записывает, передаёт, оборачивает, импортирует, наследует.
+    Если связь не видна в payload, не додумывай её и не заменяй общими словами про управление подсистемой.
+    Методы и функции можно упоминать только как доказательство связи между компонентами, но не как основные "компоненты" ответа.
+    Затем коротко опиши границы ответственности, только если они реально видны в коде.
+    Не используй synthetic role labels как готовый пользовательский вывод, если они не поддержаны кодом.
+    Не придумывай скрытые слои и не расширяй архитектуру за пределы извлечённого контекста.
+    Не используй обязательные markdown-секции.
+    Не используй `semantic_hints` как primary explanation, особенно если `must_avoid_semantic_labels_as_primary_claims=true`.
+    Не используй raw retrieval labels вроде `dataflow_slice`, `execution_trace`, `trace_path` в финальном тексте.
+    Не используй абстрактные формулы вроде "главный компонент", "центральный управляющий компонент", "управляет потоками данных и состоянием системы", "этап пайплайна", если конкретная связь не раскрыта через наблюдаемые методы, поля или вызовы.
+  code_qa_degraded_answer: |
+    Ты формируешь осторожный деградированный ответ.
+    Нужно честно описать, что удалось подтвердить, а чего не хватает.
+    Не выдавай предположения за факты и не заполняй пробелы догадками.
+  code_qa_explain_answer: |
+    Ты senior Python-инженер и code reviewer, который объясняет устройство кода без домысливания.
+
+    Отвечай только по коду и структуре проекта, которые есть в контексте.
+    Пиши естественным инженерным языком, без искусственных markdown-секций и без повторов одной и той же мысли.
+    Если ответ можно дать в 1-3 фразах, не раздувай его.
+    Упоминай файлы, классы, функции, методы и связи только если они реально присутствуют в извлечённых данных.
+    Каждое содержательное утверждение по возможности привязывай к конкретному наблюдаемому имени или факту из контекста: пути файла, имени класса, функции, метода, аргумента, поля, route path, вызова или связи.
+    Если конкретные имена, параметры, вызовы или связи не видны, прямо скажи, чего именно не видно, вместо общих формулировок.
+    Не вводи новые сущности, зависимости или сценарии, которых нет в контексте.
+    Явно различай подтверждённые факты и осторожные выводы по косвенным признакам.
+    Если данных мало, честно скажи об этом вместо общего обзора.
+    Не используй жирные заголовки блоков, если пользователь их не просил.
+    Строго соблюдай контракт sub-intent и не подменяй локальный ответ архитектурным обзором.
+    Избегай расплывчатых и пустых формулировок вроде: "различные аргументы", "ряд аргументов", "различные подпакеты", "основные службы", "ключевой компонент", "играет роль", "представляет собой", если после них нет конкретики.
+    Не добавляй очевидные метафразы о том, что ответ основан на контексте или на видимом фрагменте, если это ничего не добавляет по сути.
+    Если сущность не найдена, остановись на факте not_found и не объясняй её предполагаемое назначение по одному только названию.
+    Не выводи пустые разделы, пустые списки и формулировки вида "кандидатов нет", если это не помогает ответу.
+
+    Объясни, как работает сущность из вопроса пользователя, обычным инженерным текстом.
+    Начни с самого важного: что это за сущность и где она находится, если это видно.
+    Затем строй ответ вокруг concrete facts из payload: `must_mention_methods`, `must_mention_fields`, `must_mention_calls`, `must_mention_dependencies`, `must_mention_constructor_args`, `must_mention_files`.
+    Если эти списки непустые, назови хотя бы часть этих имён явно, а не заменяй их общей интерпретацией.
+    Если в `must_mention_methods` даны полные qname, можно назвать метод по короткому имени, но только если связь с целевой сущностью остаётся ясной.
+    Сначала идентифицируй сущность, затем назови только подтверждённые методы, аргументы, вызовы, поля и зависимости.
+    Если сигнатуры, аргументы, методы или вызовы не видны, прямо скажи, чего именно не видно, используя `fact_gaps`, и остановись на этом.
+    Не используй общие формулы без конкретных имён.
+    Если виден конструктор, метод или вызов, лучше назвать его явно, чем писать абстрактно про "инициализацию", "службы", "аргументы" или "компоненты".
+    Если вывод основан на косвенных признаках, явно пометь это как осторожный вывод.
+    Если сущность не найдена или evidence слабый, не пиши обычное объяснение — прямо скажи об этом и остановись.
+    Запрещено подменять concrete methods/fields/calls формулами вроде "принимает ряд аргументов", "имеет responsibilities", "используется в службах", "регистрирует основные службы", если в payload есть конкретные имена.
+    Не используй `semantic_hints` как основной каркас ответа. Они допустимы только как вторичное замечание и только если не противоречат C0/C1/C2.
+    Не используй обязательные секции и подзаголовки.
+  code_qa_explain_local_answer: |
+    Ты инженер, который объясняет локальный фрагмент кода без лишней теории и без перехода на уровень всей архитектуры.
+
+    Отвечай только по коду и структуре проекта, которые есть в контексте.
+    Пиши естественным инженерным языком, без искусственных markdown-секций и без повторов одной и той же мысли.
+    Если ответ можно дать в 1-3 фразах, не раздувай его.
+    Упоминай файлы, классы, функции, методы и связи только если они реально присутствуют в извлечённых данных.
+    Каждое содержательное утверждение по возможности привязывай к конкретному наблюдаемому имени или факту из контекста: пути файла, имени класса, функции, метода, аргумента, поля, route path, вызова или связи.
+    Если конкретные имена, параметры, вызовы или связи не видны, прямо скажи, чего именно не видно, вместо общих формулировок.
+    Не вводи новые сущности, зависимости или сценарии, которых нет в контексте.
+    Явно различай подтверждённые факты и осторожные выводы по косвенным признакам.
+    Если данных мало, честно скажи об этом вместо общего обзора.
+    Не используй жирные заголовки блоков, если пользователь их не просил.
+    Строго соблюдай контракт sub-intent и не подменяй локальный ответ архитектурным обзором.
+    Избегай расплывчатых и пустых формулировок вроде: "различные аргументы", "ряд аргументов", "различные подпакеты", "основные службы", "ключевой компонент", "играет роль", "представляет собой", если после них нет конкретики.
+    Не добавляй очевидные метафразы о том, что ответ основан на контексте или на видимом фрагменте, если это ничего не добавляет по сути.
+    Если сущность не найдена, остановись на факте not_found и не объясняй её предполагаемое назначение по одному только названию.
+    Не выводи пустые разделы, пустые списки и формулировки вида "кандидатов нет", если это не помогает ответу.
+
+    Дай локальное объяснение по конкретному файлу, символу или короткому участку кода.
+    Сконцентрируйся на том, что делает этот участок, какие входы и выходы видны и какие ближайшие вызовы или зависимости заметны рядом.
+    Если виден только фрагмент, ограничь вывод тем, что прямо видно в этом фрагменте.
+    Не компенсируй нехватку локального контекста общими архитектурными фразами.
+    Не расписывай всю архитектуру проекта и не используй секции без необходимости.
+  code_qa_find_entrypoints_answer: |
+    Ты инженер, который находит подтверждённые точки входа и отдельно помечает только возможные кандидаты.
+
+    Отвечай только по коду и структуре проекта, которые есть в контексте.
+    Пиши естественным инженерным языком, без искусственных markdown-секций и без повторов одной и той же мысли.
+    Если ответ можно дать в 1-3 фразах, не раздувай его.
+    Упоминай файлы, классы, функции, методы и связи только если они реально присутствуют в извлечённых данных.
+    Каждое содержательное утверждение по возможности привязывай к конкретному наблюдаемому имени или факту из контекста: пути файла, имени класса, функции, метода, аргумента, поля, route path, вызова или связи.
+    Если конкретные имена, параметры, вызовы или связи не видны, прямо скажи, чего именно не видно, вместо общих формулировок.
+    Не вводи новые сущности, зависимости или сценарии, которых нет в контексте.
+    Явно различай подтверждённые факты и осторожные выводы по косвенным признакам.
+    Если данных мало, честно скажи об этом вместо общего обзора.
+    Не используй жирные заголовки блоков, если пользователь их не просил.
+    Строго соблюдай контракт sub-intent и не подменяй локальный ответ архитектурным обзором.
+    Избегай расплывчатых и пустых формулировок вроде: "различные аргументы", "ряд аргументов", "различные подпакеты", "основные службы", "ключевой компонент", "играет роль", "представляет собой", если после них нет конкретики.
+    Не добавляй очевидные метафразы о том, что ответ основан на контексте или на видимом фрагменте, если это ничего не добавляет по сути.
+    Если сущность не найдена, остановись на факте not_found и не объясняй её предполагаемое назначение по одному только названию.
+    Не выводи пустые разделы, пустые списки и формулировки вида "кандидатов нет", если это не помогает ответу.
+
+    Найди точки входа, обработчики запуска или важные entrypoints.
+    Для подтверждённых HTTP route сначала называй их в прикладном виде: HTTP method и route path, например `GET /health`.
+    Затем коротко добавляй, где route объявлен и какой handler, функция, метод или контекст его обслуживает, если это видно.
+    Если во входе есть `required_entrypoints`, каждый такой route должен быть явно назван в ответе в виде `METHOD /path`.
+    Если во входе есть `confirmed_entrypoints` с `query_match=true`, не пиши, что route не найден, пока не перечислишь эти совпавшие подтверждённые route.
+    Подтверждённые entrypoints перечисляй первыми.
+    Кандидатов без явного route marker упоминай только если они действительно полезны, и явно помечай как кандидатов.
+    Не своди ответ к обсуждению декораторов вроде `@app.get`; пользователю важнее method, path и контекст.
+    Не используй искусственные секции, если ответ можно дать компактным списком или коротким абзацем.
+    Если кандидатов нет, не создавай отдельную строку или блок про их отсутствие.
+    Не заменяй `GET /health` абстрактной формулой вроде "route для health-check"; сначала всегда пиши method и path.
+  code_qa_find_tests_answer: |
+    Ты инженер, который ищет тестовое покрытие и различает прямые и косвенные тесты.
+
+    Отвечай только по коду и структуре проекта, которые есть в контексте.
+    Пиши естественным инженерным языком, без искусственных markdown-секций и без повторов одной и той же мысли.
+    Если ответ можно дать в 1-3 фразах, не раздувай его.
+    Упоминай файлы, классы, функции, методы и связи только если они реально присутствуют в извлечённых данных.
+    Каждое содержательное утверждение по возможности привязывай к конкретному наблюдаемому имени или факту из контекста: пути файла, имени класса, функции, метода, аргумента, поля, route path, вызова или связи.
+    Если конкретные имена, параметры, вызовы или связи не видны, прямо скажи, чего именно не видно, вместо общих формулировок.
+    Не вводи новые сущности, зависимости или сценарии, которых нет в контексте.
+    Явно различай подтверждённые факты и осторожные выводы по косвенным признакам.
+    Если данных мало, честно скажи об этом вместо общего обзора.
+    Не используй жирные заголовки блоков, если пользователь их не просил.
+    Строго соблюдай контракт sub-intent и не подменяй локальный ответ архитектурным обзором.
+    Избегай расплывчатых и пустых формулировок вроде: "различные аргументы", "ряд аргументов", "различные подпакеты", "основные службы", "ключевой компонент", "играет роль", "представляет собой", если после них нет конкретики.
+    Не добавляй очевидные метафразы о том, что ответ основан на контексте или на видимом фрагменте, если это ничего не добавляет по сути.
+    Если сущность не найдена, остановись на факте not_found и не объясняй её предполагаемое назначение по одному только названию.
+    Не выводи пустые разделы, пустые списки и формулировки вида "кандидатов нет", если это не помогает ответу.
+
+    Найди связанные тесты и ответь, где они расположены.
+    Сначала назови прямые тесты, только если связь с сущностью подтверждается именем, импортом, вызовом или проверяемым поведением.
+    Если прямых тестов нет, прямо скажи это и только потом упомяни ближайшие косвенные тесты, если они есть.
+    Коротко поясни, что именно проверяется.
+    Не выдавай косвенные совпадения за подтверждённое покрытие и не используй отчётные секции без нужды.
+    Если косвенных тестов тоже нет, не добавляй отдельный пустой блок про их отсутствие.
+  code_qa_general_answer: |
+    Ты senior Python-инженер, который даёт обзорный ответ по подсистеме или проекту, но остаётся строго привязанным к коду из контекста.
+
+    Отвечай только по коду и структуре проекта, которые есть в контексте.
+    Пиши естественным инженерным языком, без искусственных markdown-секций и без повторов одной и той же мысли.
+    Если ответ можно дать в 1-3 фразах, не раздувай его.
+    Упоминай файлы, классы, функции, методы и связи только если они реально присутствуют в извлечённых данных.
+    Каждое содержательное утверждение по возможности привязывай к конкретному наблюдаемому имени или факту из контекста: пути файла, имени класса, функции, метода, аргумента, поля, route path, вызова или связи.
+    Если конкретные имена, параметры, вызовы или связи не видны, прямо скажи, чего именно не видно, вместо общих формулировок.
+    Не вводи новые сущности, зависимости или сценарии, которых нет в контексте.
+    Явно различай подтверждённые факты и осторожные выводы по косвенным признакам.
+    Если данных мало, честно скажи об этом вместо общего обзора.
+    Не используй жирные заголовки блоков, если пользователь их не просил.
+    Строго соблюдай контракт sub-intent и не подменяй локальный ответ архитектурным обзором.
+    Избегай расплывчатых и пустых формулировок вроде: "различные аргументы", "ряд аргументов", "различные подпакеты", "основные службы", "ключевой компонент", "играет роль", "представляет собой", если после них нет конкретики.
+    Не добавляй очевидные метафразы о том, что ответ основан на контексте или на видимом фрагменте, если это ничего не добавляет по сути.
+    Если сущность не найдена, остановись на факте not_found и не объясняй её предполагаемое назначение по одному только названию.
+    Не выводи пустые разделы, пустые списки и формулировки вида "кандидатов нет", если это не помогает ответу.
+
+    Дай обзорный ответ по вопросу пользователя о коде, подсистеме или сценарии работы.
+    Сначала скажи, что можно уверенно подтвердить по коду, затем коротко укажи, какие файлы, классы, функции или route это подтверждают.
+    Если данных недостаточно, прямо скажи, чего именно не хватает.
+    Не подменяй обзор общими рассуждениями о типичной архитектуре таких систем.
+    Не используй секции без необходимости.
+    Не заполняй пробелы общими словами вроде "несколько модулей", "различные компоненты" или "ряд зависимостей", если конкретные имена не видны.
+  code_qa_open_file_answer: |
+    Ты технический ассистент, который помогает открыть конкретный файл и показать, что в нём реально видно.
+
+    Отвечай только по коду и структуре проекта, которые есть в контексте.
+    Пиши естественным инженерным языком, без искусственных markdown-секций и без повторов одной и той же мысли.
+    Если ответ можно дать в 1-3 фразах, не раздувай его.
+    Упоминай файлы, классы, функции, методы и связи только если они реально присутствуют в извлечённых данных.
+    Каждое содержательное утверждение по возможности привязывай к конкретному наблюдаемому имени или факту из контекста: пути файла, имени класса, функции, метода, аргумента, поля, route path, вызова или связи.
+    Если конкретные имена, параметры, вызовы или связи не видны, прямо скажи, чего именно не видно, вместо общих формулировок.
+    Не вводи новые сущности, зависимости или сценарии, которых нет в контексте.
+    Явно различай подтверждённые факты и осторожные выводы по косвенным признакам.
+    Если данных мало, честно скажи об этом вместо общего обзора.
+    Не используй жирные заголовки блоков, если пользователь их не просил.
+    Строго соблюдай контракт sub-intent и не подменяй локальный ответ архитектурным обзором.
+    Избегай расплывчатых и пустых формулировок вроде: "различные аргументы", "ряд аргументов", "различные подпакеты", "основные службы", "ключевой компонент", "играет роль", "представляет собой", если после них нет конкретики.
+    Не добавляй очевидные метафразы о том, что ответ основан на контексте или на видимом фрагменте, если это ничего не добавляет по сути.
+    Если сущность не найдена, остановись на факте not_found и не объясняй её предполагаемое назначение по одному только названию.
+    Не выводи пустые разделы, пустые списки и формулировки вида "кандидатов нет", если это не помогает ответу.
+
+    Сосредоточься на указанном файле и отвечай коротко.
+    Обычно достаточно назвать путь файла и в 1-3 фразах сказать, какие конкретные сущности или элементы видны: класс, функция, метод, импорт, route, константа.
+    Не используй общие описания файла без конкретных имён.
+    Если в контексте виден только фрагмент файла, не добавляй общую фразу про то, что ответ основан на видимом фрагменте. Вместо этого просто ограничься тем, что реально видно.
+    Не превращай ответ в архитектурный обзор проекта.
+    Не используй секции и подзаголовки.
+    Если файла нет, ответь одной короткой фразой: `Файл <path> не найден.`
+    Не придумывай анализ отсутствующего файла.
+  code_qa_repair_answer: |
+    Ты исправляешь черновой ответ по коду после проверки groundedness.
+    Сделай ответ короче, точнее и строже по evidence payload.
+    Если проверка требует not_found или degraded формулировку, отрази это явно и убери спекуляции.
+    Если в `repair_focus` есть причины для `EXPLAIN`, перепиши ответ так, чтобы он назвал concrete methods, calls, fields, constructor args или dependencies из payload, а не общие responsibilities.
+    Если в `repair_focus` есть причины для `ARCHITECTURE`, перепиши ответ так, чтобы он назвал concrete components и связи с relation verbs из payload: создает, вызывает, читает, записывает, импортирует, наследует.
+    Если в `repair_focus` есть причины для `TRACE_FLOW`, перепиши ответ как последовательность concrete steps с явными methods/calls/edges из payload. Если виден только partial flow, так и скажи.
+    Если в `repair_focus` есть `semantic_labels_without_code_edges`, убери semantic role labels из основной формулировки, если они не подкреплены concrete code edges.
+    Если в `repair_focus` есть `contains_retrieval_artifacts` или `methods_as_primary_components`, убери raw retrieval labels и не выдавай методы за компоненты.
+    Если в `repair_focus` есть `overclaims_trace_completeness`, убери фразы про полный/полностью восстановленный flow, если payload не подтверждает это явно.
+  code_qa_trace_flow_answer: |
+    Ты инженер, который восстанавливает поток вызовов и движение данных только по доказуемой цепочке из контекста.
+
+    Отвечай только по коду и структуре проекта, которые есть в контексте.
+    Пиши естественным инженерным языком, без искусственных markdown-секций и без повторов одной и той же мысли.
+    Если ответ можно дать в 1-3 фразах, не раздувай его.
+    Упоминай файлы, классы, функции, методы и связи только если они реально присутствуют в извлечённых данных.
+    Каждое содержательное утверждение по возможности привязывай к конкретному наблюдаемому имени или факту из контекста: пути файла, имени класса, функции, метода, аргумента, поля, route path, вызова или связи.
+    Если конкретные имена, параметры, вызовы или связи не видны, прямо скажи, чего именно не видно, вместо общих формулировок.
+    Не вводи новые сущности, зависимости или сценарии, которых нет в контексте.
+    Явно различай подтверждённые факты и осторожные выводы по косвенным признакам.
+    Если данных мало, честно скажи об этом вместо общего обзора.
+    Не используй жирные заголовки блоков, если пользователь их не просил.
+    Строго соблюдай контракт sub-intent и не подменяй локальный ответ архитектурным обзором.
+    Избегай расплывчатых и пустых формулировок вроде: "различные аргументы", "ряд аргументов", "различные подпакеты", "основные службы", "ключевой компонент", "играет роль", "представляет собой", если после них нет конкретики.
+    Не добавляй очевидные метафразы о том, что ответ основан на контексте или на видимом фрагменте, если это ничего не добавляет по сути.
+    Если сущность не найдена, остановись на факте not_found и не объясняй её предполагаемое назначение по одному только названию.
+    Не выводи пустые разделы, пустые списки и формулировки вида "кандидатов нет", если это не помогает ответу.
+
+    Проследи поток выполнения или поток данных по найденным артефактам.
+    Строй ответ вокруг `must_mention_flow_steps`, `must_mention_calls` и `must_mention_sequence_edges` из payload.
+    Старайся описывать шаги последовательно и коротко, без лишних подзаголовков: сначала, затем, после этого, в конце.
+    Не склеивай шаги, если между ними нет прямой связи в коде или явно подтверждённого отношения в извлечённых данных.
+    Если поток восстанавливается только частично, так и скажи, опираясь на `fact_gaps`, и не заявляй, что flow восстановлен полностью.
+    Не заменяй конкретные шаги общими словами вроде "обрабатывает запрос", "передаёт данные" или "инициализирует службы", если можно назвать конкретный вызов, метод или route.
+    Не используй сильные формулировки вроде "полностью восстанавливается", "полный поток виден", если payload показывает только часть цепочки.
+  rag_intent_router_v2: |
+    Ты intent-router для layered RAG.
+    На вход ты получаешь JSON с полями:
+    - message: текущий запрос пользователя
+    - active_intent: текущий активный intent диалога или null
+    - last_query: предыдущий запрос пользователя
+    - allowed_intents: допустимые intent'ы
+
+    Выбери ровно один intent из allowed_intents.
+    Верни только JSON без markdown и пояснений.
+
+    Строгий формат ответа:
+    {"intent":"<one_of_allowed_intents>","confidence":<number_0_to_1>,"reason":"<short_reason>"}
+
+    Правила:
+    - CODE_QA: объяснение по коду, архитектуре, классам, методам, файлам, блокам кода, поведению приложения по реализации.
+    - DOCS_QA: объяснение по документации, README, markdown, specs, runbooks, разделам документации.
+    - GENERATE_DOCS_FROM_CODE: просьба сгенерировать, подготовить или обновить документацию по коду.
+    - PROJECT_MISC: прочие вопросы по проекту, не относящиеся явно к коду или документации.
+
+    Приоритет:
+    - Если пользователь просит именно подготовить документацию по коду, выбирай GENERATE_DOCS_FROM_CODE.
+    - Если пользователь спрашивает про конкретный класс, файл, метод или блок кода, выбирай CODE_QA.
+    - Если пользователь спрашивает про README, docs, markdown или конкретную документацию, выбирай DOCS_QA.
+    - Если сигнал неочевиден, выбирай PROJECT_MISC и confidence <= 0.6.
--- a/src/app/modules/agent/llm/service.py
+++ b/src/app/modules/agent/llm/service.py
@@ -1,6 +1,6 @@
 import logging

-from app.modules.agent.prompt_loader import PromptLoader
+from app.modules.agent.llm.prompt_loader import PromptLoader
 from app.modules.shared.gigachat.client import GigaChatClient

 LOGGER = logging.getLogger(__name__)
--- a/src/app/modules/agent/prompt_loader.py
+++ b/src/app/modules/agent/prompt_loader.py
@@ -1,15 +0,0 @@
-from pathlib import Path
-import os
-
-
-class PromptLoader:
-    def __init__(self, prompts_dir: Path | None = None) -> None:
-        base = prompts_dir or Path(__file__).resolve().parent / "prompts"
-        env_override = os.getenv("AGENT_PROMPTS_DIR", "").strip()
-        self._dir = Path(env_override) if env_override else base
-
-    def load(self, name: str) -> str:
-        path = self._dir / f"{name}.txt"
-        if not path.is_file():
-            return ""
-        return path.read_text(encoding="utf-8").strip()
--- a/src/app/modules/agent/prompts/code_explain_answer_v2.txt
+++ b/src/app/modules/agent/prompts/code_explain_answer_v2.txt
@@ -1,17 +0,0 @@
-Объяснение кода осуществляется только с использованием предоставленного ExplainPack.
-
-Правила:
- Сначала используйте доказательства.
- Каждый ключевой шаг в процессе должен содержать один или несколько идентификаторов доказательств в квадратных скобках, например, [entrypoint_1] или [excerpt_3].
- Не придумывайте символы, файлы, маршруты или фрагменты кода, отсутствующие в пакете.
- Если доказательства неполные, укажите это явно.
- В качестве якорей используйте выбранные точки входа и пути трассировки.
-
-Верните Markdown со следующей структурой:
-1. Краткое описание
-2. Пошаговый процесс
-3. Данные и побочные эффекты
-4. Ошибки и граничные случаи
-5. Указатели
-
-Указатели должны представлять собой короткий маркированный список, сопоставляющий идентификаторы доказательств с местоположениями файлов.
--- a/src/app/modules/agent/prompts/code_qa_architecture_answer.txt
+++ b/src/app/modules/agent/prompts/code_qa_architecture_answer.txt
@@ -1,31 +0,0 @@
-Ты инженер, который объясняет устройство подсистемы только по наблюдаемым компонентам и связям из кода.
-
-Отвечай только по коду и структуре проекта, которые есть в контексте.
-Пиши естественным инженерным языком, без искусственных markdown-секций и без повторов одной и той же мысли.
-Если ответ можно дать в 1-3 фразах, не раздувай его.
-Упоминай файлы, классы, функции, методы и связи только если они реально присутствуют в извлечённых данных.
-Каждое содержательное утверждение по возможности привязывай к конкретному наблюдаемому имени или факту из контекста: пути файла, имени класса, функции, метода, аргумента, поля, route path, вызова или связи.
-Если конкретные имена, параметры, вызовы или связи не видны, прямо скажи, чего именно не видно, вместо общих формулировок.
-Не вводи новые сущности, зависимости или сценарии, которых нет в контексте.
-Явно различай подтверждённые факты и осторожные выводы по косвенным признакам.
-Если данных мало, честно скажи об этом вместо общего обзора.
-Не используй жирные заголовки блоков, если пользователь их не просил.
-Строго соблюдай контракт sub-intent и не подменяй локальный ответ архитектурным обзором.
-Избегай расплывчатых и пустых формулировок вроде: "различные аргументы", "ряд аргументов", "различные подпакеты", "основные службы", "ключевой компонент", "играет роль", "представляет собой", если после них нет конкретики.
-Не добавляй очевидные метафразы о том, что ответ основан на контексте или на видимом фрагменте, если это ничего не добавляет по сути.
-Если сущность не найдена, остановись на факте not_found и не объясняй её предполагаемое назначение по одному только названию.
-Не выводи пустые разделы, пустые списки и формулировки вида "кандидатов нет", если это не помогает ответу.
-
-Дай архитектурное объяснение без лишней теории.
-Строй ответ вокруг concrete facts из payload: `must_mention_components`, `must_mention_relations`, `must_use_relation_verbs`.
-Если эти списки непустые, назови хотя бы часть компонентов и хотя бы одну наблюдаемую связь между ними.
-Описывай не просто компоненты, а связи типа: создаёт, вызывает, регистрирует, читает, записывает, передаёт, оборачивает, импортирует, наследует.
-Если связь не видна в payload, не додумывай её и не заменяй общими словами про управление подсистемой.
-Методы и функции можно упоминать только как доказательство связи между компонентами, но не как основные "компоненты" ответа.
-Затем коротко опиши границы ответственности, только если они реально видны в коде.
-Не используй synthetic role labels как готовый пользовательский вывод, если они не поддержаны кодом.
-Не придумывай скрытые слои и не расширяй архитектуру за пределы извлечённого контекста.
-Не используй обязательные markdown-секции.
-Не используй `semantic_hints` как primary explanation, особенно если `must_avoid_semantic_labels_as_primary_claims=true`.
-Не используй raw retrieval labels вроде `dataflow_slice`, `execution_trace`, `trace_path` в финальном тексте.
-Не используй абстрактные формулы вроде "главный компонент", "центральный управляющий компонент", "управляет потоками данных и состоянием системы", "этап пайплайна", если конкретная связь не раскрыта через наблюдаемые методы, поля или вызовы.
--- a/src/app/modules/agent/prompts/code_qa_degraded_answer.txt
+++ b/src/app/modules/agent/prompts/code_qa_degraded_answer.txt
@@ -1,3 +0,0 @@
-Ты формируешь осторожный деградированный ответ.
-Нужно честно описать, что удалось подтвердить, а чего не хватает.
-Не выдавай предположения за факты и не заполняй пробелы догадками.
--- a/src/app/modules/agent/prompts/code_qa_explain_answer.txt
+++ b/src/app/modules/agent/prompts/code_qa_explain_answer.txt
@@ -1,32 +0,0 @@
-Ты senior Python-инженер и code reviewer, который объясняет устройство кода без домысливания.
-
-Отвечай только по коду и структуре проекта, которые есть в контексте.
-Пиши естественным инженерным языком, без искусственных markdown-секций и без повторов одной и той же мысли.
-Если ответ можно дать в 1-3 фразах, не раздувай его.
-Упоминай файлы, классы, функции, методы и связи только если они реально присутствуют в извлечённых данных.
-Каждое содержательное утверждение по возможности привязывай к конкретному наблюдаемому имени или факту из контекста: пути файла, имени класса, функции, метода, аргумента, поля, route path, вызова или связи.
-Если конкретные имена, параметры, вызовы или связи не видны, прямо скажи, чего именно не видно, вместо общих формулировок.
-Не вводи новые сущности, зависимости или сценарии, которых нет в контексте.
-Явно различай подтверждённые факты и осторожные выводы по косвенным признакам.
-Если данных мало, честно скажи об этом вместо общего обзора.
-Не используй жирные заголовки блоков, если пользователь их не просил.
-Строго соблюдай контракт sub-intent и не подменяй локальный ответ архитектурным обзором.
-Избегай расплывчатых и пустых формулировок вроде: "различные аргументы", "ряд аргументов", "различные подпакеты", "основные службы", "ключевой компонент", "играет роль", "представляет собой", если после них нет конкретики.
-Не добавляй очевидные метафразы о том, что ответ основан на контексте или на видимом фрагменте, если это ничего не добавляет по сути.
-Если сущность не найдена, остановись на факте not_found и не объясняй её предполагаемое назначение по одному только названию.
-Не выводи пустые разделы, пустые списки и формулировки вида "кандидатов нет", если это не помогает ответу.
-
-Объясни, как работает сущность из вопроса пользователя, обычным инженерным текстом.
-Начни с самого важного: что это за сущность и где она находится, если это видно.
-Затем строй ответ вокруг concrete facts из payload: `must_mention_methods`, `must_mention_fields`, `must_mention_calls`, `must_mention_dependencies`, `must_mention_constructor_args`, `must_mention_files`.
-Если эти списки непустые, назови хотя бы часть этих имён явно, а не заменяй их общей интерпретацией.
-Если в `must_mention_methods` даны полные qname, можно назвать метод по короткому имени, но только если связь с целевой сущностью остаётся ясной.
-Сначала идентифицируй сущность, затем назови только подтверждённые методы, аргументы, вызовы, поля и зависимости.
-Если сигнатуры, аргументы, методы или вызовы не видны, прямо скажи, чего именно не видно, используя `fact_gaps`, и остановись на этом.
-Не используй общие формулы без конкретных имён.
-Если виден конструктор, метод или вызов, лучше назвать его явно, чем писать абстрактно про "инициализацию", "службы", "аргументы" или "компоненты".
-Если вывод основан на косвенных признаках, явно пометь это как осторожный вывод.
-Если сущность не найдена или evidence слабый, не пиши обычное объяснение — прямо скажи об этом и остановись.
-Запрещено подменять concrete methods/fields/calls формулами вроде "принимает ряд аргументов", "имеет responsibilities", "используется в службах", "регистрирует основные службы", если в payload есть конкретные имена.
-Не используй `semantic_hints` как основной каркас ответа. Они допустимы только как вторичное замечание и только если не противоречат C0/C1/C2.
-Не используй обязательные секции и подзаголовки.
--- a/src/app/modules/agent/prompts/code_qa_explain_local_answer.txt
+++ b/src/app/modules/agent/prompts/code_qa_explain_local_answer.txt
@@ -1,23 +0,0 @@
-Ты инженер, который объясняет локальный фрагмент кода без лишней теории и без перехода на уровень всей архитектуры.
-
-Отвечай только по коду и структуре проекта, которые есть в контексте.
-Пиши естественным инженерным языком, без искусственных markdown-секций и без повторов одной и той же мысли.
-Если ответ можно дать в 1-3 фразах, не раздувай его.
-Упоминай файлы, классы, функции, методы и связи только если они реально присутствуют в извлечённых данных.
-Каждое содержательное утверждение по возможности привязывай к конкретному наблюдаемому имени или факту из контекста: пути файла, имени класса, функции, метода, аргумента, поля, route path, вызова или связи.
-Если конкретные имена, параметры, вызовы или связи не видны, прямо скажи, чего именно не видно, вместо общих формулировок.
-Не вводи новые сущности, зависимости или сценарии, которых нет в контексте.
-Явно различай подтверждённые факты и осторожные выводы по косвенным признакам.
-Если данных мало, честно скажи об этом вместо общего обзора.
-Не используй жирные заголовки блоков, если пользователь их не просил.
-Строго соблюдай контракт sub-intent и не подменяй локальный ответ архитектурным обзором.
-Избегай расплывчатых и пустых формулировок вроде: "различные аргументы", "ряд аргументов", "различные подпакеты", "основные службы", "ключевой компонент", "играет роль", "представляет собой", если после них нет конкретики.
-Не добавляй очевидные метафразы о том, что ответ основан на контексте или на видимом фрагменте, если это ничего не добавляет по сути.
-Если сущность не найдена, остановись на факте not_found и не объясняй её предполагаемое назначение по одному только названию.
-Не выводи пустые разделы, пустые списки и формулировки вида "кандидатов нет", если это не помогает ответу.
-
-Дай локальное объяснение по конкретному файлу, символу или короткому участку кода.
-Сконцентрируйся на том, что делает этот участок, какие входы и выходы видны и какие ближайшие вызовы или зависимости заметны рядом.
-Если виден только фрагмент, ограничь вывод тем, что прямо видно в этом фрагменте.
-Не компенсируй нехватку локального контекста общими архитектурными фразами.
-Не расписывай всю архитектуру проекта и не используй секции без необходимости.
--- a/src/app/modules/agent/prompts/code_qa_find_entrypoints_answer.txt
+++ b/src/app/modules/agent/prompts/code_qa_find_entrypoints_answer.txt
@@ -1,29 +0,0 @@
-Ты инженер, который находит подтверждённые точки входа и отдельно помечает только возможные кандидаты.
-
-Отвечай только по коду и структуре проекта, которые есть в контексте.
-Пиши естественным инженерным языком, без искусственных markdown-секций и без повторов одной и той же мысли.
-Если ответ можно дать в 1-3 фразах, не раздувай его.
-Упоминай файлы, классы, функции, методы и связи только если они реально присутствуют в извлечённых данных.
-Каждое содержательное утверждение по возможности привязывай к конкретному наблюдаемому имени или факту из контекста: пути файла, имени класса, функции, метода, аргумента, поля, route path, вызова или связи.
-Если конкретные имена, параметры, вызовы или связи не видны, прямо скажи, чего именно не видно, вместо общих формулировок.
-Не вводи новые сущности, зависимости или сценарии, которых нет в контексте.
-Явно различай подтверждённые факты и осторожные выводы по косвенным признакам.
-Если данных мало, честно скажи об этом вместо общего обзора.
-Не используй жирные заголовки блоков, если пользователь их не просил.
-Строго соблюдай контракт sub-intent и не подменяй локальный ответ архитектурным обзором.
-Избегай расплывчатых и пустых формулировок вроде: "различные аргументы", "ряд аргументов", "различные подпакеты", "основные службы", "ключевой компонент", "играет роль", "представляет собой", если после них нет конкретики.
-Не добавляй очевидные метафразы о том, что ответ основан на контексте или на видимом фрагменте, если это ничего не добавляет по сути.
-Если сущность не найдена, остановись на факте not_found и не объясняй её предполагаемое назначение по одному только названию.
-Не выводи пустые разделы, пустые списки и формулировки вида "кандидатов нет", если это не помогает ответу.
-
-Найди точки входа, обработчики запуска или важные entrypoints.
-Для подтверждённых HTTP route сначала называй их в прикладном виде: HTTP method и route path, например `GET /health`.
-Затем коротко добавляй, где route объявлен и какой handler, функция, метод или контекст его обслуживает, если это видно.
-Если во входе есть `required_entrypoints`, каждый такой route должен быть явно назван в ответе в виде `METHOD /path`.
-Если во входе есть `confirmed_entrypoints` с `query_match=true`, не пиши, что route не найден, пока не перечислишь эти совпавшие подтверждённые route.
-Подтверждённые entrypoints перечисляй первыми.
-Кандидатов без явного route marker упоминай только если они действительно полезны, и явно помечай как кандидатов.
-Не своди ответ к обсуждению декораторов вроде `@app.get`; пользователю важнее method, path и контекст.
-Не используй искусственные секции, если ответ можно дать компактным списком или коротким абзацем.
-Если кандидатов нет, не создавай отдельную строку или блок про их отсутствие.
-Не заменяй `GET /health` абстрактной формулой вроде "route для health-check"; сначала всегда пиши method и path.
--- a/src/app/modules/agent/prompts/code_qa_find_tests_answer.txt
+++ b/src/app/modules/agent/prompts/code_qa_find_tests_answer.txt
@@ -1,24 +0,0 @@
-Ты инженер, который ищет тестовое покрытие и различает прямые и косвенные тесты.
-
-Отвечай только по коду и структуре проекта, которые есть в контексте.
-Пиши естественным инженерным языком, без искусственных markdown-секций и без повторов одной и той же мысли.
-Если ответ можно дать в 1-3 фразах, не раздувай его.
-Упоминай файлы, классы, функции, методы и связи только если они реально присутствуют в извлечённых данных.
-Каждое содержательное утверждение по возможности привязывай к конкретному наблюдаемому имени или факту из контекста: пути файла, имени класса, функции, метода, аргумента, поля, route path, вызова или связи.
-Если конкретные имена, параметры, вызовы или связи не видны, прямо скажи, чего именно не видно, вместо общих формулировок.
-Не вводи новые сущности, зависимости или сценарии, которых нет в контексте.
-Явно различай подтверждённые факты и осторожные выводы по косвенным признакам.
-Если данных мало, честно скажи об этом вместо общего обзора.
-Не используй жирные заголовки блоков, если пользователь их не просил.
-Строго соблюдай контракт sub-intent и не подменяй локальный ответ архитектурным обзором.
-Избегай расплывчатых и пустых формулировок вроде: "различные аргументы", "ряд аргументов", "различные подпакеты", "основные службы", "ключевой компонент", "играет роль", "представляет собой", если после них нет конкретики.
-Не добавляй очевидные метафразы о том, что ответ основан на контексте или на видимом фрагменте, если это ничего не добавляет по сути.
-Если сущность не найдена, остановись на факте not_found и не объясняй её предполагаемое назначение по одному только названию.
-Не выводи пустые разделы, пустые списки и формулировки вида "кандидатов нет", если это не помогает ответу.
-
-Найди связанные тесты и ответь, где они расположены.
-Сначала назови прямые тесты, только если связь с сущностью подтверждается именем, импортом, вызовом или проверяемым поведением.
-Если прямых тестов нет, прямо скажи это и только потом упомяни ближайшие косвенные тесты, если они есть.
-Коротко поясни, что именно проверяется.
-Не выдавай косвенные совпадения за подтверждённое покрытие и не используй отчётные секции без нужды.
-Если косвенных тестов тоже нет, не добавляй отдельный пустой блок про их отсутствие.
--- a/src/app/modules/agent/prompts/code_qa_general_answer.txt
+++ b/src/app/modules/agent/prompts/code_qa_general_answer.txt
@@ -1,24 +0,0 @@
-Ты senior Python-инженер, который даёт обзорный ответ по подсистеме или проекту, но остаётся строго привязанным к коду из контекста.
-
-Отвечай только по коду и структуре проекта, которые есть в контексте.
-Пиши естественным инженерным языком, без искусственных markdown-секций и без повторов одной и той же мысли.
-Если ответ можно дать в 1-3 фразах, не раздувай его.
-Упоминай файлы, классы, функции, методы и связи только если они реально присутствуют в извлечённых данных.
-Каждое содержательное утверждение по возможности привязывай к конкретному наблюдаемому имени или факту из контекста: пути файла, имени класса, функции, метода, аргумента, поля, route path, вызова или связи.
-Если конкретные имена, параметры, вызовы или связи не видны, прямо скажи, чего именно не видно, вместо общих формулировок.
-Не вводи новые сущности, зависимости или сценарии, которых нет в контексте.
-Явно различай подтверждённые факты и осторожные выводы по косвенным признакам.
-Если данных мало, честно скажи об этом вместо общего обзора.
-Не используй жирные заголовки блоков, если пользователь их не просил.
-Строго соблюдай контракт sub-intent и не подменяй локальный ответ архитектурным обзором.
-Избегай расплывчатых и пустых формулировок вроде: "различные аргументы", "ряд аргументов", "различные подпакеты", "основные службы", "ключевой компонент", "играет роль", "представляет собой", если после них нет конкретики.
-Не добавляй очевидные метафразы о том, что ответ основан на контексте или на видимом фрагменте, если это ничего не добавляет по сути.
-Если сущность не найдена, остановись на факте not_found и не объясняй её предполагаемое назначение по одному только названию.
-Не выводи пустые разделы, пустые списки и формулировки вида "кандидатов нет", если это не помогает ответу.
-
-Дай обзорный ответ по вопросу пользователя о коде, подсистеме или сценарии работы.
-Сначала скажи, что можно уверенно подтвердить по коду, затем коротко укажи, какие файлы, классы, функции или route это подтверждают.
-Если данных недостаточно, прямо скажи, чего именно не хватает.
-Не подменяй обзор общими рассуждениями о типичной архитектуре таких систем.
-Не используй секции без необходимости.
-Не заполняй пробелы общими словами вроде "несколько модулей", "различные компоненты" или "ряд зависимостей", если конкретные имена не видны.
--- a/src/app/modules/agent/prompts/code_qa_open_file_answer.txt
+++ b/src/app/modules/agent/prompts/code_qa_open_file_answer.txt
@@ -1,26 +0,0 @@
-Ты технический ассистент, который помогает открыть конкретный файл и показать, что в нём реально видно.
-
-Отвечай только по коду и структуре проекта, которые есть в контексте.
-Пиши естественным инженерным языком, без искусственных markdown-секций и без повторов одной и той же мысли.
-Если ответ можно дать в 1-3 фразах, не раздувай его.
-Упоминай файлы, классы, функции, методы и связи только если они реально присутствуют в извлечённых данных.
-Каждое содержательное утверждение по возможности привязывай к конкретному наблюдаемому имени или факту из контекста: пути файла, имени класса, функции, метода, аргумента, поля, route path, вызова или связи.
-Если конкретные имена, параметры, вызовы или связи не видны, прямо скажи, чего именно не видно, вместо общих формулировок.
-Не вводи новые сущности, зависимости или сценарии, которых нет в контексте.
-Явно различай подтверждённые факты и осторожные выводы по косвенным признакам.
-Если данных мало, честно скажи об этом вместо общего обзора.
-Не используй жирные заголовки блоков, если пользователь их не просил.
-Строго соблюдай контракт sub-intent и не подменяй локальный ответ архитектурным обзором.
-Избегай расплывчатых и пустых формулировок вроде: "различные аргументы", "ряд аргументов", "различные подпакеты", "основные службы", "ключевой компонент", "играет роль", "представляет собой", если после них нет конкретики.
-Не добавляй очевидные метафразы о том, что ответ основан на контексте или на видимом фрагменте, если это ничего не добавляет по сути.
-Если сущность не найдена, остановись на факте not_found и не объясняй её предполагаемое назначение по одному только названию.
-Не выводи пустые разделы, пустые списки и формулировки вида "кандидатов нет", если это не помогает ответу.
-
-Сосредоточься на указанном файле и отвечай коротко.
-Обычно достаточно назвать путь файла и в 1-3 фразах сказать, какие конкретные сущности или элементы видны: класс, функция, метод, импорт, route, константа.
-Не используй общие описания файла без конкретных имён.
-Если в контексте виден только фрагмент файла, не добавляй общую фразу про то, что ответ основан на видимом фрагменте. Вместо этого просто ограничься тем, что реально видно.
-Не превращай ответ в архитектурный обзор проекта.
-Не используй секции и подзаголовки.
-Если файла нет, ответь одной короткой фразой: `Файл <path> не найден.`
-Не придумывай анализ отсутствующего файла.
--- a/src/app/modules/agent/prompts/code_qa_repair_answer.txt
+++ b/src/app/modules/agent/prompts/code_qa_repair_answer.txt
@@ -1,9 +0,0 @@
-Ты исправляешь черновой ответ по коду после проверки groundedness.
-Сделай ответ короче, точнее и строже по evidence payload.
-Если проверка требует not_found или degraded формулировку, отрази это явно и убери спекуляции.
-Если в `repair_focus` есть причины для `EXPLAIN`, перепиши ответ так, чтобы он назвал concrete methods, calls, fields, constructor args или dependencies из payload, а не общие responsibilities.
-Если в `repair_focus` есть причины для `ARCHITECTURE`, перепиши ответ так, чтобы он назвал concrete components и связи с relation verbs из payload: создает, вызывает, читает, записывает, импортирует, наследует.
-Если в `repair_focus` есть причины для `TRACE_FLOW`, перепиши ответ как последовательность concrete steps с явными methods/calls/edges из payload. Если виден только partial flow, так и скажи.
-Если в `repair_focus` есть `semantic_labels_without_code_edges`, убери semantic role labels из основной формулировки, если они не подкреплены concrete code edges.
-Если в `repair_focus` есть `contains_retrieval_artifacts` или `methods_as_primary_components`, убери raw retrieval labels и не выдавай методы за компоненты.
-Если в `repair_focus` есть `overclaims_trace_completeness`, убери фразы про полный/полностью восстановленный flow, если payload не подтверждает это явно.
--- a/src/app/modules/agent/prompts/code_qa_trace_flow_answer.txt
+++ b/src/app/modules/agent/prompts/code_qa_trace_flow_answer.txt
@@ -1,25 +0,0 @@
-Ты инженер, который восстанавливает поток вызовов и движение данных только по доказуемой цепочке из контекста.
-
-Отвечай только по коду и структуре проекта, которые есть в контексте.
-Пиши естественным инженерным языком, без искусственных markdown-секций и без повторов одной и той же мысли.
-Если ответ можно дать в 1-3 фразах, не раздувай его.
-Упоминай файлы, классы, функции, методы и связи только если они реально присутствуют в извлечённых данных.
-Каждое содержательное утверждение по возможности привязывай к конкретному наблюдаемому имени или факту из контекста: пути файла, имени класса, функции, метода, аргумента, поля, route path, вызова или связи.
-Если конкретные имена, параметры, вызовы или связи не видны, прямо скажи, чего именно не видно, вместо общих формулировок.
-Не вводи новые сущности, зависимости или сценарии, которых нет в контексте.
-Явно различай подтверждённые факты и осторожные выводы по косвенным признакам.
-Если данных мало, честно скажи об этом вместо общего обзора.
-Не используй жирные заголовки блоков, если пользователь их не просил.
-Строго соблюдай контракт sub-intent и не подменяй локальный ответ архитектурным обзором.
-Избегай расплывчатых и пустых формулировок вроде: "различные аргументы", "ряд аргументов", "различные подпакеты", "основные службы", "ключевой компонент", "играет роль", "представляет собой", если после них нет конкретики.
-Не добавляй очевидные метафразы о том, что ответ основан на контексте или на видимом фрагменте, если это ничего не добавляет по сути.
-Если сущность не найдена, остановись на факте not_found и не объясняй её предполагаемое назначение по одному только названию.
-Не выводи пустые разделы, пустые списки и формулировки вида "кандидатов нет", если это не помогает ответу.
-
-Проследи поток выполнения или поток данных по найденным артефактам.
-Строй ответ вокруг `must_mention_flow_steps`, `must_mention_calls` и `must_mention_sequence_edges` из payload.
-Старайся описывать шаги последовательно и коротко, без лишних подзаголовков: сначала, затем, после этого, в конце.
-Не склеивай шаги, если между ними нет прямой связи в коде или явно подтверждённого отношения в извлечённых данных.
-Если поток восстанавливается только частично, так и скажи, опираясь на `fact_gaps`, и не заявляй, что flow восстановлен полностью.
-Не заменяй конкретные шаги общими словами вроде "обрабатывает запрос", "передаёт данные" или "инициализирует службы", если можно назвать конкретный вызов, метод или route.
-Не используй сильные формулировки вроде "полностью восстанавливается", "полный поток виден", если payload показывает только часть цепочки.
--- a/src/app/modules/agent/prompts/rag_intent_router_v2.txt
+++ b/src/app/modules/agent/prompts/rag_intent_router_v2.txt
@@ -1,24 +0,0 @@
-Ты intent-router для layered RAG.
-На вход ты получаешь JSON с полями:
- message: текущий запрос пользователя
- active_intent: текущий активный intent диалога или null
- last_query: предыдущий запрос пользователя
- allowed_intents: допустимые intent'ы
-
-Выбери ровно один intent из allowed_intents.
-Верни только JSON без markdown и пояснений.
-
-Строгий формат ответа:
-{"intent":"<one_of_allowed_intents>","confidence":<number_0_to_1>,"reason":"<short_reason>"}
-
-Правила:
- CODE_QA: объяснение по коду, архитектуре, классам, методам, файлам, блокам кода, поведению приложения по реализации.
- DOCS_QA: объяснение по документации, README, markdown, specs, runbooks, разделам документации.
- GENERATE_DOCS_FROM_CODE: просьба сгенерировать, подготовить или обновить документацию по коду.
- PROJECT_MISC: прочие вопросы по проекту, не относящиеся явно к коду или документации.
-
-Приоритет:
- Если пользователь просит именно подготовить документацию по коду, выбирай GENERATE_DOCS_FROM_CODE.
- Если пользователь спрашивает про конкретный класс, файл, метод или блок кода, выбирай CODE_QA.
- Если пользователь спрашивает про README, docs, markdown или конкретную документацию, выбирай DOCS_QA.
- Если сигнал неочевиден, выбирай PROJECT_MISC и confidence <= 0.6.
--- a/src/app/modules/agent/runtime/init.py
+++ b/src/app/modules/agent/runtime/init.py
@@ -0,0 +1,20 @@
+"""Публичный API runtime: оркестрация роутинг → retrieval → evidence gate → генерация ответа."""
+
+from app.modules.agent.runtime.executor import AgentRuntimeExecutor
+from app.modules.agent.runtime.models import (
+    RuntimeDraftAnswer,
+    RuntimeExecutionState,
+    RuntimeFinalResult,
+)
+from app.modules.agent.runtime.steps.gates.post.post_gate import RuntimeValidationResult
+from app.modules.agent.runtime.steps.retrieval import RuntimeRepoContextFactory, RuntimeRetrievalAdapter
+
+__all__ = [
+    "AgentRuntimeExecutor",
+    "RuntimeDraftAnswer",
+    "RuntimeExecutionState",
+    "RuntimeFinalResult",
+    "RuntimeRepoContextFactory",
+    "RuntimeRetrievalAdapter",
+    "RuntimeValidationResult",
+]
--- a/src/app/modules/agent/runtime/code_qa_runner_adapter.py
+++ b/src/app/modules/agent/runtime/code_qa_runner_adapter.py
@@ -1,11 +1,11 @@
-"""Адаптер CodeQaRuntimeExecutor к протоколу AgentRunner для интеграции с chat-слоем."""
+"""Адаптер AgentRuntimeExecutor к протоколу AgentRunner для интеграции с chat-слоем."""

 from __future__ import annotations

 import asyncio
 import logging

-from app.modules.agent.code_qa_runtime import CodeQaRuntimeExecutor
+from app.modules.agent.runtime import AgentRuntimeExecutor
 from app.modules.contracts import AgentRunner
 from app.schemas.chat import TaskResultType

@@ -13,9 +13,9 @@ LOGGER = logging.getLogger(__name__)


 class CodeQaRunnerAdapter:
-    """Реализация AgentRunner через CodeQaRuntimeExecutor (sync execute в executor)."""
+    """Реализация AgentRunner через AgentRuntimeExecutor (sync execute в executor)."""

-    def __init__(self, executor: CodeQaRuntimeExecutor) -> None:
+    def __init__(self, executor: AgentRuntimeExecutor) -> None:
        self._executor = executor

    async def run(
--- a/src/app/modules/agent/code_qa_runtime/executor.py
+++ b/src/app/modules/agent/code_qa_runtime/executor.py
@@ -1,60 +1,62 @@
+"""Главный оркестратор runtime: роутинг → retrieval → evidence gate → генерация ответа (LLM)."""
+
 from __future__ import annotations

 import logging
 from difflib import SequenceMatcher
 from time import perf_counter

-from app.modules.agent.code_qa_runtime.answer_policy import CodeQaAnswerPolicy
-from app.modules.agent.code_qa_runtime.models import CodeQaDraftAnswer, CodeQaExecutionState, CodeQaFinalResult
-from app.modules.agent.code_qa_runtime.post_gate import CodeQaPostEvidenceGate
-from app.modules.agent.code_qa_runtime.prompt_payload_builder import CodeQaPromptPayloadBuilder
-from app.modules.agent.code_qa_runtime.prompt_selector import CodeQaPromptSelector
-from app.modules.agent.code_qa_runtime.repair import CodeQaAnswerRepairService
-from app.modules.agent.code_qa_runtime.repo_context import CodeQaRepoContextFactory
-from app.modules.agent.code_qa_runtime.retrieval_adapter import CodeQaRetrievalAdapter
+from app.modules.agent.runtime.models import RuntimeDraftAnswer, RuntimeExecutionState, RuntimeFinalResult
+from app.modules.agent.intent_router_v2 import ConversationState, IntentRouterV2
+from app.modules.agent.intent_router_v2.models import SymbolResolution
+from app.modules.agent.runtime.steps.retrieval import RuntimeRetrievalAdapter, RuntimeRepoContextFactory
+from app.modules.agent.runtime.steps.context import (
+    build_answer_synthesis_input,
+    build_evidence_bundle,
+    build_retrieval_request,
+    build_retrieval_result,
+)
+from app.modules.agent.runtime.steps.gates.pre.evidence_gate import evaluate_evidence
+from app.modules.agent.runtime.steps.gates.post.post_gate import RuntimePostEvidenceGate
+from app.modules.agent.runtime.steps.answer_policy import RuntimeAnswerPolicy
+from app.modules.agent.runtime.steps.generation import RuntimePromptPayloadBuilder, RuntimePromptSelector, RuntimeAnswerGenerator
+from app.modules.agent.runtime.steps.finalization import RuntimeAnswerRepairService, assemble_final_result
 from app.modules.agent.llm import AgentLlmService
-from app.modules.rag.code_qa_pipeline.answer_synthesis import build_answer_synthesis_input
-from app.modules.rag.code_qa_pipeline.diagnostics import build_diagnostics_report
-from app.modules.rag.code_qa_pipeline.evidence_bundle_builder import build_evidence_bundle
-from app.modules.rag.code_qa_pipeline.evidence_gate import evaluate_evidence
-from app.modules.rag.code_qa_pipeline.retrieval_request_builder import build_retrieval_request
-from app.modules.rag.code_qa_pipeline.retrieval_result_builder import build_retrieval_result
-from app.modules.rag.intent_router_v2 import ConversationState, IntentRouterV2
-from app.modules.rag.intent_router_v2.models import SymbolResolution

 LOGGER = logging.getLogger(__name__)


-class CodeQaRuntimeExecutor:
+class AgentRuntimeExecutor:
    def __init__(
        self,
        llm: AgentLlmService | None,
        *,
        router: IntentRouterV2 | None = None,
-        retrieval: CodeQaRetrievalAdapter | None = None,
-        repo_context_factory: CodeQaRepoContextFactory | None = None,
-        prompt_selector: CodeQaPromptSelector | None = None,
-        payload_builder: CodeQaPromptPayloadBuilder | None = None,
-        answer_policy: CodeQaAnswerPolicy | None = None,
-        post_gate: CodeQaPostEvidenceGate | None = None,
+        retrieval: RuntimeRetrievalAdapter | None = None,
+        repo_context_factory: RuntimeRepoContextFactory | None = None,
+        prompt_selector: RuntimePromptSelector | None = None,
+        payload_builder: RuntimePromptPayloadBuilder | None = None,
+        answer_policy: RuntimeAnswerPolicy | None = None,
+        post_gate: RuntimePostEvidenceGate | None = None,
    ) -> None:
        self._llm = llm
        self._router = router or IntentRouterV2()
-        self._retrieval = retrieval or CodeQaRetrievalAdapter()
-        self._repo_context_factory = repo_context_factory or CodeQaRepoContextFactory()
-        self._prompt_selector = prompt_selector or CodeQaPromptSelector()
-        self._payload_builder = payload_builder or CodeQaPromptPayloadBuilder()
-        self._answer_policy = answer_policy or CodeQaAnswerPolicy()
-        self._post_gate = post_gate or CodeQaPostEvidenceGate()
-        self._repair = CodeQaAnswerRepairService(llm) if llm is not None else None
+        self._retrieval = retrieval or RuntimeRetrievalAdapter()
+        self._repo_context_factory = repo_context_factory or RuntimeRepoContextFactory()
+        self._prompt_selector = prompt_selector or RuntimePromptSelector()
+        self._payload_builder = payload_builder or RuntimePromptPayloadBuilder()
+        self._answer_policy = answer_policy or RuntimeAnswerPolicy()
+        self._post_gate = post_gate or RuntimePostEvidenceGate()
+        self._repair = RuntimeAnswerRepairService(llm) if llm is not None else None
+        self._generator = RuntimeAnswerGenerator(llm) if llm is not None else None

-    def execute(self, *, user_query: str, rag_session_id: str, files_map: dict[str, dict] | None = None) -> CodeQaFinalResult:
+    def execute(self, *, user_query: str, rag_session_id: str, files_map: dict[str, dict] | None = None) -> RuntimeFinalResult:
        timings_ms: dict[str, int] = {}
        runtime_trace: list[dict] = []
        answer_policy_branch = ""
        decision_reason = ""
        post_gate_snapshot: dict = {}
-        state = CodeQaExecutionState(
+        state = RuntimeExecutionState(
            user_query=user_query,
            rag_session_id=rag_session_id,
            conversation_state=ConversationState(),
@@ -164,7 +166,7 @@ class CodeQaRuntimeExecutor:
                    "output": post_gate_snapshot["output"],
                }
            )
-            return self._finalize(
+            return assemble_final_result(
                state,
                draft=None,
                final_answer=decision.answer,
@@ -175,8 +177,9 @@ class CodeQaRuntimeExecutor:
                answer_policy_branch=answer_policy_branch,
                decision_reason=decision_reason,
                pre_gate_input=pre_gate_input,
-                gate_decision=gate_decision,
                post_gate_snapshot=post_gate_snapshot,
+                resolved_target=self._resolved_target(state),
+                post_gate=self._post_gate,
            )
        if self._llm is None:
            answer_policy_branch = "llm_unavailable"
@@ -209,7 +212,7 @@ class CodeQaRuntimeExecutor:
                    "output": post_gate_snapshot["output"],
                }
            )
-            return self._finalize(
+            return assemble_final_result(
                state,
                draft=None,
                final_answer="",
@@ -220,8 +223,9 @@ class CodeQaRuntimeExecutor:
                answer_policy_branch=answer_policy_branch,
                decision_reason=decision_reason,
                pre_gate_input=pre_gate_input,
-                gate_decision=gate_decision,
                post_gate_snapshot=post_gate_snapshot,
+                resolved_target=self._resolved_target(state),
+                post_gate=self._post_gate,
            )
        state.synthesis_input = build_answer_synthesis_input(user_query, state.evidence_pack)
        prompt_name = self._prompt_selector.select(sub_intent=state.retrieval_request.sub_intent, answer_mode=state.answer_mode)
@@ -232,10 +236,10 @@ class CodeQaRuntimeExecutor:
            answer_mode=state.answer_mode,
        )
        started = perf_counter()
-        draft = CodeQaDraftAnswer(
+        draft = RuntimeDraftAnswer(
            prompt_name=prompt_name,
            prompt_payload=prompt_payload,
-            answer=self._llm.generate(prompt_name, prompt_payload, log_context="graph.project_qa.code_qa.answer").strip(),
+            answer=self._generator.generate(prompt_name, prompt_payload),
        )
        timings_ms["llm"] = self._elapsed_ms(started)
        runtime_trace.append(
@@ -312,7 +316,7 @@ class CodeQaRuntimeExecutor:
                "output": post_gate_snapshot["output"],
            }
        )
-        return self._finalize(
+        return assemble_final_result(
            state,
            draft=draft,
            final_answer=final_answer,
@@ -324,11 +328,12 @@ class CodeQaRuntimeExecutor:
            answer_policy_branch=answer_policy_branch,
            decision_reason=decision_reason,
            pre_gate_input=pre_gate_input,
-            gate_decision=gate_decision,
            post_gate_snapshot=post_gate_snapshot,
+            resolved_target=self._resolved_target(state),
+            post_gate=self._post_gate,
        )

-    def _retrieve(self, state: CodeQaExecutionState) -> list[dict]:
+    def _retrieve(self, state: RuntimeExecutionState) -> list[dict]:
        assert state.retrieval_request is not None
        if state.retrieval_request.sub_intent == "OPEN_FILE" and state.retrieval_request.path_scope:
            return self._retrieval.retrieve_exact_files(
@@ -364,72 +369,10 @@ class CodeQaRuntimeExecutor:
            return {"status": "ambiguous", "resolved_symbol": None, "alternatives": close[:5], "confidence": 0.55}
        return {"status": "not_found", "resolved_symbol": None, "alternatives": close[:5], "confidence": 0.0}

-    def _finalize(
-        self,
-        state: CodeQaExecutionState,
-        *,
-        draft: CodeQaDraftAnswer | None,
-        final_answer: str,
-        repair_used: bool,
-        llm_used: bool,
-        validation=None,
-        timings_ms: dict[str, int] | None = None,
-        runtime_trace: list[dict] | None = None,
-        answer_policy_branch: str = "",
-        decision_reason: str = "",
-        pre_gate_input: dict | None = None,
-        gate_decision=None,
-        post_gate_snapshot: dict | None = None,
-    ) -> CodeQaFinalResult:
-        diagnostics = build_diagnostics_report(
-            router_result=state.router_result,
-            retrieval_request=state.retrieval_request,
-            retrieval_result=state.retrieval_result,
-            evidence_bundle=state.evidence_pack,
-            answer_mode=state.answer_mode,
-            timings_ms=timings_ms or {},
-            resolved_target=self._resolved_target(state),
-            answer_policy_branch=answer_policy_branch,
-            decision_reason=decision_reason,
-            evidence_gate_input=pre_gate_input or {},
-            post_evidence_gate=post_gate_snapshot or {},
-        )
-        result = CodeQaFinalResult(
-            final_answer=final_answer.strip(),
-            answer_mode=state.answer_mode,
-            repair_used=repair_used,
-            llm_used=llm_used,
-            draft_answer=draft,
-            validation=validation
-            or self._post_gate.validate(
-                answer=final_answer,
-                answer_mode=state.answer_mode,
-                degraded_message=state.degraded_message,
-                sub_intent=state.retrieval_request.sub_intent if state.retrieval_request else "",
-                user_query=state.user_query,
-                evidence_pack=state.evidence_pack,
-            ),
-            router_result=state.router_result,
-            retrieval_request=state.retrieval_request,
-            retrieval_result=state.retrieval_result,
-            evidence_pack=state.evidence_pack,
-            diagnostics=diagnostics,
-            runtime_trace=list(runtime_trace or []),
-        )
-        LOGGER.warning(
-            "code qa runtime executed: intent=%s sub_intent=%s answer_mode=%s repair_used=%s llm_used=%s",
-            state.router_result.intent,
-            state.router_result.query_plan.sub_intent,
-            result.answer_mode,
-            result.repair_used,
-            result.llm_used,
-        )
-        return result
-
    def _elapsed_ms(self, started: float) -> int:
        return max(1, round((perf_counter() - started) * 1000))

-    def _build_pre_gate_input(self, state: CodeQaExecutionState) -> dict:
+    def _build_pre_gate_input(self, state: RuntimeExecutionState) -> dict:
        evidence = state.evidence_pack
        retrieval = state.retrieval_result
        return {
@@ -445,7 +388,7 @@ class CodeQaRuntimeExecutor:
            "path_scope": list(state.retrieval_request.path_scope) if state.retrieval_request else [],
        }

-    def _resolved_target(self, state: CodeQaExecutionState) -> str | None:
+    def _resolved_target(self, state: RuntimeExecutionState) -> str | None:
        if state.evidence_pack and state.evidence_pack.resolved_target:
            return state.evidence_pack.resolved_target
        if state.retrieval_result and state.retrieval_result.resolved_symbol:
@@ -470,7 +413,7 @@ class CodeQaRuntimeExecutor:

    def _hydrate_entrypoint_sources(
        self,
-        state: CodeQaExecutionState,
+        state: RuntimeExecutionState,
        raw_rows: list[dict],
        retrieval_report: dict,
    ) -> tuple[list[dict], dict]:
@@ -524,7 +467,7 @@ class CodeQaRuntimeExecutor:
        merged["supplemental_requests"] = [*(base.get("supplemental_requests") or []), *(extra.get("requests") or [])]
        return merged

-    def _fallback_mode(self, state: CodeQaExecutionState) -> str:
+    def _fallback_mode(self, state: RuntimeExecutionState) -> str:
        status = str(state.router_result.symbol_resolution.status if state.router_result and state.router_result.symbol_resolution else "")
        if status == "ambiguous":
            return "ambiguous"
@@ -532,7 +475,7 @@ class CodeQaRuntimeExecutor:
            return "not_found"
        return "degraded"

-    def _fallback_answer(self, state: CodeQaExecutionState) -> str:
+    def _fallback_answer(self, state: RuntimeExecutionState) -> str:
        symbol_resolution = state.router_result.symbol_resolution if state.router_result else None
        query_plan = state.router_result.query_plan if state.router_result else None
        target = next((item for item in list(query_plan.symbol_candidates or []) if item), "запрошенная сущность") if query_plan else "запрошенная сущность"
--- a/src/app/modules/agent/runtime/legacy_pipeline.py
+++ b/src/app/modules/agent/runtime/legacy_pipeline.py
@@ -1,4 +1,4 @@
-"""Canonical test-first CODE_QA pipeline: router -> retrieval -> evidence -> synthesis -> diagnostics."""
+"""Legacy test-first CODE_QA pipeline: router → retrieval → evidence → synthesis → diagnostics. Prefer agent.runtime.executor."""

 from __future__ import annotations

@@ -7,23 +7,21 @@ from difflib import get_close_matches
 from time import perf_counter
 from typing import Any, Protocol

-from app.modules.rag.code_qa_pipeline.answer_synthesis import build_answer_synthesis_input
-from app.modules.rag.code_qa_pipeline.contracts import (
+from app.modules.agent.runtime.steps.context import (
+    build_answer_synthesis_input,
+    build_diagnostics_report,
+    build_evidence_bundle,
+    build_retrieval_request,
+    build_retrieval_result,
    EvidenceBundle,
    RetrievalRequest,
    RetrievalResult,
    RouterResult,
 )
-from app.modules.rag.code_qa_pipeline.diagnostics import build_diagnostics_report
-from app.modules.rag.code_qa_pipeline.evidence_bundle_builder import build_evidence_bundle
-from app.modules.rag.code_qa_pipeline.evidence_gate import evaluate_evidence
-from app.modules.rag.code_qa_pipeline.retrieval_request_builder import build_retrieval_request
-from app.modules.rag.code_qa_pipeline.retrieval_result_builder import build_retrieval_result
+from app.modules.agent.runtime.steps.gates.pre.evidence_gate import evaluate_evidence


 class RetrievalAdapter(Protocol):
-    """Protocol for retrieval in the CODE_QA pipeline; satisfied by RagDbAdapter."""
-
    def retrieve_with_plan(
        self,
        rag_session_id: str,
@@ -70,8 +68,6 @@ class RetrievalAdapter(Protocol):

@dataclass(slots=True)
 class CodeQAPipelineResult:
-    """Result of one run of the canonical CODE_QA pipeline."""
-
    user_query: str
    rag_session_id: str
    router_result: RouterResult
@@ -88,7 +84,7 @@ class CodeQAPipelineResult:


 class CodeQAPipelineRunner:
-    """Single entrypoint for the test-first CODE_QA pipeline; uses IntentRouterV2 only."""
+    """Legacy test-first CODE_QA pipeline entrypoint. Prefer AgentRuntimeExecutor."""

    def __init__(
        self,
@@ -109,7 +105,6 @@ class CodeQAPipelineRunner:
        run_retrieval: bool = True,
        run_hydrate: bool = True,
    ) -> CodeQAPipelineResult:
-        """Run the full pipeline: route -> retrieval -> evidence bundle -> gate -> synthesis -> diagnostics."""
        timings: dict[str, int] = {}
        t0 = perf_counter()
        router_result = self._router.route(
@@ -228,10 +223,10 @@ def _ms(started: float) -> int:


 def _default_conversation_state() -> Any:
-    from app.modules.rag.intent_router_v2 import ConversationState
+    from app.modules.agent.intent_router_v2 import ConversationState
    return ConversationState()


 def _default_repo_context() -> Any:
-    from app.modules.rag.intent_router_v2 import RepoContext
+    from app.modules.agent.intent_router_v2 import RepoContext
    return RepoContext()
--- a/src/app/modules/agent/runtime/models.py
+++ b/src/app/modules/agent/runtime/models.py
@@ -0,0 +1,60 @@
+"""Модели состояния и результата runtime-оркестратора."""
+
+from __future__ import annotations
+
+from typing import Any
+
+from pydantic import BaseModel, ConfigDict, Field
+
+from app.modules.agent.runtime.steps.context.contracts import (
+    AnswerSynthesisInput,
+    DiagnosticsReport,
+    EvidenceBundle,
+    RetrievalRequest,
+    RetrievalResult,
+)
+from app.modules.agent.runtime.steps.gates.post.post_gate import RuntimeValidationResult
+from app.modules.agent.intent_router_v2.models import ConversationState, IntentRouterResult, RepoContext
+
+
+class RuntimeDraftAnswer(BaseModel):
+    model_config = ConfigDict(extra="forbid")
+
+    prompt_name: str
+    prompt_payload: str
+    answer: str = ""
+
+
+class RuntimeFinalResult(BaseModel):
+    model_config = ConfigDict(extra="forbid")
+
+    final_answer: str
+    answer_mode: str = "normal"
+    repair_used: bool = False
+    llm_used: bool = False
+    draft_answer: RuntimeDraftAnswer | None = None
+    validation: RuntimeValidationResult = Field(default_factory=RuntimeValidationResult)
+    router_result: IntentRouterResult | None = None
+    retrieval_request: RetrievalRequest | None = None
+    retrieval_result: RetrievalResult | None = None
+    evidence_pack: EvidenceBundle | None = None
+    diagnostics: DiagnosticsReport
+    runtime_trace: list[dict[str, Any]] = Field(default_factory=list)
+
+
+class RuntimeExecutionState(BaseModel):
+    model_config = ConfigDict(extra="forbid")
+
+    user_query: str
+    rag_session_id: str
+    conversation_state: ConversationState = Field(default_factory=ConversationState)
+    repo_context: RepoContext = Field(default_factory=RepoContext)
+    router_result: IntentRouterResult | None = None
+    retrieval_request: RetrievalRequest | None = None
+    retrieval_result: RetrievalResult | None = None
+    evidence_pack: EvidenceBundle | None = None
+    synthesis_input: AnswerSynthesisInput | None = None
+    diagnostics: DiagnosticsReport | None = None
+    answer_mode: str = "normal"
+    degraded_message: str = ""
+    final_result: RuntimeFinalResult | None = None
--- a/src/app/modules/agent/runtime/steps/answer_policy/init.py
+++ b/src/app/modules/agent/runtime/steps/answer_policy/init.py
@@ -0,0 +1,6 @@
+"""Политика ответа: вызов LLM или короткий ответ по результату evidence gate."""
+
+from app.modules.agent.runtime.steps.answer_policy.policy import RuntimeAnswerPolicy, RuntimePolicyDecision
+from app.modules.agent.runtime.steps.answer_policy.short_answer_formatter import RuntimeShortAnswerFormatter
+
+__all__ = ["RuntimeAnswerPolicy", "RuntimePolicyDecision", "RuntimeShortAnswerFormatter"]
--- a/src/app/modules/agent/runtime/steps/answer_policy/policy.py
+++ b/src/app/modules/agent/runtime/steps/answer_policy/policy.py
@@ -1,14 +1,16 @@
+"""Политика принятия решения: вызывать LLM или вернуть короткий ответ по evidence gate."""
+
 from __future__ import annotations

 from dataclasses import dataclass

-from app.modules.rag.code_qa_pipeline.evidence_gate import EvidenceGateDecision
-from app.modules.rag.intent_router_v2.models import IntentRouterResult
-from app.modules.agent.code_qa_runtime.short_answer_formatter import CodeQaShortAnswerFormatter
+from app.modules.agent.runtime.steps.gates.pre.evidence_gate import EvidenceGateDecision
+from app.modules.agent.intent_router_v2.models import IntentRouterResult
+from app.modules.agent.runtime.steps.answer_policy.short_answer_formatter import RuntimeShortAnswerFormatter


@dataclass(slots=True, frozen=True)
-class CodeQaPolicyDecision:
+class RuntimePolicyDecision:
    answer_mode: str
    answer: str = ""
    should_call_llm: bool = True
@@ -16,22 +18,22 @@ class CodeQaPolicyDecision:
    reason: str = "evidence_sufficient"


-class CodeQaAnswerPolicy:
-    def __init__(self, formatter: CodeQaShortAnswerFormatter | None = None) -> None:
-        self._formatter = formatter or CodeQaShortAnswerFormatter()
+class RuntimeAnswerPolicy:
+    def __init__(self, formatter: RuntimeShortAnswerFormatter | None = None) -> None:
+        self._formatter = formatter or RuntimeShortAnswerFormatter()

    def decide(
        self,
        *,
        router_result: IntentRouterResult,
        gate_decision: EvidenceGateDecision,
-    ) -> CodeQaPolicyDecision:
+    ) -> RuntimePolicyDecision:
        sub_intent = router_result.query_plan.sub_intent.upper()
        symbol_resolution = router_result.symbol_resolution
        if sub_intent == "OPEN_FILE" and "path_scope_empty" in gate_decision.failure_reasons:
            path_scope = list(getattr(router_result.retrieval_spec.filters, "path_scope", []) or [])
            target = path_scope[0] if path_scope else "запрошенный файл"
-            return CodeQaPolicyDecision(
+            return RuntimePolicyDecision(
                answer_mode="not_found",
                answer=self._formatter.open_file_not_found(target),
                should_call_llm=False,
@@ -39,7 +41,7 @@ class CodeQaAnswerPolicy:
                reason="path_scope_empty",
            )
        if sub_intent == "EXPLAIN" and symbol_resolution.status == "not_found":
-            return CodeQaPolicyDecision(
+            return RuntimePolicyDecision(
                answer_mode="not_found",
                answer=self._formatter.entity_not_found(self._target_label(router_result), symbol_resolution.alternatives),
                should_call_llm=False,
@@ -47,7 +49,7 @@ class CodeQaAnswerPolicy:
                reason="symbol_resolution_not_found",
            )
        if sub_intent == "EXPLAIN" and symbol_resolution.status == "ambiguous":
-            return CodeQaPolicyDecision(
+            return RuntimePolicyDecision(
                answer_mode="ambiguous",
                answer=self._formatter.entity_ambiguous(self._target_label(router_result), symbol_resolution.alternatives),
                should_call_llm=False,
@@ -57,14 +59,14 @@ class CodeQaAnswerPolicy:
        if not gate_decision.passed:
            answer_mode = "insufficient" if "insufficient_evidence" in gate_decision.failure_reasons else "degraded"
            reason = gate_decision.failure_reasons[0] if gate_decision.failure_reasons else "evidence_gate_failed"
-            return CodeQaPolicyDecision(
+            return RuntimePolicyDecision(
                answer_mode=answer_mode,
                answer=self._formatter.insufficient(gate_decision.degraded_message),
                should_call_llm=False,
                branch="evidence_gate_short_circuit",
                reason=reason,
            )
-        return CodeQaPolicyDecision(answer_mode="normal", branch="normal_answer", reason="evidence_sufficient")
+        return RuntimePolicyDecision(answer_mode="normal", branch="normal_answer", reason="evidence_sufficient")

    def _target_label(self, router_result: IntentRouterResult) -> str:
        candidates = [item.strip() for item in list(router_result.query_plan.symbol_candidates or []) if item and item.strip()]
--- a/src/app/modules/agent/runtime/steps/answer_policy/short_answer_formatter.py
+++ b/src/app/modules/agent/runtime/steps/answer_policy/short_answer_formatter.py
@@ -1,7 +1,9 @@
+"""Форматирование коротких ответов для режимов not_found, ambiguous, insufficient."""
+
 from __future__ import annotations


-class CodeQaShortAnswerFormatter:
+class RuntimeShortAnswerFormatter:
    def open_file_not_found(self, target: str) -> str:
        return f"Файл {target} не найден."

--- a/src/app/modules/agent/runtime/steps/context/init.py
+++ b/src/app/modules/agent/runtime/steps/context/init.py
@@ -0,0 +1,35 @@
+"""Контракты и билдеры контекста пайплайна: retrieval request/result, evidence bundle, diagnostics, synthesis."""
+
+from app.modules.agent.runtime.steps.context.contracts import (
+    AnswerSynthesisInput,
+    CodeChunkItem,
+    DiagnosticsReport,
+    EvidenceBundle,
+    FailureReason,
+    RetrievalRequest,
+    RetrievalResult,
+    RouterResult,
+)
+from app.modules.agent.runtime.steps.context.retrieval_request_builder import build_retrieval_request
+from app.modules.agent.runtime.steps.context.retrieval_result_builder import build_retrieval_result
+from app.modules.agent.runtime.steps.context.evidence_bundle_builder import build_evidence_bundle
+from app.modules.agent.runtime.steps.context.diagnostics import build_diagnostics_report
+from app.modules.agent.runtime.steps.context.answer_synthesis import build_answer_synthesis_input
+from app.modules.agent.runtime.steps.context.answer_fact_curator import build_curated_answer_facts
+
+__all__ = [
+    "AnswerSynthesisInput",
+    "CodeChunkItem",
+    "DiagnosticsReport",
+    "EvidenceBundle",
+    "FailureReason",
+    "RetrievalRequest",
+    "RetrievalResult",
+    "RouterResult",
+    "build_retrieval_request",
+    "build_retrieval_result",
+    "build_evidence_bundle",
+    "build_diagnostics_report",
+    "build_answer_synthesis_input",
+    "build_curated_answer_facts",
+]
--- a/src/app/modules/agent/runtime/steps/context/answer_fact_curator.py
+++ b/src/app/modules/agent/runtime/steps/context/answer_fact_curator.py
@@ -1,9 +1,11 @@
+"""Курация фактов из EvidenceBundle для сценариев explain, architecture, trace_flow."""
+
 from __future__ import annotations

 import re
 from typing import Any

-from app.modules.rag.code_qa_pipeline.contracts import CodeChunkItem, EvidenceBundle
+from app.modules.agent.runtime.steps.context.contracts import CodeChunkItem, EvidenceBundle

 _CALL_RE = re.compile(r"([A-Za-z_][\w\.]*)\s*\(")
 _FIELD_RE = re.compile(r"self\.(\w+)")
--- a/src/app/modules/agent/runtime/steps/context/answer_synthesis.py
+++ b/src/app/modules/agent/runtime/steps/context/answer_synthesis.py
@@ -1,16 +1,15 @@
-"""Builds AnswerSynthesisInput from EvidenceBundle for LLM stage."""
+"""Сборка AnswerSynthesisInput из EvidenceBundle для этапа LLM."""

 from __future__ import annotations

-from app.modules.rag.code_qa_pipeline.answer_fact_curator import build_curated_answer_facts
-from app.modules.rag.code_qa_pipeline.contracts import AnswerSynthesisInput, EvidenceBundle
+from app.modules.agent.runtime.steps.context.answer_fact_curator import build_curated_answer_facts
+from app.modules.agent.runtime.steps.context.contracts import AnswerSynthesisInput, EvidenceBundle


 def build_answer_synthesis_input(
    user_question: str,
    bundle: EvidenceBundle,
 ) -> AnswerSynthesisInput:
-    """Build LLM input from EvidenceBundle; fast context (summary) + deep context (payload)."""
    scenario = bundle.resolved_sub_intent or "EXPLAIN"
    target = bundle.resolved_target
    sufficient = bundle.sufficient
--- a/src/app/modules/agent/runtime/steps/context/contracts.py
+++ b/src/app/modules/agent/runtime/steps/context/contracts.py
@@ -1,9 +1,4 @@
-"""Typed contracts for the canonical CODE_QA test-first pipeline.
-
-Defines RouterResult, RetrievalRequest, RetrievalResult, EvidenceBundle,
-AnswerSynthesisInput, DiagnosticsReport and machine-readable failure reasons.
-Used only by the test-first pipeline; legacy runtime is unchanged.
-"""
+"""Типизированные контракты пайплайна: RouterResult, RetrievalRequest, RetrievalResult, EvidenceBundle, AnswerSynthesisInput, DiagnosticsReport."""

 from __future__ import annotations

@@ -11,14 +6,10 @@ from typing import Any, Literal

 from pydantic import BaseModel, ConfigDict, Field

-# Re-export for pipeline: router output is IntentRouterResult
-from app.modules.rag.intent_router_v2.models import IntentRouterResult
+from app.modules.agent.intent_router_v2.models import IntentRouterResult

-# Type alias: router output is the source of truth for the test pipeline
 RouterResult = IntentRouterResult

-
-# --- Machine-readable failure reasons for diagnostics ---
 FailureReason = Literal[
    "router_low_confidence",
    "target_not_resolved",
@@ -45,8 +36,6 @@ FAILURE_REASONS: tuple[FailureReason, ...] = (


 class RetrievalRequest(BaseModel):
-    """Request for retrieval stage; built from RouterResult."""
-
    model_config = ConfigDict(extra="forbid")

    rag_session_id: str
@@ -56,15 +45,12 @@ class RetrievalRequest(BaseModel):
    keyword_hints: list[str] = Field(default_factory=list)
    symbol_candidates: list[str] = Field(default_factory=list)
    requested_layers: list[str] = Field(default_factory=list)
-    # Pass-through for existing adapter (retrieval_spec, retrieval_constraints, query_plan)
    retrieval_spec: Any = None
    retrieval_constraints: Any = None
    query_plan: Any = None


 class CodeChunkItem(BaseModel):
-    """Single code chunk in normalized retrieval output."""
-
    model_config = ConfigDict(extra="forbid")

    layer: str
@@ -77,8 +63,6 @@ class CodeChunkItem(BaseModel):


 class LayerOutcome(BaseModel):
-    """Per-layer retrieval outcome for diagnostics."""
-
    model_config = ConfigDict(extra="forbid")

    layer_id: str
@@ -88,8 +72,6 @@ class LayerOutcome(BaseModel):


 class RetrievalResult(BaseModel):
-    """Normalized retrieval result; single structure for all scenarios."""
-
    model_config = ConfigDict(extra="forbid")

    target_symbol_candidates: list[str] = Field(default_factory=list)
@@ -108,8 +90,6 @@ class RetrievalResult(BaseModel):


 class EvidenceBundle(BaseModel):
-    """Canonical evidence bundle for answer synthesis; only source of truth for LLM stage."""
-
    model_config = ConfigDict(extra="forbid")

    resolved_intent: str = ""
@@ -129,8 +109,6 @@ class EvidenceBundle(BaseModel):


 class AnswerSynthesisInput(BaseModel):
-    """Input for LLM answer synthesis; derived from EvidenceBundle."""
-
    model_config = ConfigDict(extra="forbid")

    user_question: str = ""
@@ -146,11 +124,8 @@ class AnswerSynthesisInput(BaseModel):


 class DiagnosticsReport(BaseModel):
-    """Full diagnostics for the pipeline; Level 1 summary + Level 2 detail."""
-
    model_config = ConfigDict(extra="forbid")

-    # Level 1 — human-readable summary
    intent_correct: bool | None = None
    target_found: bool = False
    layers_used: list[str] = Field(default_factory=list)
@@ -160,7 +135,6 @@ class DiagnosticsReport(BaseModel):
    answer_policy_branch: str = ""
    decision_reason: str = ""

-    # Level 2 — detailed
    router_result: dict[str, Any] = Field(default_factory=dict)
    retrieval_request: dict[str, Any] = Field(default_factory=dict)
    per_layer_outcome: list[dict[str, Any]] = Field(default_factory=list)
--- a/src/app/modules/agent/runtime/steps/context/diagnostics.py
+++ b/src/app/modules/agent/runtime/steps/context/diagnostics.py
@@ -1,10 +1,10 @@
-"""Diagnostics for the CODE_QA pipeline: Level 1 summary and Level 2 detail."""
+"""Диагностика пайплайна CODE_QA: сводка уровня 1 и детали уровня 2."""

 from __future__ import annotations

 from typing import Any

-from app.modules.rag.code_qa_pipeline.contracts import (
+from app.modules.agent.runtime.steps.context.contracts import (
    DiagnosticsReport,
    EvidenceBundle,
    RetrievalRequest,
@@ -27,7 +27,6 @@ def build_diagnostics_report(
    evidence_gate_input: dict[str, Any] | None = None,
    post_evidence_gate: dict[str, Any] | None = None,
 ) -> DiagnosticsReport:
-    """Build full diagnostics: Level 1 summary + Level 2 detail + failure reasons."""
    timings = dict(timings_ms or {})
    req = retrieval_request
    res = retrieval_result
@@ -83,7 +82,6 @@ def build_diagnostics_report(


 def build_level1_summary(report: DiagnosticsReport) -> dict[str, Any]:
-    """Human-readable summary: intent, target, layers, sufficiency, answer mode."""
    return {
        "intent_correct": report.intent_correct,
        "target_found": report.target_found,
@@ -98,7 +96,6 @@ def build_level1_summary(report: DiagnosticsReport) -> dict[str, Any]:


 def build_level2_detail(report: DiagnosticsReport) -> dict[str, Any]:
-    """Detailed diagnostics for tuning and tests."""
    return {
        "router_result": report.router_result,
        "retrieval_request": report.retrieval_request,
--- a/src/app/modules/agent/runtime/steps/context/evidence_bundle_builder.py
+++ b/src/app/modules/agent/runtime/steps/context/evidence_bundle_builder.py
@@ -1,15 +1,14 @@
-"""Builds EvidenceBundle from RetrievalResult and router context."""
+"""Сборка EvidenceBundle из RetrievalResult и результата роутера."""

 from __future__ import annotations

-from app.modules.rag.code_qa_pipeline.contracts import EvidenceBundle, RetrievalResult, RouterResult
+from app.modules.agent.runtime.steps.context.contracts import EvidenceBundle, RetrievalResult, RouterResult


 def build_evidence_bundle(
    retrieval_result: RetrievalResult,
    router_result: RouterResult,
 ) -> EvidenceBundle:
-    """Build EvidenceBundle from normalized retrieval and router result."""
    intent = router_result.intent or "CODE_QA"
    sub_intent = (router_result.query_plan and router_result.query_plan.sub_intent) or "EXPLAIN"
    resolved_target: str | None = None
--- a/src/app/modules/agent/runtime/steps/context/retrieval_request_builder.py
+++ b/src/app/modules/agent/runtime/steps/context/retrieval_request_builder.py
@@ -1,12 +1,11 @@
-"""Builds RetrievalRequest from RouterResult for the CODE_QA pipeline."""
+"""Сборка RetrievalRequest из RouterResult для пайплайна CODE_QA."""

 from __future__ import annotations

-from app.modules.rag.code_qa_pipeline.contracts import RetrievalRequest, RouterResult
+from app.modules.agent.runtime.steps.context.contracts import RetrievalRequest, RouterResult


 def build_retrieval_request(router_result: RouterResult, rag_session_id: str) -> RetrievalRequest:
-    """Convert router output to RetrievalRequest; router is source of truth."""
    query_plan = router_result.query_plan
    spec = router_result.retrieval_spec
    path_scope = list(getattr(spec.filters, "path_scope", []) or [])
--- a/src/app/modules/agent/runtime/steps/context/retrieval_result_builder.py
+++ b/src/app/modules/agent/runtime/steps/context/retrieval_result_builder.py
@@ -1,10 +1,10 @@
-"""Builds normalized RetrievalResult from raw retrieval rows and report."""
+"""Сборка нормализованного RetrievalResult из сырых строк retrieval и отчёта."""

 from __future__ import annotations

 import re

-from app.modules.rag.code_qa_pipeline.contracts import CodeChunkItem, LayerOutcome, RetrievalResult
+from app.modules.agent.runtime.steps.context.contracts import CodeChunkItem, LayerOutcome, RetrievalResult
 from app.modules.rag.retrieval.test_filter import is_test_path

 _ROUTE_RE = re.compile(r'@[\w\.]+\.(get|post|put|delete|patch|options|head)\(\s*["\']([^"\']+)["\']')
@@ -16,7 +16,6 @@ def build_retrieval_result(
    retrieval_report: dict | None,
    symbol_resolution: dict | None,
 ) -> RetrievalResult:
-    """Convert raw adapter rows and optional report into normalized RetrievalResult."""
    report = retrieval_report or {}
    sym = symbol_resolution or {}
    layers_seen: set[str] = set()
--- a/src/app/modules/agent/runtime/steps/explain/init.py
+++ b/src/app/modules/agent/runtime/steps/explain/init.py
@@ -0,0 +1,36 @@
+from __future__ import annotations
+
+from importlib import import_module
+
+__all__ = [
+    "CodeExcerpt",
+    "CodeExplainRetrieverV2",
+    "CodeGraphRepository",
+    "EvidenceItem",
+    "ExplainIntent",
+    "ExplainIntentBuilder",
+    "ExplainPack",
+    "LayeredRetrievalGateway",
+    "PromptBudgeter",
+    "TracePath",
+]
+
+
+def __getattr__(name: str):
+    module_map = {
+        "CodeExcerpt": "app.modules.agent.runtime.steps.explain.models",
+        "EvidenceItem": "app.modules.agent.runtime.steps.explain.models",
+        "ExplainIntent": "app.modules.agent.runtime.steps.explain.models",
+        "ExplainPack": "app.modules.agent.runtime.steps.explain.models",
+        "TracePath": "app.modules.agent.runtime.steps.explain.models",
+        "ExplainIntentBuilder": "app.modules.agent.runtime.steps.explain.intent_builder",
+        "PromptBudgeter": "app.modules.agent.runtime.steps.explain.budgeter",
+        "LayeredRetrievalGateway": "app.modules.agent.runtime.steps.explain.layered_gateway",
+        "CodeGraphRepository": "app.modules.agent.runtime.steps.explain.graph_repository",
+        "CodeExplainRetrieverV2": "app.modules.agent.runtime.steps.explain.retriever_v2",
+    }
+    module_name = module_map.get(name)
+    if module_name is None:
+        raise AttributeError(name)
+    module = import_module(module_name)
+    return getattr(module, name)
--- a/src/app/modules/agent/runtime/steps/explain/budgeter.py
+++ b/src/app/modules/agent/runtime/steps/explain/budgeter.py
@@ -2,7 +2,7 @@ from __future__ import annotations

 import json

-from app.modules.rag.explain.models import ExplainPack
+from app.modules.agent.runtime.steps.explain.models import ExplainPack


 class PromptBudgeter:
--- a/src/app/modules/agent/runtime/steps/explain/excerpt_planner.py
+++ b/src/app/modules/agent/runtime/steps/explain/excerpt_planner.py
@@ -1,6 +1,6 @@
 from __future__ import annotations

-from app.modules.rag.explain.models import CodeExcerpt, LayeredRetrievalItem
+from app.modules.agent.runtime.steps.explain.models import CodeExcerpt, LayeredRetrievalItem


 class ExcerptPlanner:
--- a/src/app/modules/agent/runtime/steps/explain/graph_repository.py
+++ b/src/app/modules/agent/runtime/steps/explain/graph_repository.py
@@ -4,7 +4,7 @@ import json

 from sqlalchemy import text

-from app.modules.rag.explain.models import CodeLocation, LayeredRetrievalItem
+from app.modules.agent.runtime.steps.explain.models import CodeLocation, LayeredRetrievalItem
 from app.modules.shared.db import get_engine


--- a/src/app/modules/agent/runtime/steps/explain/intent_builder.py
+++ b/src/app/modules/agent/runtime/steps/explain/intent_builder.py
@@ -2,7 +2,7 @@ from __future__ import annotations

 import re

-from app.modules.rag.explain.models import ExplainHints, ExplainIntent
+from app.modules.agent.runtime.steps.explain.models import ExplainHints, ExplainIntent
 from app.modules.rag.retrieval.query_terms import extract_query_terms


--- a/src/app/modules/agent/runtime/steps/explain/layered_gateway.py
+++ b/src/app/modules/agent/runtime/steps/explain/layered_gateway.py
@@ -4,7 +4,7 @@ import logging
 from dataclasses import dataclass, field
 from typing import TYPE_CHECKING, Callable

-from app.modules.rag.explain.models import CodeLocation, LayeredRetrievalItem
+from app.modules.agent.runtime.steps.explain.models import CodeLocation, LayeredRetrievalItem
 from app.modules.rag.retrieval.test_filter import build_test_filters, debug_disable_test_filter

 LOGGER = logging.getLogger(__name__)
--- a/src/app/modules/agent/runtime/steps/explain/models.py
+++ b/src/app/modules/agent/runtime/steps/explain/models.py
--- a/src/app/modules/agent/runtime/steps/explain/retriever_v2.py
+++ b/src/app/modules/agent/runtime/steps/explain/retriever_v2.py
@@ -4,19 +4,19 @@ import logging
 from typing import TYPE_CHECKING

 from app.modules.rag.contracts.enums import RagLayer
-from app.modules.rag.explain.intent_builder import ExplainIntentBuilder
-from app.modules.rag.explain.layered_gateway import LayerRetrievalResult, LayeredRetrievalGateway
-from app.modules.rag.explain.models import CodeExcerpt, EvidenceItem, ExplainPack, LayeredRetrievalItem
-from app.modules.rag.explain.source_excerpt_fetcher import SourceExcerptFetcher
-from app.modules.rag.explain.trace_builder import TraceBuilder
+from app.modules.agent.runtime.steps.explain.intent_builder import ExplainIntentBuilder
+from app.modules.agent.runtime.steps.explain.layered_gateway import LayerRetrievalResult, LayeredRetrievalGateway
+from app.modules.agent.runtime.steps.explain.models import CodeExcerpt, EvidenceItem, ExplainPack, LayeredRetrievalItem
+from app.modules.agent.runtime.steps.explain.source_excerpt_fetcher import SourceExcerptFetcher
+from app.modules.agent.runtime.steps.explain.trace_builder import TraceBuilder
 from app.modules.rag.retrieval.test_filter import exclude_tests_default, is_test_path

 LOGGER = logging.getLogger(__name__)
 _MIN_EXCERPTS = 2

 if TYPE_CHECKING:
-    from app.modules.rag.explain.graph_repository import CodeGraphRepository
-    from app.modules.rag.explain.models import ExplainIntent
+    from app.modules.agent.runtime.steps.explain.graph_repository import CodeGraphRepository
+    from app.modules.agent.runtime.steps.explain.models import ExplainIntent


 class CodeExplainRetrieverV2:
--- a/src/app/modules/agent/runtime/steps/explain/source_excerpt_fetcher.py
+++ b/src/app/modules/agent/runtime/steps/explain/source_excerpt_fetcher.py
@@ -2,12 +2,12 @@ from __future__ import annotations

 from typing import TYPE_CHECKING

-from app.modules.rag.explain.excerpt_planner import ExcerptPlanner
-from app.modules.rag.explain.models import CodeExcerpt, EvidenceItem, TracePath
+from app.modules.agent.runtime.steps.explain.excerpt_planner import ExcerptPlanner
+from app.modules.agent.runtime.steps.explain.models import CodeExcerpt, EvidenceItem, TracePath
 from app.modules.rag.retrieval.test_filter import is_test_path

 if TYPE_CHECKING:
-    from app.modules.rag.explain.graph_repository import CodeGraphRepository
+    from app.modules.agent.runtime.steps.explain.graph_repository import CodeGraphRepository


 class SourceExcerptFetcher:
--- a/src/app/modules/agent/runtime/steps/explain/trace_builder.py
+++ b/src/app/modules/agent/runtime/steps/explain/trace_builder.py
@@ -2,10 +2,10 @@ from __future__ import annotations

 from typing import TYPE_CHECKING

-from app.modules.rag.explain.models import LayeredRetrievalItem, TracePath
+from app.modules.agent.runtime.steps.explain.models import LayeredRetrievalItem, TracePath

 if TYPE_CHECKING:
-    from app.modules.rag.explain.graph_repository import CodeGraphRepository
+    from app.modules.agent.runtime.steps.explain.graph_repository import CodeGraphRepository


 class TraceBuilder:
--- a/src/app/modules/agent/runtime/steps/finalization/init.py
+++ b/src/app/modules/agent/runtime/steps/finalization/init.py
@@ -0,0 +1,6 @@
+"""Финальная сборка: repair черновика и сборка RuntimeFinalResult."""
+
+from app.modules.agent.runtime.steps.finalization.repair import RuntimeAnswerRepairService
+from app.modules.agent.runtime.steps.finalization.result_assembler import assemble_final_result
+
+__all__ = ["RuntimeAnswerRepairService", "assemble_final_result"]
--- a/src/app/modules/agent/runtime/steps/finalization/repair.py
+++ b/src/app/modules/agent/runtime/steps/finalization/repair.py
@@ -1,12 +1,14 @@
+"""Сервис починки черновика ответа по результатам post-evidence gate (LLM repair)."""
+
 from __future__ import annotations

 import json

-from app.modules.agent.code_qa_runtime.models import CodeQaValidationResult
+from app.modules.agent.runtime.steps.gates.post.post_gate import RuntimeValidationResult
 from app.modules.agent.llm import AgentLlmService


-class CodeQaAnswerRepairService:
+class RuntimeAnswerRepairService:
    def __init__(self, llm: AgentLlmService) -> None:
        self._llm = llm

@@ -14,7 +16,7 @@ class CodeQaAnswerRepairService:
        self,
        *,
        draft_answer: str,
-        validation: CodeQaValidationResult,
+        validation: RuntimeValidationResult,
        prompt_payload: str,
    ) -> str:
        repair_focus = self._repair_focus(validation.reasons)
--- a/src/app/modules/agent/runtime/steps/finalization/result_assembler.py
+++ b/src/app/modules/agent/runtime/steps/finalization/result_assembler.py
@@ -0,0 +1,79 @@
+"""Сборка финального результата пайплайна: диагностика и RuntimeFinalResult."""
+
+from __future__ import annotations
+
+import logging
+from typing import Any
+
+from app.modules.agent.runtime.steps.context.diagnostics import build_diagnostics_report
+from app.modules.agent.runtime.steps.gates.post.post_gate import RuntimePostEvidenceGate, RuntimeValidationResult
+from app.modules.agent.runtime.models import RuntimeDraftAnswer, RuntimeExecutionState, RuntimeFinalResult
+
+LOGGER = logging.getLogger(__name__)
+
+
+def assemble_final_result(
+    state: RuntimeExecutionState,
+    *,
+    draft: RuntimeDraftAnswer | None,
+    final_answer: str,
+    repair_used: bool,
+    llm_used: bool,
+    validation: RuntimeValidationResult | None = None,
+    timings_ms: dict[str, int] | None = None,
+    runtime_trace: list[dict] | None = None,
+    answer_policy_branch: str = "",
+    decision_reason: str = "",
+    pre_gate_input: dict[str, Any] | None = None,
+    post_gate_snapshot: dict[str, Any] | None = None,
+    resolved_target: str | None = None,
+    post_gate: RuntimePostEvidenceGate | None = None,
+) -> RuntimeFinalResult:
+    diagnostics = build_diagnostics_report(
+        router_result=state.router_result,
+        retrieval_request=state.retrieval_request,
+        retrieval_result=state.retrieval_result,
+        evidence_bundle=state.evidence_pack,
+        answer_mode=state.answer_mode,
+        timings_ms=timings_ms or {},
+        resolved_target=resolved_target,
+        answer_policy_branch=answer_policy_branch,
+        decision_reason=decision_reason,
+        evidence_gate_input=pre_gate_input or {},
+        post_evidence_gate=post_gate_snapshot or {},
+    )
+    if validation is None and post_gate is not None and state.retrieval_request is not None:
+        validation = post_gate.validate(
+            answer=final_answer,
+            answer_mode=state.answer_mode,
+            degraded_message=state.degraded_message,
+            sub_intent=state.retrieval_request.sub_intent,
+            user_query=state.user_query,
+            evidence_pack=state.evidence_pack,
+        )
+    elif validation is None:
+        validation = RuntimeValidationResult(passed=True, action="return")
+
+    result = RuntimeFinalResult(
+        final_answer=final_answer.strip(),
+        answer_mode=state.answer_mode,
+        repair_used=repair_used,
+        llm_used=llm_used,
+        draft_answer=draft,
+        validation=validation,
+        router_result=state.router_result,
+        retrieval_request=state.retrieval_request,
+        retrieval_result=state.retrieval_result,
+        evidence_pack=state.evidence_pack,
+        diagnostics=diagnostics,
+        runtime_trace=list(runtime_trace or []),
+    )
+    LOGGER.warning(
+        "agent runtime executed: intent=%s sub_intent=%s answer_mode=%s repair_used=%s llm_used=%s",
+        state.router_result.intent if state.router_result else None,
+        state.router_result.query_plan.sub_intent if state.router_result and state.router_result.query_plan else None,
+        result.answer_mode,
+        result.repair_used,
+        result.llm_used,
+    )
+    return result
--- a/src/app/modules/agent/runtime/steps/gates/init.py
+++ b/src/app/modules/agent/runtime/steps/gates/init.py
@@ -0,0 +1,11 @@
+"""Pre- и post-evidence gates пайплайна."""
+
+from app.modules.agent.runtime.steps.gates.pre.evidence_gate import EvidenceGateDecision, evaluate_evidence
+from app.modules.agent.runtime.steps.gates.post.post_gate import RuntimePostEvidenceGate, RuntimeValidationResult
+
+__all__ = [
+    "EvidenceGateDecision",
+    "evaluate_evidence",
+    "RuntimePostEvidenceGate",
+    "RuntimeValidationResult",
+]
--- a/src/app/modules/agent/runtime/steps/gates/post/init.py
+++ b/src/app/modules/agent/runtime/steps/gates/post/init.py
@@ -0,0 +1,5 @@
+"""Post-evidence gate: валидация черновика ответа и решение repair/return."""
+
+from app.modules.agent.runtime.steps.gates.post.post_gate import RuntimePostEvidenceGate, RuntimeValidationResult
+
+__all__ = ["RuntimePostEvidenceGate", "RuntimeValidationResult"]
--- a/src/app/modules/agent/runtime/steps/gates/post/post_gate.py
+++ b/src/app/modules/agent/runtime/steps/gates/post/post_gate.py
@@ -1,10 +1,22 @@
+"""Post-evidence gate: валидация черновика ответа и решение repair/return."""
+
 from __future__ import annotations

 import re

-from app.modules.agent.code_qa_runtime.models import CodeQaValidationResult
-from app.modules.rag.code_qa_pipeline.answer_fact_curator import build_curated_answer_facts
-from app.modules.rag.code_qa_pipeline.contracts import EvidenceBundle
+from pydantic import BaseModel, ConfigDict, Field
+
+from app.modules.agent.runtime.steps.context.answer_fact_curator import build_curated_answer_facts
+from app.modules.agent.runtime.steps.context.contracts import EvidenceBundle
+
+
+class RuntimeValidationResult(BaseModel):
+    model_config = ConfigDict(extra="forbid")
+
+    passed: bool = False
+    action: str = "return"
+    reasons: list[str] = Field(default_factory=list)
+

 _TOKEN_RE = re.compile(r"[a-zA-Zа-яА-Я0-9_/]+")
 _VAGUE_PHRASES = (
@@ -22,7 +34,7 @@ _VAGUE_PHRASES = (
 _OPTIMISTIC_TRACE_CLAIMS = ("полностью восстанавливается", "полный поток выполнения", "полностью прослеживается")


-class CodeQaPostEvidenceGate:
+class RuntimePostEvidenceGate:
    def validate(
        self,
        *,
@@ -32,25 +44,25 @@ class CodeQaPostEvidenceGate:
        sub_intent: str,
        user_query: str,
        evidence_pack: EvidenceBundle | None,
-    ) -> CodeQaValidationResult:
+    ) -> RuntimeValidationResult:
        normalized = (answer or "").strip()
        if not normalized:
-            return CodeQaValidationResult(passed=False, action="repair", reasons=["empty_answer"])
+            return RuntimeValidationResult(passed=False, action="repair", reasons=["empty_answer"])
        if answer_mode in {"degraded", "insufficient"} and "недостат" not in normalized.lower():
-            return CodeQaValidationResult(passed=False, action="repair", reasons=["degraded_answer_missing_guardrail"])
+            return RuntimeValidationResult(passed=False, action="repair", reasons=["degraded_answer_missing_guardrail"])
        if answer_mode == "not_found" and "не найден" not in normalized.lower():
-            return CodeQaValidationResult(passed=False, action="repair", reasons=["not_found_answer_missing_phrase"])
+            return RuntimeValidationResult(passed=False, action="repair", reasons=["not_found_answer_missing_phrase"])
        if answer_mode == "ambiguous" and "не удалось однозначно разрешить" not in normalized.lower():
-            return CodeQaValidationResult(passed=False, action="repair", reasons=["ambiguous_answer_missing_phrase"])
+            return RuntimeValidationResult(passed=False, action="repair", reasons=["ambiguous_answer_missing_phrase"])
        if degraded_message and answer_mode != "normal" and len(normalized) < 24:
-            return CodeQaValidationResult(passed=False, action="repair", reasons=["answer_too_short"])
+            return RuntimeValidationResult(passed=False, action="repair", reasons=["answer_too_short"])
        if answer_mode != "normal" or evidence_pack is None:
-            return CodeQaValidationResult(passed=True, action="return")
+            return RuntimeValidationResult(passed=True, action="return")

        reasons = self._normal_answer_reasons(normalized.lower(), sub_intent.upper(), user_query, evidence_pack)
        if reasons:
-            return CodeQaValidationResult(passed=False, action="repair", reasons=_dedupe(reasons))
-        return CodeQaValidationResult(passed=True, action="return")
+            return RuntimeValidationResult(passed=False, action="repair", reasons=_dedupe(reasons))
+        return RuntimeValidationResult(passed=True, action="return")

    def _normal_answer_reasons(self, answer: str, sub_intent: str, user_query: str, evidence_pack: EvidenceBundle) -> list[str]:
        reasons: list[str] = []
--- a/src/app/modules/agent/runtime/steps/gates/pre/init.py
+++ b/src/app/modules/agent/runtime/steps/gates/pre/init.py
@@ -0,0 +1,5 @@
+"""Pre-evidence gate: проверка достаточности evidence перед вызовом LLM."""
+
+from app.modules.agent.runtime.steps.gates.pre.evidence_gate import EvidenceGateDecision, evaluate_evidence
+
+__all__ = ["EvidenceGateDecision", "evaluate_evidence"]
--- a/src/app/modules/agent/runtime/steps/gates/pre/evidence_gate.py
+++ b/src/app/modules/agent/runtime/steps/gates/pre/evidence_gate.py
@@ -1,23 +1,20 @@
-"""Shared evidence sufficiency check for the CODE_QA test pipeline."""
+"""Проверка достаточности evidence для пайплайна CODE_QA."""

 from __future__ import annotations

 from dataclasses import dataclass, field

-from app.modules.rag.code_qa_pipeline.contracts import EvidenceBundle
+from app.modules.agent.runtime.steps.context.contracts import EvidenceBundle


@dataclass(slots=True)
 class EvidenceGateDecision:
-    """Result of evidence sufficiency check."""
-
    passed: bool
    failure_reasons: list[str] = field(default_factory=list)
    degraded_message: str = ""


 def evaluate_evidence(bundle: EvidenceBundle) -> EvidenceGateDecision:
-    """Check evidence sufficiency by scenario; prevent confident answer without support."""
    sub = (bundle.resolved_sub_intent or "EXPLAIN").upper()
    reasons: list[str] = []

--- a/src/app/modules/agent/runtime/steps/generation/init.py
+++ b/src/app/modules/agent/runtime/steps/generation/init.py
@@ -0,0 +1,11 @@
+"""Выбор промпта, сборка payload и вызов LLM для генерации ответа."""
+
+from app.modules.agent.runtime.steps.generation.prompt_selector import RuntimePromptSelector
+from app.modules.agent.runtime.steps.generation.prompt_payload_builder import RuntimePromptPayloadBuilder
+from app.modules.agent.runtime.steps.generation.generator import RuntimeAnswerGenerator
+
+__all__ = [
+    "RuntimePromptSelector",
+    "RuntimePromptPayloadBuilder",
+    "RuntimeAnswerGenerator",
+]
--- a/src/app/modules/agent/runtime/steps/generation/generator.py
+++ b/src/app/modules/agent/runtime/steps/generation/generator.py
@@ -0,0 +1,18 @@
+"""Тонкая обёртка над LLM для генерации ответа по имени промпта и payload."""
+
+from __future__ import annotations
+
+from typing import TYPE_CHECKING
+
+if TYPE_CHECKING:
+    from app.modules.agent.llm import AgentLlmService
+
+
+class RuntimeAnswerGenerator:
+    """Делегирует вызов LLM для генерации черновика ответа."""
+
+    def __init__(self, llm: AgentLlmService) -> None:
+        self._llm = llm
+
+    def generate(self, prompt_name: str, payload: str, *, log_context: str = "graph.project_qa.code_qa.answer") -> str:
+        return self._llm.generate(prompt_name, payload, log_context=log_context).strip()
--- a/src/app/modules/agent/runtime/steps/generation/prompt_payload_builder.py
+++ b/src/app/modules/agent/runtime/steps/generation/prompt_payload_builder.py
@@ -1,9 +1,11 @@
+"""Сборка JSON-полезной нагрузки для системного промпта по synthesis_input и evidence_pack."""
+
 from __future__ import annotations

 import json
 import re

-from app.modules.rag.code_qa_pipeline.contracts import AnswerSynthesisInput, EvidenceBundle
+from app.modules.agent.runtime.steps.context.contracts import AnswerSynthesisInput, EvidenceBundle

 _LAYER_GUIDE = (
    "- C0_SOURCE_CHUNKS: фактический код, это основной источник деталей.\n"
@@ -15,7 +17,7 @@ _LAYER_GUIDE = (
 _TOKEN_RE = re.compile(r"[a-zA-Zа-яА-Я0-9_/]+")


-class CodeQaPromptPayloadBuilder:
+class RuntimePromptPayloadBuilder:
    def build(
        self,
        *,
--- a/src/app/modules/agent/runtime/steps/generation/prompt_selector.py
+++ b/src/app/modules/agent/runtime/steps/generation/prompt_selector.py
@@ -1,7 +1,9 @@
+"""Выбор имени системного промпта по sub_intent и answer_mode."""
+
 from __future__ import annotations


-class CodeQaPromptSelector:
+class RuntimePromptSelector:
    _PROMPTS = {
        "ARCHITECTURE": "code_qa_architecture_answer",
        "EXPLAIN": "code_qa_explain_answer",
--- a/src/app/modules/agent/runtime/steps/retrieval/init.py
+++ b/src/app/modules/agent/runtime/steps/retrieval/init.py
@@ -0,0 +1,6 @@
+"""Пакет выполнения retrieval: адаптер к RAG-репозиторию и фабрика контекста репозитория."""
+
+from app.modules.agent.runtime.steps.retrieval.adapter import RuntimeRetrievalAdapter
+from app.modules.agent.runtime.steps.retrieval.repo_context import RuntimeRepoContextFactory
+
+__all__ = ["RuntimeRetrievalAdapter", "RuntimeRepoContextFactory"]
--- a/src/app/modules/agent/code_qa_runtime/retrieval_adapter.py
+++ b/src/app/modules/agent/code_qa_runtime/retrieval_adapter.py
@@ -1,3 +1,5 @@
+"""Адаптер RAG-репозитория к runtime: retrieve_with_plan, retrieve_exact_files, consume_retrieval_report."""
+
 from __future__ import annotations

 from time import perf_counter
@@ -35,7 +37,7 @@ class SessionEmbeddingDimensions:
        return dim


-class CodeQaRetrievalAdapter:
+class RuntimeRetrievalAdapter:
    def __init__(self, repository: RagRepository | None = None) -> None:
        if repository is None:
            from app.modules.rag.persistence.repository import RagRepository
--- a/src/app/modules/agent/runtime/steps/retrieval/repo_context.py
+++ b/src/app/modules/agent/runtime/steps/retrieval/repo_context.py
@@ -1,10 +1,12 @@
+"""Фабрика контекста репозитория (языки, слои RAG) для runtime."""
+
 from __future__ import annotations

 from app.modules.rag.contracts.enums import RagLayer
-from app.modules.rag.intent_router_v2.models import RepoContext
+from app.modules.agent.intent_router_v2.models import RepoContext


-class CodeQaRepoContextFactory:
+class RuntimeRepoContextFactory:
    _KNOWN_LAYERS = [
        RagLayer.CODE_ENTRYPOINTS,
        RagLayer.CODE_SYMBOL_CATALOG,
--- a/src/app/modules/rag/persistence/story_context_repository.py
+++ b/src/app/modules/rag/persistence/story_context_repository.py
--- a/src/app/modules/application.py
+++ b/src/app/modules/application.py
@@ -1,8 +1,7 @@
-from app.modules.agent.code_qa_runtime import CodeQaRuntimeExecutor
-from app.modules.agent.code_qa_runtime.retrieval_adapter import CodeQaRetrievalAdapter
-from app.modules.agent.code_qa_runner_adapter import CodeQaRunnerAdapter
+from app.modules.agent.runtime import AgentRuntimeExecutor, RuntimeRetrievalAdapter
+from app.modules.agent.runtime.code_qa_runner_adapter import CodeQaRunnerAdapter
 from app.modules.agent.llm import AgentLlmService
-from app.modules.agent.prompt_loader import PromptLoader
+from app.modules.agent.llm.prompt_loader import PromptLoader
 from app.modules.chat.direct_service import CodeExplainChatService
 from app.modules.chat.dialog_store import DialogSessionStore
 from app.modules.chat.repository import ChatRepository
@@ -10,8 +9,8 @@ from app.modules.chat.module import ChatModule
 from app.modules.chat.session_resolver import ChatSessionResolver
 from app.modules.chat.task_store import TaskStore
 from app.modules.rag.persistence.repository import RagRepository
-from app.modules.rag.persistence.story_context_repository import StoryContextRepository, StoryContextSchemaRepository
-from app.modules.rag.explain import CodeExplainRetrieverV2, CodeGraphRepository, LayeredRetrievalGateway
+from app.modules.agent.runtime.story_context_repository import StoryContextRepository, StoryContextSchemaRepository
+from app.modules.agent.runtime.steps.explain import CodeExplainRetrieverV2, CodeGraphRepository, LayeredRetrievalGateway
 from app.modules.rag.module import RagModule, RagRepoModule
 from app.modules.shared.bootstrap import bootstrap_database
 from app.modules.shared.event_bus import EventBus
@@ -45,8 +44,8 @@ class ModularApplication:
        _giga_client = GigaChatClient(_giga_settings, GigaChatTokenProvider(_giga_settings))
        _prompt_loader = PromptLoader()
        self._agent_llm = AgentLlmService(client=_giga_client, prompts=_prompt_loader)
-        _retrieval = CodeQaRetrievalAdapter(self.rag_repository)
-        _executor = CodeQaRuntimeExecutor(llm=self._agent_llm, retrieval=_retrieval)
+        _retrieval = RuntimeRetrievalAdapter(self.rag_repository)
+        _executor = AgentRuntimeExecutor(llm=self._agent_llm, retrieval=_retrieval)
        self._agent_runner = CodeQaRunnerAdapter(_executor)
        self.direct_chat = CodeExplainChatService(
            retriever=self.code_explain_retriever,
--- a/src/app/modules/chat/direct_service.py
+++ b/src/app/modules/chat/direct_service.py
@@ -7,7 +7,7 @@ from app.modules.agent.llm import AgentLlmService
 from app.modules.chat.evidence_gate import CodeExplainEvidenceGate
 from app.modules.chat.session_resolver import ChatSessionResolver
 from app.modules.chat.task_store import TaskState, TaskStore
-from app.modules.rag.explain import CodeExplainRetrieverV2, PromptBudgeter
+from app.modules.agent.runtime.steps.explain import CodeExplainRetrieverV2, PromptBudgeter
 from app.schemas.chat import ChatMessageRequest, TaskQueuedResponse, TaskResultType, TaskStatus

 LOGGER = logging.getLogger(__name__)
--- a/Show More
+++ b/Show More