對應威脅框架（參考）

這是參考附錄，不是教學內容。

本頁列出本 boundary 對應的官方威脅框架（MITRE ATLAS / OWASP LLM Top 10 / MAESTRO 等）與 AIDEFEND 社群知識庫的補充參考。

官方框架：MITRE ATLAS、OWASP LLM Top 10 2025、OWASP Agentic AI Top 10 2026 — 業界廣泛採用。

AIDEFEND：aidefend.net by Edward Lee（CC BY 4.0）— 社群貢獻框架，非業界標準。其 technique ID 僅作為補充參考，請以官方框架為主要引用根據。

本 boundary 在做什麼

Trust boundary 講的是：agent 應該如何判斷輸入能不能被當成任務指令、資料來源，或必須先降權處理的不可信內容。它直接對應的威脅是 prompt injection、jailbreak、goal hijack，以及模型把不可信輸入一路帶進工具或輸出端的連鎖失誤。

OWASP LLM Top 10 2025 對應

LLM01:2025 Prompt Injection：本 boundary 的核心風險，涵蓋直接與間接 prompt injection，以及任務主線被外部內容劫持的情境。對應本課：lesson 01「信任邊界是什麼？」、lesson 02「致命三要素：Lethal Trifecta」、lesson 03「Untrusted Source Labeling」、lesson 04「Safe Briefing Protocol：Agent 間協作」、lesson 05「Lab：自建一個 trust gate」。
LLM05:2025 Improper Output Handling：當模型輸出被直接信任、轉貼或餵回工具鏈時，未經檢查的結果會把前段注入風險擴大成實際副作用。對應本課：lesson 04「Safe Briefing Protocol：Agent 間協作」、lesson 05「Lab：自建一個 trust gate」。
LLM02:2025 Sensitive Information Disclosure：未標記的不可信輸入可能誘導模型回吐敏感資訊，或讓 agent 把本來不該暴露的上下文帶出去。對應本課：lesson 03「Untrusted Source Labeling」。
LLM06:2025 Excessive Agency：一旦模型同時有目標、權限與不可信輸入，過大的可執行能力會把注入從文字問題升級成系統行為問題。對應本課：lesson 02「致命三要素：Lethal Trifecta」、lesson 05「Lab：自建一個 trust gate」。

OWASP Agentic AI Top 10 2026 對應

ASI01:2026 Prompt Injection：agentic 系統中的 prompt injection 會沿著 memory、tool use、delegation 一路傳播，本 boundary 的主要任務就是在入口先切開信任層級。對應本課：lesson 01「信任邊界是什麼？」、lesson 02「致命三要素：Lethal Trifecta」、lesson 03「Untrusted Source Labeling」、lesson 04「Safe Briefing Protocol：Agent 間協作」、lesson 05「Lab：自建一個 trust gate」。
ASI02:2026 Insecure Output Handling：agent 若把未檢查的輸出直接轉成下一步動作，會讓 injection 從上下文污染變成流程污染。對應本課：lesson 04「Safe Briefing Protocol：Agent 間協作」、lesson 05「Lab：自建一個 trust gate」。
ASI03:2026 Agent Hijacking：當外部內容成功重寫 agent 的工作目標或決策優先序，就會出現典型的 goal hijack。對應本課：lesson 02「致命三要素：Lethal Trifecta」。

MITRE ATLAS 對應

AML.T0051 LLM Prompt Injection：描述以自然語言上下文操控 LLM 行為的總類別，是本課程最直接的對照 anchor。對應本課：lesson 02「致命三要素：Lethal Trifecta」、lesson 03「Untrusted Source Labeling」、lesson 04「Safe Briefing Protocol：Agent 間協作」。
AML.T0051.000 LLM Prompt Injection: Direct：攻擊者直接把惡意 instruction 放進模型會讀到的主輸入中。對應本課：lesson 02「致命三要素：Lethal Trifecta」。
AML.T0051.001 LLM Prompt Injection: Indirect：惡意內容藏在網頁、文件、ticket、briefing 引用等外部素材裡，再被 agent 誤當成可信上下文。對應本課：lesson 03「Untrusted Source Labeling」、lesson 04「Safe Briefing Protocol：Agent 間協作」。
AML.T0054 LLM Jailbreak：透過語言技巧繞過原始限制或安全 policy，通常與 lethal trifecta 一起放大風險。對應本課：lesson 02「致命三要素：Lethal Trifecta」。
AML.T0050 Command and Scripting Interpreter：當模型輸出被直接轉成 shell、script 或工具呼叫時，不安全的 boundary 設計就可能落成可執行指令。對應本課：lesson 05「Lab：自建一個 trust gate」。

MAESTRO 對應

Agent Goal Manipulation (L7)：外部輸入改寫 agent 目標、成功條件或任務排序，屬於 trust boundary 失守後最典型的 agent 層風險。對應本課：lesson 02「致命三要素：Lethal Trifecta」。
Input Validation Attacks (L3)：輸入未先標記、驗證或降權，就容易讓不可信內容直接進入推理主線。對應本課：lesson 03「Untrusted Source Labeling」。
Reprogramming Attacks (L1)：藉由上下文重寫 agent 的行為準則，讓模型在沒有正式權限變更的情況下偏離原任務。對應本課：lesson 03「Untrusted Source Labeling」。

AIDEFEND 補充參考

⚠️ AIDEFEND 為社群貢獻框架（非業界標準），其 technique ID 僅作補充參考。

AID-H-017 System Prompt Hardening：把系統層規則寫得更明確，降低外部文字偽裝成高優先權指令的機會。對應本課：lesson 04「Safe Briefing Protocol：Agent 間協作」。
AID-H-018.003 Decoupled Plan-Then-Execute Architecture：把規劃與執行分開，避免模型在同一輪上下文裡同時被誘導又直接執行。對應本課：lesson 02「致命三要素：Lethal Trifecta」。
AID-H-018.007 Dual-LLM Isolation Pattern：用雙模型隔離不可信內容，可顯著降低 indirect prompt injection 的影響，但不應被理解為完全免疫。對應本課：lesson 03「Untrusted Source Labeling」、lesson 04「Safe Briefing Protocol：Agent 間協作」。
AID-D-001 Adversarial Input & Prompt Injection Detection：在入口先做可疑輸入偵測，作為 trust gate 的第一道篩選。對應本課：lesson 03「Untrusted Source Labeling」。
AID-H-002.002 Inference-Time Prompt & Input Validation：在推論當下檢查 prompt 與外部輸入的邊界，避免不可信內容被直接提升成任務指令。對應本課：lesson 03「Untrusted Source Labeling」。
AID-H-006 AI Output Hardening & Sanitization：對模型輸出做淨化與檢查，避免不安全內容直接進入 downstream 工具或使用者可見結果。對應本課：lesson 04「Safe Briefing Protocol：Agent 間協作」。

對應威脅框架（參考）

本 boundary 在做什麼

OWASP LLM Top 10 2025 對應

OWASP Agentic AI Top 10 2026 對應

MITRE ATLAS 對應

MAESTRO 對應

AIDEFEND 補充參考

延伸閱讀