跳到主要內容
邊界實驗室 · Boundary Lab
正在啟動 Python 環境(首次約 15 秒)...

對應威脅框架(參考)

這是參考附錄,不是教學內容。

本頁列出本 boundary 對應的官方威脅框架(MITRE ATLAS / OWASP LLM Top 10 / MAESTRO 等)與 AIDEFEND 社群知識庫的補充參考。

  • 官方框架:MITRE ATLAS、OWASP LLM Top 10 2025、OWASP Agentic AI Top 10 2026 — 業界廣泛採用。
  • AIDEFENDaidefend.net by Edward Lee(CC BY 4.0)— 社群貢獻框架,非業界標準。其 technique ID 僅作為補充參考,請以官方框架為主要引用根據。

本 boundary 在做什麼

Trust boundary 講的是:agent 應該如何判斷輸入能不能被當成任務指令、資料來源,或必須先降權處理的不可信內容。它直接對應的威脅是 prompt injection、jailbreak、goal hijack,以及模型把不可信輸入一路帶進工具或輸出端的連鎖失誤。

OWASP LLM Top 10 2025 對應

  • LLM01:2025 Prompt Injection:本 boundary 的核心風險,涵蓋直接與間接 prompt injection,以及任務主線被外部內容劫持的情境。對應本課:lesson 01「信任邊界是什麼?」、lesson 02「致命三要素:Lethal Trifecta」、lesson 03「Untrusted Source Labeling」、lesson 04「Safe Briefing Protocol:Agent 間協作」、lesson 05「Lab:自建一個 trust gate」。
  • LLM05:2025 Improper Output Handling:當模型輸出被直接信任、轉貼或餵回工具鏈時,未經檢查的結果會把前段注入風險擴大成實際副作用。對應本課:lesson 04「Safe Briefing Protocol:Agent 間協作」、lesson 05「Lab:自建一個 trust gate」。
  • LLM02:2025 Sensitive Information Disclosure:未標記的不可信輸入可能誘導模型回吐敏感資訊,或讓 agent 把本來不該暴露的上下文帶出去。對應本課:lesson 03「Untrusted Source Labeling」。
  • LLM06:2025 Excessive Agency:一旦模型同時有目標、權限與不可信輸入,過大的可執行能力會把注入從文字問題升級成系統行為問題。對應本課:lesson 02「致命三要素:Lethal Trifecta」、lesson 05「Lab:自建一個 trust gate」。

OWASP Agentic AI Top 10 2026 對應

  • ASI01:2026 Prompt Injection:agentic 系統中的 prompt injection 會沿著 memory、tool use、delegation 一路傳播,本 boundary 的主要任務就是在入口先切開信任層級。對應本課:lesson 01「信任邊界是什麼?」、lesson 02「致命三要素:Lethal Trifecta」、lesson 03「Untrusted Source Labeling」、lesson 04「Safe Briefing Protocol:Agent 間協作」、lesson 05「Lab:自建一個 trust gate」。
  • ASI02:2026 Insecure Output Handling:agent 若把未檢查的輸出直接轉成下一步動作,會讓 injection 從上下文污染變成流程污染。對應本課:lesson 04「Safe Briefing Protocol:Agent 間協作」、lesson 05「Lab:自建一個 trust gate」。
  • ASI03:2026 Agent Hijacking:當外部內容成功重寫 agent 的工作目標或決策優先序,就會出現典型的 goal hijack。對應本課:lesson 02「致命三要素:Lethal Trifecta」。

MITRE ATLAS 對應

  • AML.T0051 LLM Prompt Injection:描述以自然語言上下文操控 LLM 行為的總類別,是本課程最直接的對照 anchor。對應本課:lesson 02「致命三要素:Lethal Trifecta」、lesson 03「Untrusted Source Labeling」、lesson 04「Safe Briefing Protocol:Agent 間協作」。
  • AML.T0051.000 LLM Prompt Injection: Direct:攻擊者直接把惡意 instruction 放進模型會讀到的主輸入中。對應本課:lesson 02「致命三要素:Lethal Trifecta」。
  • AML.T0051.001 LLM Prompt Injection: Indirect:惡意內容藏在網頁、文件、ticket、briefing 引用等外部素材裡,再被 agent 誤當成可信上下文。對應本課:lesson 03「Untrusted Source Labeling」、lesson 04「Safe Briefing Protocol:Agent 間協作」。
  • AML.T0054 LLM Jailbreak:透過語言技巧繞過原始限制或安全 policy,通常與 lethal trifecta 一起放大風險。對應本課:lesson 02「致命三要素:Lethal Trifecta」。
  • AML.T0050 Command and Scripting Interpreter:當模型輸出被直接轉成 shell、script 或工具呼叫時,不安全的 boundary 設計就可能落成可執行指令。對應本課:lesson 05「Lab:自建一個 trust gate」。

MAESTRO 對應

  • Agent Goal Manipulation (L7):外部輸入改寫 agent 目標、成功條件或任務排序,屬於 trust boundary 失守後最典型的 agent 層風險。對應本課:lesson 02「致命三要素:Lethal Trifecta」。
  • Input Validation Attacks (L3):輸入未先標記、驗證或降權,就容易讓不可信內容直接進入推理主線。對應本課:lesson 03「Untrusted Source Labeling」。
  • Reprogramming Attacks (L1):藉由上下文重寫 agent 的行為準則,讓模型在沒有正式權限變更的情況下偏離原任務。對應本課:lesson 03「Untrusted Source Labeling」。

AIDEFEND 補充參考

⚠️ AIDEFEND 為社群貢獻框架(非業界標準),其 technique ID 僅作補充參考。

  • AID-H-017 System Prompt Hardening:把系統層規則寫得更明確,降低外部文字偽裝成高優先權指令的機會。對應本課:lesson 04「Safe Briefing Protocol:Agent 間協作」。
  • AID-H-018.003 Decoupled Plan-Then-Execute Architecture:把規劃與執行分開,避免模型在同一輪上下文裡同時被誘導又直接執行。對應本課:lesson 02「致命三要素:Lethal Trifecta」。
  • AID-H-018.007 Dual-LLM Isolation Pattern:用雙模型隔離不可信內容,可顯著降低 indirect prompt injection 的影響,但不應被理解為完全免疫。對應本課:lesson 03「Untrusted Source Labeling」、lesson 04「Safe Briefing Protocol:Agent 間協作」。
  • AID-D-001 Adversarial Input & Prompt Injection Detection:在入口先做可疑輸入偵測,作為 trust gate 的第一道篩選。對應本課:lesson 03「Untrusted Source Labeling」。
  • AID-H-002.002 Inference-Time Prompt & Input Validation:在推論當下檢查 prompt 與外部輸入的邊界,避免不可信內容被直接提升成任務指令。對應本課:lesson 03「Untrusted Source Labeling」。
  • AID-H-006 AI Output Hardening & Sanitization:對模型輸出做淨化與檢查,避免不安全內容直接進入 downstream 工具或使用者可見結果。對應本課:lesson 04「Safe Briefing Protocol:Agent 間協作」。

延伸閱讀