Personal agent benchmark pack
Personal Agent Benchmark Pack 是一個用於本機個人助理工作流程的小型 repo-backed QA 情境包。它不是通用的模型基準測試,也不需要新的執行器。該套件重複使用了 QA overview 中描述的私有 QA 堆疊、合成的 QA channel,以及現有的 qa/scenarios markdown 目錄。
第一個套件是有意保持狹窄的:
- 透過本機 cron 傳遞的假個人提醒
- 透過
qa-channel的假 DM 和執行緒回覆路由 - 從暫時性 QA 工作區記憶體檔案中回憶假偏好設定
- 假機密不回顯檢查
- 在短暫的批准風格回合後,安全地執行基於讀取的工具後續操作
- 針對敏感本地讀取請求的批准、拒絕和停止行為
- 基於證據的任務狀態報告,將待處理、已阻擋和已完成分開
- 可分享的安全診斷產出資產,在保留有用狀態的同時省略原始個人內容
- 有憑證支援的完成聲明,在存在本地證據之前避免虛假進度
機器可讀的套件元數據位於
extensions/qa-lab/src/scenario-packs.ts。使用
--pack personal-agent 執行套件:
OPENCLAW_ENABLE_PRIVATE_QA_CLI=1 pnpm openclaw qa suite \ --provider-mode mock-openai \ --pack personal-agent \ --concurrency 1--pack 與重複的 --scenario 標誌具有累加性。明確指定的情境會
先執行,然後套件情境會按 QA_PERSONAL_AGENT_SCENARIO_IDS 順序執行,並
移除重複項。
該套件專為搭配 mock-openai 或其他本地 QA
供應商通道使用 qa-channel 而設計。不應將其指向即時聊天服務或真實的個人
帳戶。
這些情境僅使用假使用者、假偏好設定、假機密以及由套件建立的 temporary QA gateway workspace。它們絕不能讀取或寫入 真實的 OpenClaw 使用者記憶體、工作階段、憑證、啟動代理程式、全域設定, 或即時閘道狀態。
產出資保留在現有的 QA 套件產出目錄下,應將其視為測試輸出。編校檢查使用假標記,因此失敗情況是安全 的,可供檢查並提報為問題。
在 qa/scenarios/personal/ 下新增案例,然後將情境 id 新增至
QA_PERSONAL_AGENT_SCENARIO_IDS。保持每個案例小而本地、在
mock-openai 中具有確定性,並專注於單一個人助理行為。
良好的後續候選項:
- 編校後的軌跡匯出檢查
- 僅限本地的外掛程式工作流程檢查
避免新增新的 runner、外掛程式、相依性、即時傳輸或模型評審, 直到情境目錄中有足夠穩定的案例足以支持該介面。