Pack de référence pour agents personnels

Le Personal Agent Benchmark Pack est un petit pack de scénarios QA reposant sur un dépôt, destiné aux flux de travail d’assistants personnels locaux. Ce n’est pas une référence de modèle générique et il ne nécessite pas de nouveau lanceur. Le pack réutilise la pile QA privée décrite dans Aperçu QA, le canal QA synthétique, et le catalogue markdown qa/scenarios existant.

Le premier pack est volontairement restreint :

faux rappels personnels via la livraison cron locale
faux acheminements de réponses DM et de fils de discussion via qa-channel
faux rappels de préférences à partir des fichiers mémoire temporaires de l’espace de travail QA
fausses vérifications de non-écho de secrets
suivi d’outil sécurisé basé sur la lecture après un court tour de type approbation
comportement d’arrêt en cas de refus d’approbation pour une demande de lecture locale sensible
rapport d’état des tâches basé sur des preuves qui garde distincts les états en attente, bloqués et terminés
artefacts de diagnostic sûrs pour le partage qui conservent un statut utile en omettant le contenu personnel brut
revendications d’achèvement étayées par des preuves qui évitent les faux progrès avant l’existence de preuves locales

Scénarios

Les métadonnées lisibles par machine du pack se trouvent dans extensions/qa-lab/src/scenario-packs.ts. Exécutez le pack avec --pack personal-agent :

OPENCLAW_ENABLE_PRIVATE_QA_CLI=1 pnpm openclaw qa suite \
  --provider-mode mock-openai \
  --pack personal-agent \
  --concurrency 1

--pack est cumulatif avec des drapeaux --scenario répétés. Les scénarios explicites s’exécutent en premier, puis les scénarios du pack s’exécutent dans l’ordre QA_PERSONAL_AGENT_SCENARIO_IDS avec les doublons supprimés.

Le pack est conçu pour qa-channel avec mock-openai ou une autre voie locale de provider QA. Il ne doit pas être pointé vers des services de chat en direct ou de vrais comptes personnels.

Modèle de confidentialité

Les scénarios n’utilisent que de faux utilisateurs, de fausses préférences, de faux secrets et l’espace de travail temporaire de la passerelle QA créé par la suite. Ils ne doivent ni lire ni écrire dans la mémoire utilisateur, les sessions, les identifiants, les agents de lancement, les configurations globales ou l’état de la passerelle en direct du vrai OpenClaw.

Les artefacts restent dans le répertoire des artefacts de la suite QA existante et doivent être traités comme une sortie de test. Les vérifications de rédaction utilisent de faux marqueurs, les échecs sont donc sûrs à inspecter et à signaler dans les tickets.

Extension du pack

Ajoutez de nouveaux cas sous qa/scenarios/personal/, puis ajoutez l’identifiant du scénario à QA_PERSONAL_AGENT_SCENARIO_IDS. Gardez chaque cas petit, local, déterministe dans mock-openai, et axé sur un comportement d’assistant personnel.

Bons candidats pour la suite :

vérifications de l’export de trajectoire rédigée
vérifications du flux de travail des plugins locaux uniquement

Évitez d’ajouter un nouveau runner, plugin, dépendance, transport en direct ou juge de model jusqu’à ce que le catalogue de scénarios dispose de suffisamment de cas stables pour justifier cette surface.