AI 小秘的权限,以及正解

抛开技术是否能做到不谈,究竟什么样的 AI 助手才算是真正能帮上忙、又让人放心的。今天收到了 DMV 的信,提醒车牌要续费,我就用 OpenCode 试了一下。装好 opencode-browser 的 Chrome Extension,把信拍照发给它,它立刻就开始处理。

模型先用 GPT-5.2 Codex 试一下。

识别任务和内容本身没有问题,但它一开始懵懂地不知道自己已经具备控制浏览器的 SKILL。经过提醒后,还是显得有些想偷懒。给了更明确的指示,才终于开始操作。

不肯输入车牌等信息,把它们归类为个人敏感信息。我一开始怀疑这是写在 SKILL 里的,它说不是。试着用更强硬的提示词去“劫持”,当然在这个年代不可能成功了。最后怀疑是模型对齐的问题,于是改用 Gemini 3 Flash。

Gemini 这货内心挣扎了许久,还是从了。开始填表。

能从信件的收信人地址部分猜出来,加分。

邮编格式有误,也能自动纠错,加分。

接着到了选择“标准续牌”还是“非使用续牌”的环节,这一步它的选择是正确的,但给出的理由确实是瞎掰的。随后就来到了付款阶段。

两个选项:信用卡收 1.95% 手续费,eCheck 不收费用。它惺惺作态地说要问问我,转念又说先选信用卡。小钱就不是钱了,真阔绰。

来到填写信用卡信息这一步,它总算停下来了。给了一个综述,也列出了手续费,但并没有明确说明这是使用信用卡造成的,也没有告诉我其实可以选择 eCheck,完全免手续费。

这是 OpenCode 加 OpenAI 和 Google 模型的使用浏览器的 agentic 体验。

昨天装了 ClawdBot,在配置的时候,感觉它要的权限有点让我不舒服,甚至有 1password 的插件!我毕竟还是很清楚当前的模型能天马行空到什么程度的,怎能给它 1password 的权限?

然而,回到开头说的,模型能力是技术问题,如果抛开技术不谈,或者假设模型不犯傻,到底 AI 小秘的权限边界在哪里?也可以说是对我的一切了解程度的边界在哪里?

我有一张返点超过 1.95% 的信用卡,所以最后我自己操作时确实选择了信用卡支付,但也仅限于那张卡。AI 小秘需要知道这些吗?我们使用 AI 小秘,追求的是唯一最优解,还是一般正解。上帝视角,万一真正的最优解是:先不缴费,马上帮我申请一张更高返点的卡,只要在逾期之前收到卡缴了费就好了。这种最优解是我们需要的吗?

这不正对应了伊利亚(Ilya Sutskever)两个月前采访里说的:当前 AI 还缺乏类似人类的“价值函数”。

刚开年,我就觉得 2026 年注定是 AI 开始 “干人活” 的元年。我们日常生活中大部分”活儿“,其实只需要正解,甚至只要有解,并无需最优解(假设真的存在一个有价值的最优解)。