数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

AI资讯

热点详情

实测OpenSquilla自我验证：AI编程信任问题彻底解决

AI热点日报时间：2026-07-03

热点解读

OpenSquilla通过红绿回归证据链实现AI编程的自我验证：先写失败测试证明问题存在，再修复代码使测试通过，最后运行回归测试确保无新问题。实测显示三关全过可自证代码正确性，将评价标准从承诺制转为举证制，提升长任务可信度。

上周GitHub上出现了一个令人眼前一亮的新项目：OpenSquilla。

实测OpenSquilla的

上线不到一个月，GitHub Star已经突破5000+。它的核心卖点听起来有些不可思议——让AI写代码时，自动生成可验证的证据链，证明代码的正确性。

说实话，AI编程一直存在一个难以根治的痛点：不是“写不对”，而是“写完以后无法确定对错”。许多AI Coding工具修改完就交付，是对是错还得靠人逐行复查，效率实际上大打折扣。

OpenSquilla的解决思路截然不同：将验证机制直接内化到Agent自身。这个方向确实值得深入探索，于是我花了两晚上仔细进行了实测。

先说它解决了什么核心问题

传统AI编程的工作流程通常如下：

用户提出需求
AI生成代码
人工验证代码是否正确
若不正确，让AI继续修改
循环反复，直到人工满意为止

这个流程的关键瓶颈在于：验证环节完全依赖人工。

对于简单的函数，比如写一个排序算法，验证成本很低。但对于复杂系统，比如实现分布式锁或复杂的状态机，验证成本会急剧上升——你不仅要自己编写测试用例，还要设计边界场景、运行回归测试，整个过程耗时费力。

OpenSquilla的做法则是：让AI在交付代码之前，先自行执行一遍“红绿回归证据链”。

核心技术：红绿回归证据链

它的工作流程分为三步，环环相扣：

第一步：写一个注定失败的测试

AI先编写一个测试用例，该测试用例用来验证“问题确实存在”。

举例来说，如果用户提出的需求是“修复排序函数在边界情况下的bug”，AI会先编写一个测试用例，验证“排序函数在某些输入下会返回错误结果”。

这个测试用例必须是红的——它必须失败，因为它证明的是bug的存在。

第二步：修复问题，让测试变绿

AI接着修复代码，使测试用例通过。

此时，如果测试从红变绿，就说明AI确实解决了问题。

第三步：运行回归测试

AI运行项目原有的所有测试用例，确保没有引入新问题。

如果所有测试均通过，则代码交付完成。

三步全部通过才算交付，任何一步不通过直接打回重做。

实测验证

我选取了一个极具代表性的场景：为开源项目 micrograd（Karpathy的自动微分库）新增一个“计算正确梯度”的功能。

这个功能的特点是：梯度一旦算错，模型不会报错也不会崩溃，只会悄悄越学越偏。这种bug最难发现，肉眼根本无法判断对错。

实测流程如下：

Step 1：AI编写失败测试

AI先写了一个测试用例，输入特定的梯度计算请求，预期输出是“梯度值在某个范围内”。结果测试失败——说明梯度计算确实存在问题。

Step 2：AI修复梯度计算

AI修改了梯度计算的代码，然后重新运行测试。这次测试通过了。

Step 3：AI运行回归测试

AI运行了micrograd原有的所有测试用例，确保没有破坏其他功能。所有测试均通过。

Step 4：AI与PyTorch对比

最后，AI将新功能计算出的梯度值与PyTorch计算出的标准答案进行了对比——前向值与每一个梯度在小数点后10位完全一致。

印象最深的三个发现

实测完成之后，我看到了几个有意思的点：

发现1：自我验证改变了评价标准

以往评价AI编程工具，看的是“它声称改对了没有”。现在有了自我验证，评价标准变成了“它能否自证改对了”。

这意味着，AI编程工具从“承诺制”转变成了“举证制”。

发现2：测试驱动开发被重新定义

传统TDD（测试驱动开发）是由人写测试、人验证。OpenSquilla将验证环节自动化，变成了AI写测试、AI验证。

这并不意味着人可以完全放手——人的角色转变为 “审核证据的人”，而不是“执行验证的人”。

发现3：长任务的可信度大幅提升

以前让AI执行一个复杂任务（比如重构一个模块），不放心让它自己跑，必须全程盯着。现在有了自我验证机制，可以先让AI自行运行，跑完之后查看它的“证据链”——三关全过，就信任它；任何一关不过，再介入人工。

技术细节：它是如何实现的

OpenSquilla的核心架构分为三层：

第一层：Agent层

负责理解用户需求，规划实现步骤，并决定是否需要生成测试。

第二层：Coding层

负责代码生成与修改。它有一个显著特点——每次修改都会自动生成对应的测试用例，而不是等用户问了才写。

第三层：验证层

负责执行测试、分析结果、决定是否继续。验证层有三种策略：

单元测试：验证单个函数的行为
集成测试：验证多个组件的协作
对比测试：与已知正确答案对比（如PyTorch）

判断：可验证性将成为AI编程的标配

实测下来，OpenSquilla解决的不是“AI写代码”的问题，而是“AI写代码的信任问题”。

在AI编程工具刚出现时，大家关注的是“能不能写对”。现在关注点已经转向“能不能证明写对了”。

这是一个很重要的转变——它意味着AI编程从“能用”走向“可信”。

未来，评估一个AI编程工具好不好，不仅看它生成的代码是否正确，还要看它是否具备自证对错的能力。

热点追踪提示词

你是一名 AI 行业编辑，请围绕下面这条热点输出一份资讯解读：
热点：实测OpenSquilla自我验证：AI编程信任问题彻底解决要求：
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题

来源：https://developer.volcengine.com/articles/7657798524826255414

ai AI解决方案

上一篇：大模型品牌存在感低？GEO监测运营方案全解析

下一篇：DeepSeek对话批量导出技术解构与工业级方案

游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

延伸阅读

iPhone 17系列液态硅胶壳曝光：8色可选+挂绳孔设计 iOS 26整合ChatGPT-5：AI全面赋能苹果智能生态真我828真粉节揭晓：10000mAh超大电池手机即将亮相？苹果折叠iPhone曝光：搭载自研C2基带芯片与Touch ID指纹识别对话元戎启行周光：VLA模型核心成本在AI芯片，辅助驾驶方案交付近10万套刘志强：京东方坚持开放合作，拒绝低质低价竞争 Redmi K90系列全系标配5000万长焦与3D超声波指纹，配置再升级 vivo X300系列曝光：天玑9500+2亿像素主摄，长焦微距实力升级

日榜
周榜
月榜

01 / 08-26iPhone 17系列液态硅胶壳曝光：8色可选+挂绳孔设计 02 / 08-26iOS 26整合ChatGPT-5：AI全面赋能苹果智能生态 03 / 08-26真我828真粉节揭晓：10000mAh超大电池手机即将亮相？ 04 / 08-26苹果折叠iPhone曝光：搭载自研C2基带芯片与Touch ID指纹识别 05 / 08-27对话元戎启行周光：VLA模型核心成本在AI芯片，辅助驾驶方案交付近10万套

01 / 本周AI驱动的员工英语口语教练Lucida 02 / 本周Screenshot2Code：截图转代码工具 03 / 本周SpeakStruct 语音转结构化数据可自定义模板 04 / 本周AI驱动语音治疗应用 IzzyAI 05 / 本周Grammar AI人工智能雅思备考工具

01 / 本月AI驱动的员工英语口语教练Lucida 02 / 本月Screenshot2Code：截图转代码工具 03 / 本月SpeakStruct 语音转结构化数据可自定义模板 04 / 本月AI驱动语音治疗应用 IzzyAI 05 / 本月Grammar AI人工智能雅思备考工具

热点快看

07-03 20:42AI驱动的员工英语口语教练Lucida 07-03 20:42Screenshot2Code：截图转代码工具 07-03 20:42SpeakStruct 语音转结构化数据可自定义模板 07-03 20:41AI驱动语音治疗应用 IzzyAI 07-03 20:41Grammar AI人工智能雅思备考工具

热点追踪

持续追踪iPhone 17系列液态硅胶壳曝光：8色可选+挂绳孔设计 持续追踪iOS 26整合ChatGPT-5：AI全面赋能苹果智能生态 持续追踪真我828真粉节揭晓：10000mAh超大电池手机即将亮相？ 持续追踪苹果折叠iPhone曝光：搭载自研C2基带芯片与Touch ID指纹识别