希伯来大学:AI工具实现研究问题到结构化数据库自动转化能力提升

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

科技数码

希伯来大学:AI工具实现研究问题到结构化数据库自动转化能力提升

热心网友时间：2026-04-21

转载

免费影视、动漫、音乐、游戏、小说资源长期稳定更新！ 👉 点此立即查看 👈

这项由耶路撒冷希伯来大学计算机科学与工程学院联合该校法学院、以及艾伦人工智能研究所共同完成的研究，以预印本形式发布于2026年4月10日，论文编号为arXiv:2604.09237。有兴趣深入了解的读者可以通过该编号在arXiv平台上查阅完整论文。

研究背景：学者们每天都在做一件极其费力却又不得不做的苦差事

每当一位学者想要回答一个有意义的研究问题，往往要先经历一段漫长而痛苦的准备过程。以一位法学教授为例，他想搞清楚一件事：由不同届美国总统任命的法官，在处理移民禁令案件时，判决倾向是否存在差异？听起来是个很有价值的问题，但要回答它，首先得把数百份法庭判决文书一份一份翻出来，手动设计一张“记录表”（也就是所谓的注释模式，即annotation schema），决定要记录哪些信息——是任命总统？判决结果？还是法官的资历？然后再招募助理，一条一条地把数据从文书中抄录下来，填进表格。这个过程往往需要耗费数月乃至数年，而且充满了人为失误的风险。

这种“先设计表格、再人工填表”的流程，在法学、生物学、计算机科学等众多学科中普遍存在。研究人员每天面对的，是一座座由文字堆砌成的山，却只能用手铲一点点挖掘。更麻烦的是，表格里记录什么字段，往往取决于研究者自身的知识储备和对文献的了解程度——如果某个重要因素没有被想到，就会永远缺失在数据库里，影响最终分析的准确性。

正是为了解决这个问题，来自耶路撒冷的研究团队开发了一套名为ScheMatiQ的框架。这套系统的核心思路，可以用一句话来概括：你只需告诉它你想研究什么，以及你手上有哪些文件，它就能帮你自动设计记录表格，并把相关数据从文件里提取出来，形成一个结构化的数据库。

一、这套系统到底在做什么：从一个问题到一张有意义的表格

理解ScheMatiQ最直接的方式，是跟着它的工作流程走一遍。假设你是那位研究移民案件的法学教授，手上有89份美国法院判决文书，你的问题是：不同总统任命的法官，判决倾向有无差异？

ScheMatiQ接收到你的问题和这批文书后，会依次完成三件事。

第一件事，是弄清楚“你的问题在问谁”。这听起来有点玄，但实际上非常关键。研究者的问题，有时候是在问某一类具体的对象——在上面这个例子里，问的是“法官”这个群体；换一个问题，比如“移民禁令案件的结果受法院级别影响吗”，那关注的核心对象就变成了“庭审案件”本身，而不再是法官个人。ScheMatiQ把这个核心对象称为“观察单元”（observation unit），并通过阅读研究问题和一批示例文件，用AI模型自动判断出它是什么。这一步的输出非常具体：一个名称（比如“Judge，法官”）、一段描述（“在所提供法律文件中参与该案的单个法官个体”），以及几个具体例子（如“Ruth Bader Ginsburg”、“Antonin Scalia”）。

确定了“在问谁”之后，第二件事是设计记录表格的列，也就是“发现模式”（schema discovery）。系统会批量阅读文件，每处理一批，就向AI提一个问题：“这批文件里，有没有什么信息是对回答研究问题有帮助的，但还没被记录进表格里？”如果有，就把它加进去；如果没有新信息，就继续处理下一批，直到所有文件都读完，或者新字段不再出现为止。这个过程就像一个经验丰富的研究助理在读文献时，边读边往便利贴上记录关键发现，最后整理成一张完整的提问清单。

第三件事，是用这张清单去逐一填表，也就是“结构化数据提取”（structured data extraction）。系统对每份文件，先识别出其中提到了哪些观察单元实例（哪些法官出现在了这份判决书里），再对每个实例，尝试把表格里所有字段一次性填完。如果某些字段没有填上，系统会专门针对这些字段再做一次更有针对性的提取，直到实在找不到证据为止。最重要的是，每一个填入的数据，都必须附带“出处”——即原文中支撑该数据的具体文字段落，研究者可以随时点击查看，验证数据的来源是否准确。

二、人始终握着方向盘：系统不是在替代研究者，而是在辅助他们

ScheMatiQ的设计哲学中，有一个非常重要的坚持：人不能被系统架空。研究者在整个过程的每一个节点，都保留着干预和修改的权利。

在观察单元发现这一步，如果系统猜错了研究对象——比如把“法官”误认为“案件”——研究者可以直接在界面上修改，甚至完全手动指定。在模式发现这一步，研究者可以增加字段、删除字段、修改字段的定义，或者把意义相近的字段合并。如果研究者之后又获得了新的文件，还可以把它们继续投入系统，让系统在已有表格的基础上，发现是否有新的字段值得添加。在数据提取这一步，研究者可以对任何一个单元格的值进行修改，确保最终数据库里的每一条记录都经过了人工核查。

这种“AI提议、人来拍板”的协作方式，研究团队称之为“Human-in-the-Loop”，可以理解为“人在回路中”。核心逻辑是：AI擅长大规模、快速地扫描文本，发现人类因为精力有限而可能忽略的字段；但研究者才真正了解这个领域的逻辑，知道哪些字段是有意义的，哪些其实是噪声。两者结合，才能产出既覆盖面广、又在专业上站得住脚的数据库。

系统还有一个网页界面，提供了可视化的操作环境——研究者可以在界面上直接看到观察单元的识别结果、字段列表的定义和依据，以及提取出的数据表格，点击任意单元格还能查看支撑该数据的原文节选。这让整个流程不仅自动化程度高，而且透明可追溯。

三、在真实的研究场景里，它到底好不好用？

研究团队选择了两个截然不同的真实领域来检验ScheMatiQ的能力，这两个领域代表了两种不同类型的挑战。

第一个是法学领域。团队使用了由法学学者Klerman于2025年发布的研究数据集，包含89份美国法院关于移民政策的判决书，研究问题是：不同总统任命的联邦法官，在移民禁令案件中的投票倾向是否存在差异，特别是特朗普任命的法官是否更倾向于支持特朗普政府的移民政策？这个问题的挑战在于：法律文件篇幅长，论证结构复杂，核心信息往往隐藏在大段的法律推理之中。人工标注时，Klerman的团队为每份文件标注了法官姓名、任命总统、以及判决结果这三个字段。

第二个是计算生物学领域。团队使用了一个叫做NESdb的数据库，其源文献是96篇关于蛋白质核输出信号（Nuclear Export Signal，简称NES）的科学论文。研究问题是：给定一个蛋白质序列，能否判断它是否含有核输出信号？如果含有，信号的强度如何，可信度又有多高？这个领域的挑战与法学完全不同：蛋白质研究涉及大量数值数据、实验参数和高度专业化的技术细节，需要从密集的科学描述中精确提取定量信息。

两个领域的实验都基于一个公平的比较框架：研究者手上既有人工整理的“金标准”数据库（Gold Schema），也有ScheMatiQ自动生成的结果。首先比较两者在字段上的重叠程度，再让领域专家对ScheMatiQ独有的新字段进行价值评估。

四、数字背后的故事：ScheMatiQ发现了哪些人类遗漏的宝藏？

实验结果揭示了一个相当有趣的规律，可以用一张“维恩图”来理解。在法学领域，人工数据库和ScheMatiQ的字段集合并不是完全重合的两个圆，而是大量重叠、各有一部分独有的两个圆。具体来说，ScheMatiQ覆盖了人工数据库中绝大多数字段（只有两个相对宽泛的“杂项”字段没被纳入），同时还自行发现了一批人工标注中没有记录的新字段，这些新字段占到了ScheMatiQ总字段的31%。在计算生物学领域，这一比例是32%。

这些新字段有没有价值，不是系统自己说了算，而是由领域专家来打分的。法学领域的新字段平均获得了3.6分（满分5分），计算生物学领域的新字段平均获得了4.2分。换句话说，超过七成的新字段被专家认为是有实际研究价值的。其中，法学领域的新字段包括法院裁决的法律依据、禁令的适用范围、以及被挑战的政策所属的总统任期等；计算生物学领域的新字段则涉及NES（核输出信号）序列的突变描述、调控机制等更精细的维度。

这说明了一件很有意思的事：人工设计表格时，受限于精力和经验，往往只记录了“最显而易见”的字段，而ScheMatiQ通过大规模扫描整个文献库，能够发现那些“分布在边角文字里、不那么显眼但同样重要”的信息维度。

五、研究问题和文件缺一不可：只有两者结合，才能看清真正有用的字段

研究团队还做了一个很有说服力的对照实验，用来回答一个问题：ScheMatiQ之所以能发现好的字段，究竟是因为研究问题引导了它，还是因为文件让它看到了具体内容，还是两者缺一不可？

他们设计了三种输入条件：只给研究问题、只给文件、同时给研究问题和文件。结果显示，单独输入研究问题时，系统生成的字段倾向于高度抽象和通用，例如“法官姓名”或“蛋白质ID”——这些字段听起来没错，但过于宽泛，缺乏具体研究语境下的细节；单独输入文件时，系统确实能发现文件里存在的具体信息，但这些信息不一定和研究者真正关心的问题挂钩，容易产生大量“跑题”的字段；只有同时输入研究问题和文件，系统才能生成既有具体细节、又与研究目标高度相关的字段——例如“移民政策背景”（Immigration Policy Context）或“突变描述”（Mutation Description）。

值得关注的是，在三种输入条件产生的字段中，几乎没有三方都共同拥有的字段（即三圆维恩图中间的交集几乎为零）。这意味着，真正有价值的、面向具体研究问题的字段，并不是单靠问题或单靠文件就能发现的，必须是两者结合才能“化学反应”般地涌现出来。

六、找人的准确率怎么样：大多数情况下相当可靠，但高密度文件是软肋

除了表格设计，研究团队也评估了系统在“识别观察单元实例”这一环节的表现，也就是：在一份文件里，系统能正确找到多少个目标对象？

在计算生物学领域，ScheMatiQ识别出了87%的蛋白质；在法学领域，识别出了74%的法官。更重要的是，在两个领域中，系统的精确率都接近100%——它找到的对象几乎都是真实存在的，基本没有“认错人”的情况。

但问题出在哪里呢？研究团队做了细致的错误分析，发现漏识别几乎全部集中在“单个文件里涉及非常多观察单元”的情况下——也就是高密度文件。当一份文件只涉及一个或少数几个研究对象时，系统的识别率接近满分；但当一份文件里涉及大量不同的法官或蛋白质时，系统就容易遗漏其中一部分。这是一个明确的改进方向，研究团队也在论文中指出，未来工作可以专门针对这类高密度文件设计更有效的识别策略。

七、系统的技术构成：一个可以被研究者直接使用的开放工具

从技术实现角度来看，ScheMatiQ的架构分为三层。最外层是一个用React和TypeScript构建的网页前端，让研究者可以在浏览器里完成所有操作，无需写代码；中间层是一个FastAPI构建的后端服务，负责处理所有计算任务，并通过WebSocket向前端实时推送处理进度；最内层是一个独立的Python核心库，封装了观察单元发现、模式发现和数据提取三大核心模块。

在AI模型的选择上，研究团队在实验中使用了Google的Gemini-2.5系列——具体来说，模式发现和观察单元发现使用Gemini-2.5-flash，数据提取使用计算成本更低的Gemini-2.5-flash-lite。两个领域的完整实验（法学89份文件、计算生物学96篇论文）的总计算费用大约是每100份文件1美元，这个成本对于大多数研究项目来说是完全可以接受的。

如果研究者希望使用其他模型，也可以通过提供API密钥来接入Together.ai平台支持的任何模型；如果出于数据隐私考虑，希望在本地运行，系统还支持通过HuggingFace Transformers库加载开源模型。系统本身完全开源，代码和网页界面均已公开，研究者可以直接通过www.ScheMatiQ-ai.com访问并使用。

关于可复现性与隐私的坦诚说明

研究团队在论文中对两个潜在问题进行了坦率的说明。第一个是可复现性问题：由于使用了闭源的商业API，即使固定了所有参数，不同时间运行的结果也可能存在细微差异——这可能是模型内部的随机采样造成的，也可能是服务商悄悄更新了模型。这种差异通常很小，主要体现在字段命名的措辞或数值提取的边界情况上，但确实无法保证完全一致的输出。使用本地部署的开源模型可以在一定程度上缓解这个问题。第二个是数据隐私问题：系统默认不存储任何用户上传的文件或提问内容，只有在用户明确选择“同意为研究目的留存数据”时，才会进行记录。这对于处理敏感文件（如未发表的法律文书或机密实验数据）的研究者来说，是一个重要保障。

说到底，ScheMatiQ做的事情可以用一个朴素的比喻来描述：以前，研究者面对一座文字构成的山，要靠自己一行一行地读、一条一条地填，设计表格、填写数据全凭个人经验和精力。ScheMatiQ的出现，相当于给研究者配备了一个“初步读文献的助手”——这个助手速度极快，能在短时间内读完数百篇文献，提炼出关键维度，并把数据初步填入表格；然后把这张初稿交给研究者，由人来审核、修正、补充，做出最终决策。

这种人机协作的模式，对于任何需要从大量文字材料中提取结构化信息的研究场景，都有潜在的价值。无论是社会学者分析调查报告、历史学者梳理档案文献，还是医学研究者整理临床病例，背后的核心痛点都是相同的：问题明确，但文件太多，人工处理太慢、太容易出错。

当然，ScheMatiQ并不是万能的。它目前在“单个文件涉及大量研究对象”的情况下会出现遗漏，这是一个需要继续改进的方向。此外，由于依赖商业AI模型，输出结果的一致性也受到外部因素的影响。但从两个真实研究场景的评估结果来看，它确实能在覆盖绝大多数人工字段的同时，额外发现专家认可的有价值的新字段，这在实际研究中具有相当的意义。

对于普通读者来说，这项研究折射出一个更广泛的趋势：AI工具正在以越来越具体的方式进入学术研究的日常工作流程，不是取代研究者的判断，而是替代那些“机械重复但量大难以为继”的部分，让研究者的精力能更集中于真正需要专业判断的环节。这张由AI起草、由人审定的数据表格，或许就是未来很多研究的起点。有兴趣深入了解这套系统的技术细节和实验方法的读者，可以通过论文编号arXiv:2604.09237获取完整原文。