当前位置: 首页
科技数码
希伯来大学:AI工具实现研究问题到结构化数据库自动转化能力提升

希伯来大学:AI工具实现研究问题到结构化数据库自动转化能力提升

热心网友 时间:2026-04-21
转载


免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

这项由耶路撒冷希伯来大学计算机科学与工程学院联合该校法学院、以及艾伦人工智能研究所共同完成的研究,以预印本形式发布于2026年4月10日,论文编号为arXiv:2604.09237。有兴趣深入了解的读者可以通过该编号在arXiv平台上查阅完整论文。

研究背景:学者们每天都在做一件极其费力却又不得不做的苦差事

每当一位学者想要回答一个有意义的研究问题,往往要先经历一段漫长而痛苦的准备过程。以一位法学教授为例,他想搞清楚一件事:由不同届美国总统任命的法官,在处理移民禁令案件时,判决倾向是否存在差异?听起来是个很有价值的问题,但要回答它,首先得把数百份法庭判决文书一份一份翻出来,手动设计一张“记录表”(也就是所谓的注释模式,即annotation schema),决定要记录哪些信息——是任命总统?判决结果?还是法官的资历?然后再招募助理,一条一条地把数据从文书中抄录下来,填进表格。这个过程往往需要耗费数月乃至数年,而且充满了人为失误的风险。

这种“先设计表格、再人工填表”的流程,在法学、生物学、计算机科学等众多学科中普遍存在。研究人员每天面对的,是一座座由文字堆砌成的山,却只能用手铲一点点挖掘。更麻烦的是,表格里记录什么字段,往往取决于研究者自身的知识储备和对文献的了解程度——如果某个重要因素没有被想到,就会永远缺失在数据库里,影响最终分析的准确性。

正是为了解决这个问题,来自耶路撒冷的研究团队开发了一套名为ScheMatiQ的框架。这套系统的核心思路,可以用一句话来概括:你只需告诉它你想研究什么,以及你手上有哪些文件,它就能帮你自动设计记录表格,并把相关数据从文件里提取出来,形成一个结构化的数据库。

一、这套系统到底在做什么:从一个问题到一张有意义的表格

理解ScheMatiQ最直接的方式,是跟着它的工作流程走一遍。假设你是那位研究移民案件的法学教授,手上有89份美国法院判决文书,你的问题是:不同总统任命的法官,判决倾向有无差异?

ScheMatiQ接收到你的问题和这批文书后,会依次完成三件事。

第一件事,是弄清楚“你的问题在问谁”。这听起来有点玄,但实际上非常关键。研究者的问题,有时候是在问某一类具体的对象——在上面这个例子里,问的是“法官”这个群体;换一个问题,比如“移民禁令案件的结果受法院级别影响吗”,那关注的核心对象就变成了“庭审案件”本身,而不再是法官个人。ScheMatiQ把这个核心对象称为“观察单元”(observation unit),并通过阅读研究问题和一批示例文件,用AI模型自动判断出它是什么。这一步的输出非常具体:一个名称(比如“Judge,法官”)、一段描述(“在所提供法律文件中参与该案的单个法官个体”),以及几个具体例子(如“Ruth Bader Ginsburg”、“Antonin Scalia”)。

确定了“在问谁”之后,第二件事是设计记录表格的列,也就是“发现模式”(schema discovery)。系统会批量阅读文件,每处理一批,就向AI提一个问题:“这批文件里,有没有什么信息是对回答研究问题有帮助的,但还没被记录进表格里?”如果有,就把它加进去;如果没有新信息,就继续处理下一批,直到所有文件都读完,或者新字段不再出现为止。这个过程就像一个经验丰富的研究助理在读文献时,边读边往便利贴上记录关键发现,最后整理成一张完整的提问清单。

第三件事,是用这张清单去逐一填表,也就是“结构化数据提取”(structured data extraction)。系统对每份文件,先识别出其中提到了哪些观察单元实例(哪些法官出现在了这份判决书里),再对每个实例,尝试把表格里所有字段一次性填完。如果某些字段没有填上,系统会专门针对这些字段再做一次更有针对性的提取,直到实在找不到证据为止。最重要的是,每一个填入的数据,都必须附带“出处”——即原文中支撑该数据的具体文字段落,研究者可以随时点击查看,验证数据的来源是否准确。

二、人始终握着方向盘:系统不是在替代研究者,而是在辅助他们

ScheMatiQ的设计哲学中,有一个非常重要的坚持:人不能被系统架空。研究者在整个过程的每一个节点,都保留着干预和修改的权利。

在观察单元发现这一步,如果系统猜错了研究对象——比如把“法官”误认为“案件”——研究者可以直接在界面上修改,甚至完全手动指定。在模式发现这一步,研究者可以增加字段、删除字段、修改字段的定义,或者把意义相近的字段合并。如果研究者之后又获得了新的文件,还可以把它们继续投入系统,让系统在已有表格的基础上,发现是否有新的字段值得添加。在数据提取这一步,研究者可以对任何一个单元格的值进行修改,确保最终数据库里的每一条记录都经过了人工核查。

这种“AI提议、人来拍板”的协作方式,研究团队称之为“Human-in-the-Loop”,可以理解为“人在回路中”。核心逻辑是:AI擅长大规模、快速地扫描文本,发现人类因为精力有限而可能忽略的字段;但研究者才真正了解这个领域的逻辑,知道哪些字段是有意义的,哪些其实是噪声。两者结合,才能产出既覆盖面广、又在专业上站得住脚的数据库。

系统还有一个网页界面,提供了可视化的操作环境——研究者可以在界面上直接看到观察单元的识别结果、字段列表的定义和依据,以及提取出的数据表格,点击任意单元格还能查看支撑该数据的原文节选。这让整个流程不仅自动化程度高,而且透明可追溯。

三、在真实的研究场景里,它到底好不好用?

研究团队选择了两个截然不同的真实领域来检验ScheMatiQ的能力,这两个领域代表了两种不同类型的挑战。

第一个是法学领域。团队使用了由法学学者Klerman于2025年发布的研究数据集,包含89份美国法院关于移民政策的判决书,研究问题是:不同总统任命的联邦法官,在移民禁令案件中的投票倾向是否存在差异,特别是特朗普任命的法官是否更倾向于支持特朗普政府的移民政策?这个问题的挑战在于:法律文件篇幅长,论证结构复杂,核心信息往往隐藏在大段的法律推理之中。人工标注时,Klerman的团队为每份文件标注了法官姓名、任命总统、以及判决结果这三个字段。

第二个是计算生物学领域。团队使用了一个叫做NESdb的数据库,其源文献是96篇关于蛋白质核输出信号(Nuclear Export Signal,简称NES)的科学论文。研究问题是:给定一个蛋白质序列,能否判断它是否含有核输出信号?如果含有,信号的强度如何,可信度又有多高?这个领域的挑战与法学完全不同:蛋白质研究涉及大量数值数据、实验参数和高度专业化的技术细节,需要从密集的科学描述中精确提取定量信息。

两个领域的实验都基于一个公平的比较框架:研究者手上既有人工整理的“金标准”数据库(Gold Schema),也有ScheMatiQ自动生成的结果。首先比较两者在字段上的重叠程度,再让领域专家对ScheMatiQ独有的新字段进行价值评估。

四、数字背后的故事:ScheMatiQ发现了哪些人类遗漏的宝藏?

实验结果揭示了一个相当有趣的规律,可以用一张“维恩图”来理解。在法学领域,人工数据库和ScheMatiQ的字段集合并不是完全重合的两个圆,而是大量重叠、各有一部分独有的两个圆。具体来说,ScheMatiQ覆盖了人工数据库中绝大多数字段(只有两个相对宽泛的“杂项”字段没被纳入),同时还自行发现了一批人工标注中没有记录的新字段,这些新字段占到了ScheMatiQ总字段的31%。在计算生物学领域,这一比例是32%。

这些新字段有没有价值,不是系统自己说了算,而是由领域专家来打分的。法学领域的新字段平均获得了3.6分(满分5分),计算生物学领域的新字段平均获得了4.2分。换句话说,超过七成的新字段被专家认为是有实际研究价值的。其中,法学领域的新字段包括法院裁决的法律依据、禁令的适用范围、以及被挑战的政策所属的总统任期等;计算生物学领域的新字段则涉及NES(核输出信号)序列的突变描述、调控机制等更精细的维度。

这说明了一件很有意思的事:人工设计表格时,受限于精力和经验,往往只记录了“最显而易见”的字段,而ScheMatiQ通过大规模扫描整个文献库,能够发现那些“分布在边角文字里、不那么显眼但同样重要”的信息维度。

五、研究问题和文件缺一不可:只有两者结合,才能看清真正有用的字段

研究团队还做了一个很有说服力的对照实验,用来回答一个问题:ScheMatiQ之所以能发现好的字段,究竟是因为研究问题引导了它,还是因为文件让它看到了具体内容,还是两者缺一不可?

他们设计了三种输入条件:只给研究问题、只给文件、同时给研究问题和文件。结果显示,单独输入研究问题时,系统生成的字段倾向于高度抽象和通用,例如“法官姓名”或“蛋白质ID”——这些字段听起来没错,但过于宽泛,缺乏具体研究语境下的细节;单独输入文件时,系统确实能发现文件里存在的具体信息,但这些信息不一定和研究者真正关心的问题挂钩,容易产生大量“跑题”的字段;只有同时输入研究问题和文件,系统才能生成既有具体细节、又与研究目标高度相关的字段——例如“移民政策背景”(Immigration Policy Context)或“突变描述”(Mutation Description)。

值得关注的是,在三种输入条件产生的字段中,几乎没有三方都共同拥有的字段(即三圆维恩图中间的交集几乎为零)。这意味着,真正有价值的、面向具体研究问题的字段,并不是单靠问题或单靠文件就能发现的,必须是两者结合才能“化学反应”般地涌现出来。

六、找人的准确率怎么样:大多数情况下相当可靠,但高密度文件是软肋

除了表格设计,研究团队也评估了系统在“识别观察单元实例”这一环节的表现,也就是:在一份文件里,系统能正确找到多少个目标对象?

在计算生物学领域,ScheMatiQ识别出了87%的蛋白质;在法学领域,识别出了74%的法官。更重要的是,在两个领域中,系统的精确率都接近100%——它找到的对象几乎都是真实存在的,基本没有“认错人”的情况。

但问题出在哪里呢?研究团队做了细致的错误分析,发现漏识别几乎全部集中在“单个文件里涉及非常多观察单元”的情况下——也就是高密度文件。当一份文件只涉及一个或少数几个研究对象时,系统的识别率接近满分;但当一份文件里涉及大量不同的法官或蛋白质时,系统就容易遗漏其中一部分。这是一个明确的改进方向,研究团队也在论文中指出,未来工作可以专门针对这类高密度文件设计更有效的识别策略。

七、系统的技术构成:一个可以被研究者直接使用的开放工具

从技术实现角度来看,ScheMatiQ的架构分为三层。最外层是一个用React和TypeScript构建的网页前端,让研究者可以在浏览器里完成所有操作,无需写代码;中间层是一个FastAPI构建的后端服务,负责处理所有计算任务,并通过WebSocket向前端实时推送处理进度;最内层是一个独立的Python核心库,封装了观察单元发现、模式发现和数据提取三大核心模块。

在AI模型的选择上,研究团队在实验中使用了Google的Gemini-2.5系列——具体来说,模式发现和观察单元发现使用Gemini-2.5-flash,数据提取使用计算成本更低的Gemini-2.5-flash-lite。两个领域的完整实验(法学89份文件、计算生物学96篇论文)的总计算费用大约是每100份文件1美元,这个成本对于大多数研究项目来说是完全可以接受的。

如果研究者希望使用其他模型,也可以通过提供API密钥来接入Together.ai平台支持的任何模型;如果出于数据隐私考虑,希望在本地运行,系统还支持通过HuggingFace Transformers库加载开源模型。系统本身完全开源,代码和网页界面均已公开,研究者可以直接通过www.ScheMatiQ-ai.com访问并使用。

关于可复现性与隐私的坦诚说明

研究团队在论文中对两个潜在问题进行了坦率的说明。第一个是可复现性问题:由于使用了闭源的商业API,即使固定了所有参数,不同时间运行的结果也可能存在细微差异——这可能是模型内部的随机采样造成的,也可能是服务商悄悄更新了模型。这种差异通常很小,主要体现在字段命名的措辞或数值提取的边界情况上,但确实无法保证完全一致的输出。使用本地部署的开源模型可以在一定程度上缓解这个问题。第二个是数据隐私问题:系统默认不存储任何用户上传的文件或提问内容,只有在用户明确选择“同意为研究目的留存数据”时,才会进行记录。这对于处理敏感文件(如未发表的法律文书或机密实验数据)的研究者来说,是一个重要保障。

说到底,ScheMatiQ做的事情可以用一个朴素的比喻来描述:以前,研究者面对一座文字构成的山,要靠自己一行一行地读、一条一条地填,设计表格、填写数据全凭个人经验和精力。ScheMatiQ的出现,相当于给研究者配备了一个“初步读文献的助手”——这个助手速度极快,能在短时间内读完数百篇文献,提炼出关键维度,并把数据初步填入表格;然后把这张初稿交给研究者,由人来审核、修正、补充,做出最终决策。

这种人机协作的模式,对于任何需要从大量文字材料中提取结构化信息的研究场景,都有潜在的价值。无论是社会学者分析调查报告、历史学者梳理档案文献,还是医学研究者整理临床病例,背后的核心痛点都是相同的:问题明确,但文件太多,人工处理太慢、太容易出错。

当然,ScheMatiQ并不是万能的。它目前在“单个文件涉及大量研究对象”的情况下会出现遗漏,这是一个需要继续改进的方向。此外,由于依赖商业AI模型,输出结果的一致性也受到外部因素的影响。但从两个真实研究场景的评估结果来看,它确实能在覆盖绝大多数人工字段的同时,额外发现专家认可的有价值的新字段,这在实际研究中具有相当的意义。

对于普通读者来说,这项研究折射出一个更广泛的趋势:AI工具正在以越来越具体的方式进入学术研究的日常工作流程,不是取代研究者的判断,而是替代那些“机械重复但量大难以为继”的部分,让研究者的精力能更集中于真正需要专业判断的环节。这张由AI起草、由人审定的数据表格,或许就是未来很多研究的起点。有兴趣深入了解这套系统的技术细节和实验方法的读者,可以通过论文编号arXiv:2604.09237获取完整原文。

Q&A

Q1:ScheMatiQ是什么,它能用来做什么?

ScheMatiQ是由耶路撒冷希伯来大学开发的一套AI辅助研究工具。它的核心功能是:研究者只需输入一个自然语言描述的研究问题和一批相关文件,系统就能自动识别研究对象是什么、设计记录数据的表格结构、并从文件中提取填入相应数据,最终生成一个带有文献出处的结构化数据库。整个过程研究者可以随时介入修改。

Q2:ScheMatiQ和现有的AI搜索或文献综述工具有什么不同?

现有的很多“深度研究”类AI工具主要擅长检索和摘要,输出的是文字性的总结,难以直接用于统计分析,也很难追溯到具体文献来源。ScheMatiQ的不同在于,它输出的是结构化表格,每一个数据格都附有原文来源,研究者可以直接用于定量分析;同时它支持研究者全程编辑和干预,而不只是产出一个固定结果。

Q3:ScheMatiQ的使用费用高吗,普通研究者能负担得起吗?

根据论文中的测试,处理100份文件的总计算成本大约是1美元,两个完整的真实研究案例(共约185份文件)的总费用也在这个量级范围内。对于大多数学术研究项目来说,这个成本是相当低廉的。系统本身开源免费,研究者也可以选择接入更便宜的开源模型来进一步降低成本。

来源:https://www.163.com/dy/article/KR055S130511DTVV.html

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
千里科技全面押注“AI+车”,定位智能汽车综合解决方案提供商

千里科技全面押注“AI+车”,定位智能汽车综合解决方案提供商

4月22日,千里科技在北京五棵松M空间举行AI战略发布会,联席董事长赵明首次系统披露公司未来数年的AI发展路线,明确将自身定位从传统制造企业推向AI科技公司,并将汽车视为AI技术走向规模化落地的重要载体。这一战略转型正值智能驾驶行业从“百花齐放”向“头部集中”的关键时期,千里科技试图在L4自动驾驶商

时间:2026-04-23 17:36
2025年度拜耳中国科研合作奖揭晓

2025年度拜耳中国科研合作奖揭晓

2025年度拜耳中国科研合作奖揭晓 来源:环球网 4月22日,拜耳与北京大学、清华大学共同揭晓了2025年度拜耳中国科研合作奖的获奖名单。这个奖项体系可不简单,包含了“拜耳讲席教授”、“拜耳研究员”、“拜耳科研转化基金”和“拜耳博士后”等多个重量级奖项。话说回来,这并非一次孤立的评选,而是拜耳与中国

时间:2026-04-23 17:36
中汽协:1~3月前十位MPV生产企业共销售18万辆,东风公司、小鹏汽车等销量增长

中汽协:1~3月前十位MPV生产企业共销售18万辆,东风公司、小鹏汽车等销量增长

4月23日,据中国汽车工业协会统计分析,2026年1-3月,销量排名前十位的MPV生产企业共销售18万辆,占MPV销售总量的80 9%。 这个数据意味着什么?简单来说,国内MPV市场的集中度相当高,头部十家车企就吃掉了超过八成的市场份额。市场格局,由此可见一斑。 在上述十家企业中,与去年同期相比,上

时间:2026-04-23 17:02
A股风电概念股集体下跌,泰胜风能跌超11%

A股风电概念股集体下跌,泰胜风能跌超11%

风电板块今日承压,多只个股显著回调 今天A股市场的风电板块,整体表现有些乏力。板块内多只概念股出现了集体回调的态势。 具体来看,泰胜风能的调整幅度较为明显,跌幅超过了11%。紧随其后,天能重工的跌幅也超过了6%。行业龙头之一的明阳智能,股价下跌超过4%。此外,大金重工、天顺风能、电气风电等知名风电企

时间:2026-04-23 17:00
现货白银、纽约期银均跌逾2%

现货白银、纽约期银均跌逾2%

现货白银与纽约期银价格同步回落 市场波动说来就来。就在4月23日,贵金属市场经历了一轮明显的调整。现货白银的价格走势颇为引人关注,日内跌幅达到了2 36%,最终报收于75 945美元 盎司。无独有偶,纽约期银市场也同步承压,价格回落至每盎司76美元的关键心理关口下方,日内跌幅为2 53%。 从盘面表

时间:2026-04-23 17:00
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程