伯明翰大学推出AI诗歌评估新标准能否超越莎士比亚

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

伯明翰大学推出AI诗歌评估新标准能否超越莎士比亚

热心网友时间：2026-05-15

转载

诗歌，作为文学皇冠上的明珠，以其凝练的语言承载着深邃的情感与智慧。从莎士比亚的十四行诗到艾略特的《荒原》，经典诗篇无不映射着人类精神的丰饶。在人工智能技术飞速发展的今天，一个引人深思的问题随之产生：AI能否真正理解诗歌的灵魂，并创作出打动人心的诗作？

伯明翰大学发布诗歌生成评估新标准：AI能否成为下一个莎士比亚？

近期，一项发表于2026年国际学习表征会议（ICLR 2026）的研究，为这个问题提供了迄今为止最系统的解答。由英国伯明翰大学与意大利特伦托大学等机构组成的跨学科团队，共同推出了名为POEMetric的全新评估框架。这堪称是全球首个系统性衡量AI诗歌创作能力的“标尺”。

要理解这项研究的价值，首先要认识到诗歌创作本身的独特挑战。如果说散文是建造实用的房屋，那么诗歌便是在方寸之地构筑精妙的艺术宫殿。诗人不仅要在格律、韵律的严格规则中游刃有余，更需在有限的字句里，灌注无限的情感与意象。正是这种极致的约束与自由，使诗歌成为检验人工智能创造力的终极试金石。

然而，评估诗歌本身就是一个难题。传统方法往往过于关注形式合规性，如同只检查房屋结构是否牢固，却忽略了居住的美感与意境——它们侧重格律是否正确，而忽视了创意、情感等诗歌的灵魂要素。这就像评价一幅画时，只谈论色彩搭配，却无视其传递的情感冲击与深层意蕴。

为了填补这一评估空白，研究团队构建了POEMetric体系。它旨在扮演一位经验丰富的诗歌评论家，从多维度对诗作进行立体审视。其目标不仅是判断诗歌是否“合规”，更要探究它是否真正具备“艺术价值”与“感染力”。

一、诗歌评估的三重境界

POEMetric的评估逻辑清晰而富有层次，可理解为诗歌品鉴的三重境界。

第一重是“基础服从性”，如同检查学生是否按要求完成作业。主要考察两点：一是格律准确性，如同核对乐谱，评估诗歌的节奏与韵律模式是否准确；二是主题契合度，如同评判作文是否切题，考察内容是否紧密围绕给定主题展开。

第二重是“高级创作能力”，这是区分平庸与优秀诗作的关键。它细分为六个核心维度：

创意性：诗作是否提供了新颖独特的表达或视角？
词汇多样性：诗人的“文字调色盘”是否足够丰富多元？
独特性：作品是否带有鲜明、不可复制的个人印记？
情感共鸣：诗歌能否真正触及并打动读者的内心？
文学技巧：比喻、拟人等修辞手法运用得是否娴熟、自然、恰到好处？
意象营造：能否在读者脑海中勾勒出生动、深刻且富有意味的画面？

第三重是“整体评价”，即对诗歌的总体艺术质量进行综合打分，并进行一项关键测试：评判者能否准确分辨出该诗是出自人类之手，还是AI之笔？

二、构建诗歌评估的“黄金标准”

任何可靠的评估都需要一个坚实的基准。为此，研究团队精心收集了203首高质量的人类诗作，涵盖了民谣、十四行诗、五行打油诗等七种经典固定形式。选择固定形式并非偶然——这就像学习绘画先从素描基本功练起。明确的规则约束，使得评估更具客观性和可操作性。

团队对每首诗都进行了细致的“解剖”与标注，详尽记录其韵律、韵脚、主题和意象。这些标注不仅为了深入理解诗歌，更为后续训练自动化评估算法提供了宝贵的“教材”。

为确保评估公正，他们还开发了一套自动化形式检测算法。这套算法设定了一个合理的容错阈值（70%），既不会吹毛求疵要求绝对完美，也不会过分宽松降低标准，如同一位既严格又懂得鼓励的良师。

三、三十台AI诗人的创作大比拼

一场别开生面的“AI诗歌大赛”就此展开。研究团队邀请了来自七家顶尖科技公司的30个不同大型语言模型，按照与人类诗作相同的题目和格式要求进行创作，最终产生了超过六千首AI诗作。

谁来担任这场大赛的“主裁判”？经过多轮测试与比较，研究团队最终选择了Google的Gemini-2.5-Pro模型，因为其评估结果与人类专家的判断一致性最高。当然，为确保“裁判”本身的可靠性，七位人类诗歌专家（包括职业诗人、文学教授等）也对部分作品进行了独立评审。结果显示，AI裁判与人类专家的一致性达到了66.2%，这个数字相当可观，表明AI评估系统已具备了可靠的诗歌鉴别力。

四、令人深思的评估结果

评估结果呈现出清晰的“能力分层”。在“基础服从性”层面，顶级AI模型的表现堪称优秀。例如，Gemini-2.5-Pro在格律准确性上得分很高，在主题契合度上更是接近满分。这说明，现代AI已经像一位熟练的工匠，完全掌握了诗歌形式的“技术手册”。

然而，一旦进入“高级创作能力”的领域，差距便立刻显现。在“创意性”上，人类诗人得分遥遥领先；在“独特性”上，差距更为悬殊。这揭示了一个根本局限：AI可以娴熟地模仿风格，却难以注入源于独特生命体验的“灵魂”。每个人类诗人的笔触，都承载着其不可复制的个人历史与情感记忆，这正是AI目前难以逾越的鸿沟。

“情感共鸣”方面的差距同样显著。人类诗作的情感力量根植于真实的生命体验，而AI的情感表达，更像是对情感数据库模式的一种精密模拟，缺乏那份源自心底的真实震颤。

五、创作过程的神秘面纱

研究中一个格外引人入胜的发现，来自DeepSeek-R1模型。这个具备“思维链”功能的模型，能够展示其创作时的内部推理过程，就像让我们透过玻璃，观察一位诗人的构思轨迹。

它的创作过程系统得令人惊叹：先分析题目与格式要求，再规划整体结构，接着逐段发展主题，头脑风暴相关词汇与意象，并主动尝试融入各种文学技巧。更有趣的是，它还会进行自我批判，反思某个用词是否生动、某个比喻是否妥帖。这种高度理性、步步为营的创作方式，与人类诗人常有的灵感迸发、直觉驱动形成了鲜明对比，也促使我们思考：当机器展现出如此复杂的“思考”过程时，其创作本质与人类的区别究竟何在？

六、技术表现的深层分析

一些细节发现值得深入玩味。例如，在“词汇多样性”指标上，AI模型的平均得分竟然超过了人类诗人。但这未必是绝对优势。人类诗人为了营造特定氛围、强化情感或追求音乐性，会刻意选择甚至重复使用某些词汇；而AI的词汇丰富，有时可能只是“数据驱动的炫技”，而非艺术表达的内在需要。

另一个突出问题是“模式化重复”。AI诗作中常出现训练数据里已有的高频词汇组合，缺乏真正的原创性，就像学生过度依赖范文中的句式。此外，在“文学技巧”运用上，人类诗人展现了压倒性的优势——他们运用技巧更加自然、贴切，一切服务于整体意境；而AI的使用有时则显得生硬、刻意，为用而用。

七、意象营造的艺术差异

在意象营造上，人类诗人的天赋再次彰显。他们笔下的意象，往往是个人经验、文化背景与情感记忆的融合体，承载着深层的象征意义。而AI生成的意象虽然视觉上可能很美、很具体，却常常缺乏这种深厚的个人化与情感化内涵，显得空洞。

研究还发现，在意象选择偏好上，人类诗人更倾向于使用“水”、“神”、“光”等具有深厚文化象征意义的元素，而AI则偏爱“丝线”、“绽放”、“晶体”等具体、视觉化的意象。这反映了两者在意象理解层次上的差异：人类擅长调用深层的文化密码与集体无意识，AI则更聚焦于表面的画面感与词汇关联。

八、评估结果的更深层含义

在最终的“作者身份识别”测试中，无论是AI评估系统还是人类专家，都能以相当高的准确率将诗作归类。约四成的人类诗作能被识别出来，原因要么是AI记住了原作，要么是它识别出了特定诗人的独特风格。

这一发现具有双重意味：一方面，它强有力地印证了人类诗歌中那种难以模仿的个性“指纹”与风格印记；另一方面，它也表明现代AI已经具备了相当高级的文学风格鉴赏与识别能力。

在总体质量评分上，人类诗作以明显优势胜出。在艺术领域，这看似不大的分数差，往往意味着本质上的境界之别，区分了“技术合格”与“艺术动人”。

九、不同AI模型的表现特点

纵观30个参赛模型，其表现也各有千秋。大体上，参数规模更大、训练数据更丰富的模型表现更好，这符合AI能力的一般规律。但有趣的是，一些专门为复杂逻辑推理设计的“思维模型”，在诗歌创作这项更需要审美直觉的任务上，并未显出特殊优势。这或许提示我们，诗歌创作更需要的是对语言美感、情感张力和意象组织的直觉与领悟，而非纯粹的逻辑推演能力。

不同公司的模型也各有所长，有的在格律上精准无误，有的则在创意或词汇丰富性上稍胜一筹，这反映了不同技术路线与训练数据带来的特色。

十、研究的局限性与未来展望

当然，这项开创性研究也有其边界。它主要针对英语固定格式诗歌进行评估，而诗歌艺术深深植根于特定语言与文化土壤。对于中文诗歌、自由诗等其他形式，可能需要开发全新的评估方法。此外，受限于资源，人类专家评估的样本规模也有待进一步扩大。

尽管如此，这项研究无疑为AI诗歌乃至更广泛的AI文学创作评估，奠定了第一块坚实的基石。展望未来，POEMetric框架有望拓展至更多语言、文化及文学形式。随着多模态、具身认知等技术的演进，在创意和情感表达上更接近人类的AI诗人或许会出现。

说到底，这项研究最重要的启示，或许不在于判断AI能否取代人类诗人，而在于帮助我们更深刻地理解诗歌创作的本质，以及人类创造力中那些难以被算法言传与复制的独特之处。正如T.S.艾略特所强调的“听觉想象力”——那种声音、意义、情感与文化记忆的深度融合——这种能力，可能正是区分真正不朽诗篇与机械文字排列的关键所在。

面对AI在诗歌领域的表现，我们无需感到威胁，反而更应为人类创造力那份源于生命体验的独特性与深刻性而自豪。同时，以开放心态将AI视为一种强大的创作辅助工具与灵感碰撞伙伴，或许能开启人机协同创作的新篇章，共同将文学艺术推向我们未曾想象过的新高度。