当前位置: 首页
AI
基于百度自研模型ERNIE进行事件抽取任务

基于百度自研模型ERNIE进行事件抽取任务

热心网友 时间:2025-07-21
转载
信息抽取旨在从非结构化自然语言文本中提取结构化知识,如实体、关系、事件等。事件抽取是信息抽取的一种,其目标是对于给定的自然语言句子,根据预先指定的事件类型和论元角色,识别句子中所有目标事件类型的事件,并根据相应的论元角色集合抽取事件所对应的论元。其中目标事件类型 (event_type) 和论元角色 (role) 限定了抽取的范围。

基于百度自研模型ernie进行事件抽取任务 - 游乐网

基于百度自研模型ERNIE进行事件抽取任务

信息抽取旨在从非结构化自然语言文本中提取结构化知识,如实体、关系、事件等。事件抽取是信息抽取的一种,其目标是对于给定的自然语言句子,根据预先指定的事件类型和论元角色,识别句子中所有目标事件类型的事件,并根据相应的论元角色集合抽取事件所对应的论元。其中目标事件类型 (event_type) 和论元角色 (role) 限定了抽取的范围。

图1展示了一个关于事件抽取的样例,可以看到原句子描述中一共计包含了2个事件类型event_type:胜负和夺冠,其中对于胜负事件类型,论元角色role包含时间,胜者,败者,赛事名称;对于夺冠事件类型,论元角色role包含夺冠事件,夺冠赛事,冠军。总而言之,事件抽取期望从这样非结构化的文本描述中,提取出事件类型和元素角色的结构化信息。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

基于百度自研模型ERNIE进行事件抽取任务 - 游乐网        
图1 事件抽取样例

本案例将基于ERNIE模型,在DuEE 1.0数据集上进行事件抽取任务。


       

学习资源


       更多的深度学习资料,比如深度学习知识,论文解读,实践案例等,请参考:awesome-DeepLearning更多飞桨框架相关资料,请参考:飞桨深度学习平台

⭐ ⭐ ⭐ 欢迎点个小小的Star,开源不易,希望大家多多支持~⭐ ⭐ ⭐

基于百度自研模型ERNIE进行事件抽取任务 - 游乐网    

1. 方案设计

本实践设计方案如图2所示,本案例将采用分阶段地方式,分别训练触发词识别和事件元素识别两个模型去抽取对应的触发词和事件元素。模型的输入是一串描述事件的文本,模型的输出是从事件描述中提取的事件类型,事件元素等信息。

具体而言,在建模过程中,对于输入的待分析事件描述文本,首先需要进行数据处理生成规整的文本序列数据,包括语句分词、将词转换为id,过长文本截断、过短文本填充等等操作;然后,将规整的数据传到触发词识别模型中,识别出事件描述中的触发词,并且根据触发词判断该事件的类型;接下来,将规整的数据继续传入事件元素识别模型中,并确定这些事件元素的角色;最后将两个模型的输出内容进行汇总,获得最终的提取事件结果,其将主要包括事件类型,事件元素和事件角色。

基于百度自研模型ERNIE进行事件抽取任务 - 游乐网        
图2 事件提取设计方案

       

其中本案例中我们将触发词识别模型和事件元素模型定义为序列标注任务,两者均将采用ERNIE模型完成数据标注任务,从而分别抽取出事件类型和事件元素,后续会将两者的结果进行汇总,得到最终的事件提取结果。

对于触发词抽取模型,该部分主要是给定事件类型,识别句子中出现的事件触发词对应的位置以及对应的事件类别,模型原理图如下:

基于百度自研模型ERNIE进行事件抽取任务 - 游乐网        
图3 触发词抽取模型图

       

可以看到上述样例中通过模型识别出:1)触发词"收购",并分配标签"B-收购"、"I-收购"。同样地,对于论元抽取模型,该部分主要是识别出事件中的论元以及对应论元角色,模型原理图如下:

基于百度自研模型ERNIE进行事件抽取任务 - 游乐网        
图4 论元抽取模型

       

可以看到上述样例中通过模型识别出:1)触发词"新东方",并分配标签"B-收购方"、"I-收购方"、"I-收购方";2)论元"东方优播", 并分配标签"B-被收购方"、"I-被收购方"、"I-被收购方"、"I-被收购方"。

2. 数据处理

2.1 数据集介绍

DuEE 1.0是百度发布的中文事件抽取数据集,包含65个事件类型的1.7万个具有事件信息的句子(2万个事件)。事件类型根据百度风云榜的热点榜单选取确定,具有较强的代表性。65个事件类型中不仅包含「结婚」、「辞职」、「地震」等传统事件抽取评测中常见的事件类型,还包含了「点赞」等极具时代特征的事件类型。具体的事件类型及对应角色见表3。数据集中的句子来自百度信息流资讯文本,相比传统的新闻资讯,文本表达自由度更高,事件抽取的难度也更大。

在实验之前,请确保下载DuEE1.0数据,并将其解压后的如下四个数据文件放在./dataset目录下:

duee_train.json: 原训练集数据文件duee_dev.json: 原开发集数据文件duee_test.json: 原测试集数据文件duee_event_schema.json: DuEE1.0事件抽取模式文件,其定义了事件类型和事件元素角色等内容

其中单条样本的格式如下所示:

{    "text":"华为手机已经降价,3200万像素只需千元,性价比小米无法比。",    "id":"2d41b63e42127b9e8e0416484e9ebd05",    "event_list":[        {            "event_type":"财经/交易-降价",            "trigger":"降价",            "trigger_start_index":6,            "arguments":[                {                    "argument_start_index":0,                    "role":"降价方",                    "argument":"华为",                    "alias":[                    ]                },                {                    "argument_start_index":2,                    "role":"降价物",                    "argument":"手机",                    "alias":[                    ]                }            ],            "class":"财经/交易"        }    ]}
登录后复制    

2.2 数据加载

从上边展示的样例可以看到,我们无法将这样的数据直接传入模型中,这样的数据格式离我们模型的输入格式差别还比较大,因此我将基于这些原数据生成适合加载和训练的中间数据格式,如图6所示。我们将原始的数据进行处理分别生成用于触发词识别和事件元素识别的数据,分别存放于./dataset/trigger和./dataset/role目录下,同时根据duee_event_schema.json生成两种模型所用的词典,存放于./dataset/dict目录下。

基于百度自研模型ERNIE进行事件抽取任务 - 游乐网        
图6 数据处理成中间格式数据样例

       

在将数据处理成中间格式数据之后,便可以调用数据加载函数将中间数据加载至内存之中,相关代码如下。

In [1]
import osimport randomimport numpy as npfrom functools import partialfrom seqeval.metrics.sequence_labeling import get_entitiesimport paddleimport paddle.nn.functional as Ffrom paddlenlp.datasets import load_datasetfrom paddlenlp.transformers import ErnieTokenizer, ErnieModel, LinearDecayWithWarmupfrom paddlenlp.data import Stack, Pad, Tuplefrom paddlenlp.metrics import ChunkEvaluatorfrom utils.utils import set_seed, format_printfrom utils.data import data_prepare, read, convert_example_to_features, load_dict, load_schema# convert original DuEE dataset to intermediate formatdata_prepare("./dataset")# load trigger data to memorytrigger_dict_path = "./dataset/dict/trigger.dict"trigger_train_path = "./dataset/trigger/duee_train.tsv"trigger_dev_path = "./dataset/trigger/duee_train.tsv"trigger_tag2id, trigger_id2tag = load_dict(trigger_dict_path)trigger_train_ds = load_dataset(read, data_path=trigger_train_path, lazy=False)trigger_dev_ds = load_dataset(read, data_path=trigger_dev_path, lazy=False)# load role data to memoryrole_dict_path = "./dataset/dict/role.dict"role_train_path = "./dataset/role/duee_train.tsv"role_dev_path = "./dataset/role/duee_train.tsv"role_tag2id, role_id2tag = load_dict(role_dict_path)role_train_ds = load_dataset(read, data_path=role_train_path, lazy=False)role_dev_ds = load_dataset(read, data_path=role_dev_path, lazy=False)
登录后复制    

2.3 将数据转换成特征形式

在将数据加载完成后,接下来,我们将触发词数据和事件元素数据转换成适合输入模型的特征形式,即将文本字符串数据转换成字典id的形式。这里我们要加载paddleNLP中的ErnieTokenizer,其将帮助我们完成这个字符串到字典id的转换。

In [ ]
model_name = "ernie-1.0"max_seq_len = 300batch_size = 32tokenizer = ErnieTokenizer.from_pretrained(model_name)# convert trigger data to featurestrigger_trans_func = partial(convert_example_to_features, tokenizer=tokenizer, tag2id=trigger_tag2id, max_seq_length=max_seq_len, pad_default_tag="O", is_test=False)trigger_train_ds = trigger_train_ds.map(trigger_trans_func, lazy=False)trigger_dev_ds = trigger_dev_ds.map(trigger_trans_func, lazy=False)# conver role data to featuresrole_trans_func = partial(convert_example_to_features, tokenizer=tokenizer, tag2id=role_tag2id, max_seq_length=max_seq_len, pad_default_tag="O", is_test=False)role_train_ds = role_train_ds.map(role_trans_func, lazy=False)role_dev_ds = role_dev_ds.map(role_trans_func, lazy=False)
登录后复制    

2.4 构造DataLoader

接下来,我们需要构造触发词数据和事件元素数据的DataLoader,该DataLoader将支持以batch的形式将数据进行划分,从而以batch的形式训练相应模型。

In [ ]
batchify_fn = lambda samples, fn=Tuple(        Pad(axis=0, pad_val=tokenizer.pad_token_id), # input_ids        Pad(axis=0, pad_val=tokenizer.pad_token_type_id), # token_type        Stack(), # seq len        Pad(axis=0, pad_val=-1) # tag_ids    ): fn(samples)# construct trigger dataloadertrigger_train_batch_sampler = paddle.io.DistributedBatchSampler(trigger_train_ds, batch_size=batch_size, shuffle=True)trigger_dev_batch_sampler = paddle.io.DistributedBatchSampler(trigger_dev_ds, batch_size=batch_size, shuffle=False)trigger_train_loader = paddle.io.DataLoader(trigger_train_ds, batch_sampler=trigger_train_batch_sampler, collate_fn=batchify_fn)trigger_dev_loader = paddle.io.DataLoader(trigger_dev_ds, batch_sampler=trigger_dev_batch_sampler, collate_fn=batchify_fn)# construct role dataloderrole_train_batch_sampler = paddle.io.DistributedBatchSampler(role_train_ds, batch_size=batch_size, shuffle=True)role_dev_batch_sampler = paddle.io.DistributedBatchSampler(role_dev_ds, batch_size=batch_size, shuffle=False)role_train_loader = paddle.io.DataLoader(role_train_ds, batch_sampler=role_train_batch_sampler, collate_fn=batchify_fn)role_dev_loader = paddle.io.DataLoader(role_dev_ds, batch_sampler=role_dev_batch_sampler, collate_fn=batchify_fn)
登录后复制    

3 模型构建

本案例中,我们将基于ERNIE实现图5所展示的序列标注功能。具体来讲,我们将处理好的文本数据输入ERNIE模型中,ERNIE将会对文本的每个token进行编码,产生对应向量序列,然后根据每个token位置的向量进行分类以获得相应位置的序列标签。相应代码如下。

In [ ]
import paddleimport paddle.nn as nnclass ErnieForTokenClassification(paddle.nn.Layer):    def __init__(self, ernie, num_classes=2, dropout=None):        super(ErnieForTokenClassification, self).__init__()        self.num_classes = num_classes        self.ernie = ernie        self.dropout = nn.Dropout(dropout if dropout is not None else self.ernie.config["hidden_dropout_prob"])        self.classifier = nn.Linear(self.ernie.config["hidden_size"], num_classes)    def forward(self, input_ids, token_type_ids=None, position_ids=None, attention_mask=None):        sequence_output, _ = self.ernie(input_ids, token_type_ids=token_type_ids, position_ids=position_ids, attention_mask=attention_mask)        sequence_output = self.dropout(sequence_output)        logits = self.classifier(sequence_output)        return logits
登录后复制    

4. 训练配置

定义触发词模型和事件元素识别模型训练时的环境,包括:配置训练参数、配置模型参数,定义模型的实例化对象,指定模型训练迭代的优化算法等,相关代码如下。

In [ ]
# model hyperparameter  settingnum_epoch = 20learning_rate = 5e-5weight_decay = 0.01warmup_proportion = 0.1log_step = 20eval_step = 100seed = 1000save_path = "./checkpoint"use_gpu = True if paddle.get_device().startswith("gpu") else Falseif use_gpu:    paddle.set_device("gpu:0")# trigger model settingtrigger_model = ErnieForTokenClassification(ErnieModel.from_pretrained(model_name), num_classes=len(trigger_tag2id))trigger_num_training_steps = len(trigger_train_loader) * num_epochtrigger_lr_scheduler = LinearDecayWithWarmup(learning_rate, trigger_num_training_steps, warmup_proportion)trigger_decay_params = [p.name for n, p in trigger_model.named_parameters() if not any(nd in n for nd in ["bias", "norm"])]trigger_optimizer = paddle.optimizer.AdamW(learning_rate=trigger_lr_scheduler, parameters=trigger_model.parameters(), weight_decay=weight_decay, apply_decay_param_fun=lambda x: x in trigger_decay_params)trigger_metric = ChunkEvaluator(label_list=trigger_tag2id.keys(), suffix=False)# role model settingrole_model = ErnieForTokenClassification(ErnieModel.from_pretrained(model_name), num_classes=len(role_tag2id))role_num_training_steps = len(role_train_loader) * num_epochrole_lr_scheduler = LinearDecayWithWarmup(learning_rate, role_num_training_steps, warmup_proportion)role_decay_params = [p.name for n, p in role_model.named_parameters() if not any(nd in n for nd in ["bias", "norm"])]role_optimizer = paddle.optimizer.AdamW(learning_rate=role_lr_scheduler, parameters=role_model.parameters(), weight_decay=weight_decay, apply_decay_param_fun=lambda x: x in role_decay_params)role_metric = ChunkEvaluator(label_list=role_tag2id.keys(), suffix=False)
登录后复制    

5. 模型训练与评估

本节我们将定义一个通用的train函数和evaluate函数,通过指定"trigger"和"role"参数便可以训练相应的模型。在训练过程中,每隔log_steps步打印一次日志,每隔eval_steps步进行评估一次模型,并始终保存验证效果最好的模型。

In [ ]
# start to evaluate modeldef evaluate(model, data_loader, metric):    model.eval()    metric.reset()    for batch_data in data_loader:        input_ids, token_type_ids, seq_lens, tag_ids = batch_data        logits = model(input_ids, token_type_ids)        preds = paddle.argmax(logits, axis=-1)        n_infer, n_label, n_correct = metric.compute(seq_lens, preds, tag_ids)        metric.update(n_infer.numpy(), n_label.numpy(), n_correct.numpy())        precision, recall, f1_score = metric.accumulate()    return precision, recall, f1_score# start to train modeldef train(model_flag):    # parse model_flag    assert model_flag in ["trigger", "role"]    if model_flag == "trigger":        model = trigger_model        train_loader, dev_loader = trigger_train_loader, trigger_dev_loader        optimizer, lr_scheduler, metric = trigger_optimizer, trigger_lr_scheduler, trigger_metric        tag2id, num_training_steps = trigger_tag2id, trigger_num_training_steps    else:        model = role_model        train_loader, dev_loader = role_train_loader, role_dev_loader        optimizer, lr_scheduler, metric = role_optimizer, role_lr_scheduler, role_metric        tag2id, num_training_steps = role_tag2id, role_num_training_steps    global_step, best_f1 = 0,  0.    model.train()    for epoch in range(1, num_epoch+1):        for batch_data in train_loader:            input_ids, token_type_ids, seq_len, tag_ids = batch_data            # logits: [batch_size, seq_len, num_tags] --> [batch_size*seq_len, num_tags]            logits = model(input_ids, token_type_ids).reshape([-1, len(tag2id)])            loss = paddle.mean(F.cross_entropy(logits, tag_ids.reshape([-1]), ignore_index=-1))            loss.backward()            lr_scheduler.step()            optimizer.step()            optimizer.clear_grad()            if global_step > 0 and global_step % log_step == 0:                print(f"{model_flag} - epoch: {epoch} - global_step: {global_step}/{num_training_steps} - loss:{loss.numpy().item():.6f}")            if global_step > 0 and global_step % eval_step == 0:                precision, recall, f1_score = evaluate(model, dev_loader, metric)                model.train()                if f1_score > best_f1:                    print(f"best F1 performence has been updated: {best_f1:.5f} --> {f1_score:.5f}")                    best_f1 = f1_score                    paddle.save(model.state_dict(), f"{save_path}/{model_flag}_best.pdparams")                print(f'{model_flag} evalution result: precision: {precision:.5f}, recall: {recall:.5f},  F1: {f1_score:.5f} current best {best_f1:.5f}')            global_step += 1    paddle.save(model.state_dict(), f"{save_path}/{model_flag}_final.pdparams")# train trigger modeltrain("trigger")print("training trigger end!")# train role modeltrain("role")print("training role end!")
登录后复制    

6. 模型推理

实现一个模型预测的函数,实现任意输入一串事件描述,如:"华为手机已经降价,3200万像素只需千元,性价比小米无法比!",期望能够输出这段描述蕴含的事件。首先我们先加载训练好的模型参数,然后进行推理。相关代码如下。

In [ ]
# load tokenizer model_name = "ernie-1.0"tokenizer = ErnieTokenizer.from_pretrained(model_name)# load schemaschema_path = "./dataset/duee_event_schema.json"schema = load_schema(schema_path)# load dict trigger_tag_path = "./dataset/dict/trigger.dict"trigger_tag2id, trigger_id2tag = load_dict(trigger_tag_path)role_tag_path = "./dataset/dict/role.dict"role_tag2id, role_id2tag = load_dict(role_tag_path)# load trigger modeltrigger_model_path = "./checkpoint/trigger_best.pdparams"trigger_state_dict = paddle.load(trigger_model_path)trigger_model = ErnieForTokenClassification(ErnieModel.from_pretrained(model_name), num_classes=len(trigger_tag2id))trigger_model.load_dict(trigger_state_dict)# load role modelrole_model_path = "./checkpoint/role_best.pdparams"role_state_dict = paddle.load(role_model_path)role_model = ErnieForTokenClassification(ErnieModel.from_pretrained(model_name), num_classes=len(role_tag2id))role_model.load_dict(role_state_dict)
登录后复制    In [ ]
def predict(input_text, trigger_model, role_model, tokenizer, trigger_id2tag, role_id2tag, schema):    trigger_model.eval()    role_model.eval()    splited_input_text = list(input_text.strip())    features = tokenizer(splited_input_text, is_split_into_words=True, max_seq_len=max_seq_len, return_length=True)    input_ids = paddle.to_tensor(features["input_ids"]).unsqueeze(0)    token_type_ids = paddle.to_tensor(features["token_type_ids"]).unsqueeze(0)    seq_len = features["seq_len"]    trigger_logits = trigger_model(input_ids, token_type_ids)    trigger_preds = paddle.argmax(trigger_logits, axis=-1).numpy()[0][1:seq_len]    trigger_preds = [trigger_id2tag[idx] for idx in trigger_preds]    trigger_entities = get_entities(trigger_preds, suffix=False)    role_logits = role_model(input_ids, token_type_ids)    role_preds = paddle.argmax(role_logits, axis=-1).numpy()[0][1:seq_len]    role_preds = [role_id2tag[idx] for idx in role_preds]    role_entities = get_entities(role_preds, suffix=False)    events = []    visited = set()    for event_entity in trigger_entities:        event_type, start, end = event_entity        if event_type in visited:            continue        visited.add(event_type)        events.append({"event_type":event_type, "trigger":"".join(splited_input_text[start:end+1]), "arguments":[]})    for event in events:        role_list = schema[event["event_type"]]        for role_entity in role_entities:            role_type, start, end = role_entity            if role_type not in role_list:                continue            event["arguments"].append({"role":role_type, "argument":"".join(splited_input_text[start:end+1])})    format_print(events)text = "华为手机已经降价,3200万像素只需千元,性价比小米无法比!"predict(text, trigger_model, role_model, tokenizer, trigger_id2tag, role_id2tag, schema)
登录后复制    

7. 更多深度学习资源

7.1 一站式深度学习平台awesome-DeepLearning

深度学习入门课
基于百度自研模型ERNIE进行事件抽取任务 - 游乐网        
深度学习百问
基于百度自研模型ERNIE进行事件抽取任务 - 游乐网        
特色课
基于百度自研模型ERNIE进行事件抽取任务 - 游乐网        
产业实践
基于百度自研模型ERNIE进行事件抽取任务 - 游乐网        


       

来源:https://www.php.cn/faq/1420098.html

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
逼AI当山顶洞人!Claude防话痨插件爆火,网友:受够了AI废话

逼AI当山顶洞人!Claude防话痨插件爆火,网友:受够了AI废话

新智元报道编辑:元宇【新智元导读】一个让AI像原始人一样说话的插件,在HN上一夜爆火,冲破2w星。它的核心只是一条简单粗暴的prompt:删掉冠词、客套和一切废话,号称能省下75%的输出token。

时间:2026-04-07 14:55
季度利润翻 8 倍,最赚钱的「卖铲人」财报背后,内存涨价狂潮如何收场?

季度利润翻 8 倍,最赚钱的「卖铲人」财报背后,内存涨价狂潮如何收场?

AI 时代最赚钱的公司,可能从来不是做 AI 的那个。作者|张勇毅编辑|靖宇淘金热里最稳赚的人,从来不是淘金的,是卖铲子的。这句老话在 2026 年的科技行业又应验了一次。只不过这次卖铲子的不是英伟

时间:2026-04-07 14:49
Claude Code Harness+龙虾科研团来了!金字塔分层架构+多智能体

Claude Code Harness+龙虾科研团来了!金字塔分层架构+多智能体

Claw AI Lab团队量子位 | 公众号 QbitAI你还在一个人做科研吗?科研最难的,从来不是问题本身,而是一个想法从文献到实验再到写作,只能靠自己一点点往前推。一个人方向偏了没人提醒,遇到歧

时间:2026-04-07 14:43
让离线强化学习从「局部描摹」变「全局布局」丨ICLR'26

让离线强化学习从「局部描摹」变「全局布局」丨ICLR'26

面对复杂连续任务的长程规划,现有的生成式离线强化学习方法往往会暴露短板。它们生成的轨迹经常陷入局部合理但全局偏航的窘境。它们太关注眼前的每一步,却忘了最终的目的地。针对这一痛点,厦门大学和香港科技大

时间:2026-04-07 14:37
美国犹他州启动新试点项目:AI为患者开具精神类药物处方

美国犹他州启动新试点项目:AI为患者开具精神类药物处方

IT之家 4 月 5 日消息,据外媒 PC Mag 当地时间 4 月 4 日报道,美国医疗机构 Legion Health 在犹他州获得监管批准,启动一项试点项目,允许 AI 系统为患者开具精神类药

时间:2026-04-07 14:30
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程