传统NLP发展：从词袋模型到Spooky作者识别模型堆叠

AI热点日报时间：2026-07-04

热点解读

好的，没问题。作为一位在自然语言处理领域摸爬滚打多年的老手，这种作者归属的题目确实很对胃口。它不只是看模型能不能读懂一句话，更要看它能不能捕捉到作者的“笔风”。Kaggle上的这个“Spooky Author Identification”比赛就是一个很经典的例子：给你一句话，你得判断它出自爱伦·坡

好的，没问题。作为一位在自然语言处理领域摸爬滚打多年的老手，这种作者归属的题目确实很对胃口。它不只是看模型能不能读懂一句话，更要看它能不能捕捉到作者的“笔风”。Kaggle上的这个“Spooky Author Identification”比赛就是一个很经典的例子：给你一句话，你得判断它出自爱伦·坡、玛丽·雪莱，还是H.P.洛夫克拉夫特之手。乍一看，这不就是个三分类文本问题嘛。但细想一下，这三位作者写的都是恐惧、神秘、死亡和超自然那一套。光靠关键词去匹配，基本上是行不通的。真正的线索藏在更细微的地方：虚词的使用习惯、标点符号的偏好、句子的节奏感，以及那些不经意间重复出现的短语模式。所以，这个项目成了检验一个经典问题的绝佳沙盘：**如果我们精心设计特征，并诚实地评估模型，那么传统的NLP方法究竟能走多远？** 基于这个想法，我搭建了一条循序渐进的经典模型流水线，从最简单的基线模型一路升级到集成方法： 1. 一个基于Vowpal Wabbit的词袋基线模型，追求速度； 2. 在VW模型中加入标点和字符n-gram，让它更懂“风格”； 3. 一个经过调优的TF-IDF多模型集成； 4. 利用折叠外预测进行堆叠集成； 5. 最后，还做了一次小型的特征表示横评，比较了稀疏特征、BM25、Word2Vec和FastText。我的目标不仅仅是刷高分数，更重要的是理解：到底哪种特征表示能带来提升？是哪个指标被优化了？在什么样的评估设置下取得的？下面的内容会重点介绍这个项目的方法、结果和解读。我会分享关键的代码片段和实现思路，但不会罗列笔记本里的每一行代码。完整的可执行笔记本在文末的GitHub仓库里可以找到。 ### 数据集与评估设定数据集包含 **19,579条带标签的训练句子** 和 **8,392条无标签的测试句子**。不同作者的句子数量并不完全均衡： ![图1. 训练集中的类别分布。数据集是轻微不平衡的，EAP的样本最多，HPL最少。](http://img.318050.com/uploads/20260630/17827711616a42edd951c05992066317.webp) *图1. 训练集中的类别分布。可以看到数据集是轻微不平衡的，EAP占了大部分样本，HPL最少。* 因为Vowpal Wabbit的多分类模式要求标签从1开始，所以我用1、2、3来分别代表EAP、MWS和HPL。 ```python train_texts = pd.read_csv(DATA_DIR / "train.csv", index_col="id") test_texts = pd.read_csv(DATA_DIR / "test.csv", index_col="id") AUTHOR_CODE = {"EAP": 1, "MWS": 2, "HPL": 3} train_texts["author_code"] = train_texts["author"].map(AUTHOR_CODE) print(f"Train: {len(train_texts)} sentences Test: {len(test_texts)} sentences") print(train_texts["author"].value_counts(normalize=True).round(3)) ``` 为了公平地比较模型，我使用固定的随机种子，将原始训练数据按70/30的比例分层抽样，划分出训练集和验证集。这样每个模型都在相同的、类别比例稳定的验证集上进行评估。我主要关注三个指标： * **准确率 (Accuracy)**：直观易懂，但只衡量最终的分类结果。 * **宏平均F1 (Macro-F1)**：用于检查模型在三个作者上的表现是否均衡。 * **多分类对数损失 (Multiclass log loss)**：Kaggle官方指定的评估指标，也是这个项目最重要的指标。因为它评估的是预测概率的质量，而不是单纯的分类是否正确。对数损失会奖励高置信度的正确预测，但会严惩高置信度的错误预测。在比赛中，提交的正是对每个作者预测的概率分布，所以这个指标至关重要。 ### 1. Vowpal Wabbit词袋基线模型我选择Vowpal Wabbit作为起点，因为它速度快，天生擅长处理稀疏数据，非常适合文本线性模型。它使用在线学习算法，将特征哈希到固定空间，并通过“一对多”的方式处理多分类问题。第一个基线模型只使用了**长度大于等于3的小写单词**作为特征。 ```python def to_vw_words(df, is_train=True): """生成VW格式的行: ' |text '.""" lines = [] for i in range(len(df)): label = df["author_code"].iloc[i] if is_train else 1 text = df["text"].iloc[i].lower().replace("|", "").replace(":", "") words = " ".join(re.findall(r"w{3,}", text)) lines.append(f"{label} |text {words}n") return lines ``` 有一点需要注意：当VW直接从文件读取数据时，`passes`和`cache`这类参数能正常工作。但如果通过Python API手动喂数据，就需要自己写循环来控制训练的轮数。 ```python N_PASSES = 10 vw = Workspace(oaa=3, loss_function="logistic", ngram=2, b=28, quiet=True, final_regressor=f"{OUTPUT_DIR}/spooky_words.vw") for _ in range(N_PASSES): with open(f"{OUTPUT_DIR}/train_words.vw") as f: for line in f: vw.learn(line) vw.finish() ``` 在70/30的验证集上，这个简单的词袋VW模型表现已经相当不错： ![词袋Vowpal Wabbit基线模型在验证集上的表现。即使是简单的词和二元语法特征，快速的线性VW模型也提供了一个很强的起点。](http://img.318050.com/uploads/20260630/17827711626a42edda74c7f713791936.webp) *词袋VW基线模型在验证集上的表现。可以看到，即使只用简单的单词和bigram特征，这个快速的线性模型也建立了一个非常扎实的起点。* 这个结果也为后续所有工作划了一条基线：任何新的特征或集成方法，都得先跨过这道门槛。 ### 2. 增强版VW：引入风格感知特征作者归属不仅仅是对文章主题进行分类。模型还需要捕捉那些反映写作风格的线索。在这个增强版模型中，我把输入特征分成了三个命名空间： * `|w`：单词，包括短功能词 * `|p`：标点符号 * `|c`：字符n-gram ```python def char_ngrams(text, ns=(2, 3, 4)): """生成边界感知的字符n-gram; 空白和边缘用'_'替代.""" t = "_" + re.sub(r"s+", "_", text.strip()) + "_" return [t[i:i + n] for n in ns for i in range(len(t) - n + 1)] def to_vw_rich(df, is_train=True, char_ns=(2, 3, 4)): """三个命名空间: |w 单词, |p 标点, |c 字符n-gram.""" lines = [] texts = df["text"].values labels = df["author_code"].values if is_train else None for i, text in enumerate(texts): safe = str(text).lower().replace("|", " ").replace(":", " ") label = labels[i] if is_train else 1 words = " ".join(re.findall(r"w+", safe)) punct = " ".join(re.findall(r"[^ws]", safe)) chars = " ".join(char_ngrams(safe, ns=char_ns)) lines.append(f"{label} |w {words} |p {punct} |c {chars}n") return lines ``` 这个模型训练了更多轮次，并使用了稍大一点的哈希空间。 ```python N_PASSES = 15 vw = Workspace(oaa=3, loss_function="logistic", ngram=2, b=29, quiet=True, final_regressor=f"{OUTPUT_DIR}/spooky_rich.vw") for _ in range(N_PASSES): with open(f"{OUTPUT_DIR}/train_rich.vw") as f: for line in f: vw.learn(line) vw.finish() ``` 这个增强模型带来了可观的提升： ![在验证集上加入风格感知VW特征的效果。加入标点和字符n-gram后，准确率和宏平均F1都比词袋VW基线模型有所提升。](http://img.318050.com/uploads/20260630/17827711636a42eddb4f053674447066.webp) *在验证集上加入风格感知VW特征的效果。可以看到，加入标点和字符n-gram后，准确率和宏平均F1都有明显提升。* 这个提升很有意义：加入标点和字符级别的结构信息，帮助模型捕捉到了超越单纯词语选择的风格特征。 ### 3. TF-IDF词与字符特征接下来，我想看看另一种经典的稀疏文本处理流程能不能达到或超越VW的结果。我用两种视角构建了TF-IDF特征矩阵： 1. **词级别**：单个词和bigram 2. **字符级别**：词边界内的2到5-gram ```python CLASSES = np.array([1, 2, 3]) # 1=EAP, 2=MWS, 3=HPL def build_tfidf(fit_texts): word_vectorizer = TfidfVectorizer(sublinear_tf=True, ngram_range=(1, 2), min_df=2).fit(fit_texts) char_vectorizer = TfidfVectorizer(sublinear_tf=True, analyzer="char_wb", ngram_range=(2, 5), min_df=2).fit(fit_texts) return word_vectorizer, char_vectorizer def tfidf_features(word_vectorizer, char_vectorizer, texts): X_word = word_vectorizer.transform(texts) X_char = char_vectorizer.transform(texts) return sp.hstack([X_word, X_char]).tocsr() ``` 词特征能捕捉词汇和短语层面的信息，而字符特征能捕获拼写片段、后缀、前缀、标点附近的模式等对风格分类有用的细节。我在这组特征上训练了三个互补的模型： * Logistic Regression (LR) * NB-SVM风格的Logistic Regression * Complement Naive Bayes (CNB) 对于LR和NB-SVM，我只在训练集上使用内部交叉验证来调优C值，确保验证集绝对不参与任何调参过程。 ```python def tune_lr_C(X, y, C_grid=(0.1, 0.3, 1, 3, 10, 30), n_splits=5): cv = StratifiedKFold(n_splits=n_splits, shuffle=True, random_state=42) rows = [] for C in C_grid: oof = np.zeros((X.shape[0], len(CLASSES))) for tr_idx, va_idx in cv.split(X, y): clf = LogisticRegression(C=C, max_iter=3000) clf.fit(X[tr_idx], y[tr_idx]) oof[va_idx] = align_proba(clf, X[va_idx]) rows.append({"C": C, "log_loss": log_loss(y, oof, labels=CLASSES)}) return pd.DataFrame(rows) ``` 内部交叉验证的结果显示，NB-SVM风格的LR表现最好。 ![调优TF-IDF线性模型的内部交叉验证结果。NB-SVM风格的逻辑回归获得了更低的内部交叉验证对数损失，表明其调优后的线性组件更强。](http://img.318050.com/uploads/20260630/17827711646a42eddc73030741286264.webp) *调优TF-IDF线性模型的内部交叉验证结果。NB-SVM风格的逻辑回归获得了更低的内部CV对数损失，说明它的线性组件调优得更好。* 将这三个模型的概率取平均后，在验证集上得到了如下结果： ![调优后的TF-IDF三模型平均在验证集上的表现。对模型概率进行平均后，在70/30验证集上获得了不错准确率和极具竞争力的对数损失。](http://img.318050.com/uploads/20260630/17827711656a42eddd57dbe292313737.webp) *调优后的TF-IDF三模型平均在验证集上的表现。准确率相比增强版VW提升不大，但对数损失有了显著改善。因为Kaggle用对数损失来评估概率分布，所以这个改进非常关键。* #### NB-SVM风格的逻辑回归这个模型值得单独拿出来说一下，因为它是一个简单但有效的文本分类技巧。核心思想是计算每个特征在每个类别中的“对数计数比”：即该特征在某个类别中间出现频率比其他类别高多少。然后，将每个特征乘以这个比值，再训练一个线性分类器。 ```python def nbsvm_proba(X_train, y_train, X_test, C=10): probas = [] for cls in CLASSES: y_binary = (y_train == cls).astype(int) p = X_train[y_binary == 1].sum(axis=0) + 1 q = X_train[y_binary == 0].sum(axis=0) + 1 r = np.log((p / p.sum()) / (q / q.sum())) r = np.asarray(r).ra vel() clf = LogisticRegression(C=C, max_iter=3000) clf.fit(X_train.multiply(r), y_binary) probas.append(clf.predict_proba(X_test.multiply(r))[:, 1]) proba = np.vstack(probas).T proba = np.clip(proba, 1e-15, 1 - 1e-15) return proba / proba.sum(axis=1, keepdims=True) ``` 虽然名字里有“SVM”，但我的实现并不是纯粹的SVM。它本质上是逻辑回归，只不过对经过朴素贝叶斯加权后的特征进行训练。好处是，那些与特定作者强关联的特征会被放大，让线性模型更容易学习。 ### 4. 基于折叠外预测的堆叠集成在TF-IDF集成之后，我已经有了一组可靠的基模型。直接对它们做简单平均，等于假设每个模型在每个类别上都有同样的可靠性。但现实往往不是这样。堆叠集成允许一个第二层模型（元学习器）去学习如何最优地组合这些基模型。这里最大的风险是信息泄露：如果元学习器用到的训练数据，基模型已经“见过”，那结果就虚高了。为了避免这个问题，我们使用折叠外预测： * 对于训练样本，每个基模型只预测它在一个折叠上没有“见过”的那些样本。 * 对于验证集或测试集样本，预测结果是所有折叠版本的基模型预测的平均值。我选择的基模型包括：`lr`, `nbsvm`, `cnb`, `mnb`, `sgd`。堆叠特征构建器会为每个基模型创建一个概率块。这样，五个基模型对三个作者进行预测，元学习器就会收到15个概率特征。 ```python def build_stack_features(X_train, y_train, X_test, best_params_by_model, n_folds=5, seed=17): skf = StratifiedKFold(n_splits=n_folds, shuffle=True, random_state=seed) n_classes = len(CLASSES) n_models = len(BASE_MODELS) oof_stack = np.zeros((X_train.shape[0], n_classes * n_models)) test_stack = np.zeros((X_test.shape[0], n_classes * n_models)) for j, kind in enumerate(BASE_MODELS): start = j * n_classes end = start + n_classes params = best_params_by_model[kind] for tr_idx, va_idx in skf.split(X_train, y_train): oof_stack[va_idx, start:end] = base_proba(kind, X_train[tr_idx], y_train[tr_idx], X_train[va_idx], params) test_stack[:, start:end] += base_proba(kind, X_train[tr_idx], y_train[tr_idx], X_test, params) / n_folds return oof_stack, test_stack ``` 接着，我使用交叉验证在堆叠概率特征上，为Logistic Regression元学习器调优C值。在70/30的验证集上，基模型的最佳超参数如下： ![在70/30验证集上，用于堆叠集成的最佳基模型超参数。这些调优后的基模型为逻辑回归元学习器生成了概率特征。](http://img.318050.com/uploads/20260630/17827711666a42edde70b9a248665294.webp) *在70/30验证集上，用于堆叠集成的最佳基模型超参数。* 元学习器的最佳C值为3。最终，堆叠模型在验证集上的表现是： ![调优后的堆叠集成在验证集上的最终表现。集成模型显著提升了概率质量，在经典流程中获得了最低的验证集对数损失。](http://img.318050.com/uploads/20260630/17827711676a42eddf64a3c944582326.webp) *调优后的堆叠集成在验证集上的最终表现。这是整个项目在验证集上得到的最强结果。提升最大的地方不是准确率，而是对数损失。这意味着集成模型显著改善了概率估计的可靠性，而这正是Kaggle计分规则所看重的。* ### 5. 最终全数据重训与Kaggle提交为了最终提交，我在全部带标签的训练数据上重新拟合了TF-IDF表示，重建堆叠特征，重新调优基模型，训练最终的元学习器，并最后生成对测试集的预测。在全量训练数据上，基模型的最佳参数如下： ![最终堆叠提交的全数据基模型超参数。这些参数是在整个带标签训练集上重新拟合流水线后选出的。](http://img.318050.com/uploads/20260630/17827711686a42ede072ca4720835971.webp) *最终堆叠提交的全数据基模型超参数。* 此时，元学习器的最佳C值为30。代码中还特意将我的内部类别顺序 `[1, 2, 3] = [EAP, MWS, HPL]` 映射成了Kaggle要求的提交列顺序：`EAP`, `HPL`, `MWS`。 ```python meta_final = LogisticRegression(C=best_full_meta_C, max_iter=3000) meta_final.fit(oof_full, y_full) proba_test = align_proba(meta_final, test_stack) proba_test = np.clip(proba_test, 1e-15, 1 - 1e-15) proba_test = proba_test / proba_test.sum(axis=1, keepdims=True) submission = pd.DataFrame({"id": test_texts.index, "EAP": proba_test[:, 0], # class 1 "HPL": proba_test[:, 2], # class 3 "MWS": proba_test[:, 1], # class 2 }) submission.to_csv(OUTPUT_DIR / "spooky_submission.csv", index=False) ``` 全量数据上元学习器的第二层折叠外估计值如下： ![最终元学习器的全数据第二层折叠外估计。这个估计可以作为理智检查，但不能直接与先前的70/30验证集结果进行比较。](http://img.318050.com/uploads/20260630/17827711696a42ede158567434708930.webp) *最终元学习器的全数据第二层折叠外估计。这个数字可以作为理智检查，但它和之前的70/30验证集结果来自不同的评估设置，不能直接比较。* 在Kaggle上，最终堆叠模型的成绩是： ![最终调优堆叠模型的Kaggle排行榜表现。私有分数与全数据第二层折叠外估计非常接近，这表明验证设置相当可靠。](http://img.318050.com/uploads/20260630/17827711706a42ede238732117854093.webp) *最终调优堆叠模型的Kaggle排行榜表现。私有分数与全数据第二层OOF估计非常接近，这是个令人鼓舞的信号。不过，它只能作为验证证据，还不能证明整个评估流程完全没有偏差。* ### 6. 错误分析聚合指标虽然有用，但往往会掩盖模型具体在哪里犯错。我利用堆叠模型在验证集上的预测结果，详细检查了混淆矩阵、每个作者的召回率以及高置信度的错误预测。混淆矩阵如下： ![调优堆叠模型在70/30验证集上的混淆矩阵。大多数预测落在对角线上，最大的非对角线错误来自MWS和EAP之间的混淆。](http://img.318050.com/uploads/20260630/17827711716a42ede329063105200686.webp) *调优堆叠模型在70/30验证集上的混淆矩阵。可以看出大部分预测都落在了对角线上，而主要的错误集中在MWS和EAP之间的混淆。* 每个作者的平均召回率比较均衡： ![调优堆叠模型在70/30验证集上的每个作者召回率。召回率在三个作者之间相当均衡，表明模型并不过分依赖单一的多数类别。](http://img.318050.com/uploads/20260630/17827711726a42ede422aac434384049.webp) *调优堆叠模型在70/30验证集上的每个作者召回率。召回率在三位作者之间分布得相当均衡，说明模型没有偷懒去预测样本最多的那个作者。* 最常见的错误对是： ![调优堆叠模型最常见的错误分类对。最大的错误发生在MWS和EAP之间，其次是HPL和EAP，这表明遗留的错误主要集中在风格重叠的作者之间。](http://img.318050.com/uploads/20260630/17827711736a42ede50eadd755609043.webp) *调优堆叠模型最常见的错误分类对。最大的错误发生在MWS和EAP之间，其次是HPL和EAP。这说明模型未能很好区分的，主要是一些在写作风格上确实有重叠的作者。* 关键点在于，模型没有简单地把所有句子都预测为样本最多的类别。三个作者的召回率非常接近，而且错误是双向的。MWS和EAP经常被搞混，HPL和EAP在一些简短或风格中性的句子上也存在重叠。我还检查了一些高置信度的错误案例。比如这句话： > “I walked the cellar from end to end.” 它实际上是EAP写的，但模型以超过0.97的概率将其判定为HPL。这提醒我们，基于单句的作者归属问题，有时本身就信息不足。对于一些句子，稀疏线性模型能捕捉到的区分性风格特征确实不够用。 ### 7. 特征表示横评为了给主流程提供一个更全面的上下文，我还在同样的验证集上测试了几种基础性的特征表示。对于词袋模型，我用了单词的unigram和bigram计数。对于BM25，我把它当作一个最近邻分类器来用，虽然这不是BM25的常规用法，但可以作为一个比较基准。对于Word2Vec和FastText，我先在训练集上训练好嵌入，然后用IDF加权平均得到每个句子的向量表示。结果如下： ![在70/30验证集上的特征表示横评。在这个短文本作者归属任务上，基于计数的稀疏特征表现优于BM25检索和简单的平均Word2Vec/FastText嵌入。](http://img.318050.com/uploads/20260630/17827711746a42ede626a7a760041765.webp) *在70/30验证集上的特征表示横评。可以看出，在这个短文本作者归属任务上，基于计数的稀疏特征表现更好。这并不意味着Word2Vec或FastText本身不强，而是在这个特定场景下，简单地对词向量做平均，会模糊掉许多稀疏的词、字符和标点特征能够保留的风格细节。* ### 结果速览所有验证集行的评估都基于同一个70/30分层拆分，因此可以直接比较。 ![主要模型在不同验证设置下的结果汇总。验证集行可以直接比较，而全数据第二层折叠外估计则作为最终堆叠模型的一个独立理智检查。](http://img.318050.com/uploads/20260630/17827711756a42ede7540d7232917766.webp) *主要模型在不同验证设置下的结果汇总。* Kaggle提交成绩： ![最终调优堆叠模型的Kaggle排行榜分数。最终提交的私有对数损失为0.30414，公开对数损失为0.33621。](http://img.318050.com/uploads/20260630/17827711766a42ede8c76ec009456524.webp) *最终调优堆叠模型的Kaggle排行榜分数。* 再次强调，第二层OOF估计与验证集行不可直接比较。 ### 真正起作用的因素回顾整个项目，大部分有效的提升来自于更好的特征表示和更干净的验证流程，而不是为了复杂而复杂。 * **稀疏的词和字符特征承载了最强的信号。** 这个任务非常看重风格，而稀疏的n-gram特征保留了那些被池化后的稠密向量所平滑掉的细节。 * **标点和字符n-gram改进了作者建模。** 加入风格感知特征后，VW在验证集上的准确率从0.8332提升到了0.8553。 * **TF-IDF改善了概率质量。** 调优后的TF-IDF集成虽然没有大幅提升准确率，但产出了非常棒的对数损失，而这正是比赛的优化目标。 * **堆叠集成在对数损失上帮助最大。** 堆叠模型将验证集的对数损失从0.3843降低到了0.3504。这表明元学习器找到了比简单平均更好的概率组合方式。 * **区分不同评估场景很重要。** 我自始至终保持了三类结果的清晰分离：70/30验证集结果、全数据第二层OOF估计、Kaggle排行榜分数。它们回答的是不同的问题，混为一谈会让结果看起来比实际更确定。 ### 局限性与下一步这个项目当然也有可以延伸的方向。首先，整个堆叠流水线只基于一个70/30验证拆分和全数据第二层OOF估计。如果采用完全嵌套的交叉验证设计，可能会得到一个更保守、更可靠的性能估计。其次，我虽然用对数损失作为主要指标，但没有加入显式的校准诊断，比如可靠性图或预期校准误差。既然目标是概率质量，校准分析是顺理成章的下一步。第三，我没有和Transformer类模型（如DistilBERT或BERT）做比较。微调一个Transformer模型会是明显的下一个基准，可以看看上下文表示在短文学句子上能比稀疏经典特征好多少。第四，超参数搜索的范围比较有限。如果能对TF-IDF的范围、VW的设置、平滑值、正则化强度以及堆叠设计进行更广泛的搜索，最终分数可能还有提升空间。最后，这个数据集规模不大且是领域特异性的。这些结论支持在短文本作者归属这个特定场景下的推断，但不能被视为NLP方法的通用排名。 ### 结论这个项目清楚地表明，当特征表示和问题本身匹配时，经典的NLP方法依然能走得很远。一个简单的词袋VW基线已经很强了，但通过加入风格感知特征、TF-IDF词和字符n-gram、聚焦概率质量的调优以及堆叠泛化，模型得到了进一步的提升。经典流水线的最优版本在70/30验证集上达到了 **0.8687的准确率** 和 **0.3504的对数损失**，最终提交到Kaggle的堆叠模型获得了 **0.30414 (私有)** 和 **0.33621 (公开)** 的对数损失。核心收获不仅仅是堆叠模型提升了分数，更重要的是这个任务让我们看到，作者归属的成功取决于那些微小的细节：标点、子词模式、功能词，以及对概率的精确估算。在求助于那些庞大的上下文模型之前，一个经过良好验证的稀疏文本基线，仍然是一个不可小觑的强有力竞争者。 ### 数据来源与许可本文使用的数据是Kaggle的Spooky Author Identification数据集，这是一个从爱伦·坡、H.P.洛夫克拉夫特和玛丽·雪莱的公有领域小说中提取的文本分类数据集。任务是预测每句话的作者，标签为 **EAP** (爱伦·坡), **HPL** (洛夫克拉夫特), 和 **MWS** (玛丽·雪莱)。该数据集在Kaggle上以CC BY 4.0许可发布。该许可允许共享和改编，包括用于商业目的，前提是给予适当的署名。在本文中，该数据集用于教育性的机器学习实践，署名链接已在本节中给出。 ### 链接 * **完整笔记本 + 代码** * **个人网站**

热点追踪提示词

你是一名 AI 行业编辑，请围绕下面这条热点输出一份资讯解读：
热点：传统NLP发展：从词袋模型到Spooky作者识别模型堆叠要求：
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题

来源：https://www.bestblogs.dev/article/0c397199?utm_source=rss&utm_medium=feed&utm_campaign=resources&entry=rss_article_item

Spook

上一篇：提示词工程出错根源在于提示词回归

下一篇：Patronus AI获5000万美元融资用数字孪生世界压力测试AI智能体

游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。