数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

AI资讯

热点详情

什么是机器学习问题普适逼近定理浅析

AI热点日报时间：2026-06-30

热点解读

普适逼近定理在机器学习领域，神经网络几乎成了万能工具，处理各类统计学习问题都能交出令人满意的答卷。但你是否曾深入思考：为什么它偏偏比众多其他算法更强大？答案藏在一个精确的数学原理中。简单来说，神经网络所能描述的函数集极为庞大。但“函数集大小”究竟意味着什么？这个概念乍一听有些抽象，一旦理清，就能

普适逼近定理

在机器学习领域，神经网络几乎成了万能工具，处理各类统计学习问题都能交出令人满意的答卷。但你是否曾深入思考：为什么它偏偏比众多其他算法更强大？

答案藏在一个精确的数学原理中。简单来说，神经网络所能描述的函数集极为庞大。但“函数集大小”究竟意味着什么？这个概念乍一听有些抽象，一旦理清，就能解释为什么某些算法天生比另一些更强。

机器学习作为函数逼近

我们换个抽象视角来理解机器学习问题。假设手头有这样一组数据：

其中 \(x^{(k)}\) 是数据点，\(y\) 是与之对应的观测值。这个观测值可以是实数，也可以是概率分布（比如分类问题）。任务归根结底就是寻找一个函数 \(f(x)\)，使得 \(f(x^{(k)})\) 能近似等于 \(y^{(k)}\)。

为此，我们会预先选定一个带参数的功能系列，然后从中挑选最优的参数配置。例如线性回归使用的是这样的函数族：

参数就是 \(a\) 和 \(b\)。

如果假设存在一个真实的底层函数 \(g(x)\) 描述了 \(x^{(k)}\) 和 \(y^{(k)}\) 之间的关系，那么问题就转化为函数逼近——一个属于近似理论的美妙领域。

近似理论入门

指数函数你可能见过无数次了。它的定义是：

其中 \(e\) 就是著名的欧拉数。这是一个超越函数，意味着你无法通过有限次加法和乘法算出它的精确值。可为什么计算器一按就能出来一个数字？那个数字其实只是个近似值——尽管对我们来说通常够用。实际上，我们有：

这是一个多项式，可以显式计算。\(n\) 越大，近似值就越接近真实值。

近似理论的核心，就是给这类问题搭建一套数学框架。给你一个函数 \(g(x)\)，再给你一组在计算上更易处理的函数族，目标是从中找到一个足够接近 \(g\) 的“简单”函数。本质上，近似理论在回答三个关键问题：

什么叫“足够接近”？
该用哪个函数族来做近似？
给定函数族后，哪个具体函数最合适？

别觉得这些听起来太抽象，接下来我们会具体看神经网络的情况。

神经网络作为函数逼近器

把问题重新表述一下。存在一个函数 \(g(x)\) 描述了数据和观测值的关系，但它并不确切已知，只知道某些点上的值：

其中 \(g(x^{(k)}) = y^{(k)}\)。我们的任务是找到一个 \(f(x)\)，既能从数据中泛化出知识，又在计算上可行。

假设所有数据点都落在子集 \(X\) 中：

我们希望找一个函数，使得以下上确界范数尽可能小：

你可以想象把这两个函数画出来，给它们围起来的区域涂上色，然后量一量沿 y 轴方向的最大伸展范围。

即便我们不能在任意点上评估 \(g(x)\)，也应该在更广泛的意义上逼近它，而不是只要求 \(f(x)\) 在已知数据点 \(x_k\) 上拟合好。

问题已经摆出来了：到底该用哪一组函数来做近似？

具有单个隐藏层的神经网络

从数学上看，单个隐藏层的神经网络定义为：

其中 \(\phi\) 是非线性函数（即激活函数），比如 S 型函数：

这里的 \(x\) 对应数据，\(w_i, b_i, v_i\) 是参数。问题来了：这个函数族

是否足以近似任何合理的函数？答案是肯定的！

普适逼近定理

The universal approximation theorem in its full glory :) Source: Cybenko, G. (1989) "Approximations by superpositions of sigmoidal functions", Mathematics of Control, Signals, and Systems, 2(4), 303–314.

1989 年有一个著名结论，称为通用逼近定理。它指出：只要激活函数是 S 型函数且被逼近的函数是连续的，那么带一个隐藏层的神经网络就能以任意精度逼近该函数（用机器学习的话说，就是能够学习）。

别被定理的数学表述吓到，我们来一步一步拆解（为了更清晰，这里略去了“稠密”之类的概念，精度上可能不够严格，但足以说明思路）。

步骤 1：设要学习的函数 \(g(x)\) 是连续的。固定一个很小的 \(\epsilon\)，在函数周围画一条 \(\epsilon\) 宽的“条纹”。\(\epsilon\) 越小，结果越好。

步骤 2（最困难的部分）：找到一个形如

的函数，让它完全落在这条条纹之内。定理保证了这样的 \(F(x)\) 一定存在——这个函数族就是所谓的“通用逼近器”。这正是神经网络之所以强大的根本原因。

但别高兴得太早，这里有几个陷阱。

首先，定理完全没有告诉你隐藏层神经元的数量 \(N\) 是多少。对于很小的 \(\epsilon\)，\(N\) 可能会非常大——计算上可就不好玩了。谁都不想算一个 100 亿项的和。

第二个问题：即便定理保证这样的好函数存在，它也没告诉我们怎么找到它。听起来有点反直觉，但这在数学中很常见：我们有强有力的工具证明某些东西存在，却无法显式构造出来（数学里有一派叫“构造主义”，就拒绝接受纯存在性证明，比如通用逼近定理最初的证明。不过这个问题根深蒂固：不承认非构造性证明，我们甚至没法谈论无穷集上的函数）。

最大的问题还在后面：在实践中，我们永远不可能完全知道底层函数，只能看到观测到的那些点：

有无数种可能的配置都能很好地拟合这些数据点，其中绝大部分对于新数据的泛化能力都惨不忍睹——这就是令人头疼的过拟合。

拥有权利的同时也被赋予了重大的责任

事情是这样的：如果你有 \(N\) 个观测值，你就一定能找到一个 \(N-1\) 阶多项式完美拟合这些观测值。这没什么了不起，你甚至可以用拉格朗日插值把这个多项式显式写出来。然而，它对任何新数据都不会泛化，结果会非常糟糕。下面这张图展示了把高阶多项式套到小数据集上会发生什么：

神经网络也逃不过同样的命运。这是一个巨大的问题，而通用逼近定理关于如何解决它，只字未提。

通常情况下，函数族的表现力越强，就越容易过拟合。这叫做偏差-方差权衡。对于神经网络，从权重 L1 正则化到 dropout 层，有很多缓解手段。但因为神经网络的表现力实在太强，这个问题始终像影子一样跟在后面，需要时刻留意。

超越万能逼近定理

正如前面提到的，那个定理并没有提供任何工具来为神经网络寻找具体的参数配置。从实用角度看，这一点几乎和通用逼近性质本身同等重要。神经网络曾经有几十年不受待见，就是因为缺乏计算上有效的方法来拟合它们。后来两大进步让它们重见天日：反向传播和通用 GPU。有了这两个工具，训练庞大的神经网络变得轻而易举——你用笔记本就能训出最先进的模型，毫不费力。相比通用逼近定理的时代，我们已经走了多远！

通常，标准深度学习课程就从这里开始。因为数学上的复杂性，神经网络的理论基础往往被跳过。但通用逼近定理（以及它的证明中使用的工具）为理解神经网络为何如此强大提供了深刻的洞见，甚至为设计新颖的架构奠定了基础。毕竟，谁说我们只能组合 S 型函数和线性函数呢？

热点追踪提示词

你是一名 AI 行业编辑，请围绕下面这条热点输出一份资讯解读：
热点：什么是机器学习问题 普适逼近定理浅析要求：
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题

来源：https://m.elecfans.com/article/1224018.html

机器学习

上一篇：Facebook利用人工智能创建市场的方法

下一篇：OpenAI突然公开o3-mini思维链实测对比DeepSeek R1差距明显

游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

什么是机器学习问题 普适逼近定理浅析

什么是机器学习问题普适逼近定理浅析