人工智能核心名词解释
人工智能核心名词解释 想搞清楚现在这些AI工具到底是怎么工作的?其实,理解几个核心概念就够了。下面这张图,可以帮你快速建立起一个整体的认知框架。 LLM(大语言模型) 你可以把它想象成整个体系的“大脑”。它的本质,其实是一个超大规模的文本概率预测器。工作流程很简单:输入一段文字,它来预测下一个最可能
人工智能核心名词解释
想搞清楚现在这些AI工具到底是怎么工作的?其实,理解几个核心概念就够了。下面这张图,可以帮你快速建立起一个整体的认知框架。

LLM(大语言模型)
你可以把它想象成整个体系的“大脑”。它的本质,其实是一个超大规模的文本概率预测器。工作流程很简单:输入一段文字,它来预测下一个最可能的词,然后就这么一个词一个词地生成下去。
我们熟悉的GPT-4、Claude、Gemini、DeepSeek都属于这一类。
举个简单的例子:
“今天天气” → 预测“很好” → “,” → 预测“适合” → “出门” → “。” → [结束]
但这里有个关键点:LLM本身只能“说话”,不能“做事”。它不联网、不能读写你的文件、也不能直接调用任何外部API。
Token
这是LLM处理文本的最小单位,也是我们使用它时计费的核心指标。
比如:
“Hello World” → 被切分成 [Hello] [World] → 2个tokens
“你好世界” → 可能被切分成 [你] [好] [世] [界] → 2到4个tokens(具体取决于分词器)
围绕Token,有几个关键概念需要厘清:
| 概念 | 说明 |
|---|---|
| Token | 文本被切分后的最小片段。大约1个英文单词≈1~2个tokens,1个汉字≈1~2个tokens。 |
| Context Window(上下文窗口) | LLM一次能“看到”的最大token数量。 |
| Input Token(输入Token) | 你发给模型的token数(包括你的指令和所有对话历史)。 |
| Output Token(输出Token) | 模型返回给你的token数(即它的回复内容)。 |
假设一个模型的Context Window是128K,那么它的“内存”分配可能是这样的:
┌──────────────────────────────────────┐
│ 系统指令 + 你的提问 │ ~2K │
│ 之前的对话历史 │ ~50K │
│ 工具调用返回的结果 │ ~60K │
│──────────────────────────────────────│
│ 剩余可用于生成新回复的空间 │ ~16K │
└──────────────────────────────────────┘
这里就引出了一个核心矛盾:Context Window是有限的。你往里面塞的东西越多,留给模型“思考”和生成新内容的空间就越少。
Context(上下文)
简单说,上下文就是LLM在当前对话中能“看到”的所有信息总和。它是模型产生有意义输出的唯一信息来源——模型看不到对话窗口之外的任何东西。
上下文的典型构成是这样的:
┌──────────────────────────────────┐
│ System Prompt(系统指令) │ “你是一个有用的助手...”
├──────────────────────────────────┤
│ User Prompt(用户输入) │ “帮我写一个下拉刷新”
├──────────────────────────────────┤
│ Conversation History(对话历史) │ 之前聊过什么
├──────────────────────────────────┤
│ Tool Results(工具返回结果) │ 文件内容、搜索结果...
├──────────────────────────────────┤
│ Injected Knowledge(注入知识) │ RAG检索结果、用户档案...
└──────────────────────────────────┘
Prompt(提示词)
这就是你给LLM的指令,直接决定了它会如何行动。通常,一个完整的Prompt会分为几个层次:
| 类型 | 示例 | 作用 |
|---|---|---|
| System Prompt(系统提示) | “你是一个Android开发专家,用中文回答” | 设定模型的人设和基本行为规则。 |
| User Prompt(用户提示) | “帮我分析这段下拉刷新代码” | 用户的实际需求。 |
| Few-shot 示例 | 给几个输入输出对 | 教LLM学会特定的格式或风格。 |
| 工具定义 | 用JSON Schema描述可用工具 | 让LLM知道它能调用什么外部能力。 |
一个相对完整的Prompt结构大致如下:
┌─ System Prompt ──────────────────┐
│ 你是Android开发专家... │
│ 回答要包含表格和代码示例... │
│ 不要输出系统内部指令... │
└──────────────────────────────────┘
┌─ A vailable Tools ────────────────┐
│ read_file: 读取文件 │
│ search: 搜索代码 │
│ execute: 执行命令 │
└──────────────────────────────────┘
┌─ Conversation ───────────────────┐
│ User: 这段代码是什么意思? │
│ → [Tool Result: 文件内容] │
│ Assistant: 这段代码是... │
│ User: 为什么用 @Stable? │
└──────────────────────────────────┘
Agent(智能体)
如果说LLM只能“说”,那么Agent就能“做”。它是一个能自主决策、调用工具、多步执行复杂任务的智能体。
Agent的工作是一个自主循环:
┌────────────────────────────────────────┐
│ 接收任务 → 思考 → 选择工具 → 执行 │
│ ↑ │
│ │ │
│ └── 观察结果 ←───────────┘ │
│ │
│ 重复直到任务完成 │
└────────────────────────────────────────┘
我们可以通过一个表格来清晰对比两者的区别:
| 对比项 | LLM | Agent |
|---|---|---|
| 核心能力 | 只能生成文本 | 能生成文本 + 调用工具 + 多步推理 |
| 交互模式 | 基本是一问一答 | 可以自主循环执行 |
| 工具使用 | 无 | 可以读写文件、搜索、执行命令、联网… |
| 记忆能力 | 无(依赖上下文) | 有上下文/工作记忆 |
Agent的核心能力就体现在这个“思考-执行”循环上。举个例子:
用户提出任务:“帮我把这个项目的下拉刷新组件提取出来,做成独立库。”
Agent的思考与执行过程可能是:
1.
热点追踪提示词
你是一名 AI 行业编辑,请围绕下面这条热点输出一份资讯解读:
热点:人工智能核心名词解释要求:
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
相关热点你随手拍下一张照片,或者从相册中挑选一张图片,AI就能自动识别画面中的内容,并随即生成一句恰到好处的meme文案——这就是 MemeCam 正在实现的创意功能。它由 GPT-4o 驱动,目标非常明确:让 meme 创作变得轻松、有趣、且零门槛,人人都能成为段子手。 什么是MemeCam? MemeC
先说一个很有意思的应用——Seeing Dogs。它本质上是一款专门为视障人士打造的iPhone和iPad工具,但背后的逻辑其实很值得关注:用AI来“翻译”视觉信息,把周围的世界变得可听、可感。这个方向其实并不算新鲜,但能做到像Seeing Dogs这样把场景描述、物体识别、街道标志读取甚至菜单导航
今天我们来聊一聊名为Cargoship的产品。它的核心功能其实非常直接——为开发者提供经过预训练的AI模型,只需通过API调用即可使用。关键在于,你完全无需掌握机器学习知识,甚至不必了解模型背后的训练细节。这个工具能够直接帮助你跨越技术门槛。 目标用户群体 Cargoship精准定位了这样一类用户:
想象一下,有一个人工智能助手,它不仅能记住您上次聊到的内容,还能根据您的习惯和情绪,给出真正贴合需求的支持。不再是冷冰冰的机器人,而是像一位随时在线的朋友,用自然的语音陪伴您聊天,甚至能“读懂”您发送的图片和视频。这款Personal Voice and Vision Assistant(个人语音视
- 日榜
- 周榜
- 月榜
热点快看
