AI安全网关升温提示词防护权限校验内容审计成大模型标配

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

AI教程

AI安全网关升温提示词防护权限校验内容审计成大模型标配

热心网友时间：2026-07-02

转载

2026 年，大模型应用正站上一个关键转折点——从“能生成内容”加速迈向“需要安全治理”的全新阶段。

回顾早期，企业引入大模型时最关注什么？无非是调用效果：回答是否精准、响应是否迅速、能否嵌入知识库。这些直接关系到“能不能用”的问题。

但如今，当大模型真正落地到客服、办公、研发、数据分析、企业知识库以及 Agent 工具调用等实际场景后，安全隐患开始集中暴露。

用户可能用恶意提示词诱导模型突破规则；模型可能生成不合规的内容；Agent 可能擅自调用危险的工具；RAG 系统可能向无权限用户泄露机密数据；更棘手的是，内部接口可能因大模型应用而意外暴露。

因此，AI 安全网关正迅速成为一项必备的工程能力。

简单来说，它架设在用户请求与模型服务之间，专门负责提示词检测、用户权限校验、敏感词过滤、工具调用管控、输出审计以及日志记录。这意味着大模型应用不能再只关注“生成结果”，还必须全面把控“生成过程是否安全”。

一、为什么 AI 应用需要安全网关？

传统 Web 应用有 API 网关、防火墙、权限系统和日志审计，这套机制大家都熟悉。大模型应用同样需要类似的防护体系。

原因很直接：一次 AI 请求并非普通的接口调用，它内部可能包含用户输入、知识库检索、工具调用、模型生成以及最终输出等多个环节。任何一个环节缺乏控制，风险就可能从那里爆发。

例如：

用户输入恶意提示词；
模型输出敏感内容；
Agent 调用高风险工具；
RAG 召回了无权限文档；
系统未记录请求链路。

下面我们用 Python 实现一个简化版的 AI 安全网关，将这些防护环节串联起来。

二、基础配置：定义安全规则

第一步自然是定义安全规则。这里涵盖敏感词、危险行为、高风险工具以及角色权限。在生产系统中，这些规则通常存储在数据库或权限中心，但为了方便理解，我们先在代码中硬编码。

import json
import time
import hashlib
from datetime import datetime

SENSITIVE_WORDS = [
    "敏感数据",
    "内部密钥",
    "用户隐私",
    "数据库密码",
    "访问令牌"
]

DANGEROUS_ACTIONS = [
    "删除数据",
    "绕过权限",
    "导出全部用户",
    "关闭审计",
    "修改权限"
]

HIGH_RISK_TOOLS = [
    "database_write",
    "user_export",
    "permission_update",
    "shell_execute",
    "file_delete"
]

ROLE_PERMISSIONS = {
    "guest": ["search", "summary"],
    "developer": ["search", "summary", "code_review"],
    "admin": ["search", "summary", "code_review", "database_read", "audit_query"]
}

AUDIT_LOG = []

def build_request_id(user_id, prompt):
    raw = f"{user_id}-{prompt}-{time.time()}"
    return hashlib.md5(raw.encode("utf-8")).hexdigest()

这些规则相当于安全网关的“底牌”——系统会拿它们来判定请求究竟该不该放行。

三、输入检查：识别提示词风险

第二步是检查用户输入。若用户输入中带有危险行为或明显敏感的内容，系统可以直接拦截，或将其标记为高风险请求。

def check_prompt_risk(prompt):
    risk_items = []
    for word in SENSITIVE_WORDS:
        if word in prompt:
            risk_items.append({
                "type": "sensitive_word",
                "value": word
            })
    for action in DANGEROUS_ACTIONS:
        if action in prompt:
            risk_items.append({
                "type": "dangerous_action",
                "value": action
            })
    risk_level = "low"
    if len(risk_items) >= 2:
        risk_level = "high"
    elif len(risk_items) == 1:
        risk_level = "medium"
    return {
        "risk_level": risk_level,
        "risk_items": risk_items
    }

输入检查是 AI 安全治理的第一道屏障，虽然不能解决所有问题，但至少能把那些明显异常的请求挡在门外。

四、权限校验：判断用户能否执行任务

第三步是权限校验。不同角色的用户能做的事情不同：访客只能搜索和摘要，开发者可以做代码审查，管理员才能查询审计数据。

def check_user_permission(role, action):
    allowed_actions = ROLE_PERMISSIONS.get(role, [])
    return action in allowed_actions

def build_permission_result(role, action):
    allowed = check_user_permission(role, action)
    return {
        "role": role,
        "action": action,
        "allowed": allowed,
        "checked_at": datetime.now().isoformat()
    }

这一步能防止 AI 应用成为绕过系统权限的“后门”。尤其在 Agent 场景中，模型会自行调用工具，用户能使用哪些能力必须严格管控。

五、工具调用检查：拦截高风险工具

第四步是检查工具调用。如果 Agent 想要调用一个高风险工具，系统必须先核实当前用户是否拥有相应权限。

def check_tool_call(role, tool_name):
    if tool_name not in HIGH_RISK_TOOLS:
        return {
            "tool_name": tool_name,
            "allowed": True,
            "reason": "normal tool"
        }
    if role == "admin":
        return {
            "tool_name": tool_name,
            "allowed": True,
            "reason": "admin allowed"
        }
    return {
        "tool_name": tool_name,
        "allowed": False,
        "reason": "high risk tool requires admin role"
    }

def simulate_tool_call(tool_name, payload):
    return {
        "tool_name": tool_name,
        "payload": payload,
        "result": "工具执行结果",
        "run_time": datetime.now().isoformat()
    }

工具调用检查是 Agent 安全的核心，缺少这层防护，模型可能被诱导执行危险操作。

六、输出检查：过滤敏感结果

第五步是输出检查。模型生成内容后，系统需要再次扫描，看是否包含敏感词或不应返回的信息。

def check_output_safety(output_text):
    issues = []
    for word in SENSITIVE_WORDS:
        if word in output_text:
            issues.append({
                "type": "sensitive_output",
                "value": word
            })
    safe = len(issues) == 0
    return {
        "safe": safe,
        "issues": issues
    }

def mask_sensitive_output(output_text):
    masked = output_text
    for word in SENSITIVE_WORDS:
        masked = masked.replace(word, "***")
    return masked

输出检查能有效降低模型泄露机密信息的风险，尤其在企业知识库和内部问答场景中，这一环节至关重要。

七、审计日志：记录完整请求链路

第六步是审计。每次请求都必须记录下来——用户、角色、动作、风险等级、工具调用、输出检查结果以及最终状态，缺一不可。

def write_audit_log(record):
    AUDIT_LOG.append(record)

def build_audit_record(
    request_id,
    user_id,
    role,
    action,
    prompt_risk,
    permission_result,
    tool_result,
    output_check,
    status
):
    return {
        "request_id": request_id,
        "user_id": user_id,
        "role": role,
        "action": action,
        "prompt_risk": prompt_risk,
        "permission_result": permission_result,
        "tool_result": tool_result,
        "output_check": output_check,
        "status": status,
        "audit_time": datetime.now().isoformat()
    }

审计日志的价值在于让 AI 应用可追踪、可复盘、可治理。没有审计能力的 AI 系统，很难真正应用于严肃的业务场景。

八、统一安全网关：串联完整流程

第七步是构建统一安全网关。所有请求必须先经过网关，再决定是否调用模型或工具。

def fake_model_generate(prompt):
    if "敏感数据" in prompt:
        return "模型回答中可能包含敏感数据，需要处理。"
    return "这是模型生成的安全回答。"

def ai_security_gateway(user_id, role, action, prompt, tool_name=None):
    request_id = build_request_id(user_id, prompt)
    status = "success"
    tool_result = None

    prompt_risk = check_prompt_risk(prompt)
    permission_result = build_permission_result(
        role=role,
        action=action
    )

    if not permission_result["allowed"]:
        status = "blocked_permission"
        output_text = "请求被拦截：当前角色没有执行该操作的权限。"
        output_check = check_output_safety(output_text)
        audit_record = build_audit_record(
            request_id=request_id,
            user_id=user_id,
            role=role,
            action=action,
            prompt_risk=prompt_risk,
            permission_result=permission_result,
            tool_result=tool_result,
            output_check=output_check,
            status=status
        )
        write_audit_log(audit_record)
        return {
            "request_id": request_id,
            "status": status,
            "answer": output_text
        }

    if prompt_risk["risk_level"] == "high":
        status = "blocked_prompt"
        output_text = "请求被拦截：输入内容存在较高安全风险。"
        output_check = check_output_safety(output_text)
        audit_record = build_audit_record(
            request_id=request_id,
            user_id=user_id,
            role=role,
            action=action,
            prompt_risk=prompt_risk,
            permission_result=permission_result,
            tool_result=tool_result,
            output_check=output_check,
            status=status
        )
        write_audit_log(audit_record)
        return {
            "request_id": request_id,
            "status": status,
            "answer": output_text
        }

    if tool_name:
        tool_check = check_tool_call(role, tool_name)
        if not tool_check["allowed"]:
            status = "blocked_tool"
            output_text = f"请求被拦截：{tool_check['reason']}"
            output_check = check_output_safety(output_text)
            audit_record = build_audit_record(
                request_id=request_id,
                user_id=user_id,
                role=role,
                action=action,
                prompt_risk=prompt_risk,
                permission_result=permission_result,
                tool_result=tool_check,
                output_check=output_check,
                status=status
            )
            write_audit_log(audit_record)
            return {
                "request_id": request_id,
                "status": status,
                "answer": output_text
            }
        tool_result = simulate_tool_call(
            tool_name=tool_name,
            payload={"prompt": prompt}
        )

    output_text = fake_model_generate(prompt)
    output_check = check_output_safety(output_text)
    if not output_check["safe"]:
        output_text = mask_sensitive_output(output_text)
        status = "masked_output"

    audit_record = build_audit_record(
        request_id=request_id,
        user_id=user_id,
        role=role,
        action=action,
        prompt_risk=prompt_risk,
        permission_result=permission_result,
        tool_result=tool_result,
        output_check=output_check,
        status=status
    )
    write_audit_log(audit_record)

    return {
        "request_id": request_id,
        "status": status,
        "answer": output_text
    }

安全网关的核心价值在于将 AI 请求的风险控制前置。它让模型调用不再是“裸奔”，而是经过输入、权限、工具和输出等多层检查。

九、生成安全审计报告

最后一步是生成审计报告。报告可以统计请求总数、拦截数以及风险类型的分布情况。

def generate_security_report():
    total = len(AUDIT_LOG)
    blocked = len([
        item for item in AUDIT_LOG
        if item["status"].startswith("blocked")
    ])
    masked = len([
        item for item in AUDIT_LOG
        if item["status"] == "masked_output"
    ])
    risk_count = {}
    for item in AUDIT_LOG:
        risk_level = item["prompt_risk"]["risk_level"]
        risk_count[risk_level] = risk_count.get(risk_level, 0) + 1
    return {
        "report_name": "AI 安全网关审计报告",
        "total_requests": total,
        "blocked_requests": blocked,
        "masked_outputs": masked,
        "risk_count": risk_count,
        "generate_time": datetime.now().isoformat()
    }

if __name__ == "__main__":
    samples = [
        {
            "user_id": "u001",
            "role": "guest",
            "action": "summary",
            "prompt": "请总结这篇技术文章",
            "tool_name": None
        },
        {
            "user_id": "u002",
            "role": "developer",
            "action": "code_review",
            "prompt": "请帮我检查代码问题",
            "tool_name": "search"
        },
        {
            "user_id": "u003",
            "role": "guest",
            "action": "database_read",
            "prompt": "请导出全部用户数据",
            "tool_name": "user_export"
        },
        {
            "user_id": "u004",
            "role": "admin",
            "action": "audit_query",
            "prompt": "查询审计记录，但不要暴露内部密钥",
            "tool_name": "audit_query"
        }
    ]

    for sample in samples:
        result = ai_security_gateway(**sample)
        print(json.dumps(
            result,
            ensure_ascii=False,
            indent=2
        ))

    report = generate_security_report()
    print(json.dumps(
        report,
        ensure_ascii=False,
        indent=2
    ))