数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

AI资讯

热点详情

K星微软开源AI Agent神器OmniParser让AI成为你的电脑操作专家

AI热点日报时间：2026-07-01

热点解读

微软开源全能解析器OmniParser，可将用户界面截图转化为结构化数据，使人工智能识别并操作屏幕元素。第二版处理速度极快，在屏幕定位专业基准测试中准确率达百分之三十九点六，兼容GPT-4视觉模型等多款大模型，并可配合全能工具OmniTool操控Windows十一虚拟机。

微软最近开源了一个名为OmniParser的项目，简直是把AI的“手”和“眼”都补齐了。简单说，它能让大语言模型直接看懂电脑屏幕上的每一个按钮、输入框、图标，然后像人一样去操作它们。目前这个项目在GitHub上的星标已经超过16.3K，热度相当高。

先看几个核心判断：OmniParser的核心能力是把UI截图转化成机器能读懂的结构化数据，让AI不再只是“聊天”，而是能“动手”。V2版本在A100显卡上处理一帧只需要0.6秒，RTX 4090上也不过0.8秒，在ScreenSpot Pro基准测试上平均准确率达到39.6%。它能兼容GPT-4V、DeepSeek R1、Claude 3.5 Sonnet、Qwen 2.5VL以及Anthropic Computer Use这些主流大模型，配合全新的OmniTool，甚至可以直接操控Windows 11虚拟机。

我们通过一段视频来直观感受一下——它演示了如何用OmniParser驱动AI自动在X平台发帖：

OmniParser核心能力

给AI装上“慧眼”这个说法不算夸张。OmniParser能把任意一张屏幕截图解析成结构化的格式，告诉AI屏幕上都有哪些元素，分别是什么，在什么位置。这意味着AI不再需要依赖繁琐的API或后台数据，直接“看”就能理解界面。V2版本在这一点上做得更扎实，处理速度很快，准确率也上了新台阶。

支持的大模型列表已经覆盖了业界主流，这为后续的自动化应用打开了很大的空间。后续的应用场景想象空间确实很大。

环境准备

想自己动手试试，流程并不复杂。第一步，先把项目代码克隆下来：

git clone https://github.com/microsoft/OmniParser.git
cd OmniParser

然后创建一个干净的Python环境，推荐用3.12版本：

conda create -n "omni" python==3.12
conda activate omni

接下来安装核心依赖，有几个包版本有明确要求，需要注意一下：

pip install --upgrade huggingface_hub
pip install gradio==4.14.0
pip install httpx==0.26.0
pip install httpcore==1.0.2
pip install anyio==4.2.0
pip install -r requirements.txt

下载模型文件

模型文件需要从Hugging Face下载。为了便于管理，可以创建这样一个download_models.py脚本，把文件按指定路径下载到本地“weights”目录下：

import os
from huggingface_hub import hf_hub_download
from pathlib import Path

def download_omniparser_models():
    """下载OmniParser V2的模型文件"""
    try:
        base_path = Path("weights")
        base_path.mkdir(exist_ok=True)

        files = [
            "icon_detect/train_args.yaml",
            "icon_detect/model.pt",
            "icon_detect/model.yaml",
            "icon_caption/config.json",
            "icon_caption/generation_config.json",
            "icon_caption/model.safetensors"
        ]

        print("开始下载模型文件...")
        for file in files:
            print(f"正在下载: {file}")
            hf_hub_download(repo_id="microsoft/OmniParser-v2.0",
                           filename=file,
                           local_dir=base_path)

        icon_caption_path = base_path / "icon_caption"
        icon_caption_florence_path = base_path / "icon_caption_florence"
        if icon_caption_path.exists():
            if icon_caption_florence_path.exists():
                import shutil
                shutil.rmtree(icon_caption_florence_path)
            icon_caption_path.rename(icon_caption_florence_path)

        print("n所有文件下载完成！")
    except Exception as e:
        print(f"n下载过程中间出现错误: {str(e)}")
        print("请检查网络连接并重试")

if __name__ == "__main__":
    download_omniparser_models()

运行脚本后，就可以启动本地的演示界面了：

python gradio_demo.py

服务启动后，打开浏览器访问http://127.0.0.1:7860。上传任意一张屏幕截图，等待几乎不需要时间（通常不超过1秒），就能看到解析结果——每个可交互区域的边框、功能描述，清晰明了。效果是这样的：

输入一张图片：

输出图标标记的结果：

结构化的JSON数据，包含每个元素的内容识别结果和精确坐标：

有了这些结构化识别结果，想象空间确实可以无限延伸。

跨平台自动化实战案例

这里有一个实际的跨平台自动化方案：在服务器上部署OmniParser服务，然后通过macOS客户端脚本实现远程自动化操作。

服务端（基于FastAPI）负责接收客户端传来的屏幕截图，调用OmniParser进行解析，返回结构化元素信息：

from fastapi import FastAPI, UploadFile
from PIL import Image
import io
import uvicorn

app = FastAPI()

@app.post("/analyze")
async def analyze_screen(image: UploadFile):
    image_data = await image.read()
    image = Image.open(io.BytesIO(image_data))
    # 这里添加OmniParser的处理逻辑
    return {"elements": [...]}

if __name__ == "__main__":
    uvicorn.run(app, host="0.0.0.0", port=8000)

客户端（以macOS为例）负责截图、发送请求并执行鼠标操作：

import pyautogui
import requests
from PIL import ImageGrab

def capture_screen():
    screenshot = ImageGrab.grab()
    return screenshot

def convert_coordinates(omni_coords):
    # 根据需要调整坐标映射
    return omni_coords

def click_element(coords):
    pyautogui.click(coords[0], coords[1])

def main():
    screenshot = capture_screen()
    files = {'image': ('screenshot.png', screenshot)}
    response = requests.post('http://ubuntu-server:8000/analyze', files=files)
    elements = response.json()['elements']
    for element in elements:
        coords = convert_coordinates(element['coords'])
        click_element(coords)

if __name__ == "__main__":
    main()

这里的核心思路是：

服务端只管“看”和“理解”：专门负责图像解析，减轻客户端负担。
客户端只负责“动”：截图、发送请求、接收解析结果、执行鼠标操作。
跨平台协作：通过HTTP API实现统一调度。

在这个基础框架上，可以做很多扩展：接入GPT-4V或类似的大模型，实现自然语言指令控制（比如“帮我打开微信”）；添加键盘输入、拖拽等更多操作类型；甚至实现操作的录制与回放，以及相应的容错机制。

热点追踪提示词

你是一名 AI 行业编辑，请围绕下面这条热点输出一份资讯解读：
热点：K星微软开源AI Agent神器OmniParser让AI成为你的电脑操作专家要求：
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题

来源：https://www.53ai.com/news/OpenSourceLLM/2025022370325.html

ai 人工智能

上一篇：人工智能与机器学习能否帮助更多企业维持远程办公文化

下一篇：达摩院遥感AI升级处理速度提升5倍

游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

延伸阅读

iPhone 17系列液态硅胶壳曝光：8色可选+挂绳孔设计 iOS 26整合ChatGPT-5：AI全面赋能苹果智能生态真我828真粉节揭晓：10000mAh超大电池手机即将亮相？苹果折叠iPhone曝光：搭载自研C2基带芯片与Touch ID指纹识别对话元戎启行周光：VLA模型核心成本在AI芯片，辅助驾驶方案交付近10万套刘志强：京东方坚持开放合作，拒绝低质低价竞争 Redmi K90系列全系标配5000万长焦与3D超声波指纹，配置再升级 vivo X300系列曝光：天玑9500+2亿像素主摄，长焦微距实力升级

日榜
周榜
月榜

01 / 08-26iPhone 17系列液态硅胶壳曝光：8色可选+挂绳孔设计 02 / 08-26iOS 26整合ChatGPT-5：AI全面赋能苹果智能生态 03 / 08-26真我828真粉节揭晓：10000mAh超大电池手机即将亮相？ 04 / 08-26苹果折叠iPhone曝光：搭载自研C2基带芯片与Touch ID指纹识别 05 / 08-27对话元戎启行周光：VLA模型核心成本在AI芯片，辅助驾驶方案交付近10万套

01 / 本周一加Turbo 6X系列开售搭载天玑芯片1499元起 02 / 本周蔚来三款冠军纪念版上市租电起售价20.5万元 03 / 本周战争机器E-Day PC配置公布最低要求RTX5050与RX9060 04 / 本周软科中国大学专业排名出炉北大清华哈工大前三 05 / 本周Arch Linux AUR再遭新一轮恶意攻击 Node.js与浏览器插件成最新目标

01 / 本月一加Turbo 6X系列开售搭载天玑芯片1499元起 02 / 本月蔚来三款冠军纪念版上市租电起售价20.5万元 03 / 本月战争机器E-Day PC配置公布最低要求RTX5050与RX9060 04 / 本月软科中国大学专业排名出炉北大清华哈工大前三 05 / 本月Arch Linux AUR再遭新一轮恶意攻击 Node.js与浏览器插件成最新目标

热点快看

07-02 08:38一加Turbo 6X系列开售搭载天玑芯片1499元起 07-02 08:38蔚来三款冠军纪念版上市租电起售价20.5万元 07-02 08:38战争机器E-Day PC配置公布最低要求RTX5050与RX9060 07-02 08:38软科中国大学专业排名出炉北大清华哈工大前三 07-02 08:38Arch Linux AUR再遭新一轮恶意攻击 Node.js与浏览器插件成最新目标

热点追踪

持续追踪iPhone 17系列液态硅胶壳曝光：8色可选+挂绳孔设计 持续追踪iOS 26整合ChatGPT-5：AI全面赋能苹果智能生态 持续追踪真我828真粉节揭晓：10000mAh超大电池手机即将亮相？ 持续追踪苹果折叠iPhone曝光：搭载自研C2基带芯片与Touch ID指纹识别