面包屑图标 当前位置: 首页
AI资讯
热点详情

K星微软开源AI Agent神器OmniParser让AI成为你的电脑操作专家

AI热点日报
AI热点日报时间:2026-07-01
热点解读

微软开源全能解析器OmniParser,可将用户界面截图转化为结构化数据,使人工智能识别并操作屏幕元素。第二版处理速度极快,在屏幕定位专业基准测试中准确率达百分之三十九点六,兼容GPT-4视觉模型等多款大模型,并可配合全能工具OmniTool操控Windows十一虚拟机。

微软最近开源了一个名为OmniParser的项目,简直是把AI的“手”和“眼”都补齐了。简单说,它能让大语言模型直接看懂电脑屏幕上的每一个按钮、输入框、图标,然后像人一样去操作它们。目前这个项目在GitHub上的星标已经超过16.3K,热度相当高。

先看几个核心判断:OmniParser的核心能力是把UI截图转化成机器能读懂的结构化数据,让AI不再只是“聊天”,而是能“动手”。V2版本在A100显卡上处理一帧只需要0.6秒,RTX 4090上也不过0.8秒,在ScreenSpot Pro基准测试上平均准确率达到39.6%。它能兼容GPT-4V、DeepSeek R1、Claude 3.5 Sonnet、Qwen 2.5VL以及Anthropic Computer Use这些主流大模型,配合全新的OmniTool,甚至可以直接操控Windows 11虚拟机。

我们通过一段视频来直观感受一下——它演示了如何用OmniParser驱动AI自动在X平台发帖:

OmniParser核心能力

给AI装上“慧眼”这个说法不算夸张。OmniParser能把任意一张屏幕截图解析成结构化的格式,告诉AI屏幕上都有哪些元素,分别是什么,在什么位置。这意味着AI不再需要依赖繁琐的API或后台数据,直接“看”就能理解界面。V2版本在这一点上做得更扎实,处理速度很快,准确率也上了新台阶。

支持的大模型列表已经覆盖了业界主流,这为后续的自动化应用打开了很大的空间。后续的应用场景想象空间确实很大。

环境准备

想自己动手试试,流程并不复杂。第一步,先把项目代码克隆下来:

git clone https://github.com/microsoft/OmniParser.git
cd OmniParser

然后创建一个干净的Python环境,推荐用3.12版本:

conda create -n "omni" python==3.12
conda activate omni

接下来安装核心依赖,有几个包版本有明确要求,需要注意一下:

pip install --upgrade huggingface_hub
pip install gradio==4.14.0
pip install httpx==0.26.0
pip install httpcore==1.0.2
pip install anyio==4.2.0
pip install -r requirements.txt

下载模型文件

模型文件需要从Hugging Face下载。为了便于管理,可以创建这样一个download_models.py脚本,把文件按指定路径下载到本地“weights”目录下:

import os
from huggingface_hub import hf_hub_download
from pathlib import Path

def download_omniparser_models():
    """下载OmniParser V2的模型文件"""
    try:
        base_path = Path("weights")
        base_path.mkdir(exist_ok=True)

        files = [
            "icon_detect/train_args.yaml",
            "icon_detect/model.pt",
            "icon_detect/model.yaml",
            "icon_caption/config.json",
            "icon_caption/generation_config.json",
            "icon_caption/model.safetensors"
        ]

        print("开始下载模型文件...")
        for file in files:
            print(f"正在下载: {file}")
            hf_hub_download(repo_id="microsoft/OmniParser-v2.0",
                           filename=file,
                           local_dir=base_path)

        icon_caption_path = base_path / "icon_caption"
        icon_caption_florence_path = base_path / "icon_caption_florence"
        if icon_caption_path.exists():
            if icon_caption_florence_path.exists():
                import shutil
                shutil.rmtree(icon_caption_florence_path)
            icon_caption_path.rename(icon_caption_florence_path)

        print("n所有文件下载完成!")
    except Exception as e:
        print(f"n下载过程中间出现错误: {str(e)}")
        print("请检查网络连接并重试")

if __name__ == "__main__":
    download_omniparser_models()

运行脚本后,就可以启动本地的演示界面了:

python gradio_demo.py

服务启动后,打开浏览器访问http://127.0.0.1:7860。上传任意一张屏幕截图,等待几乎不需要时间(通常不超过1秒),就能看到解析结果——每个可交互区域的边框、功能描述,清晰明了。效果是这样的:

输入一张图片:

输出图标标记的结果:

结构化的JSON数据,包含每个元素的内容识别结果和精确坐标:

有了这些结构化识别结果,想象空间确实可以无限延伸。

跨平台自动化实战案例

这里有一个实际的跨平台自动化方案:在服务器上部署OmniParser服务,然后通过macOS客户端脚本实现远程自动化操作。

服务端(基于FastAPI)负责接收客户端传来的屏幕截图,调用OmniParser进行解析,返回结构化元素信息:

from fastapi import FastAPI, UploadFile
from PIL import Image
import io
import uvicorn

app = FastAPI()

@app.post("/analyze")
async def analyze_screen(image: UploadFile):
    image_data = await image.read()
    image = Image.open(io.BytesIO(image_data))
    # 这里添加OmniParser的处理逻辑
    return {"elements": [...]}

if __name__ == "__main__":
    uvicorn.run(app, host="0.0.0.0", port=8000)

客户端(以macOS为例)负责截图、发送请求并执行鼠标操作:

import pyautogui
import requests
from PIL import ImageGrab

def capture_screen():
    screenshot = ImageGrab.grab()
    return screenshot

def convert_coordinates(omni_coords):
    # 根据需要调整坐标映射
    return omni_coords

def click_element(coords):
    pyautogui.click(coords[0], coords[1])

def main():
    screenshot = capture_screen()
    files = {'image': ('screenshot.png', screenshot)}
    response = requests.post('http://ubuntu-server:8000/analyze', files=files)
    elements = response.json()['elements']
    for element in elements:
        coords = convert_coordinates(element['coords'])
        click_element(coords)

if __name__ == "__main__":
    main()

这里的核心思路是:

  • 服务端只管“看”和“理解”:专门负责图像解析,减轻客户端负担。
  • 客户端只负责“动”:截图、发送请求、接收解析结果、执行鼠标操作。
  • 跨平台协作:通过HTTP API实现统一调度。

在这个基础框架上,可以做很多扩展:接入GPT-4V或类似的大模型,实现自然语言指令控制(比如“帮我打开微信”);添加键盘输入、拖拽等更多操作类型;甚至实现操作的录制与回放,以及相应的容错机制。

热点追踪提示词
你是一名 AI 行业编辑,请围绕下面这条热点输出一份资讯解读:
热点:K星微软开源AI Agent神器OmniParser让AI成为你的电脑操作专家要求:
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题
来源:https://www.53ai.com/news/OpenSourceLLM/2025022370325.html
ai 人工智能

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关热点
AI热点2026-07-02 08:38
一加Turbo 6X系列开售 搭载天玑芯片1499元起

一加Turbo6X开售,含标准版与Pro版,起售价1499元,国补价1274 15元。搭载天玑7360SUPER和7400SUPER,144Hz屏,7000 8000mAh电池,主打长续航高性价比。

AI热点2026-07-02 08:38
蔚来三款冠军纪念版上市 租电起售价20.5万元

蔚来汽车近日上市了2026款ET5、ET5T和EC6的冠军纪念版车型。新车主打赛道竞速设计风格,提供专属外观内饰与智能座舱主题。最大的亮点在于推出了BaaS电池租用方案,ET5 ET5T租电版起售价20 5万元,EC6租电版起售价26 5万元,大幅降低了购车门槛。车辆在底盘方面进行了针对性调校,提升

AI热点2026-07-02 08:38
战争机器E-Day PC配置公布 最低要求RTX5050与RX9060

微软射击游戏《战争机器:E-Day》公布PC配置要求,将于2026年10月发售。配置清单引人注目地将尚未发布的RTX5050和RX9060显卡列为最低要求,同时兼容多款现有中端显卡。游戏需130GB固态硬盘空间,最低要求12GB内存和六核CPU。官方未明确对应画质与帧数,但推测将依赖超分辨率技术

AI热点2026-07-02 08:38
软科中国大学专业排名出炉北大清华哈工大前三

软科近日发布2026年中国大学专业排名,覆盖1132所高校的3万余个专业点。排名显示,北京大学以93个A+专业位居榜首,清华大学和哈尔滨工业大学分列二、三位。榜单同时引入“A+专业精度”指标,中国人民公安大学以93 8%的精度领先。此外,北京大学、吉林大学、武汉大学在上榜专业总数上位列前三。该排名从

延伸阅读