← 返回
未分类

AI-Eyes 屏幕视觉插件-2.0版(给文字AI装上眼睛)

视觉金字塔定位器:模拟人类看屏幕的方式,分层放大精准定位 UI 元素。 触发词:截图定位、屏幕查找、找按钮、找图标、找元素、定位UI、 屏幕自动化、找到按钮位置、屏幕点击、视觉定位、图像查找、 find button、screen locate、UI automation、元素定位、 坐标查找、在屏幕上找、屏幕识别、OCR定位、视觉识别、 精准点击、自动点击位置 使用场景: - RPA 自动化:精准定位按钮/输入框进行自动化操作 - 游戏自动化:定位游戏界面元素 - 测试自动化:UI 自动化测试中定位元素 - 辅助功能:帮助用户找到屏幕上的特定元素
|VisionLocator 视觉金字塔定位器 模拟人类视觉,AI 分层放大精准定位屏幕上任意 UI 元素 支持 4 种匹配模式,精度达 0.125px,开箱即用 亮点 多层级放大,0.125px 超高精度 语义理解,"提交" ≈ "确认" ≈ "OK" 多显示器自动适配 仅 38KB,无冗余依赖
独孤剑虎
未分类 community v2.0.0 2 版本 100000 Key: 无需
★ 0
Stars
📥 287
下载
💾 36
安装
2
版本
#latest

概述

VisionLocator 视觉金字塔定位器

能做什么

VisionLocator 模拟人类视觉的「先全局扫视 → 再细节聚焦」方式,在屏幕上精准定位任何 UI 元素。

核心特性

  • 多层级递归放大 — 从全屏到像素级,精度达 0.125px
  • 候选区域智能筛选 — 支持精确/模糊/语义/位置加权 4 种匹配模式
  • LLaVA 语义验证 — 用视觉语言模型二次确认找到的元素
  • 坐标变换器 — 自动补偿放大比例,确保返回真实屏幕坐标

工作原理

全屏截图 (1920x1080)
    ↓ OCR + 快速扫描
候选区域列表 [区域A, 区域B, 区域C]
    ↓ 按匹配分数排序
放大最佳候选区 (2x)
    ↓ 精细 OCR
更精准候选列表
    ↓ 递归 (最多 9 层)
找到目标元素 → 返回真实坐标

快速使用

from vision_locator import VisionLocator

locator = VisionLocator()

# 在屏幕上查找"确认"按钮
result = locator.find("确认")
if result:
    x, y = result.x, result.y
    print(f"找到!坐标: ({x}, {y})")
    # 配合 pyautogui 点击
    import pyautogui
    pyautogui.click(x, y)

# 模糊匹配
result = locator.find("确认", match_mode="fuzzy")

# 带截图路径
result = locator.find_in_image("确认", image_path="screenshot.png")

# 查找所有匹配
results = locator.find_all("按钮")

精度层级

| 层级 | 精度 | 适用场景 |

|------|------|---------|

| L0 全屏 | 1px | 快速扫描,确定大致区域 |

| L1 区域 | 0.5px | 缩小范围 |

| L2 精细 | 0.25px | 精准识别 |

| L3 微观 | 0.125px | 极小元素、密集界面 |

匹配模式

| 模式 | 说明 |

|------|------|

| exact | 精确匹配,区分大小写 |

| fuzzy | 模糊匹配,允许部分字符偏差 |

| semantic | 语义匹配,"提交" ≈ "确认" ≈ "OK" |

| position | 位置加权,优先屏幕特定区域 |

依赖

  • Python 3.8+
  • Pillow — 截图处理
  • rapidocr-onnxruntimeeasyocr — OCR 识别
  • pyautogui — 屏幕截图(可替换)
  • Ollama + LLaVA(可选,用于语义验证)

版本历史

共 2 个版本

  • v2.0.0 原版:AI-Eyes-Plugin(15个文件,~70KB) 更新版:VisionLocator(5个文件,~38KB) 主要更新: 新增分层放大视觉系统(4级精度) 集成 LLaVA 语义理解 新增候选筛选器 架构精简整合 当前
    2026-04-20 13:25 安全 安全
  • v1.0.0 首次发布
    2026-04-19 01:22 安全 安全

安全检测

腾讯云安全 (Keen)

安全,无风险
查看报告

腾讯云安全 (Sanbu)

安全,无风险
查看报告

🔗 相关推荐

AI探索欲学习模块

user_09a38a2b
AI自主探索电脑技能。让AI像人类一样自动发现、学习、掌握电脑上的所有应用程序。五大核心能力:1)环境扫描-自动发现桌面/开始菜单/已安装APP 2)被召唤自学习-用户叫用不会的APP时根据使用价值分级自学 3)价值驱动学习-不常用的浅尝辄
★ 0 📥 146

GroupMind

user_09a38a2b
群聊好感度系统:让群聊 AI 记住每个成员,并根据好感度动态调整回复策略
★ 0 📥 113

EmotionWeaver

user_09a38a2b
情绪化回复引擎:让 AI 拥有真正的情商,识别用户情绪并用同理心回应
★ 1 📥 117