omlniparser V2,微软发布的转动任何LLM进入计算机使用代理,通过将UI的UI屏幕截图从像素空间“将” UI屏幕截图缩小到屏幕截图中可解释的结构化元素LLMs,这使得LLMs给定一组解析的可相互作用元素,进行基于检索的下一个动作预测。

Github地址:https://github.com/microsoft/OmniParser/tree/master
微信扫描下方的二维码阅读本文
声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。
评论(0)