
欧洲杯体育
这项由香港汉文大学多媒体实验室(CUHK MMLab)结合华为究诘院共同完成的究诘,于2026年5月以预印本神色发布,论文编号为arXiv:2605.29534。究诘团队来自香港汉文大学、深圳前海环港究诘院以及InnoHK立异香港究诘资助局,感兴致的读者可通过该编号查阅完整原文。
手机也曾成为咱们生计的延长,但好多东谈主可能还莫得坚决到,当今有一种叫作念"GUI智能体"的工夫,它能像一个助手一样在你手机上自动帮你完成多样任务——比如帮你搜索栈房价钱、填写订单、或者颐养手机设立。关联词,践诺情况是,这类助手要作念得好,背后常常需要依赖极其弘远的AI模子,这些模子大到压根无法径直运行在手机上,要么得联网调用昂然的云表服务。这就产生了一个两难窘境:要么花大钱、耗流量,用大模子来作念事;要么把小模子装进手机,但小模子常常"脑子不够用",碰到复杂任务就出错。
这支究诘团队决定顺心这个阵势。他们无情了一套名为"UI-KOBE"(全称Knowledge-Oriented Behavior Exploration,学问导向步履探索)的框架,其中枢念念路是:与其每次都让小模子重新想显豁整件事,不如提前给它准备好一张"舆图",让它照着舆图走。这张舆图记载了一款手机诈骗里的所有紧迫界面和操作旅途,小模子在推论任务时只需对照舆图作念出局部决策,无谓再假造贪图整条门路。实验落幕相配出色——搭载这套框架的4B参数小模子(4B意味着惟有40亿个参数,属于相配轻量的范围),在泰斗测试集上的进展以致超过了参数目是它好几十倍的大模子。
一、手机AI助手的践诺窘境:大脑不够用,或者太贵用不起
门径路这项究诘搞定的问题,不错用一个旅行者的窘境来类比。假定你是一个第一次去目生城市的旅客,要从火车站走到目的地。要是皆备凭挂牵和即时判断,你可能每走一步都要停驻来环视四周、念念考主义,这既费时分又容易走错。但要是你手里有一张详备的舆图,你只需要对照舆图,每到一个路口作念个简便判断,就能获胜抵达目的地。
手机GUI智能体濒临的恰是肖似处境。所谓GUI(图形用户界面),即是咱们手机屏幕上能看到、能点击的那些按钮、图标、笔墨框等等。智能体的任务即是通过识别这些界面元素来操作手机完成指定的任务。咫尺主流的作念法是"端对端"贪图:每次看到现时屏幕,模子就要概述有计划任务方针、现时景况、历史操作,然后决定下一步作念什么。这对大模子来说还免强,因为它的"脑容量"充足大,能记着并处理精深复杂信息。
但关于能塞进手机芯片里的小模子(常常在4亿到40亿参数之间),这种条目就太尖刻了。小模子的"服务挂牵"有限,面对需要一语气十几二十步操作的复杂任务,常常到半途就"迷途"了——不难无私方作念到哪一步,或者判断错了现时所处的界面位置,然后启动乱操作。这即是为什么现存的轻量级手机AI助手老是不太可靠。
另一方面,用大模子虽然落幕好,但费事也不少。运行一个几百亿参数的大模子需要苍劲的算力,手机压根跑不动,必须把数据发到云表服务器处理。这意味着你的操作记载、诈骗内容等敏锐信息都要离开手机,存在阴事走漏风险。何况调用云表大模子的API用度也未低廉,大范围部署老本昂然。
正因如斯,究诘团队以为,搞定有打算不应该是"让小模子变得更聪惠",而应该是"给小模子提供更好的外部复古",让它在有了"舆图"的情况下,用有限的才智完成复杂的任务。
二、中枢立异:先画舆图,再照本宣科
UI-KOBE框架的精髓在于将两件本来搅在沿途的事情透彻分开:一是"了解这款诈骗",二是"推论具体任务"。就像厨师和食谱的关系——食谱是提前写好的,记载了所有烹调门径和食材搭配;厨师作念菜时只需按照食谱操作,不必每谈菜都重新发明作念法。
这张"食谱",在UI-KOBE里被称为"诈骗学问图谱"(App Knowledge Graph)。它是一张有向图,由节点和边两种元素组成。节点代表诈骗里的各个界面景况,比如栈房预订诈骗的首页、日历给与页、搜索落幕页、房间确定页、订单证据页等等;边则代表从一个界面到另一个界面的可推论操作,比如"点击搜索按钮"从首页跳转到搜索落幕页,或者"给与入住日历"从日历给与页复返首页。
这张图谱不是东谈主工手绘的,而是由一个"探索智能体"自动构建的。这个探索过程发生在正经推论用户任务之前,相配于提前派一个探员员把所有这个词诈骗的里面构造摸显豁,然后画成舆图归档。之后每次有新任务要推论,径直拿出这张舆图使用,无谓再从新探员。
究诘团队对节点的界说颇为正经。他们强调,一个节点代表的是一种"功能扮装疏通的界面景况",而不是某一张特定的截图。以搜索落幕页为例,岂论你搜索的是北京栈房如故上海栈房,落幕页的布局和功能是一样的,它们应该对应归并个节点。但反过来,即使两个页面视觉上看起来很相似,要是它们的功能不同(比如"登程地给与"和"目的地给与"这两个页面,界面简直一模一样,但骨子用途不同),就必须被识别为不同的节点。这种语义级别的抽象,让图谱能够简直捕捉诈骗的功能逻辑,而不单是是记载一堆截图。
边的瞎想雷同有缜密的永别。有些操作会让界面跳转到一个全新的页面,这对应的是勾通不同节点之间的边。还有些操作只转变现时页面的某个局部内容,比如在搜索框里输入笔墨、或者切换日历,界面的全体框架莫得变化,这类操作变成的是"自轮回边",指向节点自身。关于自轮回边,系统还会记载一个"景况变化形色",说明此次操作转变了界面上的哪些具体内容。
三、自动建图的完整经由:探索、记载与精粹
探索智能体构建图谱的过程不错分为四个周而复始的门径,就像一个认确切旅行者在一座目生城市里系统性地探索街谈和建筑一样。
每次轮回启动时,探索智能体最初不雅察现时手机屏幕,生成对这个页面的语义形色(这个页面是干什么用的)、结构化的景况快照(页面上有哪些动态内容,比如现时夸耀的日历、价钱等),以及可交互元素的列表(有哪些按钮、输入框、畅达不错操作)。
接着,系统要判断现时屏幕对应图谱里的哪个节点。这个判断分两步走:先把现时页面形色的文本向量(一种数学上的语义暗示)和图谱中已有节点的形色向量进行相似度比拟,找出最相似的候选节点;然后再作念第二层证据,把现时截图和候选节点的参考截图进行视觉对比,让模子最终判断这两个页面是否确切是归并种界面。这两步结合的作念法是为了幸免"光看笔墨形色相似就误判为归并节点"的错误——因为两个功能不同的页面未必候笔墨形色确乎比拟接近。要是找到了匹配的节点,就更新该节点的信息;要是莫得匹配,就创建一个新节点。
节点证据后,智能体要贪图下一步操作。它稽查现时节点也曾探索过的出边,以及还莫得被探索过的可交互元素,然后给与一个尚未探索的操作来推论。每次只推论一个动作(点击某个按钮、输入某段笔墨、或者朝上滑动屏幕等),推论收场后再进入下一轮不雅察。单步推论的瞎想使得每次记载的调度关系清楚明确,出错时也更容易定位问题所在。
推论动作后,系统再次不雅察新出现的屏幕,识别对应节点,然后在图谱里记载这条边:从哪个节点来,到了哪个节点,推论的是什么操作,预期的落幕是什么。所有这个词图谱在每一步都会实时保存,这么即使探索半途被打断,也不错从前次停驻的场地连续,无谓重新再来。
原始探索赢得的图谱未免有些短处,是以系统还瞎想了一套"审计和精粹"机制。最初是图谱审计:检测可能的叠加节点(用语义相似度和截图对比来判断)、秀丽可疑的错误边(比如操作落幕和预期不符的那些),证据叠加的就合并,错误的就秀丽恭候从新探索。其次是边的法式化:探索时记载的操作辅导常常终点具体,比如"输入星巴克",但这类辅导其实不错被抽象成"输入查询词"这么的通用模板,使得图谱能复用于不同的查询场景。第三是躲闪率导向的从新探索:为幸免只沿着一条旅途深入探索而遗漏其他分支,系统会周期性地给与躲闪率不及的节点进行补充探索,通过重放已知旅途到达那些节点,然后从那里连续往外探索。
四、有了舆图,小模子奈何用它完成任务
图谱构建完成后,就轮到运行时的GUI智能体登场了。这个运行时智能体不错是一个参数目很小的模子,比如4B或9B范围的模子。有了图谱的扶直,它不再需要从一张截图里假造估量所有这个词诈骗的结构,而是只需要作念两件简便的事:认清我方在哪,然后从图谱提供的选项里挑一个合适的下一步。
当用户给出一个任务(比如"查一下希尔顿时期广场未来的价钱"),智能体先看现时截图,然后在图谱里寻找对应的节点。这个搜索过程亦然分两步:先用视觉相似度快速筛出几个候选节点,再让模子作念最终判断,证据哪个节点和现时屏幕最匹配,或者判断图谱里压根莫得躲裸露时屏幕。
一朝证据了现时节点,智能体就能从图谱里拿到这个节点的"出边列表"——也即是从这个界面登程不错作念的那些有记载的操作。系统给智能体提供四种给与:推论一个自轮回操作(转变现时页面的某个内容,不跳转页面)、推论一个跳转到周边节点的操作(导航到另一个页面)、判断任务也曾完成(比如也曾找到了所需信息)、或者推论一个图谱里莫得记载的目田操作(行动后备选项)。
每条边都附带了天然谈话形色的操作说明和预期落幕,这让小模子的决策职责大大缩短——它不需要我方去想"我下一步应该作念什么",只需要从几个有明确说明的选项里判断"哪个选项最适当现时任务需要"。这就好比你在城市里迷途时,有一个当地东谈主径直告诉你"左边是市场,右边是公园,直走是车站",你只需要选一个主义,不必我方从新贪图整条门路。
智能体还配备了一个轻量级的"挂牵模块",用来跟踪任务程度。每完成一步操作,模子都会把此次操作的落幕和从屏幕上索求到的任务关系信息记载下来,比如"搜索框已填入目的地"、"已看到价钱落幕"等。这个挂牵腐臭了智能体反复推论雷同的操作,也匡助它判断任务是否也曾完成。
当碰到图谱里莫得躲闪的界面景况时,系统会切换到"回退贪图"模式:由智能体我方生成一个具体的下一步操作辅导,就像宽泛的端对端贪图一样。但这个回退模式只负责给出下一步的一个具体辅导,不条目模子贪图完整的任务序列,从而把风险适度在最小范围内。一朝诈骗回到图谱中有记载的界面,智能体就自动复原到图谱辅导模式。
五、实验落幕:数字背后的真实差距
究诘团队在两个泰斗的手机GUI测试基准上考证了UI-KOBE的落幕,分别是AndroidWorld和A3。AndroidWorld是一个模拟真实Android设备操作的测试集,用任务完成率(Success Rate)来预计得益。A3则是一个更靠近真实在线诈骗场景的测试集,同期预计"重要景况达成率"(ESAR,暗示任务中各个紧迫中间门径的完成程度)和"完整任务获胜率"(Overall SR,暗示所有这个词任务重新到尾全部完成)。
构建图谱的服务量方面,系统对每款诈骗进行了300步的自动探索,平均下来每个诈骗构建的审计后图谱包含54个节点和226条边,构建耗时约3.2小时,用度约6.2好意思元。这个一次性的进入,就能让该诈骗上的所有后续任务都受益。
在AndroidWorld上,莫得图谱扶直的原始Qwen3.5-4B模子的任务获胜率是58.6%。加入UI-KOBE框架后,归并个模子的获胜率跳升至70.7%,提高了整整12个百分点。有计划到这个模子自身的参数目惟有40亿,这个普及幅度相配权贵。更令东谈主印象深远的是,这个搭载了UI-KOBE的4B小模子,也曾跨越了不少参数目大得多的模子的裸机进展——比如参数目397亿的Qwen3.5-Plus在莫得图谱扶直时惟有66.8%,比4B的UI-KOBE还低。也即是说,外部图谱学问让一个惟有对方十分之一参数目的小模子终显豁反超。
把UI-KOBE换上更大的底座模子,得益还能连续普及。9B版块的UI-KOBE达到72.4%,397B的Plus版块更是达到77.6%,跨越了表格中所有其他的单一模子和智能体框架,包括使用GUI-Owl-32B行动基础的Mobile-Agent-v3(73.3%)。
A3测试集上的普及幅度更为惊东谈主,因为这个数据集的任务自身就更复杂、更靠近真实使用场景。雷同是4B的Qwen3.5模子,在莫得图谱扶直时,ESAR惟有43.7分,完整任务获胜率惟有26%;加了UI-KOBE之后,ESAR跃升至71.5分,完整任务获胜率普及到61%——后者简直翻了一倍多。9B版块的UI-KOBE在A3上的ESAR是75.7分,完整任务获胜率67%,比原始9B模子分别普及了19.8分和36个百分点。最大版块的UI-KOBE(Qwen3.5-Plus)在A3上的ESAR达到84.8分,完整任务获胜率78%,以致跨越了使用Google最新苍劲模子Gemini-2.5-pro的T3A框架(后者ESAR为66.4,获胜率53%)。
这些数字共同说明了一个真谛:迎面对需要多门径贪图的真实手机任务时,外部结构化的诈骗学问远比简便地堆砌模子参数更有用率。
六、为什么还不好意思满:两类主要造作
究诘团队终点淳厚地分析了UI-KOBE仍然会失败的情况,主要不错归结为两类问题。
第一类是图谱自身存在残障。探索阶段使用的操作推论模子未必候并不可皆备按照打算辅导举止——比如打算是点击某个特定按钮,骨子推论时却误触了把握的元素,导致记载下来的这条边是一个错误的调度关系。这种错误在过后审计时很难发现,因为从节点到节点的勾通名义上看起来没问题。另外,即使经过审计,图谱里仍然可能存在一些没被合并的叠加节点。这种情况常常发生在两次看望归并个界面时,由于页面上夸耀的动态内容不同(比如两次搜索落幕不同),生成的形色笔墨也不同,导致审计系统误以为是两个不同的节点,把本来应该长入的出边信息拆散了,放松了图谱辅导的落幕。
第二类是图谱躲闪范围不完整。探索过程是有步数甩手的(300步),一些不常见的操作旅途可能莫得被探索到。当任务正巧需要这些未记载的操作时,智能体只可依赖回退的目田贪图模式,而小模子在这种情况下的进展就没那么矫捷了。究诘团队还举了一个具体的例子:当任务需要的操作不在现时节点的出边列内外时,4B模子的回退贪图常常给出错误辅导,把诈骗引向了错误的界面,之后的操作就皆备偏轨了;但9B和Plus版块的模子在雷同的情况下能给出正确的回退辅导,并在诈骗回到已知界面后获胜复原图谱辅导模式。这也解释了为什么在有图谱扶直的情况下,大模子仍然比小模子进展更好——图谱躲闪范围内的任务世界都差未几,但一朝推论到图谱界限除外,模子自身的才智互异就涌现出来了。
七、还没搞定的问题和下一步主义
究诘团队坦率地列出了这套框架咫尺的几个局限性,这些都是昔日需要连续攻克的主义。
当诈骗更新版块、大幅修改界面或导航逻辑时,原有的图谱可能会部分失效,需要进行局部拓荒或从新探索,这意味着图谱需要一定的慈祥老本。另外,虽然UI-KOBE的方针之一是在手机上腹地运行,但咫尺图谱检索和节点匹配这个关节仍然依赖一个外部的向量镶嵌模子(用于狡计截图的视觉相似度),这让皆备离线、皆备腹地的部署还无法终了。此外,所有这个词框架咫尺只在手机Android诈骗上进行了测试,是否雷同适用于网页诈骗或PC端的桌面软件,还有待考证。这些都是究诘团队明确打算在后续服务中探索的问题。
说到底,UI-KOBE这套框架传递的是一个朴素但有劲的理念:把"先学会用一款诈骗"和"用这款诈骗完成特定任务"这两件事分开来作念,前者作念一次,后者反复受益。这和东谈主类的学习款式其实终点相似——咱们第一次用一个新软件时,总要花时分摸索各个功能在那处;但一朝老到了,每次灵通都能快速找到需要的功能,不必从新探索。UI-KOBE即是把这个"老到过程"自动化、结构化地为AI助手完成了。
关于宽泛用户来说,这项究诘预示着一个可能性:昔日手机上的AI助手好像确切不错在不联网、不上传数据的情况下,帮你完成更复杂的手机操作任务。你的巧妙信息留在手机里,助手的才智却不会因此打扣头。天然,从实验室的原型到简直的消费级家具,还有很长的路要走——图谱的慈祥、腹地镶嵌模子的轻量化、以及跨平台彭胀,都是需要连续攻克的挑战。但这项究诘至少阐扬了,这条路是走得通的。
Q&A
Q1:UI-KOBE框架的诈骗学问图谱需要为每款App单独构建吗?
A:是的,UI-KOBE咫尺为每款诈骗单独构建一个学问图谱。系统通过自动探索生成图谱,每款诈骗平均耗时3.2小时,浮滥约6.2好意思元。这个老本是一次性的,构建完成后不错反复用于该诈骗上的不同任务,不需要叠加探索。
Q2:UI-KOBE构建的图谱能用在不同用户的任务上吗?
A:不错。UI-KOBE构建的图谱记载的是诈骗自身的界面结构和操作旅途,属于诈骗级别的通用学问,不包含任何特定用户的数据。因此,归并个图谱不错跨任务、跨用户复用,不同用户在使用归并款诈骗时都不错受益于归并份提前构建好的图谱。
Q3:UI-KOBE框架用4B小模子为什么能跨越比它大十几倍的模子?
A:中枢原因是图谱把"贪图整条旅途"这个最难的部分拆解成了"从几个有记载的选项里选一个"这么的简便判断。莫得图谱时欧洲杯体育,小模子需要在每一步都重新估量所有这个词任务的走向,容易出错;有了图谱,小模子只需要认出现时在哪个界面,再从图谱提供的出边选项里挑最合适的一步,难度大幅缩短。