本白皮書總結了 GUI Agent的概念、發展阻礙、技術架構和核心實現、產品形態和場景落地、未來與展望。
人工智能的演進將經歷算法階段、模型階段、智能體階段和智能體生態階段四個階段,其中算法階段的核心特征是主要解決“如何計算”的問題,由統計學和傳統的機器學習算法驅動,智能體階段的核心特征是大模型不再是一個簡單的Chatbot,而是可以主動完成任務的智能助理,智能體生態階段的核心特征是AI將從單體智能走向多智能體協作和智能體工作流。不同的 Agent扮演不同的角色(如程序員、測試員)共同完成龐大的工程。
GUI Agent 是人機交互自動化的范式革命。人機交互經歷了三次浪潮,分別是CLI階段、GUI階段、GUI Agent階段,GUI Agent正在引發繼“命令行”到“圖形界面”之后的第三次人機交互革命,其核心是從“人操作機器”轉向“機器理解并執行人的意圖”,最終將消滅“應用孤島”,使操作系統回歸‘用戶意圖執行者“的本質。主要表現在交互邏輯革命、用戶角色革命、能力邊界革命、生態模式革命四個方面。
GUI Agent 驅動因素由Agent 面臨的智能化困境和大模型底層技術的突破進展兩方面組成。在 Agent面臨的智能化困境方面,“API覆蓋率不足”造成的“長尾軟件孤島”、傳統 RPA 維護成本過高、跨應用跨生態造成的碎片化工作流、復雜軟件使用和學習門檻較高是傳統 Agent 面臨的最大阻礙;在大模型底層技術的突破進展方面,VLM視覺理解能力飛躍,從“鑒賞”到“操作”的進化和LLM實現從“直覺式反應”到“深思熟慮”的進化是讓 GUI Agent 得以實現的關鍵因素。
GUI Agent 組成包括感知模塊、決策與規劃模塊、執行模塊、反饋優化模塊等四個最重要的模塊,同時底層沙盒環境也是GUI Agent 安全可控的良好保障。基于各個模塊設計邏輯的不同,GUI Agent形成了端到端視覺大模型、代碼生成路徑、多智能體協作路徑三大主流技術路徑。并且基于實踐經驗,將每個模塊的核心內容、困難和挑戰、技術考量維度、技術解決方案進行詳細的展開和解釋,期望能夠與行業從業者交流、討論和反饋。
詳細介紹了 GUI Agent 可能的產品形態和落地場景,包括對手機、電腦、OS 生態和人機自動化交互具體場景的可能性。同時,提出了未來 GUI Agent 的發展可能性、面臨的困難和挑戰等。
無

