今天把电脑交给大模型

  

今天把电脑交给大模型

  AutoGLM-Web 基于「自进化在线课程强化学习框架 WEBRL」,克服了训练任务稀缺◆◆★、反馈信号稀少和策略分布漂移等网页智能体研究和应用难题,加之自适应学习策略◆■★■◆◆,能够在迭代过程中不断改进、持续稳定地提高自身性能。

  2■★、AutoGLM-Web■◆◆★:一个能模拟用户访问网页、点击网页的浏览器助手★■■◆■,可以根据用户指令在私域网站上完成高级检索并总结信息、模拟用户看网页的过程进行批量、快速的浏览并总结多个网页,结合历史邮件信息回复邮件。

  1、用户■■■★■◆“不想做■◆◆■”的事:包括重复繁琐的GUI操作(如批量信息收集■■、会议预定)和复杂认知活动(如界面内容总结)。

  据我们所知,WEBRL 是第一个能够让 LLM 网页智能体在在线网络环境中从初始化开始就进行有效强化学习的系统性框架。

  此外★■◆★◆,我们还为CogAgent开发了■◆■★“虚拟屏幕”功能,确保在信息搜集过程中不干扰用户使用电脑◆■■★,并避免采集主屏幕信息◆◆★★■,以保护用户隐私。

  我们最近研发了 AutoGLM 模型★◆◆■,该模型能够在仅接收简单的文字/语音指令,就可以模拟人类与电子设备的交互方式■★◆■■◆,完成给定任务。

  1◆★◆、CogAgent:一个替代终端用户理解、使用图形用户界面(GUI),完成信息获取和功能触发的智能体★◆★■★,更具泛化性和拟人性,目前支持在 Windows、macOS 软件上进行自然语言交互(包括打字输入和语音输入)■■★◆、截图交互和划词交互◆■★;

  基于我们推出的多模态模型 CogVLM◆◆■◆,可以在不牺牲任何 NLP 任务性能的情况下,实现视觉语言特征的深度融合。

  本文为澎湃号作者或机构在澎湃新闻上传并发布,仅代表该作者或机构观点★★◆★■■,不代表澎湃新闻的观点或立场■★■◆■◆,澎湃新闻仅提供信息发布平台★◆◆◆■。申请澎湃号请用电脑访问。

  像人类一样感知环境、规划任务、执行动作(如使用工具/软件),最终完成特定任务,是人工智能行业的下一个前沿发展方向,也是迈向通用人工智能(AGI)■◆◆★■、超级智能(Super Intelligence)的必由之路★★◆◆。

  我们基于在大语言模型(GLM 系列模型)★◆、多模态模型和工具使用(Cog 系列模型)等方面的探索,在由自主智能体(Agent)驱动的人机交互新范式方面取得了一些阶段性成果■◆★◆■■:

  整体而言■★◆■,相比于传统方法,CogAgent 能够感知多模态交互信息、并据此执行对应的 GUI 任务,同时打破信息间的隔离,串联信息的收集、处理和分发,极大地降低了终端用户的交互负担。

  CogAgent 和 AutoGLM-Web 是智谱构建 GLM-OS(以大模型为中心的通用计算系统)的不同尝试,尽管基于不同的技术路线,但两者均瞄向同样一个目标:实现模仿人类的 Plan-Do-Check-Act 循环★◆,形成自我反馈和自我提升——恰如人类自己所做的一样。

  2★◆◆★■、用户“不知道”的事◆■★★■:涵盖困难或不熟悉的GUI操作(如首次使用应用或功能)及超出用户认知能力的任务(如界面内容翻译)。

  理论上★■■◆,基于 WEBRL 的强大能力,AutoGLM-Web 可以完成人类在电子设备上可以做的任何事,它不受限于简单的任务场景或 API 调用,也不需要用户手动搭建复杂繁琐的工作流,操作逻辑与人类类似,真正做到在日常★◆■■■,生活、工作中辅助人类。

  目前◆◆,CogAgent 已经可以通过串联GUI信息的收集◆■■★■◆、处理★■★■、分发流程■■■★★■,提供多轮、跨应用◆◆、上下文相关的服务,来协助用户处理以下事项:

  例如在GitLab上,搜索项目,并自动给项目的merge request进行评论;在小红书/知乎/知网等平台进行检索、筛选、打开网页、阅读并总结;一次性快速浏览多个网页等★◆。

  目前★★,CogAgent 已经在智谱公司内部和部分合作伙伴中使用,AutoGLM-Web 已经通过「智谱清言」插件对外开放使用。

  在现有研究基础上,我们力求突破。目标是以CogAgent为核心,打造一个能全面理解并使用通用GUI的模型,实现现有应用到新型交互界面的自动转换。

  作为其能力的体现,我们将 AutoGLM-Web 嵌入到「智谱清言」插件对外开放使用。

  CogAgent 具备视觉问答、视觉定位(Grounding)、GUI Agent 等多种能力,可以在不依赖 API 调用的条件下■★■◆,实现跨应用、跨网页的功能调用来执行任务◆◆◆◆■■。