这里记录自己一周内看到的值得分享的AI相关内容。本周图片这张图片展示了机器人正在取代脑力工作者。本周话题本周的话题尝试着梳理一下当前基于大语言模型(LLM)的Agent演化路径。这个话题可能有些宏大,自己也不是这方面的专家,如果有说的不对或者不准确的地方,欢迎讨论。下面的描述中把Agent翻译成「智能体」为了讨论这个问题,首先需要对人工智能里的智能体概念作一个定义和说明。查阅维基百科和相关资料,这里把智能体定义如下In artificial intelligence, an agent is computer program or system that is designed to perceive its environment, make decisions and take actions autonomously to achieve a specific goal or set of goals. It may improve its performance with learning or acquiring knowledge. 在人工智能范畴里,一个智能体是一种计算机程序或系统,旨在感知其环境,自主做出决策并采取行动以实现特定目标或一组目标,它可以通过学习或获取知识来提升其表现。从这个定义出发,结合最近大语言模型里出现的各种应用,可以梳理出一些发展脉络ChatGPT的出现激活了第一个真正意义上的智能体「GPT模型」,通过自然语言对话交互的方式打通了人和智能体之间的沟通渠道,从此智能体能更好地理解人类的指令并响应,但初期的响应仅仅是生成文本。GPT-4中多模态能力的引入旨在提升智能体从文本到图像的多维度感知能力ChatGPT插件系统的发布希望拓展智能体获取外部知识的能力,并具备使用工具的能力类似HuggingGPT这类模型以及LangChain这类基于LLM的应用开发框架,让人们看到了智能体在复杂任务规划、编排、调度和执行方面的能力AutoGPT的出现,让人们看到智能体在自主性上更进一步,具备了自己和自己对话的能力,并具有了「反思能力」,即能从结果反馈中进行自我修正。除了AutoGPT,这周还看到一些论文和项目让智能体学会自我反思,比如这篇Self-Debugging[1],让模型学会自己调试自己生成的代码。这篇Reflexion[2],让模型学会从自己的错误中进行学习和修正在这周很火的一篇论文Generative Agents[3]中,研究者们构建了一个「虚拟小镇」并设计了25个智能体生活在其中,实验下来发现产生了可信的个体行为和社交行为,比如从一个用户指定的一个智能体想要举办情人节聚会开始,智能体就自主地在接下来的两天内发出聚会邀请,结交新朋友,相互邀请参加聚会并协调好在正确的时间点一起出现在聚会上。这个实验不仅让人们看到了单个智能体的计划、记忆、反思和感知环境的能力,更重要的是看到了多智能体交互的发展。当前大多数智能体的背后实质还是GPT模型,借用面向对象编程里的「类和实例」的概念,可以说,当前多个智能体只是GPT这个智能体类的多个实例。目前这个智能体参与组成的网络还比较中心化,未来随着更多不同类型智能体的出现和加入,一个由人类和智能体之间组成的网络就会形成。而有趣的是,从目前的发展趋势来看,语言会是这个网络节点之间通信的媒介。从上面梳理的发展脉络来看,当前的智能体还缺少了很重要的一个能力——通过「持续学习」来「自主」进化。这里有两个关键点,一个是「持续」,即模型本身的学习是一直在进行的,不断地从各种途径收到的反馈中学习并内化。GPT模型每完成一次预训练,算是完成了一次学习,但由于预训练的金钱和时间代价太大,导致这种学习是不持续的。另一个是「自主」,当前模型的学习和迭代还是在人类的干预下进行。当补足了智能体的这个能力,或许真正的AGI就真的到来。本周话题部分的思考和总结有参考下面的内容,感谢。木遥:四月份以来的新一代 agent GPT ecosystem[4]从 Self-Healing Code 到 Generative Agents[5]Oasis Feng关于AGI的思考[6]本周技术进展Dolly 2.0[7]Databricks公司开源的一款大语言模型模型,对之前发布Dolly模型进行了升级。模型具有120亿参数完全开源,包括训练代码、数据集和模型权重,可供研究和商用利用15000条人工标注数据对模型进行了微调。有趣的是,从官网的这篇介绍文章中了解到,这15000条数据是公司发动全职员工进行标注的,为了激励员工的标注工作,公司还对排名前20的标注者设定了一个大奖。Generative Agents: Interactive Simulacra of Human Behavior[8]这篇论文是斯坦福大学人机交互小组发表的关于「生成式智能体」的论文。很多媒体说是「西部世界」的雏形。机器之心的这篇文章有详细的介绍[爆火论文打造《西部世界》雏形:25个AI智能体,在虚拟小镇自由成长]这篇论文还提供了一个演示网站Generative Agents Demo[9],在这个网站中可以看到每个智能体的详细信息,包括角色设定,人物性格和生活方式,每天日常要求以及历史的记忆等。
Teaching Large Language Models to Self-Debug[10]这篇论文尝试教会语言模型对自己生成的代码进行自我调试。这里借鉴了编程领域的一个方法「小黄鸭调试法 (Rubber Duck Debugging)」,即让程序员向一只小黄鸭解释他们的代码,试图找出问题所在。同样的,这篇论文的主要想法是让模型在没有获取任何关于代码的正确性检查和错误信息反馈前,让它用自然语言模型解释自己生成的代码来发现潜在的错误。
Consistency Models[11]OpenAI团队提出的「一致性模型」,并在GitHub上开源了代码Consistency Models Code[12]。主要是为了解决当前图像生成领域扩散模型(Diffusion Model)的一些限制,比如采样速度缓慢的问题本周工具和应用Animated Drawings[13]Meta AI团队开源的一个算法,可以基于手工绘制的角色创建动画,十分有趣。 关闭观看更多更多正在加载正在加载退出全屏视频加载失败,请刷新页面再试 刷新 视频详情 Grounded Segment Anything[14]粤港澳大湾区数字经济研究院IDEA团队在Meta开源的「分割一切」模型基础上做的一个升级版本,集成了图片「分割」、「检测」和「生成」三种能力。这里提供了一些应用的Demo,比如通过语音描述将图片中的狗换成猴子
再比如通过文本描述将长椅换成沙发
这是一个演示视频 关闭观看更多更多正在加载正在加载退出全屏视频加载失败,请刷新页面再试 刷新 视频详情 DeepSpeed[15]微软开源的一个深度学习优化库,覆盖模型的训练、推断和压缩,支持十亿到万亿参数级别模型的训练和推断。Lama Cleaner[16]一款免费开源的图片修复工具,可以擦除或者替换图片中的物体、瑕疵或者人物 关闭观看更多更多正在加载正在加载退出全屏视频加载失败,请刷新页面再试 刷新 视频详情 Web LLM[17]这个项目使得大语言模型直接在浏览器中运行,无需后端服务器支持,并且可以利用WebGPU进行加速。之前类似的项目还有Web Stable Diffusion[18]Grep: Search Engine that Prioritizes You[19]一款搜索引擎,宣称没有广告,没有垃圾消息以及没有AI生成的内容。
AgentGPT[20]一款网页应用,可以在浏览器中配置一个自主运行的智能体
AmyMind: AI思维导图[21]一款网页的思维导图工具,可以利用AI帮助生成下一级节点Street fighter ai[22]这个项目基于深度强化学习训练了一个用于通关《街头霸王·二:冠军特别版》(Street Fighter II Special Champion Edition)关底 BOSS 的智能AI代理。该智能代理完全基于游戏画面(RGB像素值)进行决策。这个AI代理的代码大部分是由GPT协助生成的。本周文章和音视频Building LLM applications for production[23]这篇长文主要介绍了把LLM应用到生产的一些挑战、方案和案例。使用LLMs可以轻松制作出一些很酷炫的东西,但真要使这些酷炫的东西达到生产级别则非常困难。一方面这个领域本身还处于早期阶段,还没有大规模应用,另一方面由于自然语言本身的含义可能不明确,在提示工程方面缺乏工程方面的严谨性。作者在文章中主要写了三个方面的内容第一部分讨论了当前把基于LLM的应用上线生产的挑战以及一些解决方案。比如自然语言的歧义,成本和延时问题等。在这部分作者提到一个当前很流行的应用方案就是「Embeddings + Vector Databases」,即利用LLM生成嵌入向量,然后把这些生成的向量存入向量数据库,可以用于检索和推荐场景。第二部分讨论如何使用控制流(例如if语句、for循环)组合多个任务,并结合工具(例如SQL执行器、bash、Web浏览器和第三方API)创建更复杂和强大的应用程序。第三部分涵盖了作者看到的一些公司在LLMs上构建的案例,包括AI助手,对话机器人,编程和游戏、搜索和推荐等。GPT 4 and the Uncharted Territories of Language[24]这篇文章是作者利用GPT-4创作的探讨GPT-4对人类影响的科技散文,见解深刻,文字优美。感谢Sundyme的推文[25]推荐。这里摘录两小段Language is like a map that we use to navigate the world, but it’s also like a prison that keeps us from seeing what’s beyond the walls. 语言就像我们用来导航世界的地图,但它也像一座监狱,阻止我们看到墙外的景象。In the end, GPT 4 presents us with a paradox. On one hand, it has the potential to expand our linguistic horizons and shatter the walls that confine us. On the other hand, it raises questions about the very nature of intelligence, creativity, and what it means to be human. As we delve deeper into the uncharted territories of language, we must be mindful of the delicate balance between embracing innovation and preserving our own intellectual autonomy. 最终,GPT 4 呈现给我们一个悖论。一方面,它有扩展我们语言视野和打破束缚我们的墙壁的潜力。另一方面,它引发了关于智能、创造力以及人类本质的问题。当我们深入探索未知领域时,必须谨记在创新与保护自身智力自治之间保持微妙平衡。运用AIGC人工智能生产内容[26]腾讯ISUX团队发表的一篇将AIGC应用于商业设计的文章,这样实际场景的工业应用实践文章十分有价值。35 ways real people are using AI right now[27]纽约时报上的一篇文章,讲述了35个来自不同行业的人使用ChatGPT干啥。比如规划花园的设计,设计健身和三餐计划,制作礼品,设计航空器的部分,整理电脑桌面,写婚礼演讲稿,写邮件,制作一个每分钟都展示一首诗的时钟,协助论文的写作和研究,申诉保险拒赔,辅助写Excel里的公式,学语言,创建应用,修复Bug,创建蛋白质,玩文字游戏等。It’s like collaborating with an alien.八十行代码实现开源的 Midjourney、Stable Diffusion “咒语”作图工具[28]作者讲述了自己如何通过Docker和八十行左右的 Python 代码,实现一款类似 Midjourney 官方图片解析功能 Describe 的 Prompt 工具。本周言论When we looks back on March 2023 in the future, we may recall a vivid feeling. We shared a vibrant and surreal period together with anticipation for new surprises and anxieties, like a group of unfamiliar yet familiar comrades standing shoulder to shoulder, watching the sunrise. ——木遥未来一年内:本来几句话就能说明白的事,非得用最先进的AI做成视频。然后别人懒得看,再用最先进的AI把视频总结回这几句话。Storing one document as one embedding is like making a movie poster using the average of all frames in the film.从来没有像今天这样深刻的感受到语言对于智慧的重要性,尤其是来自多种语言的交叉影响。过去已经有大量研究证明不同的口语语言对人的思维模式、数学认知、社交习惯、时间观念 等方面有着深刻影响。随着 大语言模型(LLM)的爆发,未来可能还会有更多特定语言对 LLM 智能特质产生差异化影响的研究。 ———Oasis FengChatGPT 时代,见识比记忆更重要,品味比经验更有用。———Wang ShuyiLanguage is a source of limitation and liberation. GPT 4 pushes this idea to the extreme by giving us access to unlimited language.The limits of my language mean the limits of my world. —— Ludwig WittgensteinReferences[1] Self-Debugging: https://arxiv.org/abs/2304.05128
[2] Reflexion: https://arxiv.org/2303.11366
[3] Generative Agents: https://arxiv.org/abs/2304.03442
[4] 木遥:四月份以来的新一代 agent GPT ecosystem: https://m.weibo.cn/detail/4890325895610725
[5] 从 Self-Healing Code 到 Generative Agents: https://daodaodaodaodao-6781.xlog.app/generative-agents
[6] Oasis Feng关于AGI的思考: https://twitter.com/oasisfeng/status/1646734437789614082
[7] Dolly 2.0: https://www.databricks.com/blog/2023/04/12/dolly-first-open-commercially-viable-instruction-tuned-llm
[8] Generative Agents: Interactive Simulacra of Human Behavior: https://arxiv.org/2304.03442
[9] Generative Agents Demo: https://reverie.herokuapp.com/arXiv_Demo/
[10] Teaching Large Language Models to Self-Debug: https://arxiv.org/abs/2304.05128
[11] Consistency Models: https://github.com/openai/consistency_models
[12] Consistency Models Code: https://github.com/openai/consistency_models
[13] Animated Drawings: https://github.com/facebookresearch/AnimatedDrawings
[14] Grounded Segment Anything: https://github.com/IDEA-Research/Grounded-Segment-Anything
[15] DeepSpeed: https://github.com/microsoft/DeepSpeed
[16] Lama Cleaner: https://github.com/Sanster/lama-cleaner
[17] Web LLM: https://mlc.ai/web-llm/
[18] Web Stable Diffusion: https://mlc.ai/web-stable-diffusion/
[19] Grep: Search Engine that Prioritizes You: https://grep.help/
[20] AgentGPT: https://agentgpt.reworkd.ai/
[21] AmyMind: AI思维导图: https://amymind.com/
[22] Street fighter ai: https://github.com/linyiLYi/street-fighter-ai
[23] Building LLM applications for production: https://huyenchip.com/2023/04/11/llm-engineering.html
[24] GPT 4 and the Uncharted Territories of Language: https://www.fast.ai/posts/2023-03-20-wittgenstein.html
[25] Sundyme的推文: https://twitter.com/sundyme/status/1644605731151413248
[26] 运用AIGC人工智能生产内容: https://isux.tencent.com/articles/aigc-design.html
[27] 35 ways real people are using AI right now: https://www.nytimes.com/interactive/2023/04/14/upshot/up-ai-uses.html
[28] 八十行代码实现开源的 Midjourney、Stable Diffusion “咒语”作图工具: https://soulteary.com/2023/04/05/eighty-lines-of-code-to-implement-the-open-source-midjourney-and-stable-diffusion-spell-drawing-tool.html