找回密码
 立即注册

我看到了AI生产力工具的正确路径

#媒体热点# 2024-7-6 20:58 163人围观 媒体热点

来源:互联网怪盗团
当ChatGPT于2022年10月30日横空出世之时,我跟周围的很多朋友一样,几乎立即成为了它的用户。我很快认识到了AI大模型在生产力方面的巨大潜力,尤其是在翻译、回复邮件、撰写周报、总结会议纪要等任务上。此后大约一年半的时间里,我试用过市面上大部分流行的大模型聊天机器人,以及基于大模型的生产力工具,其中有些给我留下了深刻印象;但我一直是“浅尝辄止”,站在旁观者的角度进行研究和评判,从来没有在真正的工作任务上依赖过它们。
为什么?因为AI生产力工具还存在许多缺点。它们普遍无法处理复杂的、结构化的信息(例如各种文件);它们经常产生所谓“模型幻觉”(即瞎编的夸夸其谈);它们无法根据最新的外部信息调节其回答;而且它们的用户界面往往不够友好。总而言之,它们“能用”,但实用价值和可靠性有待提高。就像一支球队中的青训天才球员,偶尔能灵光一现、让人眼睛一亮,却无法成为值得长期依赖的主力球员。相信很多经常接触AI大模型的人,会跟我得出类似的结论。
然而,现在一切都不同了。今年6月以来,AI大模型开始对我的日常工作发挥举足轻重的作用;我已经在GPT-4o上面花费了上百小时,在腾讯元宝上面花费了几十小时,它们分别是我处理英文和中文信息的最重要的生产力工具。我毫不犹豫地开始为GPT-4o付费;可惜元宝还没有付费选项,不然我肯定会欣然接受。为什么?这是由一系列技术和产品革新决定的:

  • 现在的大模型普遍具备了多模态功能,在输入端和输出端能同时处理文字、图片和音频信息;视频功能暂时还没有被整合进主流多模态大模型,但应该只是时间问题。
  • 超长文本处理,以及对多种主流文件格式的解析,已经成为主流AI产品的标配。直接把一个大文件或者网页链接扔给大模型解析的感觉非常好!
  • 对外部信息的搜索和梳理功能也日益强大。上面提到的GPT-4o和元宝都可以随时发动AI搜索,整合多个渠道的外部信息,并且列出可追溯的信息来源。
对我而言,从现在开始,AI生产力工具才算越过了从“能用”到“好用”的那根金线。这就好像当年的“法国小将亨利”去掉了“小将”前缀,“小小罗”在曼联晋升为“C罗”——从灵光一现的神童变成了值得依赖的主力。就在昨天晚上,我与GPT-4o进行了两个多小时的对话,梳理了全球三大云计算平台(AWS、Azure、GCP)的基础知识;今天下午,则让元宝帮忙总结了几份很长的券商研究报告,从中找出了几个值得阅读的新颖观点。我有一种越来越强烈的感觉:这就是未来的工作方式,也是AI生产力工具的正确打开方式。它们会帮助我们节约无数的时间,彻底改造大部分传统业务流程,把我们的工作效率带到前所未有的高度。
举一个刚刚发生的案例:我询问腾讯元宝,如何看待未来几个季度腾讯游戏业务的走向。AI深度搜索功能自动启动(此功能7月1日刚刚上线),在半分钟内搜索了40个信息源,引用了其中4篇作为参考(且附上了链接),向我提供了如下结论:
在DNF手游的推动下,腾讯游戏二季度收入将实现两位数的增长;三季度产品排期尚不确定,但是海外市场将驱动游戏业务整体继续增长。除了游戏业务之外,还应该关注视频号电商带货以及微信搜一搜场景的商业化,以及对AI算力的持续投资,乃至“AI+游戏”等下一代产品。


上图为元宝APP的一般AI搜索结果,下图为深度搜索结果

(在补充腾讯一季报文件之后,元宝又恰如其分地指出了Supercell和Riot Games对腾讯游戏海外业务的重要意义,包括前者的《荒野乱斗》和后者的《无畏契约》,等等。)
对于一个已经非常熟悉腾讯及其游戏业务的分析师而言,上述分析略嫌粗浅;可是对于一个没有相关知识储备的普通人而言,上述信息已经非常有用了。几乎所有的事实列举都是正确的,论点和论据之间的结构关系明确,语言组织的方式也颇具可读性。我不禁想起了七年多之前,我刚开始研究包括腾讯在内的中国互联网行业时,找资料、整理资料、确定资料可靠性,都是老大难问题;如果当时就有生成式AI该多好啊!
值得特别指出的是,与其他具备搜索功能的AI工具相比,元宝有一个巨大优势:对腾讯生态的信息覆盖非常完善。众所周知,微信公众号一直是中文高质量专业文字信息的主要发源地,就拿我熟悉的互联网、AI行业来说,几乎所有的优质原创文章都来自公众号;对于上面那个腾讯游戏的话题,元宝援引的4条链接,就有两条来自业内颇具影响力的公众号。除此之外,根据我的观察,元宝似乎对财经专业信息的覆盖尤其健全,这可能是源自腾讯自选股、腾讯新闻等平台的财经内容。我相信,除了财经之外,应该还有不少其他专业垂类受益于这种高质量的信息覆盖,这对于生产力应用的意义怎么估计都不过分!
AI搜索非常重要,但它不能单独解决一切问题。长文本理解和文件解析也非常重要,例如在上面的案例中,我手工上传的腾讯财报PDF文件就发挥了补充作用;其实我还可以上传自己制作的Excel表格文件,让元宝进行更深入的数据分析。让我高兴的是,元宝把“搜索”和“长文本/文件解析”两项功能,比较良好的融合了起来。当然,必须承认,与GPT-4o这种全球领先者相比,元宝还是有差距的,在不同信息来源的无缝融合方面还需要提高。不过我相信,这种差距不是出于大模型底层的缺陷,它可以通过良好的产品迭代得到解决。
今年3月的《哈佛商业评论》刊登了一篇题为《人们究竟如何使用生成式AI》(How People Are Really Using GenAI)的文章,其中提到了几个有趣的发现:在全球的十多亿“脑力劳动者”当中,只有大约15%在使用生成式AI工具。剩下的85%为什么不使用呢?有些是认为它们“没有用”,有些是因为它们经常给出错误答案,还有些单纯是因为用户界面不够友好。时至今日,大模型自身的技术能力其实已经超过了许多重复性劳动的要求,所以很显然,问题出在产品端。其实,今年5月13日发布的GPT-4o就是一个典型的产品创新——它的底层完全是基于已有的GPT-4和DALL.E大模型,只是把多模态、搜索和文本解析功能做得更好了而已。

因此,我能够理解,为何腾讯对于混元大模型(元宝就是建立在混元基础之上)的定位是“实用级大模型”。以前的大模型产品更像是给极客使用的,很有趣、很值得研究,可是易用性与普适性不足;元宝这样的产品则是面向每个普通人的。按照我的一位从事AI产品研发的朋友的话说:“元宝的进步相当快,我指的不是模型侧的进步,而是应用层面的‘雕花’。从单纯的技术角度看,‘雕花’好像没什么大不了的,但那是用户真正关心的。腾讯最擅长的不就是把用户体验做好吗?我很期待再过几个月的元宝会是什么样子。”
对于这位朋友的观点,我还想补充一句:我们都说“腾讯擅长产品”,这个“擅长”不仅仅在于重视用户体验,也在于把各项功能有机地捏合为一款产品的能力。例如,在国内主流AI产品当中,秘塔很擅长搜索,Kimi Chat很擅长长文本分析,这些都得到了用户的公认;而腾讯元宝则是兼具了这两项能力,形成了一条更顺畅的工作流,实现了“秘塔+Kimi”的效果。这背后折射的,是腾讯从QQ到微信、从PC端到移动端一以贯之的产品方法论,以及高度重视实用性的“产品经理文化”。未来的元宝会不会像微信一样,建立庞大的应用生态、添加越来越多的功能,乃至演化为一个完全融入工作和生活的“AI全能助理”?会不会与企业微信、腾讯会议、腾讯文档等现有的生产力应用更深入地融合起来?一切皆有可能,但是最终决定一切的,肯定是用户的实际需求。
上面说的是比较长期的愿景。在短期,我认为AI生产力工具的“杀手级功能”已经出现了,那就是深度搜索、文件解析和多轮对话(记忆)功能的有机结合。这三项功能足以有效地总结外部信息、用户提供的内部信息以及模型自我生成的信息,对它们进行高效处理,同时最大限度地排除低质量信息和“模型幻觉”。对于大部分组织和个人而言,这已经非常实用了!《哈佛商业评论》提到的“85%的脑力劳动者为什么还不使用生成式AI”的主要原因,由此得到了圆满的解决。
生成式AI对人类工作流程的改变,才刚刚开始。今后还有更多、更复杂的问题需要解决,但是我们已经走在正确的道路上了。我迫不及待想看到各类AI生产力工具百花齐放、争奇斗妍的那一天——应该很快就会到来。那些最先适应这个时代的组织和个人,无疑将受益匪浅。