我看到了AI生产力工具的正确路径

#媒体热点# 2024-7-6 20:58 163人围观媒体热点

来源：互联网怪盗团
当ChatGPT于2022年10月30日横空出世之时，我跟周围的很多朋友一样，几乎立即成为了它的用户。我很快认识到了AI大模型在生产力方面的巨大潜力，尤其是在翻译、回复邮件、撰写周报、总结会议纪要等任务上。此后大约一年半的时间里，我试用过市面上大部分流行的大模型聊天机器人，以及基于大模型的生产力工具，其中有些给我留下了深刻印象；但我一直是“浅尝辄止”，站在旁观者的角度进行研究和评判，从来没有在真正的工作任务上依赖过它们。
为什么？因为AI生产力工具还存在许多缺点。它们普遍无法处理复杂的、结构化的信息（例如各种文件）；它们经常产生所谓“模型幻觉”（即瞎编的夸夸其谈）；它们无法根据最新的外部信息调节其回答；而且它们的用户界面往往不够友好。总而言之，它们“能用”，但实用价值和可靠性有待提高。就像一支球队中的青训天才球员，偶尔能灵光一现、让人眼睛一亮，却无法成为值得长期依赖的主力球员。相信很多经常接触AI大模型的人，会跟我得出类似的结论。
然而，现在一切都不同了。今年6月以来，AI大模型开始对我的日常工作发挥举足轻重的作用；我已经在GPT-4o上面花费了上百小时，在腾讯元宝上面花费了几十小时，它们分别是我处理英文和中文信息的最重要的生产力工具。我毫不犹豫地开始为GPT-4o付费；可惜元宝还没有付费选项，不然我肯定会欣然接受。为什么？这是由一系列技术和产品革新决定的：

现在的大模型普遍具备了多模态功能，在输入端和输出端能同时处理文字、图片和音频信息；视频功能暂时还没有被整合进主流多模态大模型，但应该只是时间问题。
超长文本处理，以及对多种主流文件格式的解析，已经成为主流AI产品的标配。直接把一个大文件或者网页链接扔给大模型解析的感觉非常好！
对外部信息的搜索和梳理功能也日益强大。上面提到的GPT-4o和元宝都可以随时发动AI搜索，整合多个渠道的外部信息，并且列出可追溯的信息来源。

对我而言，从现在开始，AI生产力工具才算越过了从“能用”到“好用”的那根金线。这就好像当年的“法国小将亨利”去掉了“小将”前缀，“小小罗”在曼联晋升为“C罗”——从灵光一现的神童变成了值得依赖的主力。就在昨天晚上，我与GPT-4o进行了两个多小时的对话，梳理了全球三大云计算平台（AWS、Azure、GCP）的基础知识；今天下午，则让元宝帮忙总结了几份很长的券商研究报告，从中找出了几个值得阅读的新颖观点。我有一种越来越强烈的感觉：这就是未来的工作方式，也是AI生产力工具的正确打开方式。它们会帮助我们节约无数的时间，彻底改造大部分传统业务流程，把我们的工作效率带到前所未有的高度。
举一个刚刚发生的案例：我询问腾讯元宝，如何看待未来几个季度腾讯游戏业务的走向。AI深度搜索功能自动启动（此功能7月1日刚刚上线），在半分钟内搜索了40个信息源，引用了其中4篇作为参考（且附上了链接），向我提供了如下结论：
在DNF手游的推动下，腾讯游戏二季度收入将实现两位数的增长；三季度产品排期尚不确定，但是海外市场将驱动游戏业务整体继续增长。除了游戏业务之外，还应该关注视频号电商带货以及微信搜一搜场景的商业化，以及对AI算力的持续投资，乃至“AI+游戏”等下一代产品。

上图为元宝APP的一般AI搜索结果，下图为深度搜索结果

（在补充腾讯一季报文件之后，元宝又恰如其分地指出了Supercell和Riot Games对腾讯游戏海外业务的重要意义，包括前者的《荒野乱斗》和后者的《无畏契约》，等等。）
对于一个已经非常熟悉腾讯及其游戏业务的分析师而言，上述分析略嫌粗浅；可是对于一个没有相关知识储备的普通人而言，上述信息已经非常有用了。几乎所有的事实列举都是正确的，论点和论据之间的结构关系明确，语言组织的方式也颇具可读性。我不禁想起了七年多之前，我刚开始研究包括腾讯在内的中国互联网行业时，找资料、整理资料、确定资料可靠性，都是老大难问题；如果当时就有生成式AI该多好啊！
值得特别指出的是，与其他具备搜索功能的AI工具相比，元宝有一个巨大优势：对腾讯生态的信息覆盖非常完善。众所周知，微信公众号一直是中文高质量专业文字信息的主要发源地，就拿我熟悉的互联网、AI行业来说，几乎所有的优质原创文章都来自公众号；对于上面那个腾讯游戏的话题，元宝援引的4条链接，就有两条来自业内颇具影响力的公众号。除此之外，根据我的观察，元宝似乎对财经专业信息的覆盖尤其健全，这可能是源自腾讯自选股、腾讯新闻等平台的财经内容。我相信，除了财经之外，应该还有不少其他专业垂类受益于这种高质量的信息覆盖，这对于生产力应用的意义怎么估计都不过分！
AI搜索非常重要，但它不能单独解决一切问题。长文本理解和文件解析也非常重要，例如在上面的案例中，我手工上传的腾讯财报PDF文件就发挥了补充作用；其实我还可以上传自己制作的Excel表格文件，让元宝进行更深入的数据分析。让我高兴的是，元宝把“搜索”和“长文本/文件解析”两项功能，比较良好的融合了起来。当然，必须承认，与GPT-4o这种全球领先者相比，元宝还是有差距的，在不同信息来源的无缝融合方面还需要提高。不过我相信，这种差距不是出于大模型底层的缺陷，它可以通过良好的产品迭代得到解决。
今年3月的《哈佛商业评论》刊登了一篇题为《人们究竟如何使用生成式AI》(How People Are Really Using GenAI)的文章，其中提到了几个有趣的发现：在全球的十多亿“脑力劳动者”当中，只有大约15%在使用生成式AI工具。剩下的85%为什么不使用呢？有些是认为它们“没有用”，有些是因为它们经常给出错误答案，还有些单纯是因为用户界面不够友好。时至今日，大模型自身的技术能力其实已经超过了许多重复性劳动的要求，所以很显然，问题出在产品端。其实，今年5月13日发布的GPT-4o就是一个典型的产品创新——它的底层完全是基于已有的GPT-4和DALL.E大模型，只是把多模态、搜索和文本解析功能做得更好了而已。

因此，我能够理解，为何腾讯对于混元大模型（元宝就是建立在混元基础之上）的定位是“实用级大模型”。以前的大模型产品更像是给极客使用的，很有趣、很值得研究，可是易用性与普适性不足；元宝这样的产品则是面向每个普通人的。按照我的一位从事AI产品研发的朋友的话说：“元宝的进步相当快，我指的不是模型侧的进步，而是应用层面的‘雕花’。从单纯的技术角度看，‘雕花’好像没什么大不了的，但那是用户真正关心的。腾讯最擅长的不就是把用户体验做好吗？我很期待再过几个月的元宝会是什么样子。”
对于这位朋友的观点，我还想补充一句：我们都说“腾讯擅长产品”，这个“擅长”不仅仅在于重视用户体验，也在于把各项功能有机地捏合为一款产品的能力。例如，在国内主流AI产品当中，秘塔很擅长搜索，Kimi Chat很擅长长文本分析，这些都得到了用户的公认；而腾讯元宝则是兼具了这两项能力，形成了一条更顺畅的工作流，实现了“秘塔+Kimi”的效果。这背后折射的，是腾讯从QQ到微信、从PC端到移动端一以贯之的产品方法论，以及高度重视实用性的“产品经理文化”。未来的元宝会不会像微信一样，建立庞大的应用生态、添加越来越多的功能，乃至演化为一个完全融入工作和生活的“AI全能助理”？会不会与企业微信、腾讯会议、腾讯文档等现有的生产力应用更深入地融合起来？一切皆有可能，但是最终决定一切的，肯定是用户的实际需求。
上面说的是比较长期的愿景。在短期，我认为AI生产力工具的“杀手级功能”已经出现了，那就是深度搜索、文件解析和多轮对话（记忆）功能的有机结合。这三项功能足以有效地总结外部信息、用户提供的内部信息以及模型自我生成的信息，对它们进行高效处理，同时最大限度地排除低质量信息和“模型幻觉”。对于大部分组织和个人而言，这已经非常实用了！《哈佛商业评论》提到的“85%的脑力劳动者为什么还不使用生成式AI”的主要原因，由此得到了圆满的解决。
生成式AI对人类工作流程的改变，才刚刚开始。今后还有更多、更复杂的问题需要解决，但是我们已经走在正确的道路上了。我迫不及待想看到各类AI生产力工具百花齐放、争奇斗妍的那一天——应该很快就会到来。那些最先适应这个时代的组织和个人，无疑将受益匪浅。

文章来源:“互联网怪盗团”，未经允许不得转载。

文章代表作者观点，版权归原作者所有，热传平台仅提供信息存储空间服务。