欢迎来到魔法宝库!

  当ChatGPT在自然语言处理范畴大显神威之后,你有没有想过,暂时岁月静好的引荐体系是否也在严重地等候,来自那些强壮AI模型的压力会不会让它们瞬间黯然失色?这是一个值得咱们深思的问题,让咱们跟随这篇论文一起来揭开这个疑团吧。

论文标题:Is ChatGPT a Good Recommender? A Preliminary Study

摘要

  研讨者们精心规划了一系列试验,全面评价了ChatGPT在五个不同引荐场景中的体现,包含评分猜测、序列引荐、直接引荐、解说生成和谈论总结。成果显现,ChatGPT在某些使命中现已展现出不错的效果,而在某些使命中则低于基线水平,但人类评价显现,ChatGPT不只能够实在了解供给的信息,还能生成更明晰、更有说服力的成果。这项研讨的成果揭示了CatGPT在引荐体系范畴的巨大潜力,为未来的研讨供给了新的方向和创意

布景介绍

  在引荐体系范畴,传统的办法往往被束缚在使命特定的框架内,缺乏灵活性和泛化才能。但是,ChatGPT这样的大规模语言模型,其在引荐使命中的潜力却尚未被充沛发掘。

  受P5项目启发,作者将ChatGPT视为一个独立的引荐体系,并全面评价了其在各类引荐使命中的功能。虽然ChatGPT在精确性上的体现并不抱负,但在解说生成和谈论总结等使命中,其人工评价的功能却逾越了现有办法。这引发了咱们对评价办法是否能精确反映ChatGPT实在引荐才能的考虑。

  值得一提的是,ChatGPT并未接受任何特定的引荐数据练习,这意味着经过引进更多相关的练习数据和技术,其功能有巨大的提升空间

中心作业介绍

  运用ChatGPT完结引荐使命的作业流程如下图所示,首要包含三个步骤:

  1. 依据引荐使命的特定特性构建不同的prompts。
  2. 这些prompts被用作ChatGPT的输入,ChatGPT依据prompts中指定的要求生成引荐成果。
  3. 由ChatGPT输出的成果被Refinement Module查看和批改,符合要求的成果被回来给用户作为最终的引荐成果。

ChatGPT:推荐系统的颠覆者?阿里团队的研究带你揭开神秘面纱

特定使命的prompt生成

  每个prompt由三部分组成:使命描绘、行为注入和格局指示使命描绘将引荐使命转化为自然语言处理使命,行为注入包含用户与item的交互信息,协助ChatGPT更有效地捕获用户的偏好和需求,格局指示则约束输出格局,使引荐成果更易于了解和评价。

  针对五种不同的引荐使命,论文给出了对应的prompt示例,黑色文本代表使命描绘,赤色文本表示格局要求,蓝色文本代表用户前史行为信息,灰色文本则表示CatGPT的输入。

  • 评分预估:预估用户对特定item的评分。

ChatGPT:推荐系统的颠覆者?阿里团队的研究带你揭开神秘面纱

  • 序列引荐:根据用户的前史行为序列来猜测用户或许感爱好的下一个item。

ChatGPT:推荐系统的颠覆者?阿里团队的研究带你揭开神秘面纱

  • 直接引荐:根据用户供给的清晰反馈,直接向用户引荐他们或许感爱好的项目。

ChatGPT:推荐系统的颠覆者?阿里团队的研究带你揭开神秘面纱

  • 解说生成:是一种为用户或体系规划者供给解说的进程,阐明引荐理由,以提升引荐体系的透明度、可信度,并协助优化引荐算法

ChatGPT:推荐系统的颠覆者?阿里团队的研究带你揭开神秘面纱

  • 谈论总结:经过剖析用户谈论,自动生成反映中心观点的简练摘要,以协助用户或体系快速了解原始谈论的首要信息。

ChatGPT:推荐系统的颠覆者?阿里团队的研究带你揭开神秘面纱

Output Refinement

  ChatGPT在生成响应时融入了随机性,这或许导致对同一输入发生不同的响应,给引荐项目的评价带来困难。为处理这个问题,作者规划了一个Refinement Module来查看和批改ChatGPT的输出格局。假如输出未经过格局查看,将依据预定义的规矩进行修改,或者重新进行引荐,直到满意格局要求。
关于序列引荐和直接引荐,ChatGPT输出的成果或许不在item候选池中。针对此问题,作者引进了一种根据相似性的文本匹配办法,将ChatGPT的猜测映射回原始数据集,虽然这种办法或许无法完美反映ChatGPT的才能,但它仍然可以直接展现其在序列引荐和直接引荐中的潜力。

试验评价

  为了评价ChatGPT,作者在 Amazon数据集的Beauty类目上进行了试验,并与其他办法进行了比较,旨在答复以下研讨问题:

  • RQ1:与最先进的基线模型相比,ChatGPT的体现如何?
  • RQ2:少量提示(few-shot prompting)对功能的影响是什么?
  • RQ3:如何规划人类评价来评价解说生成和谈论总结使命的功能?

评价目标

  • 评分猜测:RMSE (Root Mean Square Error)、MAE (Mean Absolute Error)
  • 序列引荐和直接引荐:HR@k (top-k Hit Ratio)、NDCG@k (top-k Normalized Discounted Cumulative Gain)
  • 解说生成和谈论总结:BLEU-n (n-gram Bilingual Evaluation Understudy)、ROUGE-n(n-gram Recall-Roiented Understudy for Gising Evaluation)、人工评价

试验细节

  作者运用gpt-3.5-turbo,经过收集用户现已交互过的n个item和k条前史记录(受4096 tokens的约束,n=10,k=3),让其隐式地学习用户的爱好。item的标题被用作元信息输入到ChatGPT中

  在序列引荐中,咱们按时间顺序输入用户前史交互过的item,让ChatGPT猜测用户或许会交互的下一个item的标题。然后运用BERT核算猜测标题的向量,并核算猜测标题向量和候选池中一切item的标题向量之间的相似性,选择相似性最高item作为猜测的item

  关于解说生成和谈论总结的人类评价,咱们抽取不同办法的产出成果,每个成果将由3个人类评价者进行评分和排名。在取得人工评价的成果后,咱们将核算不同办法的均匀top1比率和均匀排名方位,以衡量对比各种办法的生成功能。

ChatGPT:推荐系统的颠覆者?阿里团队的研究带你揭开神秘面纱

  如Table 1所示,运用ChatGPT进行评分预估是可行的,在某些情况下,其功能乃至优于传统的评分预估办法。

ChatGPT:推荐系统的颠覆者?阿里团队的研究带你揭开神秘面纱

  如Table 2所示,ChatGPT在序列引荐使命中的功能欠安。究其原因,首先是其过于重视语义相似性而忽视了item间的转换联系;别的,由于prompt长度约束,无法将一切item候选列表输入给ChatGPT,导致猜测成果或许并不存在。因而,仅运用ChatGPT进行序列引荐并不抱负,需要进一步改善和研讨。

ChatGPT:推荐系统的颠覆者?阿里团队的研究带你揭开神秘面纱

  如Table 3所示,ChatGPT在直接引荐使命上的体现欠安。首要体现在两个方面:一是无法精确捕捉用户爱好,虽然测验经过供给用户前史偏好来提升功能,但其体现仍无法逾越基线。二是对候选列表中item的方位存在偏见,候选列表的构建方法,如是否打乱,对引荐功能有显著影响。这些因素使得运用ChatGPT进行直接引荐具有必定的挑战性。

ChatGPT:推荐系统的颠覆者?阿里团队的研究带你揭开神秘面纱

ChatGPT:推荐系统的颠覆者?阿里团队的研究带你揭开神秘面纱

  如Table 4和Table 5所示,在解说生成和谈论总结使命的客观目标评价中,ChatGPT功能体现欠安。
为了更全面地评价不同模型在生成内容方面的功能,作者引进了人类评价作为衡量标准。

ChatGPT:推荐系统的颠覆者?阿里团队的研究带你揭开神秘面纱

ChatGPT:推荐系统的颠覆者?阿里团队的研究带你揭开神秘面纱

  如Table 6和Figure 4所示,在解说生成使命中,虽然存在主观性,但评分者普遍认为ChatGPT生成的解说更明晰、更合理,乃至逾越了基准实在值

ChatGPT:推荐系统的颠覆者?阿里团队的研究带你揭开神秘面纱

ChatGPT:推荐系统的颠覆者?阿里团队的研究带你揭开神秘面纱

  如Table 7和Figure 5所示,在谈论总结使命中,ChatGPT能实在深化了解谈论内容,并供给精确的摘要,而非仅仅提取谈论中的关键词。一切评分者一致认为,ChatGPT在这方面的体现乃至优于基准实在值

  这些成果充沛展现了ChatGPT在了解和生成语言方面的强壮才能。


  假如对AIGC感爱好,请重视咱们的微信大众号“我有魔法WYMF”,咱们会定期共享AIGC最新资讯和经典论文精读共享,让咱们一起交流学习!!