人工智能在自由职业工作和现实任务中的表现令人失望

· 2 次阅读

研究人员发现,人工智能在大多数自由职业平台的任务中表现不佳,新闻报道的准确性也仅有一半,此外,在世界模型测试中,人类的表现远超人工智能。
根据Scale AI和人工智能安全中心的研究,人工智能在自由职业平台Upwork上的任务完成率极低,竟然无法以基本标准完成97%的任务。研究团队让六种不同的人工智能模型尝试完成240个来自写作、设计和数据分析等多个类别的项目,并将结果与真实的自由职业者进行比较。
结果显示,绝大多数情况下,人工智能模型未能成功完成任务。其中,表现最好的模型Manus仅完成了2.5%的任务,获得了1,810美元的报酬,而可供选择的总金额为143,991美元。其他模型如Claude Sonnet和Grok 4也仅完成了2.1%的任务。
虽然人工智能在生成简单和明确的任务如“设计一个标志”方面表现尚可,但研究发现,它们在处理多步骤工作流程、主动采取行动或运用判断力方面表现不佳。因此,短期内人工智能不会导致大规模失业。
这一发现与麻省理工学院在八月份进行的研究相呼应,研究指出,95%的组织在人工智能方面的300亿美元投资中没有获得任何回报。
人工智能擅长于模式匹配和预测文字,但根据麻省理工学院和Basis Research的WorldTest测试,它们在构建内部世界模型方面表现相当糟糕。例如,人类在脑海中拥有自己厨房的内部模型,这使得他们能够判断刀具的位置、锅水煮沸所需的时间,并规划出一系列动作以完成一顿饭。然而,测试结果显示,三种前沿推理的人工智能模型在这方面的表现不尽如人意。
研究人员设计了129个任务,涵盖43个互动世界(如找不同、物理难题等)。这些任务要求人工智能预测世界的隐藏特征,规划实现目标的行动序列,并判断环境规则何时发生变化。随后,他们对517名参与者进行了相同问题的测试。
研究人员得出的结论是,尽管人工智能在某些特定任务上可以发挥作用,但在复杂的现实场景中,它们仍然无法与人类的思维能力相提并论。

评论区 (0)
请先 后发表评论

登录您的帐户

输入您的邮箱和密码

@
🔒
或使用快捷方式登录
还没有帐户? 立即注册

创建帐户

注册即可加入社区

@
🔒
🔒

重置密码

我们会把重置链接发送到你的邮箱

@