人工智能在自由职业工作和现实任务中的表现令人失望

2025年11月6日 · 2 次阅读

研究人员发现，人工智能在大多数自由职业平台的任务中表现不佳，新闻报道的准确性也仅有一半，此外，在世界模型测试中，人类的表现远超人工智能。
根据Scale AI和人工智能安全中心的研究，人工智能在自由职业平台Upwork上的任务完成率极低，竟然无法以基本标准完成97%的任务。研究团队让六种不同的人工智能模型尝试完成240个来自写作、设计和数据分析等多个类别的项目，并将结果与真实的自由职业者进行比较。
结果显示，绝大多数情况下，人工智能模型未能成功完成任务。其中，表现最好的模型Manus仅完成了2.5%的任务，获得了1,810美元的报酬，而可供选择的总金额为143,991美元。其他模型如Claude Sonnet和Grok 4也仅完成了2.1%的任务。
虽然人工智能在生成简单和明确的任务如“设计一个标志”方面表现尚可，但研究发现，它们在处理多步骤工作流程、主动采取行动或运用判断力方面表现不佳。因此，短期内人工智能不会导致大规模失业。
这一发现与麻省理工学院在八月份进行的研究相呼应，研究指出，95%的组织在人工智能方面的300亿美元投资中没有获得任何回报。
人工智能擅长于模式匹配和预测文字，但根据麻省理工学院和Basis Research的WorldTest测试，它们在构建内部世界模型方面表现相当糟糕。例如，人类在脑海中拥有自己厨房的内部模型，这使得他们能够判断刀具的位置、锅水煮沸所需的时间，并规划出一系列动作以完成一顿饭。然而，测试结果显示，三种前沿推理的人工智能模型在这方面的表现不尽如人意。
研究人员设计了129个任务，涵盖43个互动世界（如找不同、物理难题等）。这些任务要求人工智能预测世界的隐藏特征，规划实现目标的行动序列，并判断环境规则何时发生变化。随后，他们对517名参与者进行了相同问题的测试。
研究人员得出的结论是，尽管人工智能在某些特定任务上可以发挥作用，但在复杂的现实场景中，它们仍然无法与人类的思维能力相提并论。

评论区 (0)

请先后发表评论

人工智能在自由职业工作和现实任务中的表现令人失望

登录您的帐户

创建帐户

重置密码