AI能操控无人机、治癌症，却搞不定报税？

如今，人工智能的应用已经渗透到各个领域：全球军方用它操控先进无人机，顶尖科技公司靠它替代了上千名程序员，甚至在癌症治疗领域，它也在不断突破，有望挽救无数患者的生命。

但有一件事，千万别指望AI来做——那就是报税。

为了看看AI处理联邦所得税申报到底行不行，《纽约时报》做了一场实际测试，用了四款当下最火的聊天机器人：谷歌的Gemini、OpenAI的ChatGPT、Anthropic的Claude以及xAI的Grok。测试所用的材料，是报税服务商TaxSlayer提供的八组虚构报税场景，完全模拟真实报税情况。

可测试结果却让人大跌眼镜：这些AI平均算错的退税或欠税金额，竟然超过了2000美元。就算把所有需要的表格、完整的个人财务资料都提供给它们，计算过程中还是频频出错，根本靠不住。

科技通讯分析师本尼迪克特·埃文斯一语道破关键：“报税这事儿，差一点都不行，每个细小的细节都可能影响最终结果，而AI偏偏没法精准捕捉到所有细节。”他还补充说，虽然这些AI模型每半年就会有很大进步，但它们给出的答案，本质上只是“大概对”，可报税最忌讳的就是“大概”，必须分毫不差。

其实问题的根源，在于AI聊天机器人的底层设计逻辑。它们并不是真的理解这些信息之间的复杂联系，说白了，它们擅长的是预测下一个该说什么词，所以在读写这类任务上表现很好，但一旦遇到需要准确记住大量关联信息、不能出一点错的任务，就会暴露致命的短板。

这种短板在报税时被无限放大了：报税要用到几十份表格，这些表格之间相互关联，还得按照特定的顺序填写、更新，AI很难完美走完这个复杂流程，而且任务越复杂，出错的概率就越高，错误还会不断累积。

斯坦福以人为本人工智能研究所的高级研究员埃里克·布林约尔松，把这种现象称为“税法悖论”。这个短板，也反映出AI公司在把业务拓展到人们生活各个领域时，面临的一个普遍难题。“像TurboTax这样的传统报税软件，靠的是程序化思维，用的是为精准计算设计的‘如果这样，就那样’的逻辑，”他解释道，“而大语言模型本质上是个‘预测引擎’——它们能在很多事情上超过人类，却会在人类觉得很简单的事情上栽跟头。”

测试中也发现了一个小例外：如果给最先进的AI模型提供高度规整的虚构用户财务信息，比如把每一项收入、支出都按照国税局的表格分类好，再上传相关文档，AI的表现会好一些。

但现实情况是，大多数纳税人根本不知道报税需要哪些文件，也不懂怎么申报。现在的传统报税软件，会用生活化的提问引导用户，比如“你有没有入托的子女？”“有没有用私家车办公？”，然后自动生成正确的表格，可AI聊天机器人根本做不到这一点。如果没有明确的指令，它们只能给出“可能有用”但未必适合用户的信息，根本解决不了实际问题。

埃文斯举了个很形象的例子：“如果你问AI‘strawberry’（草莓）这个单词里有几个R，它只会告诉你‘大概有几个’，没法给出准确答案——报税也是一样，差一点都不行。”

不过，也有对AI持乐观态度的人。他们认为，未来这些AI工具或许能通过主动推理，在国税局的相关文件中找到解决复杂税务问题的清晰方法。如果给AI添加一些辅助工具，比如能验证报税信息是否符合国税局所有规定的程序，说不定就能让它们在报税这件事上走上正轨——这就像AI学编程一样，虽然偶尔会写错代码，但很擅长找出错误、提出修改办法。

Anthropic公司的Claude机器人，在测试中展现出了实时“思考”的能力。当要求它计算虚构用户的联邦税款时，它发现自己缺少一份国税局的表格，于是主动从网上找到了这份表格，最终算出了正确的退税金额。不过，在其他测试中，它还是错误不断，甚至出现过少算退税的情况。

税务专家表示，AI作为辅助工具，在税务研究方面还是有价值的。比如面对简单的税务问题，或者需要把复杂的国税局表格用通俗的话解释清楚时，AI的表现就很不错。毕竟，就算是普通纳税人，甚至是专业的税务人员，独立处理税务时也难免会出错。

但所有专家都强调了同一个核心原则：在报税这件事上，人类必须牢牢掌握最终的控制权，不能完全依赖AI。

本文原载于《纽约时报》。