AI能操控无人机、治癌症,却搞不定报税?

2026-03-25 12:03:54 2 0

如今,人工智能的应用已经渗透到各个领域:全球军方用它操控先进无人机,顶尖科技公司靠它替代了上千名程序员,甚至在癌症治疗领域,它也在不断突破,有望挽救无数患者的生命。

AI能操控无人机、治癌症,却搞不定报税?

但有一件事,千万别指望AI来做——那就是报税。

为了看看AI处理联邦所得税申报到底行不行,《纽约时报》做了一场实际测试,用了四款当下最火的聊天机器人:谷歌的Gemini、OpenAI的ChatGPT、Anthropic的Claude以及xAI的Grok。测试所用的材料,是报税服务商TaxSlayer提供的八组虚构报税场景,完全模拟真实报税情况。

可测试结果却让人大跌眼镜:这些AI平均算错的退税或欠税金额,竟然超过了2000美元。就算把所有需要的表格、完整的个人财务资料都提供给它们,计算过程中还是频频出错,根本靠不住。

科技通讯分析师本尼迪克特·埃文斯一语道破关键:“报税这事儿,差一点都不行,每个细小的细节都可能影响最终结果,而AI偏偏没法精准捕捉到所有细节。”他还补充说,虽然这些AI模型每半年就会有很大进步,但它们给出的答案,本质上只是“大概对”,可报税最忌讳的就是“大概”,必须分毫不差。

其实问题的根源,在于AI聊天机器人的底层设计逻辑。它们并不是真的理解这些信息之间的复杂联系,说白了,它们擅长的是预测下一个该说什么词,所以在读写这类任务上表现很好,但一旦遇到需要准确记住大量关联信息、不能出一点错的任务,就会暴露致命的短板。

这种短板在报税时被无限放大了:报税要用到几十份表格,这些表格之间相互关联,还得按照特定的顺序填写、更新,AI很难完美走完这个复杂流程,而且任务越复杂,出错的概率就越高,错误还会不断累积。

斯坦福以人为本人工智能研究所的高级研究员埃里克·布林约尔松,把这种现象称为“税法悖论”。这个短板,也反映出AI公司在把业务拓展到人们生活各个领域时,面临的一个普遍难题。“像TurboTax这样的传统报税软件,靠的是程序化思维,用的是为精准计算设计的‘如果这样,就那样’的逻辑,”他解释道,“而大语言模型本质上是个‘预测引擎’——它们能在很多事情上超过人类,却会在人类觉得很简单的事情上栽跟头。”

测试中也发现了一个小例外:如果给最先进的AI模型提供高度规整的虚构用户财务信息,比如把每一项收入、支出都按照国税局的表格分类好,再上传相关文档,AI的表现会好一些。

但现实情况是,大多数纳税人根本不知道报税需要哪些文件,也不懂怎么申报。现在的传统报税软件,会用生活化的提问引导用户,比如“你有没有入托的子女?”“有没有用私家车办公?”,然后自动生成正确的表格,可AI聊天机器人根本做不到这一点。如果没有明确的指令,它们只能给出“可能有用”但未必适合用户的信息,根本解决不了实际问题。

埃文斯举了个很形象的例子:“如果你问AI‘strawberry’(草莓)这个单词里有几个R,它只会告诉你‘大概有几个’,没法给出准确答案——报税也是一样,差一点都不行。”

不过,也有对AI持乐观态度的人。他们认为,未来这些AI工具或许能通过主动推理,在国税局的相关文件中找到解决复杂税务问题的清晰方法。如果给AI添加一些辅助工具,比如能验证报税信息是否符合国税局所有规定的程序,说不定就能让它们在报税这件事上走上正轨——这就像AI学编程一样,虽然偶尔会写错代码,但很擅长找出错误、提出修改办法。

Anthropic公司的Claude机器人,在测试中展现出了实时“思考”的能力。当要求它计算虚构用户的联邦税款时,它发现自己缺少一份国税局的表格,于是主动从网上找到了这份表格,最终算出了正确的退税金额。不过,在其他测试中,它还是错误不断,甚至出现过少算退税的情况。

税务专家表示,AI作为辅助工具,在税务研究方面还是有价值的。比如面对简单的税务问题,或者需要把复杂的国税局表格用通俗的话解释清楚时,AI的表现就很不错。毕竟,就算是普通纳税人,甚至是专业的税务人员,独立处理税务时也难免会出错。

但所有专家都强调了同一个核心原则:在报税这件事上,人类必须牢牢掌握最终的控制权,不能完全依赖AI。

本文原载于《纽约时报》。

相关推荐

非共识研究破局:中国在磁存储领域抢跑,北京助力原始创新
自然指数最新榜单:韩国高校排名持续下滑,中国科研机构表现亮眼
统一了!阿里大模型 未来都叫“千问”
警惕!你的iPhone可能正被黑客悄悄“偷”数据
身份证里的“黑科技”,原来藏着这些小秘密
白宫发言人回应伊朗军事行动,美媒曝俄罗斯向伊朗提供美方情报

发布评论