梁文峰,再次直击中国AI行业痛点! 他指出,中国与美国的AI差距并非时间,而是“原创与模仿”的本质差异。 梁文峰最近又开口了,说中国AI不是慢几年的问题,是路子不一样,美国靠自己琢磨出的算法占先,我们靠把技术用到实际场景里赚钱,他提了DeepSeek那个670B模型,没靠堆参数,靠的是架构设计得巧,算力省了一半还多,这公司没大厂撑着,照样干出来了。 很多人觉得中国数据多、场景多,肯定能赢,但数据多只能改老模型,造不出新东西,顶尖人才都去大厂做推荐系统,没人愿意在实验室里死磕难的问题,投资人也急,三个月看不到回报就不给钱,能赚钱的才投,原创项目太慢,没人敢碰,斯坦福报告说,中国论文发得最多,可真正有分量的原创只占百分之十二。 咱先说说这DeepSeek的“巧”到底妙在哪,这可不是随便改改代码的小打小闹。别家搞大模型都在拼参数规模,GPT-4o堆到万亿级,烧钱像烧纸,DeepSeek偏不这么干。他们用了种叫MoE的混合专家架构,把671B的大模型拆成257个小专家,处理数据时只激活5.5%的参数,相当于一百个人干活只请六个专家出手,效率直接拉满。还搞了个多头潜在注意力技术,把显存占用的大头KV Cache压缩了大半,硬是在2048张H800显卡上跑出了别人翻倍算力才有的效果,训练成本才花了557万美元,连美国同行的零头都不到。 这案例恰恰戳破了“数据多就能赢”的幻觉。我们的移动支付、电商平台确实攒下了海量数据,可这些数据顶多能把推荐算法磨得更精准——知道你爱买啥口红、想听啥歌,但造不出像Transformer那样能改写AI历史的基础架构。就像有人攒了一仓库面粉,能做出五花八门的馒头包子,却始终琢磨不出酵母的配方。斯坦福那份报告说得扎心,2024年中国AI论文数量占全球三成,可真正能落地的原创理论连十二成都不到,大多是在别人的框架里修修补补。 人才的流向更能说明问题。清北复交的AI博士,毕业首选不是实验室,而是去大厂做推荐系统或广告算法。倒不是他们不想搞原创,实在是现实太骨感——实验室里死磕三年可能出不来成果,大厂里三个月就能做出能变现的模型,年薪直接差出几十万。有个AI研究员吐槽,他以前做基础算法,项目经费年年砍,后来转去做短视频推荐,老板立马给配了十人的团队。这种“赚快钱”的导向下,谁还愿意坐冷板凳? 投资人的急功近利更是把原创路堵得更死。毕马威刚出的报告显示,86%的中国企业盼着AI投资三年回本,还有20%要求一年就见收益。可原创哪有这么快?OpenAI烧了十年钱,直到GPT-3才摸到盈利的边;DeepSeek从研发到出成果也花了四年,中间好几次差点断粮。那些要“三个月见效果”的资本,根本等不起这种慢功夫,最后只能扎堆投能快速变现的应用项目,比如AI客服、智能导购,原创项目连BP都递不进门。 最让人揪心的是,这种“重应用轻原创”的路子正在形成恶性循环。没有原创理论突破,我们只能永远跟着美国的脚步走,他们出Transformer,我们就跟着做大模型;他们搞推理模型,我们再跟着优化。就像当年的手机行业,看似品牌众多,核心芯片和系统却攥在别人手里。现在美国已经有40个知名AI基础模型,中国才15个,差距不是在缩小,而是在隐性拉大。 莫言最近说的话很有道理,没有原创,AI的进步会大大减少。数据再多、场景再丰富,没有原创理论这汪“活水”,迟早会变成一潭死水。DeepSeek的出现已经证明,我们不是没能力搞原创,只是缺了点耐住寂寞的定力和敢赌未来的魄力。 各位读者你们怎么看?欢迎在评论区讨论。
