张宏江：我对于AI和大模型八点观察和看法

收藏分享邀请

口述丨张宏江

编辑丨薛芳

出品丨深网·腾讯新闻小满工作室

《硅谷日记》编者按：

硅谷位于美国加利福尼亚州的旧金山经圣克拉拉至圣何塞近50公里的一条狭长地带，是美国重要的电子工业基地，也是世界最为知名的电子工业集中地。这片土地，一直在诞生传奇，最早的传奇可以追溯到1838年前，这一年，一个叫苏特尔的冒险家发现了这个渔村，战胜了土著，靠着这片土地的丰腴，他因此成为一个大富翁。

10年后的一天的一个偶然，竟发现这片土地上的一个区域竟然遍地黄金，苏特尔在一瞬间成为世界上最富有的人。这大量的财富也给苏特尔带来了万劫不复的灾难，全世界的冒险家，他们漠视法规，对这个地方进行了掠夺，最后的结果是苏特尔一贫如洗，孤独寂寞地死去。“淘金热”是人们给对那个年代和这片土地最疯狂的记忆的描述。

或许是源于历史的某种补偿性，多年后的这片土地，地面上已经看不到洒着的金沙，但一群富有天才和智慧的大脑，仍然聚集在这片土地上，制造着关于科技的神话。自20世纪60年代中期以来，以微电子技术高速发展而逐步形成的硅谷，其特点是以附近一些具有雄厚科研力量的美国一流大学斯坦福、伯克利和加州理工等世界知名大学为依托，以高技术的中小公司群为基础，并拥有思科、英特尔、惠普、朗讯、苹果等大公司。

80年代后，生物、空间、海洋、通讯、能源材料等新兴技术的研究机构纷纷出现，该地区客观上成为美国高新技术的摇篮。在硅谷科技创新从未停止过。HP创始人维修示波器的那个车库，微软的那个温馨小屋，仙童那些血气方刚的年轻人造出CPU的灵感，英特尔那个天才流淌的酒吧……《硅谷热》、《硅谷之火》也激励了国内一众互联网大佬抒写了他们与时代的传奇。

当然，科技的创新在硅谷这片热土上生生不息，OpenAI这家公司成为这片土地上新的传奇，它打开了一个新时代的星际之门。硅谷的建筑朴实无华，很少有高楼大厦，多半是一些三四层的建筑，隐藏在一片绿树之中。也就是在这个地方，诞生了无数的科技传奇。

7月下旬，青腾全球私访美国硅谷的活动中，邀请了美国国家工程院院士，智源研究院创始人和创始理事长张宏江做了一场题为《AI技术的发展与展望》的分享，这是《AI光年》栏目《硅谷日志》第一篇。

“大模型是新一代操作系统，会带来新的生态。今天所有做软件的公司，尤其是在美国做To B的软件公司，是最早行动起来用AI重写软件的，这是我在去年年初看到的。今年的美国公司，都在用大模型重新定义自己的软件。”张宏江阐述。

张宏江博士谈到了他的八个方面的观察：第一，大模型的内涵-规模定律；第二，计算的重心之前以CPU为中心，现在变成了以GPU为中心；第三，大模型是操作系统，也会建立新的生态；第四，大模型应用；第五，做大模型，还是小模型？第六，大模型投资；第七，多模态是AGI的终极模型；第八，多模态大模型将赋能机器人。

以下《AI光年》对张宏江博士这次的分享做了一些精编。以下是分享实录：

第一点观察，大模型的内涵。

从2017年开始出现Transformer以后，这一支上有一系列的模型。模型都很好，但都是专用模型和小模型，大部分是谷歌做的，但OpenAI，从GPT-1开始，，很快找到了突破口。大模型有三大特点，第一规模大，第二有涌现，第三有通用。

今天讲大模型，它的核心是scaling law（尺度定律），当llya Sutskever（OpenAI联合创始人、首席科学家伊尔亚·苏茨克维）比别人看得远的就是scaling law。

第二，随着数量级的增加，过去以CPU为中心，现在变成了以GPU为中心。

当所有的人都在买GPU，在搭万张卡机群时，对数据中心的冲击也很大，就是数据中心的架构、运维和设计，都有了一系列新挑战。你买了1万张卡做数据中心的话，能够高效使用这1万张卡非常难。现在几千张卡的数据中心，在一个机群里，使用率超过50%的非常少。我们一方面缺卡，一方面有效利用率不高。

scaling law的另外一点，当Cluster变得如此之大，大家没法handle（处理）的时候，大家自然会找另外一个解决方案，就是把多少算力放到边缘计算上。我们看到今后一定是云、边、端连在一起的智能架构。

第三个观察，大模型是操作系统，也会建立新的生态。

这个操作系统是自然语言的用户交互界面，比以前的操作系统要好用。这也会带来新的摩尔定律。

大模型是新一代操作系统，会带来新的生态。今天所有做软件的公司，尤其是在美国做To B的软件公司，是最早行动起来用AI去重写软件，这是我在去年年初的观察。今年我们看美国公司，无论是成功还是不成功，都在大量投钱，用大模型重新定义自己的软件。

第四个观察,大模型的应用。

如果把应用或模型分成五层，我们今天在基础层，就是L1或L2，五年后的速度能达到L3。这些公司无论是GitHub，还是做Chat的，客户反馈总体来说已经非常正面了。到底这个应用什么时候能真正落地？可以分成几个阶段：

第一阶段是卖铲子，也就是GPU、数据中心、云，这些公司的股票，无论是微软、英伟达还是数据中心的公司，这是第一波。往后是应用，很多个性化和To B的应用，都会从这儿开始。最后是Physical AI，就是有各类机器人，比如科研上的机器人。这是五年以后。其实美国第一阶段和第二阶段中插了一个阶段，就是To B的软件公司，所有做SaaS的公司都在努力用大模型来提高软件能力，所以在ToB SaaS上，在productivity（生产力）这一块，这是美国优于中国的一个市场，这块已经有很多投入了。

会不会有super APP，我相信一定会有。如果是OpenAI 持续地在产品上能够有出息的话，我觉得它成为 super APP的可能性非常大。

第五个观察，作为创业者，是做大模型还是做小模型。

大家今天说：“我做不了大模型，那我就做个小模型”，我想说的是一个小模型做好一件事的场景非常有限。我相信把大模型的性能做好，才能真正出现涌现。如果你需要做垂直，也需要把它放到端上，通过整流的方法和持续学习的方法把它做小，而不是一开始就做个小模型。

打个比方，你把孩子送到中专，很快学一门技术，但就会一门技术，也许孩子能做得很好，但稍微一有新的技术出现就跟不上了。你应该把孩子送到哈佛学一个很好的本科，毕业以后可以寻求垂直发展，比如修三年医学院，成为很好的大夫，或者上三年的法学院，成为优秀的律师，但一个好的本科是非常重要的。

第六点观察：大模型投资。

从投资角度而言，机会非常大。今天AI的应用领域都是现有的市场。假如AI每年能提高这些领域10%到15%的效率，连续几年下来，市场就会翻番。只需要提高现有业务的效率，AI就有很大的市场。今天60%的钱进入基础大模型，真正做应用的人不多。但是看看上一波云技术浪潮，云的收入大部分在应用上和SaaS上，所以AI未来的机会也在应用上。

第七个观察，多模态是AGI的终极模型。

最近Sora非常震撼，但多模态大模型其实比Sora要复杂地多。Sora只做了一件事，就是文生视频，也可以做图生视频。它非常逼真，让人觉得很震撼。对我来说震撼在于它生成了一个三维世界，而它的背后没有三维模型。完全用数据训练出一个世界模型，当然是一个初级的世界模型。

GPT-4o就是一个端到端训练的模型。第一，它没有把语音翻译成文字，再送到LLM，再出来文字，再翻译成语音，没有这个过程。进去就是语音，出来也是语音，这样才能达到200毫秒，而且它没有翻译的过程，没有了从语音到文字、再从文字到语音的翻译的过程，没有信息的损失。

GPT-4o已经到了这个moment，未来做多模态，一定是端到端，一定是统一模型。统一的模型多了是吧？今天有音频模型，有视频模型，有文字的模型（ChatGPT3.5），有多模态生成模型，有多模态推理模型。只有到了世界模型，才会有具身智能和通用机器人，才会有AGI，GPT-4o正在往这个方向走。

第八个观察，多模态将赋能机器人。

专用机器人和通用机器人的区别是专用机器人有一段程序，而通用机器人是有一个具身大脑。多模态大模型到世界模型的发展将赋与机器人真正的通用的思考和行动能力，也是通用机器人必要的基础。

未来是一个自主智能的世界，就是通用的具身智能。机器不只是具备了人的思考和行动能力，还具备了人的自主能力。

什么是奇点来临？只要机器的学习能力超过了人，智能就会超过人了。所谓的奇点来临，就是这个意思。

杰弗里·辛顿（图灵奖得主），认为，数字计算一定会超过生物计算，也就是数字智能一定会超过生物智能。这意味着奇点迟早有一天会早来，只不过是5年到还是25年到还是更久。