1:芯片种类繁杂,哪些芯片会受益此轮AI+?
芯片按照用途分 类 包括 计 算芯片、 存 储 芯片、 感知芯片、 通信芯片、 能源芯片等等, 其中最 为 受益于当下 AI+ 浪潮 的是 计 算芯片, 存 储 芯片次之。 作 为 AI 浪潮中的 “ 金 铲 子 ” , AI 计 算芯片主要包括 图 形 处 理器( GPU ) 、 现场 可 编 程 门阵 列 ( FPGA ) 、 专 用集成 电 路 ( ASIC ) 、 神 经拟 态 芯片 ( NPU ) 等。 人工智能深度学 习 需要非常 强 大的并 行 处 理能力, 芯片厂商正在通 过 不断研 发 和升 级 新的芯片 产 品来 应对 挑 战 。 目前 GPGPU 是 绝对 主流的 AI 计 算加速芯 片, I DC 报 告 显 示其占据 9 成左右市 场 份 额 , 其他 计 算芯片 大部分都不能 够满 足当下巨量数据的并行运算。
(资料图片仅供参考)
2 : 目前国内做 AI 芯片的主要是哪些公司?
在主流的 AI 芯片 GPGPU 这 个 队 列中, 目前有寒武 纪 、 海光 信息、 壁仞、 摩 尔线 程等等。 在 这 些企 业 当中, 我 们认 为 , 将在 2024 年上半年量 产 的寒武 纪 思元 590 可能在一年 后超越其他 竞 争者性能登 顶 。 而目前国 产 超算 GPGPU 领 域 绝对领 跑者, 则 是以 Z100 在成都、 昆山、 郑 州的超算中心 得到大 规 模部署的海光。
3: 目前国内 AI 芯片市 场 情况如何?
AI 算力是 Chatgpt 的核心基座, AI 芯片占据算力服 务 器最 大价 值 量, 也是最 为 核心 产 品。 2021 年, 我国 AI 芯片达到427亿 元, 同比增 长 1 24% 。 在政策、 市 场 、 技 术 等合力作 用下, 中国人工智能芯片行 业 将快速 发 展, 预计 2023 年我 国 AI 芯片市 场规 模将达 1 600 亿 元, 复合增速 1 00% 以上。
4 : 如何看待美国制裁?
应该说 是危机并存, 机遇更大。 目前 还 是能有一定途径 购 买 到英 伟 达 A100 的芯片, 英 伟 达也能提供 阉 割掉一部分性 能的芯片, 华为 之前也囤 积 了大量的 训练 芯片, 应该说 短 期内不会 压 制国内的的算力需求。 此外, Chiplet 技 术 可以 实现对 海外高端芯片性能的部分追赶。 当下, 无 论 从政府 策 还 是企 业侧 , 在芯片 领 域 实现 自主可控 应该说 达到了空 前的 团结 , 华为刚发 布了能 实现 1 4nm 的 EDA 软 件, 相信 后面在光刻机 领 域也能有所突破。
5 : 目前国内政府采 购 情况会偏向国内芯片 吗 ?
这 是必然的。 近年来国内三大运 营 商的服 务 器采 购 中, 国 产 CPU 的比例已 经 逐步提高到 40% , 海光跟 华为 平分秋 色。 目前国内已建成和在 规 划的 1 00PFlops 以上超算中, 也量采 购 了海光和 华为 的 产 品。 在近期 编 号 为 HCZB 2021-ZB0364 的北京大学高性能 计 算系 统 采 购 中 标 公告 中, 海光 DCU Z100 单块 GPU 卡 显 存 32GB HBM2 , FP64 算力 1 0.8TFlops , 通用 计 算核心 8192 个, 硬件参数基本与 英 伟 达 A100 和 AMD MI100 在同一起跑 线 上。 目前昆山超算中心400PFlops 算力, 拥 有一万个 节 点, 每个 节 点 为 1 颗 海光 CPU 和 4 颗 海光 DCU 。 成都超算中心 规 划 300PFlops , 现 已达到 1 00PFlops 算力, 采用曙光 NebulaAI (海光 CPU+DCU 异构 计 算, 之前的 8000 原型 机也就在成都) 。 郑 州超算中心之前采用英 伟 达 GPU , 新 建的嵩山超 级计 算机 1 00PFlops 算力, 也全部 转为 采用自 主 CPU+DCU 异构。
6 : 在芯片 竞 争背景下, 寒武 纪 思元、 华为 昇 腾 、 海光 DCU 能 够 多大程度上替代英 伟 达 A100 ?
由于国 际环 境的影响, 芯片国 产 替代 这 个 态势 是不可逆 转 的, 国内的超算中心、 智算中心都有一个国 产 化指 标 。 从 流出的硬件指 标 上看, 思元 590 已 经优 于 A100 。 但是好 马 尚需配好鞍, 目前英 伟 达 CUDA 在人工智能 业 界具有 绝对 性的影响力, 建立 软 件生 态 不是一朝一夕就可以 实现 的。 在 软 件生 态 方面, 华为 早在 2018 年就 发 布了 CANN1.0 , 而且在大部分双一流理工科院校以 训练营 的形式 铺 开了, 目前 CANN 的 态势还 比 较 好。 寒武 纪则 需要下很大力气把 Neuware 生 态 做好, 不然思元 590 的硬件 对 于客 户 来 说 比 较 浪 费 。 另外英 伟 达 还对 GPT-3 这样 的大型 语 言模型 还 有非常多的 优 化, 比如 Nemo Megatron , 目前国内一些 团队 正在开始做这 方面的工作, 如 Colossal AI , 但他 们 依然是基于 CUDA 生 态 的。 所以按照当下的 软 件生 态 格局而言, 类 CUDA 的海光 DCU 对 于 进 行模型 训练 的用 户 更 为 友好一 些。
7 : 如果中美之 间 的芯片 竞 争 进 一步升 级 , 海光深算会受 到影响 吗 ?
海光深算系列 DCU 脱胎于 AMD CDNA , 现 已形成自主可 控, 同 时 可以运用 ROCm 软 件 栈 的 强 大丰富生 态 。 ROCm 是一 项 开源 计 划, 现 有大部分 CUDA 上运行的 应 用, 都可 以迁移到 ROCm 。 量子化学 领 域的 CP2K , 天气 预报领 域 的 WRF , 药 物研究 领 域的 GROMACS , 生物信息学 领 域的 HMMER 等 软 件都 获 得了 ROCm 完整的并行高性能 计 算支 持。 也就意味着在英 伟 达数据中心 级 GPU 可能断供的情况 下, 海光深算系列可以无 缝 承接目前国内超算和数据中心 的大部分 GPU 运算能力, 在芯片 战发 生 时为 我国的科学和 技 术 研究撑起保 护伞 。
8 : 寒武 纪 在 资 本市 场热 度 为 何大幅高于海光?
不知道, 可能近期流出了很多未被 证实 的思元 590 硬件参 数和性能指 标 , 寒武 纪 的曝光率 较 高, 使得市 场 的关注度 也 较 高。 海光 Z100 FP32 算力 约为 21TFlops , 显 存 带宽为 1 TB/s , 网上一些消息称将在一年后量 产 的思元 590 FP32算力达到80TFlops , 显 存 带宽为 2.7TB/s 。 单 从 FP32 算力 和 显 存 带宽 上看, 思元 590 的确有 优势 。 当然, 同 为 国 产 替代, 也要考 虑 思元 590 最 终 采 购单 价和 软 件生 态 的成熟 程度。 A100 在 业 界的大 规 模使用, 是全球 AI 产业认 可英 伟 达 软 件生 态 , 并在英 伟 达 产 品体系内根据 产 品性能价格比 做理性决策的 结 果, 不然大家就去上更高端的 H100 了。 从我 们专业 的角度, 在当前海光无 论 是从 产 品 还 是盈利能 力, 都不低于于寒武 纪 的。 目前看海光 是国内唯一 一家在高端芯片 领 域 实现 盈利的公司, 公司 产 品在 21 年开 始爆量, 快速均 摊 了成本, 净 利率大幅提升。 从目前国内 采 购 情况看, 海光今年爆 发 已 经 没有 悬 念。 在寒武 纪 思元 590 尚未量 产 的 这 一年内, 海光 Z100 在性能上是国 产 自主 可控 GPGPU 的 领 跑者。 寒武 纪 思元 590 实现 量 产 的 过 程 中, 海光也有机会通 过 Chiplet 技 术进 一步提升 产 品硬件 实 力, 与思元 590 一 较 高下, 并且海光仍然有 软 件 栈 和生 态 的巨大 优势 。
9 : 寒武 纪 思元 MLU 和海光深算 DCU 与百度 飞桨 的兼容适 配 进 展?
思元百度 飞桨认证 的工作做得比 较 早, 在 2020 年就开始 了。 海光 DCU 则 是在 2021 年 1 0 月才拿到的百度 飞桨 生 态 兼容性 认证 , 飞桨 上的所有 训练 模型海光 DCU 都支持。 相比之下,思元在 这 其中支持的 训练 模型 约为 四成, 对 推荐 系 统 、 视频 分 类 、 语 音合成、 生成 对 抗网 络 四个大 类 均未 适配, 余下五个大 类 , 除字符 识别 所有模型全数支持外, 其他的四个大 类 中的模型支持不足半数。 特 别 是在当下最 为热门 的 CHATGPT 相关的自然 语 言 处 理大 类 , 海光 DCU 支持 9 种模型, 而寒武 纪 MLU 只支持其中 3 种。 海光 DCU 使用国 际 通用的 ROCm 软 件 栈 , 这 一 类 CUDA 架构使得海 光与国 际 通用的大部分 AI 模型适配 较 好, 只是在部分模型 上并行性有些影响。 成都超算中心在成立的两年来与百度 飞桨 合作, 根据国 际 开源 项 目 AlphaFold2 研 发 了国 产 DCU 蛋白 质预测 模型。 此外, 还 根据中科院成都山地所具 体需求, 在海光 CPU+DCU 异构硬件生 态 上 为 其研 发 的 “ 山地灾害 风险 模 拟 与 险 情 预报 系 统 ” 赋 能, 实现 数十 万平方公里范 围 内所有数千条小流域精 细 化全 过 程模 拟 。 在从硬件的自主可控到 软 件的自主可控 这 条路上, 看起来 海光 DCU 走得更 远 一些。
1 0 : 近期芯片 龙头 都已 经 大 涨 , 如何理性 对 他 们进 行估 值 ?
对 芯片企 业进 行估 值 是一件比 较 困 难 的事情。 芯片流片常 常伴随着巨大 风险 , 一旦流片失 败 , 会 对 公司 现 金流造成 巨大的 伤 害。 要抵御 这样 的 风险 乃至国 际 政治 风险 , 都需要有非常好的财务规 划。 芯片企 业 不 仅 是技 术 密集, 其 资 本密集程度也 远远 高于一般 实 体企 业 。 所以要 对这类 企 业 估 值 , 并非我 们 的 专长 。 但有两点是可以肯定的, 一是在 AIGC 浪潮下, 像海光、 华为这 些已 经 量 产 出 AI 芯片并建立 良好生 态 的, 肯定能从中受益;二是国 产 替代 进 程不可 逆, 从 1 4 亿 人口 产 生的巨大 AI 需求来看, 国内 应该 会, 也 必然会出 现类 似英 伟 达 这样 的 AI 芯片巨 头 。 如果以寒武 纪 1 00 多 亿 美金, 海光 200 多 亿 美金的估 值 , 对 比英 伟 达 6000 多 亿 美金的估 值 来看, 悲 观 的人看到的是差距, 乐观 的人看到的也是差距。
$寒武纪-U(SH688256)$ $海光信息(SH688041)$ $中国长城(SZ000066)$