花20亿美元打造P100 但Nvidia只是拿来画了一张饼-每日电讯报中文版

本篇文章2210字，读完约6分钟

昨天，英伟达在2016年gtc大会上正式发布了新一代pascal架构显卡。作为家族中的第一款显卡，配备新核心gp100的特斯拉p100正式亮相。

据英伟达称，英伟达特斯拉p100将由TSMC制造，采用与华为麒麟950相同的工艺制造16纳米鳍场效应晶体管。它将拥有多达153亿个晶体管和16gb 4096位hbm2堆叠存储器。

在计算能力方面，tesla p100可以提供5.3万亿次的双精度性能、10.6万亿次的单精度性能和21.2万亿次的半精度性能，适合深度学习。

虽然切割，参数仍然是美丽的

从p100、k40和m40的参数对比图可以看出，特斯拉p100中的gp100实际上是一个“阉割版”，英伟达官方已经承认:

标准gp100内核应具有3840个cuda内核、240个纹理单元和支持高达32gb的hbm2视频内存。

而p100中的gp100内核使用了3584个cuda内核、224个纹理单元和16gb hbm2视频存储器，后者已被削减一半。

这直接带来的是单精度运算的改善不明显-

与上一代7tb的触发器相比，10.6的计算能力仅提高了50%。

虽然50%似乎是相当大的一部分，但重要的是要知道，最近几年cpu替换的性能改进只有10%左右。然而，考虑到p100从28nm lp工艺到16nm finfet工艺的飞跃以及新架构带来的优化，这个数字与之前15次触发器的预期相差甚远。

然而，这也可能是出于成本考虑。毕竟，p100是为高性能通用计算而开发的，将大部分晶体管性能放在双精度计算性能上会更具成本效益。

与gk110的0.2万亿次浮点运算相比，p100的5.3万亿次浮点运算具有显著的性能提升。即使与2013年的k40相比，它也翻了两番。

与朋友和商人相比

3月31日，几天前，amd还发布了其新一代旗舰计算卡firepro s9300 x2。

firepro s9300 x2配有两个amd斐济架构内核和两组4096位4gb hbm内存，单精度浮点性能为13.9万亿次浮点，双精度浮点性能为0.8万亿次浮点。

与p100相比，它在单精度浮点方面的性能稍逊一筹。然而，考虑到amd采用的是双核解决方案，而p100也在单精度浮点上被阉割了，如果是单核的话，还是很难逃脱被nvidia打败的命运。

另一方面，英特尔在2015年11月对其基准产品第二代至强融核进行了预览。

据说新一代产品代码是骑士登陆，也采用14纳米工艺。它配备了72个silvermont架构内核，每个内核支持4个线程，总共288个线程。在计算方面，双精度浮点性能将达到3个触发器，单精度将达到6个触发器。

从数据中还可以看出，中央处理器和图形处理器的总体计算效率较低，即使是老大哥英特尔也无能为力。

应用场景nvidia dgx-1在会议上，老黄还宣布了NVIDIA DGX-1，一款基于特斯拉p100的深度学习服务器。

据报道，dgx-1可提供170万亿次深度学习计算性能，比我们家族一年前提出的nvidia maxwell架构四路解决方案快12倍。过去需要25小时才能完成的培训任务现在可以在2小时内完成。

虽然表演令人印象深刻，但价格也很吓人——一套的价格是12.9万美元(约合83.5万元人民币)。

Nvidia drive px 2虽然基于gp100顶级内核的特斯拉p100在gtc大会上被许多媒体称为“第一款pascal架构产品”。但事实上，今年1月，基于pascal架构的drive px 2自动驾驶平台发布了，但当时还没有正式宣布。

这一次，老黄宣布了驱动px 2的具体参数:

中央处理器:8核a57+4核丹佛架构核心

Gpu: 2个基于pascal的独立显卡

内存:8gb lpddr4

功耗:250瓦

其他特征:水冷

其中，每个显卡的核心都是gp106内核，主频为1.25ghz，配有4gb gddr5视频存储器，带宽为80gb/s，128位宽。单精度浮点运算的性能是8个触发器。

在现场，英伟达还展示了基于这种自动驾驶平台的无人驾驶赛车“深绿”。它将代表在2016-2017赛季“机器人”。

附言虽然每次英伟达发布新产品，都会给人一种眼前一亮的感觉，但是如果我们冷静下来分析一下，不难看出这次英伟达对发布新产品并没有那么有信心。

P100作为第一个应用16纳米工艺的产品，在初始阶段不应该像28纳米那么成熟。此外，现场看到的冷却模块仍然是经典的单风扇冷却，tdp为300w，因此不难想象它将是新一代英伟达“高性能核弹”。

虽然老黄在现场讲了很多使用场景，但他根本没有提到跑步得分。这不禁让人想起年初在ces 2016上，当gp100内核第一次发布时，它与gm200内核一起被搬上舞台，并被无情地曝光。

与amd年初在新闻发布会上的现场运行得分相比，英伟达之所以不敢这么做，可能只是因为老黄拿着一块带散热器的pcb板(这样人们就看不到里面的内核)。

英伟达还选择大幅降低gm200的双精度计算，从而降低发热量和成本。然而，这一次，刚刚进入16纳米工艺，却是如此大步地追求终极性能，恐怕进入大规模生产和实际应用后，问题会变得更加突出。第一个问题是hbm2视频存储器的大规模生产。毕竟，目前，即使是amd推出的第一代hbm也没有实现大规模生产，它直接跨越了hbm2。amd只能做到这一点。

花20亿美元打造P100 但Nvidia只是拿来画了一张饼