什么GPU最好?

如题所述

根据全面定性定量的实验结果,截至2018年10月8日,NVIDIA RTX 2080 Ti是现在最好的深度学习GPU(用单个GPU运行Tensoflow)。以单GPU系统的性能为例,对比其他GPU,它的优劣分别是:
FP32时,速度比1080 Ti快38%;FP16时,快62%。在价格上,2080 Ti比1080 Ti贵25%
FP32时,速度比2080快35%;FP16时,快47%。在价格上,2080 Ti比2080贵25%
FP32时,速度是Titan V的96%;FP16时,快3%。在价格上,2080 Ti是Titan V的1/2
FP32时,速度是Tesla V100的80%;FP16时,是Tesla V100的82%。在价格上,2080 Ti是Tesla V100的1/5
请注意,所有实验都使用Tensor Core(可用时),并且完全按照单个GPU系统成本计算。
深入分析
实验中,所有GPU的性能都是通过在合成数据上训练常规模型,测量FP32和FP16时的吞吐量(每秒处理的训练样本数)来进行评估的。为了标准化数据,同时体现其他GPU相对于1080 Ti的提升情况,实验以1080 Ti的吞吐量为基数,将其他GPU吞吐量除以基数计算加速比,这个数据是衡量两个系统间相对性能的指标。

训练不同模型时,各型号GPU的吞吐量
对上图数据计算平均值,同时按不同浮点计算能力进行分类,我们可以得到:

FP16时各GPU相对1080 Ti的加速比

FP32时各GPU相对1080 Ti的加速比
可以发现,2080的模型训练用时和1080 Ti基本持平,但2080 Ti有显著提升。而Titan V和Tesla V100由于是专为深度学习设计的GPU,它们的性能自然会比桌面级产品高出不少。最后,我们再将每个GPU的平均加速情况除以各自总成本:

FP16时各GPU相对1080 Ti的每美元加速情况

FP32时各GPU相对1080 Ti的每美元加速情况
根据这个评估指标,RTX 2080 Ti是所有GPU中最物有所值的。
2080 Ti vs V100:2080 Ti真的那么快吗?
可能有人会有疑问,为什么2080 Ti的速度能达到Tesla V100的80%,但它的价格只是后者的八分之一?答案很简单,NVIDIA希望细分市场,以便那些有足够财力的机构/个人继续购买Tesla V100(约9800美元),而普通用户则可以选择在自己价格接受范围内的RTX和GTX系列显卡——它们的性价比更高。
除了AWS、Azure和Google Cloud这样的云服务商,个人和机构可能还是买2080 Ti更划算。但这不是说亚马逊、微软、Google这些公司“人傻钱多”,Tesla V100确实有一些其他GPU所没有的重要功能:
如果你需要FP64计算。如果你的研究领域是计算流体力学、N体模拟或其他需要高数值精度(FP64)的工作,那么你就得购买Titan V或V100s。
如果你对32 GB的内存有极大需求(比如11G的内存都不够存储模型的1个batch)。这类情况很少见,它面向的是想创建自己的模型体系架构的用户。而大多数人使用的都是像ResNet、VGG、Inception、SSD或Yolo这样的东西,这些人的占比可能不到5%。
面对2080 Ti,为什么还会有人买Tesla V100?这就是NVIDIA做生意的高明之处。
2080 Ti是保时捷911,V100是布加迪威龙
V100有点像布加迪威龙,它是世界上最快的、能在公路上合法行驶的车,同时价格也贵得离谱。如果你不得不担心它的保险和维修费,那你肯定买不起这车。另一方面,RTX 2080 Ti就像一辆保时捷911,它速度非常快,操控性好,价格昂贵,但在炫耀性上就远不如前者。
毕竟如果你有买布加迪威龙的钱,你可以买一辆保时捷,外加一幢房子、一辆宝马7系、送三个孩子上大学和一笔客观的退休金。
原始性能数据
FP32吞吐量
FP32(单精度)算法是训练CNN时最常用的精度。以下是实验中的具体吞吐量数据:

FP16吞吐量(Sako)
FP16(半精度)算法足以训练许多网络,这里实验用了Yusaku Sako基准脚本:

FP32(Sako)

FP16时训练加速比(以1080 Ti为基准)

FP32时训练加速比(以1080 Ti为基准)

价格表现数据(加速/$1,000)FP32

价格表现数据(加速/$1,000)FP16

实验方法
所有模型都在合成数据集上进行训练,这能将GPU性能与CPU预处理性能有效隔离开来。
对于每个GPU,对每个模型进行10次训练实验。测量每秒处理的图像数量,然后在10次实验中取平均值。
计算加速基准的方法是获取的图像/秒吞吐量除以该特定模型的最小图像/秒吞吐量。这基本上显示了相对于基线的百分比改善(在本实验中基准为1080 Ti)。
2080 Ti、2080、Titan V和V100基准测试中考虑到了Tensor Core。
实验中使用的batch size

此外,实验还有关于硬件、软件和“什么是典型的单GPU系统”的具体设置,力求尽量还原普通用户的模型训练环境,充分保障了结果的准确性。
温馨提示:答案为网友推荐,仅供参考
第1个回答  2019-02-11
RTX 2080 Ti

RTX 2080

GTX 1080 Ti

Titan V

Tesla V100

为了从中挑选出最佳GPU,我们会从定价、性能两个维度对它们进行分析。

实验结果

根据全面定性定量的实验结果,截至2018年10月8日,NVIDIA RTX 2080 Ti是现在最好的深度学习GPU(用单个GPU运行Tensoflow)。以单GPU系统的性能为例,对比其他GPU,它的优劣分别是:

FP32时,速度比1080 Ti快38%;FP16时,快62%。在价格上,2080 Ti比1080 Ti贵25%

FP32时,速度比2080快35%;FP16时,快47%。在价格上,2080 Ti比2080贵25%

FP32时,速度是Titan V的96%;FP16时,快3%。在价格上,2080 Ti是Titan V的1/2

FP32时,速度是Tesla V100的80%;FP16时,是Tesla V100的82%。在价格上,2080 Ti是Tesla V100的1/5

请注意,所有实验都使用Tensor Core(可用时),并且完全按照单个GPU系统成本计算。

深入分析

实验中,所有GPU的性能都是通过在合成数据上训练常规模型,测量FP32和FP16时的吞吐量(每秒处理的训练样本数)来进行评估的。为了标准化数据,同时体现其他GPU相对于1080 Ti的提升情况,实验以1080 Ti的吞吐量为基数,将其他GPU吞吐量除以基数计算加速比,这个数据是衡量两个系统间相对性能的指标。

训练不同模型时,各型号GPU的吞吐量

对上图数据计算平均值,同时按不同浮点计算能力进行分类,我们可以得到:

FP16时各GPU相对1080 Ti的加速比

FP32时各GPU相对1080 Ti的加速比

可以发现,2080的模型训练用时和1080 Ti基本持平,但2080 Ti有显著提升。而Titan V和Tesla V100由于是专为深度学习设计的GPU,它们的性能自然会比桌面级产品高出不少。最后,我们再将每个GPU的平均加速情况除以各自总成本:

FP16时各GPU相对1080 Ti的每美元加速情况

FP32时各GPU相对1080 Ti的每美元加速情况

根据这个评估指标,RTX 2080 Ti是所有GPU中最物有所值的。本回答被网友采纳
第2个回答  2019-02-10
给大家带来了另一篇更具说服力的文章,它来自人工智能硬件公司Lambda,主要对比分析了RTX 2080 Ti、RTX 2080、GTX 1080 Ti、Titan V和Tesla V100的成本、价格差异。

在深度学习实践中,很多人会经常问一个问题:什么是最好的深度学习GPU?在这篇文章中,我们将主要分析以下几款目前最优秀的GPU:

RTX 2080 Ti

RTX 2080

GTX 1080 Ti

Titan V

Tesla V100

为了从中挑选出最佳GPU,我们会从定价、性能两个维度对它们进行分析。

实验结果

根据全面定性定量的实验结果,截至2018年10月8日,NVIDIA RTX 2080 Ti是现在最好的深度学习GPU(用单个GPU运行Tensoflow)。以单GPU系统的性能为例,对比其他GPU,它的优劣分别是:

FP32时,速度比1080 Ti快38%;FP16时,快62%。在价格上,2080 Ti比1080 Ti贵25%

FP32时,速度比2080快35%;FP16时,快47%。在价格上,2080 Ti比2080贵25%

FP32时,速度是Titan V的96%;FP16时,快3%。在价格上,2080 Ti是Titan V的1/2

FP32时,速度是Tesla V100的80%;FP16时,是Tesla V100的82%。在价格上,2080 Ti是Tesla V100的1/5

请注意,所有实验都使用Tensor Core(可用时),并且完全按照单个GPU系统成本计算。

深入分析

实验中,所有GPU的性能都是通过在合成数据上训练常规模型,测量FP32和FP16时的吞吐量(每秒处理的训练样本数)来进行评估的。为了标准化数据,同时体现其他GPU相对于1080 Ti的提升情况,实验以1080 Ti的吞吐量为基数,将其他GPU吞吐量除以基数计算加速比,这个数据是衡量两个系统间相对性能的指标。
训练不同模型时,各型号GPU的吞吐量

对上图数据计算平均值,同时按不同浮点计算能力进行分类,我们可以得到:
FP16时各GPU相对1080 Ti的加速比

FP32时各GPU相对1080 Ti的加速比

可以发现,2080的模型训练用时和1080 Ti基本持平,但2080 Ti有显著提升。
第3个回答  2019-02-11
最佳预算CPU

AMD Ryzen 3 2200G


首先,我们拥有最好的预算CPU,而之前我们使用的是英特尔奔腾G4600,这在当时几乎是不可能的。这一次,虽然Gold G5400并没有真正提供任何新功能,但时钟频率增加200 MHz并不会让它在今天过于频繁。

Ryzen 3 2200G虽然有点贵(但仍不到800),但它为世界带来更多价值。除了成为真正的四核之外,集成的Vega 8 GPU对于那些不再购买独立显卡的人来说,功能强大得多。

2200G的真正竞争来自Core i3-8100,它的价格相差100多块钱,但是如果没有独立显卡,它又会被吸引。然后使用GTX 1060或RX 580,它们都可以提供类似的游戏体验。对于生产率工作负载和一般使用情况,它们是均匀匹配的,但一旦超频,2200G一般会出现在顶端。

Ryzen 3 2200G是一款可以在经济实惠的主板上超频的解锁部件,可以利用更高时钟频率的内存,包含强大的集成GPU,并且比Core i3-8100稍微便宜,因此成为我们的第一款预算CPU挑选。

最好的全面价值CPU

AMD Ryzen 5 2600X


如果你花费大约2000购买新的CPU,并且你需要能够以最大效率处理任何和所有任务的东西,那么Ryzen 5 2600或2600X是必须的。

值得注意的是,英特尔的酷睿i5-8400是一款颇具吸引力的替代产品,价格也便宜一些,可以说在今日的游戏中提供了更好的游戏性能。但是,尽管R5 2600可能不太适合游戏,但在生产力工作负载方面,它却处于不同的联盟中。

可以肯定地说,卓越的多线程性能抵消了较弱的游戏性能。当然,当谈到游戏的时候,我总结道,因为在某些游戏中,第二代Ryzen CPU速度更快。

2600和2600X也可以解锁CPU,并可以在廉价的B350主板上超频。正如我们之前讨论过的,我们也喜欢AMD承诺至少在2020年前支持AM4平台,这是明智的投资。
第4个回答  2019-02-10
选购CPU:
核数选择
如果玩游戏的话,个人认为四核也是必要的。因为按照60%并行计算的话,双核加速比例约1.6倍,而四核至少能有2.2倍(永远不可能达到4倍除非你的游戏不需要显卡而且只是和国际象棋一样) 这样算下来只要是支持四核的游戏,四核还是比双核有优势的。

防假指南
看编号

这个方法对Intel和AMD的处理器同样有效,每一颗正品盒装处理器都有一个唯一的编号,在产品的包装盒上的条形码和处理器表面都会标明这个编号,这个编号相当于手机的IMEI码,如果你购买了处理器后发现这两个编号是不一样的,那就可以肯定你买的这个产品是被不法商人掉包过的了。

看包装

不法商人利用包装偷龙转凤是比较常用的手法,主要是出现在Intel的CPU上,Intel盒装处理器与散包处理器的区别就在于三年质保,价格方面相差几十到上百元不等。当然,AMD盒装也是假货充斥,尤其以闪龙2500+与E6 3000+为多。由于不法商人的工艺制作水平有限,虽然假包装已经成为一个小规模的产业,但在包装盒的印刷制作上还是不可能达到正品包装盒的标准,因此,我们可以从包装盒的印刷等方面入手,识别真假。

以AMD的包装盒为例,没有拆封过的包装盒贴有一张标贴,如果没有这张标贴,那肯定是假货。而这张标贴也是鉴别包装盒真伪的一个切入点。从图中可以看到,正品的标贴通过机器刻上了“十”字形的割痕,在撕开后这张标贴就会损坏而作废。而假的包装盒上面也有这张标贴,也同样有这个“十”字形的割痕,不过请注意,正品的“十”字形割痕中间并没有连在一起,而且割痕的长短深度都非常均匀,而假货的标贴往往是制假者自己用刀片割上去的,如果消费者发现这个“十”字形的割痕长短不一,而且中间连在一起,那就可以肯定这是被人动过手脚的了。

另外,由于这个方法的鉴别非常简单,一些不法商人就通过在包装盒上贴上新的编号鱼目

CPU

混珠。鉴别真假的编号也要从印刷上来分辨。正规产品的编号条形码采用的是点阵喷码,字迹清晰,而且能够清楚的看到数字是由一个个“点”组成。而假冒的条形码是用普遍印刷的,字迹较模糊且有粘连感,另外所采用的字体也不尽相同。如果发现这个条形码的印刷太差,字迹模糊,最好就不要购买了。