经常问的问题

本部分包含有关TOP500项目和列表的常见问题。它仍处于早期阶段,不久将添加更多带答案的问题。如果您有任何建议,请告诉我们。

一般

什么是TOP500?

Top500列出了当今使用最快的500个计算机系统。从1993年开始收集,此后每6个月进行更新。该报告列出了安装了500个最强大的计算机系统的站点。达到的最佳Linpack基准性能被用作计算机排名的性能指标。自1993年6月起,TOP500清单每年更新两次。

Linpack基准测试

什么是Linpack基准测试?

Linpack Benchmark是衡量计算机浮点执行率的指标。它是通过运行可解决线性方程组密集的计算机程序来确定的。多年来,基准的特征已经发生了一些变化。实际上,Linpack Benchmark报告中包含三个基准。

Linpack Benchmark是源自Linpack软件项目的东西。最初的目的是让软件包的用户感觉到解决某些矩阵问题所需的时间。该基准是《 Linpack用户指南》的附录,自1979年出版《 Linpack用户指南》以来,该基准一直在增长。

什么是Linpack Benchmark报告?

Linpack Benchmark报告的标题为“使用标准线性方程式软件的各种计算机的性能”。该报告列出了许多计算机系统的性能,以Mflop / s为单位。该报告的副本位于: http://www.netlib.org/benchmark/performance.ps.

Linpack基准报告的参考是什么?

Linpack Benchmark报告应通过以下方式引用:

“Performance of Various 电脑s Using Standard Linear Equations Software”, 杰克·东加拉(Jack Dongarra), 田纳西大学, Knoxville TN, 37996, 电脑 Science Technical Report Number CS - 89 – 85, today’s date, url:http://www.netlib.org/benchmark/performance.ps.

是否有论文详细描述了基准并提供了历史观点?

杰克·东加拉(Jack Dongarra),Piotr Luszczek和Antoine Petitet撰写的论文“ LINPACK基准:过去,现在和未来”提供了基准测试的详细信息,并以图形形式提供了许多机器在基本操作上的性能数据。该文件的副本位于 http://www.netlib.org/utk/people/JackDongarra/PAPERS/hpl.pdf.

什么是Mflop / s?

Mflop / s是执行速率,每秒数百万个浮点运算。每当使用此术语时,它将指代64位浮点运算,并且该运算将为加法或乘法。 Gflop / s表示每秒数十亿个浮点运算,而Tflop / s表示每秒数万亿个浮点运算。

理论峰值性能是多少?

理论峰值不是基于基准测试的实际性能,而是基于纸上计算来确定机器浮点运算的理论峰值执行率。这是制造商经常引用的数字;它代表了性能的上限。即,制造商保证程序对于给定的计算机不会超过“光速”的这种速率排序。理论上的峰值性能是通过计算在一段时间(通常是机器的循环时间)内可以完成的浮点加法和乘法(以全精度)的次数来确定的。例如,1.5 GHz的Intel Itanium 2可以每个周期完成4个浮点运算或理论上的峰值性能为6GFlop / s。  

Linpack Benchmark报告中的三个基准是什么?

Linpack Benchmark报告中的三个基准分别是Linpack Fortran n = 100基准(请参见表1),Linpack n = 1000基准(请参见报告表1)以及Linpack的高度并行计算基准(请参见表3)。那个报告)。

什么是Linpack Fortran n = 100基准?

第一个基准是使用Fortran中的Linpack软件的订单100矩阵。结果可以在基准报告的表1中找到。为了运行此基准测试,请从以下位置下载文件 http://www.netlib.org/benchmark/Linpackd,这是一个Fortran程序。为了运行该程序,您将需要提供一个称为SECOND的计时功能,该功能应报告已用的CPU时间。运行此基准测试的基本规则是您不能更改Fortran代码,甚至不能更改注释。仅编译器优化可用于增强性能。

Linpack Fortran n = 100基准时间到底是什么时间?

Linpack基准测试测量了Linpack软件集合中两个例程的性能。这些例程是DGEFA和DGESL(它们是双精度版本; SGEFA和SGESL是它们的单精度对等版本)。 DGEFA通过部分枢轴执行LU分解,DGESL使用该分解来求解给定的线性方程组。

大部分时间都花在DGEFA中。矩阵分解后,将使用DGESL查找解决方案。与DGEFA的O(n3)浮点运算相反,此过程需要O(n2)浮点运算。该基准测试的结果可以在Linpack基准报告的“ LINPACK基准n = 100”下的表1第二栏中找到。

什么是Linpack n = 1000基准(TPP,尽力而为)?

第二个基准是针对大小为1000的矩阵,可以在基准报告的表1中找到。为了运行此基准测试,请从以下位置下载文件 http://www.netlib.org/benchmark/1000d,这是一个Fortran驱动程序。运行此基准测试的基本规则更加宽松,因为您可以指定以任何语言实现的任何线性方程式求解。要求您的方法必须计算一个解决方案,并且该解决方案必须将结果返回给指定的精度。 TPP代表迈向最高绩效。这是基准测试报告中列示结果的列的标题。 

为什么我的表现结果低于理论峰值?

计算机的性能是一个复杂的问题,是许多相互关联的数量的函数。这些数量包括应用程序,算法,问题的大小,高级语言,实现,用于优化程序的人员工作水平,编译器的优化能力,编译器的使用年限,操作系统,计算机的体系结构和硬件特征。为基准测试套件提供的结果不应作为总体系统性能的衡量指标(除非进行了足够的分析以表明基准测试与目标工作负载之间的可靠关联),而应作为进一步评估的参考点。

为什么我的计算机的性能结果与Linpack报告中同一台计算机的结果不同?

您的结果可能与Linpack基准报告中记录的结果有所不同的原因有很多。即使处理器相同,诸如系统负载,时钟准确性,编译器选项,编译器版本,缓存大小,内存带宽,内存量等问题也会影响性能。 

Linpack的“高度并行计算”基准是什么?

第三个基准称为“高度并行计算基准”,可以在基准报告的表3中找到。 (这是Top500报告的基准使用)。此基准试图测量机器在求解方程组时的最佳性能。可以选择问题的大小和软件以产生最佳性能。

http://www.netlib.org/benchmark/hpl/ 

第一个基准的基本规则是什么?

在报告中运行第一个基准测试的“基本规则”(n = 100)是程序按原样运行,源代码未更改,甚至注释也不允许更改。通过编译器开关的编译器可以在编译时执行优化。用户必须提供称为SECOND的计时功能。 SECOND返回该进程的运行CPU时间。由基准程序生成的矩阵必须用于运行这种情况。

第二个基准的基本规则是什么?

运行报告中的第二个基准测试的“基本规则”(n = 1000)允许用户完全替换LU分解和求解器步骤。调用顺序应与原始例程相同。问题大小应为1000左右。解决方案的精度必须满足以下限制:

(在IEEE机器上是2-53),n是问题的大小。使用的矩阵必须与可从netlib获得的驱动程序中使用的矩阵相同。

第三基准的基本规则是什么?

运行报告中的第三个基准(高度平行)的“基本规则”允许用户完全替换LU分解和求解器步骤。解决方案的准确性必须满足以下界限:

(在IEEE机器上是2-53),n是问题的大小。使用的矩阵必须与可从netlib获得的驱动程序中使用的矩阵相同。对问题大小没有限制。

解决方案必须达到什么精度?

所有这三个基准的解决方案必须满足以下数学公式:

(在IEEE机器上是2-53),n是问题的大小。这意味着必须以64位浮点算术完成计算。 

运行和基准测试并在Linpack Benchmark报告中获得所需的数值精度是多少?

为了使条目包含在Linpack Benchmark报告中,必须使用全精度来计算结果。所谓全精度,通常是指64位浮点运算或更高。请注意,这不是单精度或双精度问题,因为某些系统具有64位浮点算术作为单精度。它是所用算术的函数。

我可以获得更个性化的机器和性能结果列表吗?

您可以使用以下界面获得更具个性化的计算机列表: http://performance.netlib.org/performance/html/PDSbrowse.html

但是,该列表不是最新的,并且可能落后于Linpack基准报告数月。

我如何获得Linpack Benchmark计划?

您可以使用以下网址下载用于生成Linpack基准测试结果的程序: http://www.netlib.org/benchmark/linpackd。这是一个Fortran程序。基准测试的C版本位于: http://www.netlib.org/benchmark/linpackc。可以通过以下位置的小程序来下载基准测试的Java版本:

在以下位置有一个Java程序:

http://www.netlib.org/benchmark/linpackjava/

是否有Java版本的Linpack Benchmark?

可以通过以下位置的小程序来下载基准测试的Java版本:

在以下位置有一个Java程序: http://www.netlib.org/benchmark/linpackjava/

如何执行Linpack Benchmark程序?

对于基于100x100的Fortran版本,您需要提供一个称为SECOND的计时功能。 SECOND是一个运行计时器功能,将从Fortran中调用该功能,并期望以秒为单位返回运行中的CPU时间。在程序中,调用了SECOND的两个,并取其差值来收集时间。

Linpack Benchmark性能与我的应用程序有何关系?

Linpack基准测试的性能通常用于基本操作基于向量基元的应用,例如将向量的标量倍数添加到另一个向量。许多应用程序表现出与Linpack Benchmark相同的性能。但是,结果不应太当真。为了衡量任何计算机的性能,探查应用程序性能至关重要。 Linpack基准测试只能提供一个参考点。此外,在多程序环境中,通常很难可靠地测量单个程序的执行时间。我们相信,任何实际评估机器和操作系统的人都会收集到更可靠和更具代表性的数据。

Linpack Benchmark报告中是否有错误?

尽管我们竭尽全力验证从用户和供应商处获得的结果,但错误肯定会存在,应引起我们的注意。我们鼓励用户获取程序并在其计算机上运行例程,并使用此处列出的数字报告任何差异。

什么是Linpack?

The Linpack package is a collection of Fortran subroutines for solving various systems of linear equations. (http://www.netlib.org/Linpack/) The software in Linpack is based on a decompositional approach to numerical linear algebra. The general idea is the following. Given a problem involving a matrix, one factors or decomposes the matrix into a product of simple, well-structured matrices which can be easily manipulated to solve the original problem. The package has the capability of handling many different matrix types and different data types, and provides a range of options. Linpack itself is built on another package called the BLAS. Linpack was designed in the late 70's and has been superseded by a package called LAPACK. 

如何获得完整的Linpack软件集合?

The Linpack software library is available from netlib. See http://www.netlib.org/Linpack/

什么是BLAS?

BLAS(基本线性代数子程序)是用于执行基本矢量和矩阵运算的高质量“构建块”例程。 1级BLAS执行矢量向量运算,2级BLAS执行矩阵矢量运算,而3级BLAS执行矩阵矩阵运算。由于BLAS是高效,便携式且广泛可用的,因此它们通常用于开发高质量线性代数软件(例如LINPACK和LAPACK)。有关更多信息,请参见: http://www.netlib.org/blas/

在哪里可以获得BLAS的优化版本?

ATLAS(自动调谐线性代数软件)项目是一项正在进行的研究工作,致力于应用经验技术,以便为BLAS例程提供可移植的性能。目前,它为可移植的高效BLAS实现提供C和Fortran77接口,以及LAPACK的一些例程。有关更多信息,请参见: http://www.netlib.org/atlas/

Linpack是解决方程组的最有效方法吗?

Linpack不是解决矩阵问题的最有效软件。这主要是由于算法和所得软件访问内存的方式。该算法的内存访问模式无视RISC体系结构和矢量计算机的多层内存层次结构,从而花费了太多的时间来移动数据而不是进行有用的浮点运算。 LAPACK通过重组算法以使用块矩阵运算(例如,最内层循环中的矩阵乘法)来解决此问题。对于每种计算机体系结构,可以优化块操作以解决内存层次结构,从而提供一种可移植的方式来在各种现代计算机上实现高效率。我们使用术语“可移动”而不是“便携式”,因为LAPACK要求在每台机器上已经实现高度优化的块矩阵运算,以实现最快的性能。在大多数情况下,这些操作由3级BLAS执行。

什么是LAPACK?

LAPACK是一个软件集合,用于解决线性代数中的各种矩阵问题。特别是线性方程组,最小二乘问题,特征值问题和奇异值分解。该软件基于块分区矩阵技术的使用,该技术有助于在基于RISC的系统,矢量计算机和共享内存并行处理器上实现高性能。

如何获得整个LAPACK软件集?

LAPACK can be obtained from netlib, see (http://www.netlib.org/lapack/)

Linpack Benchmark背后的历史是什么?

从某种意义上说,Linpack Benchmark是一个意外。它最初旨在通过提供有关求解线性方程组所需的执行时间的信息来帮助Linpack软件包的用户。第一份``Linpack Benchmark''报告作为附录出现在1979年的《 Linpack用户指南》中。该附录包含了Linpack中一个常见路径的数据,该路径用于大小为100的矩阵问题,位于一系列广泛使用的计算机上(23总计),因此用户可以估算解决矩阵问题所需的时间。

多年来,添加了其他数据,这比其他任何东西都更加重要,如今,该集合包括数百种不同的计算机系统。

如何将计算机的结果添加到表中?

您可以联系Jack Dongarra,并将基准程序的输出发送给他。发送结果时,请在运行测试的计算机,编译器,使用的优化以及运行站点上提供特定信息。您可以通过发送电子邮件至dongarra@cs.utk.edu与Dongarra联系。

什么是第二功能?

为了运行基准程序,您将必须提供一个功能来收集计算机上的执行时间。通过调用Fortran函数SECOND请求执行时间。预计例程将返回程序的累积执行时间。进行了两次SECOND调用,并求出差值来计算执行时间。

如何更准确,更可靠地衡量执行时间?

Performance API(PAPI)项目指定了一个标准应用程序编程接口(API),用于访问大多数现代微处理器上可用的硬件性能计数器。这些计数器是一小组寄存器,用于对事件(与处理器功能相关的特定信号的发生)进行计数。监视这些事件有助于在源/目标代码的结构与该代码到基础体系结构的映射效率之间建立关联。

有关更多信息,请参见: http://icl.cs.utk.edu/projects/papi/

我应该运行基准的单精度和双精度吗?

基准报告中报告的结果反映了64位浮点算法的性能。在某些计算机上,这可能是双精度的,例如具有IEEE浮点算法的计算机,而在其他计算机上,这可能是单精度的(在Fortran中声明为REAL),例如Cray的矢量计算机。

基准报告何时以及何时更新结果?

随着新结果的到来,基准报告会不断更新。它们随着更新而发布到网络上。 

使用什么矩阵运行基准测试?

矩阵是使用伪随机数生成器生成的。矩阵设计为强制部分枢转以高斯消除法执行。

什么是HPL?

HPL是一个软件包,可以在分布式内存计算机上以双精度(64位)算法解决(随机)密集线性系统。因此,它可以被视为高性能计算(Linpack)基准的便携式以及免费可用的实现。  

对于HPL 我应该运行哪个问题大小N?

为了找出系统的最佳性能,内存应该适合的最大问题大小是目标。 HPL使用的内存量实质上是系数矩阵的大小。因此,例如,如果您有4个节点,每个节点上具有256 Mb的内存,则这相当于1Gb的总空间,即125M双精度(8字节)元素。该数字的平方根是11585。肯定需要为操作系统以及其他内容留出一些内存,因此问题大小为10000可能合适。根据经验,很好的猜测是占内存总量的80%。如果选择的问题大小太大,则会发生交换,并且性能会下降。如果在每个节点上产生多个进程(例如,每个节点上有2个处理器),那么计算每个进程的可用内存量就很重要。 

对于HPL,我应该使用哪个块大小的NB?

HPL使用块大小NB进行数据分发以及计算粒度。从数据分发的角度来看,NB越小,负载平衡越好。您绝对想远离很大的NB值。从计算的角度来看,NB的值太小可能会在很大程度上限制计算性能,因为在内存层次结构的最高级别中几乎没有数据重用。消息数量也会增加。高效的矩阵乘法例程通常在内部被阻塞。对于HPL,此阻塞因子的较小倍数可能是好的块大小。最重要的是,“好”块大小几乎总是在[32 ..256]区间内。最佳值取决于系统的计算/通信性能比。在较小程度上,问题的大小也很重要。举例来说,您凭经验发现44就性能而言是一个不错的块大小。对于较大的问题大小,88或132可能会给出更好的结果,因为略高的翻牌率。

对于HPL,我应该使用什么过程网格比率P x Q?

这取决于您拥有的物理互连网络。假设网格或开关HPL“喜欢” [1..3]中k的1:k比。换句话说,P和Q应该近似相等,并且Q稍大于P。例如:2 x 2、2 x 4、2 x 5、3 x 4、4 x 4、4 x 6、5 x 6、4 x 8 ... 如果您在简单的以太网上运行,则只有一根电线可以交换所有消息。在这样的网络上,HPL的性能和可伸缩性受到严格限制,非常平坦的过程网格可能是最佳选择:1 x 4,1 x 8,2 x 4 ...

对于HPL,一个处理器的情况如何?

HPL被设计为在数百个节点及更多节点上的大型问题上表现良好。该软件可在一个节点上运行,并且对于较大的问题,通常也可以在单个处理器上实现相当好的性能。但是,对于较小的问题,由于消息传递,本地索引等导致的开销可能会很大。

对于HPL,为什么在HPL.dat中有那么多选项?

有很多原因。首先,这些选项对于确定系统上重要和不重要的内容很有用。其次,HPL通常用于对新系统的早期评估中。在这种情况下,通常情况下一切都不尽如人意,并且无需重新编译即可更改这些参数非常方便。最后,每个系统都有其自身的特点,并且有可能愿意凭经验确定最佳参数集。无论如何,您始终可以遵循  调音部分 HPL文档,而不必担心输入文件的复杂性。

HPL能否跑赢大市?

当然。总有性能改进的空间。有关特定系统的特定知识始终是性能提升的源泉。即使从一般的角度来看,更好的算法或经典算法的更有效公式化也是潜在的赢家。

在HPL基准测试或Top500运行中进行矩阵倍数运算时,可以使用Strassen方法吗?

普通矩阵乘法算法需要n3 + O(n2)乘法和大约相同数量的加法。 Strassen算法通过使用七个n×n矩阵乘法递归地将2n×2n矩阵相乘,从而将运算总数减少到O(n2.82)。因此,使用Strassen的算法会扭曲真实的执行率。因此,我们不允许Strassen算法用于TOP500报告。附带说明一下,在``常规''矩阵乘法中,我们有一个n2误差项。在Strassen方法中,n范围的误差指数p在2-3.85之间,数值误差可以是标准乘法的10-100倍。

在哪里可以获得该软件以生成Top500的性能结果?

有可用的软件已经过优化,许多人用来生成Top500性能结果。此基准试图测量机器在求解方程组时的最佳性能。可以选择问题的大小和软件以产生最佳性能。可以从以下网站下载该软件的副本:

http://www.netlib.org/benchmark/hpl/

为了运行此程序,您将需要MPI和BLAS的优化版本。对于MPI,您可以看到:  http://www-unix.mcs.anl.gov/mpi/mpich/download.html 对于BLAS,请参阅: http://www.netlib.org/atlas/ .

为什么一台机器会出现在Linpack Benchmark报告中而不出现在Top500列表中?

可能有两个原因。首先,Linpack Benchmark报告包含历史信息。即使不再存在计算机,它也可以出现在Linpack基准报告中。这与Top500不同,Top500报告了在给定时间点上存在的500台最快的计算机。第二个原因是Top500列表每年两次出炉,并且Linpack Benchmark报告会不断更新。

为什么一台机器会出现在Top500列表中,而不出现在Linpack Benchmark报告中?

如果机器在“ Top500”列表中,则它应出现在“ Linpack Benchmark”报告中。如果您发现不是这种情况,可能是错误的情况,请发送电子邮件至Jack Dongarra dongarra@cs.utk.edu about the situation.

如何解释Linpack 100x100基准测试的结果?

当运行Linpack Fortran n = 100基准时,它将产生以下类型的结果:

 

       请将运行结果发送至:

 

 Jack J. Dongarra

 计算机科学系

 田纳西大学

 田纳西州诺克斯维尔37996-1300

 

 Fax: 865-974-8296

 

 互联网:dongarra@cs.utk.edu

 

     规范。残渣残渣machep x(1)x(n)

  1.67005097E + 00 7.41628980E-14 2.22044605E-16 1.00000000E + 00 1.00000000E + 00

 

 

    报告订购矩阵的时间100

      dgefa dflopl的总软盘单元比率

 领先尺寸为201的阵列的次数

  1.540E-03 6.88E-05 1.609E-03 4.268E + 02 4.686E-03 2.873E-02

  1.509E-03 7.074E-05 1.579E-03 4.348E + 02 4.600E-03 2.820E-02

  1.509E-03 7.03E-05 1.579E-03 4.348E + 02 4.600E-03 2.820E-02

  1.502E-03 6.593E-05 1.568E-03 4.380E + 02 4.567E-03 2.800E-02

 

 领先尺寸为200的阵列的次数

  1.431E-03 6.716E-05 1.498E-03 4.584E + 02 4.363E-03 2.675E-02

  1.424E-036.694E-05 1.491E-034.605E + 02 4.343E-032.663E-02

  1.431E-03 6.999E-05 1.498E-03 4.583E + 02 4.364E-03 2.676E-02

  1.432E-03 6.439E-05 1.497E-03 4.588E + 02 4.360E-03 2.673E-02

 

规范。残渣是衡量计算准确性的指标。该值应为O(1)。如果该值远大于O(100),则表明结果不正确。

残差是未归一化的数量。

术语Machep衡量用于执行计算的精度。在IEEE浮点计算机上,该值应为2.22044605e-16。

x(1)和x(n)的值是解决方案的第一个和最后一个组成部分。构造问题是为了使解决方案的值全部为1。

有两组时间都是在大小为100的矩阵上执行的。第一组是包含矩阵的二维数组的前导维为201,第二组是前导维为200。数组在内存中的放置对性能有什么影响(如果有)。

报告了dgefa和dgesl的时间。 dgefa使用带有部分枢轴的高斯消除对矩阵进行分解,并通过dgesl解决基于分解的系统。 dgefa需要2/3 n3个操作,而dgesl需要n2个操作。 total的值是时间的总和,mflops是执行速率,或每秒数百万个浮点运算。这里的浮点运算是浮点加法和乘法。单位和比率已过时,应忽略。

如果报告的时间为负或零,则时钟分辨率对于工作的粒度而言不够准确。在这种情况下,应使用分辨率更高的其他计时例程。 

您是否有以前的Linpack Benchmark报告或结果的存档?

没有存档保存以前的结果。但是,这里有一些信息可以提供历史观点。下表中的数字摘自旧的Linpack基准报告。由于我没有完整的报告集,因此花了一些``文件考古学''来整理清单。

Linpack n = 100基准测试中随时间推移的顶级计算机

(此表的条目开始于1979年。)

 

电脑

数量

处理器

周期

 

Mflop /秒

2006

NEC SX-8 / 1(1次)

1

2 GHz

2177

2004

英特尔奔腾Nocona(1 proc 3.6 GHz)

1

3.6 GHz

1803

2003

HP Integrity服务器rx2600(1 proc 1.5GHz)

1

1.5 GHz的

1635

2002

英特尔奔腾4(3.06 GHz)

1

2.06 GHz

1414

2001

富士通VPP5000 / 1

1

3.33秒

1156

2000

富士通VPP5000 / 1

1

3.33秒

1156

1999

克莱T916

4

2.2秒

1129

1995

克莱T916

1

2.2秒

522

1994

克雷C90

16

4.2秒

479

1993

克雷C90

16

4.2秒

479

1992

克雷C90

16

4.2秒

479

1991

克雷C90

16

4.2秒

403

1990

CRAY Y-MP

8

6.0秒

275

1989

CRAY Y-MP

8

6.0秒

275

1988

CRAY Y-MP

1

6.0秒

74

1987

ETA 10-E

1

10.5秒

52

1986

日电SX-2

1

6.0秒

46

1985

日电SX-2

1

6.0秒

46

1984

克雷X-MP

1

9.5秒

21

1983

CRAY 1

1

12.5秒

12

...

 

 

 

 

1979

CRAY 1

1

12.5秒

3.4

 

这些数字来自Linpack基准报告表1。

================================================== ===================

 

随着时间的推移,Linpack的顶级计算机n = 1000基准

(此表的条目开始于1986年。)

 

电脑

处理器数量

周期

在nsec。

实测

Mflop /秒

Mflop /秒

2006

日电SX-8 / 8

8

2 GHz

75140

128000

2000

NEC SX-5 / 16

16

4.0

45030

64000

1995

克莱T916

16

2.2

19400

28800

1994

日立S-3800 / 480

4

2

16170

32000

1993

日电SX-3 / 44R

4

2.5

15120

25600

1992

日电SX-3 / 44

4

2.9

13420

22000

1991

富士通VP2600 / 10

1

3.2

4009

5000

1990

富士通VP2600 / 10

1

3.2

2919

5000

1989

克莱Y-MP / 832

8

6

2144

2667

1988

克莱Y-MP / 832

8

6

2144

2667

1987

日电SX-2

1

6

885

1300

1986

克雷X-MP-4

4

9.5

713

840

 

这些数字来自Linpack基准报告表1。

(全精度;矩阵大小为1000;尽力而为编程,允许最大优化。)

 

高度并行的Linpack Benchmark顶级计算机

 

(此表的条目开始于1991年。)

  Year

 

电脑

 

数量

处理器

实测

Gflop /秒

尺寸

问题

尺寸

1/2个

理论上的

峰值Gflop / s

2005-2006

IBM Blue Gene / L

131072

280600

1769471

 

367001

2002年-2004年

NEC地球模拟器计算机

5104

35610

1041216

265408

40832

2001

ASCI White-Pacific,IBM SP Power 3

7424

7226

518096

179000

11136

2000

ASCI White-Pacific,IBM SP Power 3

7424

4938

430000

 

11136

1999

ASCI红色英特尔奔腾II至强内核

9632

2379

362880

75400

3207

1998

ASCI Blue-Pacific SST,IBM SP 604E

5808

2144

431344

 

3868

1997

英特尔ASCI选件红色(200 MHz奔腾Pro)

9152

1338

235000

63000

1830

1996

日立CP-PACS

2048

368.2

103680

30720

614

1995

英特尔Paragon XP / S MP

6768

281.1

128600

25700

338

1994

英特尔Paragon XP / S MP

6768

281.1

128600

25700

338

1993

富士通NWT

140

124.5

31920

11950

236

1992

日电SX-3 / 44

4

20.0

6144

832

22

1991

富士通VP2600 / 10

1

4.0

1000

200

5

 

这些数字来自Linpack Benchmark报告表3。

(全精度;允许制造商解决所需的最大问题,允许最大程度地优化。)

测得的Gflop / s是每秒运行基准测试的峰值执行速率,以每秒数十亿的浮点运算数表示。

问题大小是观察到的性能测量值的矩阵大小。

½性能的大小是实现½个测得的峰值性能所需的问题的大小。

理论峰值Gflop / s是计算机的理论峰值性能。

什么是HPC挑战基准?

HPC Challenge基准测试目前包含7个基准测试:HPL,STREAM,RandomAccess,PTRANS,FFTE,DGEMM和b_eff延迟/带宽。 HPL是Linpack TPP基准。该测试强调了系统的浮点性能。 STREAM是衡量可持续内存带宽(以GB / s为单位)的基准,RandomAccess衡量内存的随机更新率。 PTRANS可以测量来自多处理器内存的大量数据的传输速率。延迟/带宽度量(顾名思义)是在时间上可行的情况下,通信模式的延迟和带宽不断增加的复杂性。

在哪里可以获得有关HPC挑战基准的更多信息?

有关基准的更多信息,请参见: http://icl.cs.utk.edu/hpcc/  

稀疏矩阵有基准吗?

Linpack Benchmark套件围绕用于密集矩阵问题的软件构建。在2000年5月,我们开始为稀疏迭代矩阵问题建立一个基准。有关更多信息,请参见: http://www.netlib.org/benchmark/sparsebench/

在哪里可以获得有关基准的更多信息?

有关基准的更多信息,请参见: http://www.netlib.org/benchweb/ 

我可以在哪里发送评论?

请发送您的评论给Jack Dongarra dongarra@cs.utk.edu.