2、 BSP处理机
  BSP(Buroughs Scientific Processor)计算机是由美国宝来公司和伊利诺依大学于1979年制造的。
图10.8 BSP的功能结构与流水线处理

  BSP是共享存储器结构的并行处理机的典型代表。BSP由控制处理机、并行处理机、文件存储器、并行存储器模块以及对准网络等5个部分组成。

  (1)并行处理机
  并行处理机以160ns的时钟周期进行向量计算。BSP的执行速度最高可达50MFLOPS。17个并行存储器模块,每个模块的容量可达512K字,周期时间为160ns。5级流水线:
  (a) 从17个存储模块中读出数据
  (b) 通过输出对准网络把数据送入16个并行处理部件
  (c) 16个并行处理部件并行处理机数据
  (d) 通过输入对准网络把数据从并行处理部件送到并行存储模块。
  (e) 把接收到的数据写入并行存储器模块。
  (2)控制处理机
  控制处理机用以控制并行处理机。提供与系统管理机相连的接口。标量处理机执行存放在控制存储器中的操作系统和用户程序的标量部分。全部向量指令及成组的标量指令被送给并行处理机。控制维护单元是系统管理机与控制处理机之间的接口,用来进行初始化、监控命令通信和维护。
  (3)文件存储器
  计算任务文件从系统管理机加载到文件存储器,由控制处理机执行。文件存储器是BSP直接控制下唯一的外围设备,其它外围设备都由系统管理机来控制。程序执行过程中所产生的暂存文件和输出文件,在将它们送给系统管理机输出给用户之前是存在文件存储器中的。文件存储器的数据传输率较高,大大地缓解了I/O受限问题。
  (4)对准网络
  对准网络采用全交叉开关实现。数据从一个源广播至几个目的地,几个源寻找一个目的地时能分解冲突。存储器模块和对准网络的组合实现了无冲突访问的并行存储器。对准网络还可以实现快速傅里叶变换、数据压缩和扩展操作。
  (5)无访问冲突存储系统
  由17个周期为160ns的存储模块组成,等效存储周期为10ns。只有数组存取和I/O操作访问并行存储器。两次算术运算中需要用到三个变量,产生一个结果,共访问存储器4次,并行存储器和浮点运算之间的频带保持完全平衡。对于长向量来,中间结果存在寄存器中,每次运算只需要一个操作数。因此并行存储器有足够的频宽留给输入和输出信息用。存储系统无冲突访问,每个存储周期内送给每个PE一个有用的操作数。  可以实现一维向量和二维矩阵的行、列、对角线和反对角线的无冲突访问。