Flex Logix推出了其InferX X1机器学习(ML)推理系统,它被封装在一个54平方毫米的芯片中。X1包含64个1D张量处理单元(TPU),由XFLX互连连接。双1-MB二级SRAM保存激活,而1级SRAM保存下一层计算的权重。片上FPGA提供了额外的定制功能。还有一个4 MB 3级SRAM、LPDDR4接口和x4 PCI Express(PCIe)接口。
1. InferX X1的XFLX互连将一维TPU引擎与内存相互链接。
该公司选择实施一维Tensor处理器,该处理器可以结合使用以处理二维和三维张量。该设备支持高精度Winograd加速选项。这种方法更加灵活,可提供较高的系统利用率。
2. InferX X1围绕一维Tensor处理器构建,可提供极大的灵活性和高利用率。
简化的概念和底层嵌入式FPGA(eFPGA)架构方法允许快速重新配置系统,并使各层“融合”在一起。这意味着可以将中间结果提供给下一层,而不必将其存储在内存中,这会减慢整个系统的速度。在ML硬件周围移动数据通常是隐藏的,但是会对系统性能产生重大影响。
3.快速重新配置并支持流程中的软逻辑可以消除存储中间结果的需要。
包含eFPGA和简化的,可重新配置的TPU架构,使Flex Logix可以提供更具适应性的ML解决方案。它可以处理标准的confv2d模型以及深度的conv2d模型。
这些芯片可以单独购买,也可以在半高,半长的PCIe板上使用(图4)。PCIe板包含一个x8 PCIe接口。X1P1板包含一个芯片,而X1P4板包含四个芯片。两者都插入x8 PCIe插槽。X1P4采用x16而不是x16的原因是,服务器主板通常比x16具有更多的x8插槽,并且ML应用程序的吞吐量差异很小。结果,可以将更多板卡包装到服务器中。X1P1仅为499美元,而X1P4则为999美元。
4. InferX X1在PCIe板上可用。 X1P1具有单个芯片,而X1P4具有四个芯片。
X1M M.2版本预计将很快推出。该22×80毫米模块具有x4 PCIe接口,将于2021年上市。该模块面向嵌入式服务器,PC和笔记本电脑。