Přejít k hlavnímu obsahu

Přihlášení pro studenty

Přihlášení pro zaměstnance

Publikace detail

Design of a Low Power and Area Efficient Bfloat16 based Generalized Systolic Array for DNN Applications
Autoři: Tiwari Ankita | Mishra Saras Mani | Guha Prithwijit | Pidanič Jan | Němec Zdeněk | Trivedi Gaurav
Rok: 2022
Druh publikace: článek ve sborníku
Název zdroje: 2022 32ND INTERNATIONAL CONFERENCE RADIOELEKTRONIKA (RADIOELEKTRONIKA)
Název nakladatele: IEEE
Místo vydání: NEW YORK
Strana od-do: 44-48
Tituly:
Jazyk Název Abstrakt Klíčová slova
cze Návrh zobecněného systolického pole na bázi Bfloat16 s nízkou spotřebou energie a efektivní plochou pro aplikace DNN V současné době roste poptávka po mobilních platformách s umělou inteligencí (AI). Od zdravotnických služeb až po obranu a od vzdálených až po městské oblasti existuje obrovská poptávka po zabezpečených a energeticky účinných zařízeních. Výkon těchto platforem lze zvýšit poskytnutím efektivního výpočetního jádra. Tyto výpočetní motory provádějí obrovské množství maticových operací. Nejoblíbenější volbou pro velké maticové výpočty je systolické pole. Obecně platí, že výkonnost systolického pole se pro velké vstupní matice zhoršuje v důsledku kompromisu mezi využitím prostředků a zpožděním výpočtu. K řešení tohoto problému potřebujeme systolické pole s řídicí jednotkou, která by změnila konfiguraci pole podle požadavku výpočtu. Výpočetní pole lze dále vylepšit zpracováním záporných vah a omezit operace MAC. V tomto článku jsme navrhli zobecněné systolické pole založené na bfloat16 , ve kterém se před výpočtem předpovídá znaménko částečného součtu (PS). Znaménko PS pomáhá při ořezávání sítě, což zvyšuje výkonnost systému. Navržený systém je implementován na desce Virtex-7 FPGA a ve srovnání se systolickým polem založeným na jedné přesnosti má výkon 2,21 podobný a 4,19x lepší z hlediska plochy a výkonu. Systolický; číselný systém s plovoucí desetinnou čárkou; Bfloat16; DNN
eng Design of a Low Power and Area Efficient Bfloat16 based Generalized Systolic Array for DNN Applications Nowadays demand for artificial intelligence (AI) enabled mobile platforms is increasing. From healthcare services to defense and from remote to urban area, there is a huge demand of secured and power efficient devices. The performance of these platforms can be enhanced by providing an efficient compute engine. These compute engines perform a huge amount of matrix operations. The most popular choice for large matrix computation is a systolic array. In general, the systolic array performance degrades for the large input matrices, due to the trade off between resource utilization and computation delay. To address this issue, we need a systolic array with a control unit to re-configure the array according to the requirement of the computation. Computation array can be further improved by handling the negative weights and reduce the MAC operations. In this paper, we proposed a generalized bfloat16 based systolic array in which the sign of the partial sum (PS) is predicted before computation. The PS sign aids in network pruning which enhances system performance. The proposed system is implemented on a Virtex-7 FPGA board and it performs 2.21 similar to and 4.19x better in terms of area and power compared to single-precision based systolic array. Systolic; Floating-point number system; Bfloat16; DNN