Shanghai Neardi Technology Co., Ltd. sales@neardi.com 86-021-20952021
Stellen Sie sich vor, Sie arbeiten an einem Edge-KI-Projekt mit dem RK3588: Der Kameravideostream muss Echtzeit-Gesichtserkennung und Fahrzeugerkennung durchführen und gleichzeitig UI-Anzeige, Daten-Upload und Geschäftslogikverarbeitung unterstützen. Sie bemerken: Frame-Drops treten auf, wenn sich viele Objekte im Frame befinden, große Modelle laufen nicht reibungslos und die Temperatur steigt stark an.
An diesem Punkt sagen die Leute normalerweise: "Ihr Modell ist zu groß—die 6TOPS des RK3588 reichen nicht aus."
Aber ist es wirklich ein Mangel an Rechenleistung? Haben Sie sich jemals gefragt: Warum kommt es bei der Ausführung eines 4TOPS-Modells immer noch zu Frame-Drops und Verzögerungen, obwohl ein 6TOPS-NPU vorhanden ist? Die Antwort liegt in drei Dimensionen der NPU-Rechenleistung: Spitzenleistung (TOPS), Präzision (INT8/FP16) und Effizienz (Bandbreite).
Sie werden feststellen, dass verschiedene Chips ihre NPU-Spezifikationen hervorheben, wobei ein Kernparameter prominent angezeigt wird: NPU-Rechenleistung: X TOPS. Beispiele hierfür sind RK3588-6TOPS, RK3576-6TOPS, RK1820-20TOPS, Hi3403V100-10TOPS, Hi3519DV500-2.5TOPS, Jetson Orin Nano-20/40TOPS, Jetson Orin NX-70/100TOPS usw.
Tera: Steht für 10¹².
Operationen pro Sekunde: Bezieht sich auf die Gesamtzahl der KI-Operationen, die der NPU in einer Sekunde ausführen kann. Vereinfacht ausgedrückt bedeutet 1 TOPS, dass der NPU 1 Billion (10¹²) Operationen pro Sekunde ausführen kann.
![]()
Die Gesamtzahl der MAC-Einheiten ist der Kern der neuronalen Netzwerkberechnung. In Faltungsebenen und vollständig verbundenen Ebenen beinhaltet die Hauptberechnung die Multiplikation von Eingangsdaten mit Gewichten und anschließende Summierung der Ergebnisse.
Die Designphilosophie eines NPU besteht darin, ein extrem großes Array paralleler MAC-Einheiten zu haben. Ein NPU-Chip kann Tausende oder sogar Zehntausende von MAC-Einheiten enthalten, die gleichzeitig arbeiten können, um groß angelegte Parallelberechnungen zu erreichen.
Je mehr MAC-Einheiten vorhanden sind, desto größer ist die Rechenmenge, die der NPU in einem einzigen Taktzyklus ausführen kann.
Taktfrequenz: Bestimmt die Anzahl der Zyklen, die der NPU-Chip und seine MAC-Einheiten pro Sekunde ausführen (gemessen in Hertz, Hz). Eine höhere Frequenz ermöglicht es dem MAC-Array, mehr Multiplikations- und Akkumulationsoperationen pro Zeiteinheit durchzuführen. Wenn Hersteller TOPS ankündigen, verwenden sie die maximale Betriebsfrequenz des NPU (d. h. die maximal erreichbare Frequenz).
Operationen pro MAC: Eine vollständige MAC-Operation beinhaltet tatsächlich eine Multiplikation und eine Addition. Um sich an der traditionellen FLOPS-Zählweise (Floating-Point Operations Per Second) zu orientieren, zählen viele Rechenstandards eine MAC-Operation als 2 Basisoperationen (1 für Multiplikation und 1 für Addition).
Präzisionsfaktor: Die MAC-Einheiten eines NPU sind für die Verarbeitung von Daten mit geringer Präzision (z. B. INT8) optimiert.
Vereinfachtes Beschleunigungsverhältnis von INT8 gegenüber FP32: Da 32 Bit / 8 Bit = 4 ist, kann eine einzelne FP32-Einheit theoretisch viermal so viele Operationen in einem Zyklus ausführen, wenn auf INT8-Berechnung umgeschaltet wird. Wenn also die TOPS eines Herstellers auf INT8 basieren, muss sie mit einem präzisionsbezogenen Beschleunigungsverhältnis multipliziert werden. Aus diesem Grund ist INT8 TOPS viel höher als FP32 TOPS.
TOPS misst die theoretische Spitzenrechenleistung. In praktischen Anwendungen ist die tatsächliche effektive Rechenleistung eines NPU aufgrund von Faktoren wie Datenübertragung, Speicherbeschränkungen und Modellstruktur oft geringer als dieser Spitzenwert.
![]()
Rechenleistung sagt uns, wie schnell ein NPU läuft, während Rechenpräzision uns sagt, wie fein er arbeitet. Präzision ist eine weitere Schlüsseldimension der NPU-Leistung, die die Anzahl der verwendeten Bits und den Darstellungsbereich der Daten während der Berechnung bestimmt.
Auf derselben TOPS-Ebene ist die tatsächliche Rechengeschwindigkeit von INT8 viel höher als die von FP32. Dies liegt daran, dass die MAC-Einheiten des NPU mehr 8-Bit-Daten gleichzeitig verarbeiten und mehr Operationen ausführen können.
Die von Herstellern beanspruchten NPU-TOPS basieren in der Regel auf INT8-Präzision. Stellen Sie beim Vergleichen sicher, dass Sie TOPS unter derselben Präzision vergleichen.
![]()
Wenn Sie einen NPU mit 20 TOPS (INT8) sehen, müssen Sie Folgendes verstehen:
Die Rechenleistung (TOPS) eines NPU ist ein Indikator für seine Geschwindigkeit, während die Rechenpräzision (z. B. INT8) der Schlüssel zu seiner Effizienz und Anwendbarkeit ist. Für Geräte, die Endbenutzern zugewandt sind, zielen Hersteller im Allgemeinen darauf ab, INT8 TOPS zu maximieren und gleichzeitig akzeptable Präzisionsverluste aufrechtzuerhalten, um eine KI-Inferenzleistung mit geringem Stromverbrauch und hoher Effizienz zu erzielen.