Shanghai Neardi Technology Co., Ltd. Unternehmensprofil

Nachrichten

Zu Hause > Nachrichten >

Firmennachrichten über Eine eingehende Interpretation des 6TOPS-Engpasses des RK3588 und die Wahrheit über die NPU-Rechenleistung

Eine eingehende Interpretation des 6TOPS-Engpasses des RK3588 und die Wahrheit über die NPU-Rechenleistung

2025-12-15

Stellen Sie sich vor, Sie arbeiten an einem Edge-KI-Projekt mit dem RK3588: Der Kameravideostream muss Echtzeit-Gesichtserkennung und Fahrzeugerkennung durchführen und gleichzeitig UI-Anzeige, Daten-Upload und Geschäftslogikverarbeitung unterstützen. Sie bemerken: Frame-Drops treten auf, wenn sich viele Objekte im Frame befinden, große Modelle laufen nicht reibungslos und die Temperatur steigt stark an.

An diesem Punkt sagen die Leute normalerweise: "Ihr Modell ist zu groß—die 6TOPS des RK3588 reichen nicht aus."

Aber ist es wirklich ein Mangel an Rechenleistung? Haben Sie sich jemals gefragt: Warum kommt es bei der Ausführung eines 4TOPS-Modells immer noch zu Frame-Drops und Verzögerungen, obwohl ein 6TOPS-NPU vorhanden ist? Die Antwort liegt in drei Dimensionen der NPU-Rechenleistung: Spitzenleistung (TOPS), Präzision (INT8/FP16) und Effizienz (Bandbreite).

Sie werden feststellen, dass verschiedene Chips ihre NPU-Spezifikationen hervorheben, wobei ein Kernparameter prominent angezeigt wird: NPU-Rechenleistung: X TOPS. Beispiele hierfür sind RK3588-6TOPS, RK3576-6TOPS, RK1820-20TOPS, Hi3403V100-10TOPS, Hi3519DV500-2.5TOPS, Jetson Orin Nano-20/40TOPS, Jetson Orin NX-70/100TOPS usw.

Was ist TOPS? Warum reden alle darüber?

Tera: Steht für 10¹².

Operationen pro Sekunde: Bezieht sich auf die Gesamtzahl der KI-Operationen, die der NPU in einer Sekunde ausführen kann. Vereinfacht ausgedrückt bedeutet 1 TOPS, dass der NPU 1 Billion (10¹²) Operationen pro Sekunde ausführen kann.

Wie wird TOPS berechnet?

neueste Unternehmensnachrichten über Eine eingehende Interpretation des 6TOPS-Engpasses des RK3588 und die Wahrheit über die NPU-Rechenleistung 0

Die Gesamtzahl der MAC-Einheiten ist der Kern der neuronalen Netzwerkberechnung. In Faltungsebenen und vollständig verbundenen Ebenen beinhaltet die Hauptberechnung die Multiplikation von Eingangsdaten mit Gewichten und anschließende Summierung der Ergebnisse.

Die Designphilosophie eines NPU besteht darin, ein extrem großes Array paralleler MAC-Einheiten zu haben. Ein NPU-Chip kann Tausende oder sogar Zehntausende von MAC-Einheiten enthalten, die gleichzeitig arbeiten können, um groß angelegte Parallelberechnungen zu erreichen.

Je mehr MAC-Einheiten vorhanden sind, desto größer ist die Rechenmenge, die der NPU in einem einzigen Taktzyklus ausführen kann.

Taktfrequenz: Bestimmt die Anzahl der Zyklen, die der NPU-Chip und seine MAC-Einheiten pro Sekunde ausführen (gemessen in Hertz, Hz). Eine höhere Frequenz ermöglicht es dem MAC-Array, mehr Multiplikations- und Akkumulationsoperationen pro Zeiteinheit durchzuführen. Wenn Hersteller TOPS ankündigen, verwenden sie die maximale Betriebsfrequenz des NPU (d. h. die maximal erreichbare Frequenz).

Operationen pro MAC: Eine vollständige MAC-Operation beinhaltet tatsächlich eine Multiplikation und eine Addition. Um sich an der traditionellen FLOPS-Zählweise (Floating-Point Operations Per Second) zu orientieren, zählen viele Rechenstandards eine MAC-Operation als 2 Basisoperationen (1 für Multiplikation und 1 für Addition).

Präzisionsfaktor: Die MAC-Einheiten eines NPU sind für die Verarbeitung von Daten mit geringer Präzision (z. B. INT8) optimiert.

Vereinfachtes Beschleunigungsverhältnis von INT8 gegenüber FP32: Da 32 Bit / 8 Bit = 4 ist, kann eine einzelne FP32-Einheit theoretisch viermal so viele Operationen in einem Zyklus ausführen, wenn auf INT8-Berechnung umgeschaltet wird. Wenn also die TOPS eines Herstellers auf INT8 basieren, muss sie mit einem präzisionsbezogenen Beschleunigungsverhältnis multipliziert werden. Aus diesem Grund ist INT8 TOPS viel höher als FP32 TOPS.

TOPS misst die theoretische Spitzenrechenleistung. In praktischen Anwendungen ist die tatsächliche effektive Rechenleistung eines NPU aufgrund von Faktoren wie Datenübertragung, Speicherbeschränkungen und Modellstruktur oft geringer als dieser Spitzenwert.

Rechenleistung ist Geschwindigkeit; Präzision ist "Feinheit".

neueste Unternehmensnachrichten über Eine eingehende Interpretation des 6TOPS-Engpasses des RK3588 und die Wahrheit über die NPU-Rechenleistung 1

Rechenleistung sagt uns, wie schnell ein NPU läuft, während Rechenpräzision uns sagt, wie fein er arbeitet. Präzision ist eine weitere Schlüsseldimension der NPU-Leistung, die die Anzahl der verwendeten Bits und den Darstellungsbereich der Daten während der Berechnung bestimmt.

Auf derselben TOPS-Ebene ist die tatsächliche Rechengeschwindigkeit von INT8 viel höher als die von FP32. Dies liegt daran, dass die MAC-Einheiten des NPU mehr 8-Bit-Daten gleichzeitig verarbeiten und mehr Operationen ausführen können.

Die von Herstellern beanspruchten NPU-TOPS basieren in der Regel auf INT8-Präzision. Stellen Sie beim Vergleichen sicher, dass Sie TOPS unter derselben Präzision vergleichen.

neueste Unternehmensnachrichten über Eine eingehende Interpretation des 6TOPS-Engpasses des RK3588 und die Wahrheit über die NPU-Rechenleistung 2

Hohe Präzision (typischerweise für das Training verwendet)

FP32 (Single-Precision Floating-Point, 32-Bit): Bietet den größten numerischen Bereich und die größte Präzision. Wird häufig in traditionellen GPU- und PC-Berechnungen verwendet. Modelle verwenden typischerweise FP32 während der Trainingsphase, um die Genauigkeit sicherzustellen.
FP16/BF16 (Half-Precision Floating-Point, 16-Bit): Reduziert das Datenvolumen um die Hälfte und behält gleichzeitig ein gewisses Maß an Präzision bei, was schnellere Berechnungen und Speicherersparnisse ermöglicht.

Geringe Präzision (typischerweise für Inferenz verwendet)

INT8 (8-Bit-Ganzzahl): Derzeit der Industriestandard für die Bewertung der Inferenzleistung von Edge-seitigen NPUs. Der Prozess der Konvertierung von Modellgewichten und Aktivierungswerten von hoher Präzision (z. B. FP32) in 8-Bit-Ganzzahlen wird als Quantisierung bezeichnet.
INT4 (Lower Bit-Width): Bietet eine weitere Komprimierung, die sich für Szenarien mit extrem hohen Anforderungen an Stromverbrauch und Latenz eignet, aber höhere Anforderungen an die Steuerung des Modellpräzisionsverlusts stellt.

Wie man die tatsächliche Leistung eines NPU versteht?

Wenn Sie einen NPU mit 20 TOPS (INT8) sehen, müssen Sie Folgendes verstehen:

Die Spitzenrechenleistung beträgt 20 Billionen Operationen pro Sekunde.
Diese Rechenleistung wird unter 8-Bit-Ganzzahlpräzision (INT8) gemessen. Dies bedeutet, dass sie hauptsächlich für KI-Inferenz (z. B. Bilderkennung, Sprachverarbeitung usw.) verwendet wird, nicht für das Training.
Die endgültige Leistung hängt von der Anwendung ab: Die tatsächliche Benutzererfahrung (z. B. Geschwindigkeit beim Entsperren per Gesichtserkennung, Latenz bei der Echtzeitübersetzung) hängt nicht nur von den TOPS des NPU ab, sondern auch von:
- Modellquantisierungsqualität: Ob das quantisierte INT8-Modell eine ausreichende Genauigkeit beibehält.
- Speicherbandbreite: Die Geschwindigkeit der Dateneingabe und -ausgabe.
- Software-Stack und Treiber: Der Optimierungsgrad der vom Chiphersteller für die Modellbereitstellung bereitgestellten Toolchain und Treiber.

Die Rechenleistung (TOPS) eines NPU ist ein Indikator für seine Geschwindigkeit, während die Rechenpräzision (z. B. INT8) der Schlüssel zu seiner Effizienz und Anwendbarkeit ist. Für Geräte, die Endbenutzern zugewandt sind, zielen Hersteller im Allgemeinen darauf ab, INT8 TOPS zu maximieren und gleichzeitig akzeptable Präzisionsverluste aufrechtzuerhalten, um eine KI-Inferenzleistung mit geringem Stromverbrauch und hoher Effizienz zu erzielen.

VERANSTALTUNGEN

Nachrichten

Rechtssachen

Kontaktpersonen

Kontaktpersonen: Mr. Cola

Tel.: 86-021-20952021

Kontaktieren Sie uns jetzt

Mailen Sie uns.

System auf dem Modul SoM

Einplatinenrechner

Eingebetteter Computer

Fahrzeug-Eingebettete PC

Rockchip SBC

Nvidia Jetson SBC

WiFi-Modul

industrieller Kasten-PC

Linux-SoM-Modul

Android-System auf Modul

androides eingebettetes Brett

System auf dem Modul SoM

Einplatinenrechner

Eingebetteter Computer

Fahrzeug-Eingebettete PC

Rockchip SBC

Nvidia Jetson SBC

WiFi-Modul

industrieller Kasten-PC

Linux-SoM-Modul

Android-System auf Modul

androides eingebettetes Brett

Eine eingehende Interpretation des 6TOPS-Engpasses des RK3588 und die Wahrheit über die NPU-Rechenleistung

Nachrichten

Rechtssachen

System auf dem Modul SoM

Einplatinenrechner

Eingebetteter Computer

Fahrzeug-Eingebettete PC

Rockchip SBC

Nvidia Jetson SBC