Ⅰ Yolo-Fastest:超超超快的開源ARM實時目標檢測演算法
本文探討了超快開源 ARM 實時目標檢測演算法 Yolo-Fastest 的定位與應用場景。
Yolo-Fastest 作為目前開源最快、最輕量的改進版 YOLO 通用目標檢測演算法,旨在打破算力瓶頸,讓目標檢測演算法能在低成本的邊緣端設備上實時運行,如樹莓派3b、4 核 A53 1.2GHz 設備。在最新基於 NCNN 推理框架開啟 BF16s 下,320x320 圖像單次推理時間在 60ms~,在性能更加強勁的樹莓派4b 下,單次推理時間縮短至 33ms,達到 30fps 的全實時效果。相較於應用廣泛的輕量化目標檢測演算法 MobileNet-SSD 在樹莓派3b 上需耗時 200ms 左右,Yolo-Fastest 速度提升了 3 倍以上,模型大小僅為 1.3MB,相比 MobileNet-SSD 的 23.2MB,其大小縮小了 20 倍,但精度損失了近 10 個百分點。
實際上,對於大多數檢測任務,通常不會涉及 VOC 那樣復雜的 20 類目標檢測,一般為幾類或單類檢測,因此對模型的學習能力要求不高。此外,輕量化單類目標檢測模型,如作者的 yoloface-500kb,證明了 Yolo-Fastest 適合在特定場景下使用。
作者還介紹了 Yolo-Fastest 的 XL 版本,雖然精度更高但模型更大,運行速度較慢,適用於高性能設備。基於麒麟990 的 NCNN 速度基準展示了 XL 版本的性能。
對於對精度有更高要求的場景,作者推薦了 MobileNetv2-yolov3-lite。該模型在 VOC 上達到 73.2% 的 mAP 和 37.4% AP05 COCO,模型大小僅 8MB,計算量為 1.8Bflops,比 MobileNet-SSD 系列演算法輕量很多,精度也更高。
最後,作者提到,雖然曠視的 ThunderNet 在計算量、VOC 上的性能表現出色,但未開源。通過在 Object365 上訓練模型並遷移至 VOC,Yolo-Fastest 的性能可能進一步提升。
總而言之,Yolo-Fastest 作為一款實用型模型,適用於多種架構的設備,模型運算元簡單,易於移植。無論 X86、ARM、GPU、NNIE、Android、Linux 等設備,均可兼容。
Ⅱ 鍚勭畻瀛愬簱瀵笴NN鐨勬敮鎸
OpenBLAS 鏄涓涓浼樺寲鐨 BLAS 搴擄紝鍩轟簬 GotoBLAS2 1.13 BSD 鐗堟湰銆
BLAS錛圔asic Linear Algebra Subprograms 鍩虹綰挎т唬鏁扮▼搴忛泦錛夋槸涓涓搴旂敤紼嬪簭鎺ュ彛錛圓PI錛夋爣鍑嗭紝鐢ㄤ互瑙勮寖鍙戝竷鍩虹綰挎т唬鏁版搷浣滅殑鏁板煎簱錛堝傜煝閲忔垨鐭╅樀涔樻硶錛夈傝ョ▼搴忛泦鏈鍒濆彂甯冧簬1979騫達紝騫剁敤浜庡緩絝嬫洿澶х殑鏁板肩▼搴忓寘錛堝侺APACK錛夈傚湪楂樻ц兘璁$畻棰嗗煙錛孊LAS琚騫挎硾浣跨敤銆備緥濡傦紝LINPACK鐨勮繍綆楁垚緇╁垯寰堝ぇ紼嬪害涓婂彇鍐充簬BLAS涓瀛愮▼搴廌GEMM鐨勮〃鐜般備負鎻愰珮鎬ц兘錛屽悇杞紜浠跺巶鍟嗗垯閽堝瑰叾浜у搧瀵笲LAS鎺ュ彛瀹炵幇榪涜岄珮搴︿紭鍖栥
鍐呴儴瀹炵幇浜嗗簳灞備箻娉曡繍綆楋紝NN鐩稿叧綆楁硶娌℃湁瀹炵幇
鍐呴儴瀹炵幇鐨勭畻娉曞寘鎷錛
Intel鏁板︽牳蹇冨嚱鏁板簱錛圡KL錛夋槸涓濂楅珮搴︿紭鍖栥佺嚎紼嬪畨鍏ㄧ殑鏁板︿緥紼嬨佸嚱鏁幫紝闈㈠悜楂樻ц兘鐨勫伐紼嬨佺戝︿笌璐㈠姟搴旂敤銆傝嫳鐗瑰皵 MKL 鐨勯泦緹ょ増鏈鍖呮嫭 ScaLAPACK 涓庡垎甯冨紡鍐呭瓨蹇閫熷倕絝嬪彾杞鎹錛屽苟鎻愪緵浜嗙嚎鎬т唬鏁 (BLAS銆丩APACK 鍜孲parse Solver)銆佸揩閫熷倕絝嬪彾杞鎹銆佺煝閲忔暟瀛 (Vector Math) 涓庨殢鏈哄彿鐮佺敓鎴愬櫒鏀鎸侊紝甯歌丯N綆楁硶濡俁N銆丆NN銆
OPEN AI LAB寮鍙戜簡涓嬈捐交閲忕駭妯″潡鍖栫殑楂樻ц兘紲炵粡緗戠粶鎺ㄧ悊寮曟搸-Tengine錛屼笓闂ㄩ拡瀵笰rm宓屽叆寮忚懼囦紭鍖栵紝鎻愪緵瓚呰繃鎵鏈夊凡鐭ュ紑婧愭嗘灦鐨勬棤涓庝雞姣旂殑鎬ц兘錛屽彲璺ㄥ鉤鍙頒嬌鐢ㄦ敮鎸丄ndroid錛孡inux銆
騫朵笖Tengine妗嗘灦涓嶄緷璧栦簬涓撶敤AI鑺鐗囷紝鐜版湁鐨勬垚鐔熻姱鐗囬氳繃Tengine妗嗘灦鍙浠ユ妸綆楀姏鎸栨帢鍑烘潵錛屽湪鏈鍦拌繘琛屼竴浜汚I搴旂敤鐨勫勭悊錛屼粠鑰屾彁楂樹簡鑺鐗囨ц兘錛屽苟闄嶄綆鎴愭湰銆
Tengine鍚屾椂榪樻敮鎸佸悇綾誨父瑙佸嵎縐紲炵粡緗戠粶錛屽寘鎷琒queezeNet錛孧obileNet錛孉lexNet錛孯esNet絳夛紝鏀鎸佸眰鋙嶅悎銆8浣嶉噺鍖栫瓑浼樺寲絳栫暐銆傚苟涓旈氳繃璋冪敤閽堝逛笉鍚孋PU寰鏋勬灦浼樺寲鐨凥CL搴擄紝灝咥rm CPU鐨勬ц兘鍏呭垎鎸栨帢鍑烘潵銆
閽堝逛笉鍚岀殑妯″瀷錛屽崟鐙瑙f瀽錛屾渶鍚庢帹鐞
ncnn 鏄涓涓涓烘墜鏈虹鏋佽嚧浼樺寲鐨勯珮鎬ц兘紲炵粡緗戠粶鍓嶅悜璁$畻妗嗘灦銆俷cnn 浠庤捐′箣鍒濇繁鍒昏冭檻鎵嬫満絝鐨勯儴緗插拰浣跨敤銆傛棤絎涓夋柟渚濊禆錛岃法騫沖彴錛屾墜鏈虹 cpu 鐨勯熷害蹇浜庣洰鍓嶆墍鏈夊凡鐭ョ殑寮婧愭嗘灦銆傚熀浜 ncnn錛屽紑鍙戣呰兘澶熷皢娣卞害瀛︿範綆楁硶杞繪澗縐繪嶅埌鎵嬫満絝楂樻晥鎵ц岋紝寮鍙戝嚭浜哄伐鏅鴻兘 APP錛屽皢 AI 甯﹀埌浣犵殑鎸囧皷銆俷cnn 鐩鍓嶅凡鍦ㄨ吘璁澶氭懼簲鐢ㄤ腑浣跨敤錛屽 QQ錛孮zone錛屽井淇★紝澶╁ぉP鍥劇瓑銆
鏀鎸佸ぇ閮ㄥ垎甯哥敤鐨 CNN 緗戠粶
Classical CNN: VGG AlexNet GoogleNet Inception ...
Practical CNN: ResNet DenseNet SENet FPN ...
Light-weight CNN: SqueezeNet MobileNetV1/V2/V3 ShuffleNetV1/V2 MNasNet ...
Detection: MTCNN facedetection ...
Detection: VGG-SSD MobileNet-SSD SqueezeNet-SSD MobileNetV2-SSDLite ...
Detection: Faster-RCNN R-FCN ...
Detection: YOLOV2 YOLOV3 MobileNet-YOLOV3 YOLOV4...
Segmentation: FCN PSPNet UNet ...
閽堝逛笉鍚岀殑妯″瀷錛屽崟鐙瑙f瀽錛屾渶鍚庢帹鐞
MindSpore鏄涓涓鏂扮殑寮婧愭繁搴﹀︿範璁緇/鎺ㄧ悊妗嗘灦錛屽彲鐢ㄤ簬縐誨姩銆佽竟緙樺拰浜戝満鏅銆侻indSpore鏃ㄥ湪涓烘暟鎹縐戝﹀跺拰綆楁硶宸ョ▼甯堟彁渚涘弸濂借捐″拰楂樻晥鎵ц岀殑寮鍙戠粡楠岋紝涓篈scend AI澶勭悊鍣ㄦ彁渚涙湰鍦版敮鎸侊紝浠ュ強杞紜浠跺崗鍚屼紭鍖栥傚悓鏃訛紝MindSpore浣滀負涓涓鍏ㄧ悆鎬х殑浜哄伐鏅鴻兘寮婧愮ぞ鍖猴紝鏃ㄥ湪榪涗竴姝ユ帹榪涗漢宸ユ櫤鑳借蔣紜浠跺簲鐢ㄧ殑寮鍙戝拰涓板瘜鐢熸佺郴緇.MindSpore鏄涓涓鏂扮殑寮婧愭繁搴﹀︿範璁緇/鎺ㄧ悊妗嗘灦錛屽彲鐢ㄤ簬縐誨姩銆佽竟緙樺拰浜戝満鏅銆
Ⅲ yolo需要多少算力
YOLO演算法需要的算力取決於具體的模型版本和應用場景,無法給出一個確定的數值。
YOLO演算法是一種實時目標檢測演算法,它通過單個卷積神經網路直接從輸入圖像預測邊界框和類別概率。不同的YOLO版本(如YOLOv1、YOLOv2、YOLOv3、YOLOv4等)具有不同的網路結構和復雜度,因此對算力的需求也有所不同。
一般來說,更高級別的YOLO版本(如YOLOv4)由於網路結構更復雜、功能更強大,因此需要的算力也相對較高。同時,輸入圖像的解析度和大小也會影響算力的需求。高解析度、大尺寸的圖像需要更多的計算資源來進行處理。
在實際應用中,如果需要在高性能計算機或伺服器上運行YOLO演算法進行實時目標檢測,那麼需要選擇具有足夠算力的硬體設備。而如果是在嵌入式系統或移動設備上運行YOLO演算法,可能需要選擇更輕量級的模型或進行適當的優化以降低算力需求。
總的來說,YOLO演算法需要的算力因版本和應用場景而異。在選擇硬體設備和優化演算法時,應根據具體需求進行權衡和選擇。
Ⅳ 百度昆侖晶元性能是T4的3倍如何在伺服器市場發揮作用
網路智能晶元部門的負責人歐陽劍在近日的公開課中,首次詳細展示了其AI晶元新產品——昆侖K200,該晶元在性能上展現出強大優勢,特別在Gemm-Int8的Benchmark測試中,其性能是英特爾T4 GPU的三倍之多。自2018年網路AI開發者大會推出首款自研晶元昆侖以來,網路憑借在FPGA和XPU架構的深厚積累,逐步推進晶元的研發進程。從2010年開始的AI架構FPGA研發,到2020年的量產,每一步都顯示出網路對AI晶元的堅定投入和持續優化。
昆侖晶元定位為通用AI晶元,旨在提供高性能、低成本和高靈活性。相比於GPU,昆侖在通用性與編程性上更勝一籌,且網路還在不斷提升其編程性。其架構上,擁有兩個計算單元和512GB/S的內存帶寬,以及16MB SRAM,特別對AI推理任務有很大幫助。
在技術規格上,第一代昆侖晶元採用三星14nm工藝和2.5D封裝,峰值性能達到260TOPS,功耗僅為150W。它支持類似英偉達CUDA的軟體棧,開發者可以方便地通過C/C++進行編程,降低開發難度。
在性能對比測試中,K200在語音模型Bert/Ernie和圖像分割YOLOV3演算法中表現出色,且在線上性能數據方面,穩定性優於T4,延遲也有所降低。目前,網路已通過網路雲以定向邀請的方式提供K200的AI算力,未來將根據用戶反饋進一步擴大服務范圍。
值得注意的是,昆侖晶元與國產處理器飛騰的良好適配,被視作網路在國產化市場的重要策略。通過與飛騰的協同,網路旨在推動國產晶元在伺服器市場的應用,為昆侖的市場增長提供了關鍵動力。