App di esempio Qualcomm Linux – Rilevamento oggetti AI e Fusione AI Parallela

Intelligenza Artificiale18 set 2025

Una persona che indossa un maglione rosso e un cordino giallo è vista lavorare su un laptop in una sala server.

In questo articolo, scopri le capacità di rilevamento di oggetti in live-stream e di fusione sensoriale parallela nel Qualcomm Intelligent Multimedia SDK.

A causa delle variabili in costante cambiamento che influenzano la capacità di un drone autonomo di navigare, si utilizza un potente elaborazione AI per il processo decisionale. Poiché sono così complessi, implementare questi controlli AI può essere difficoltoso. Tuttavia, le applicazioni di esempio basate su Linux di Qualcomm offrono agli sviluppatori di prodotti un percorso più rapido al mercato. In questo articolo, scopri le capacità di rilevamento degli oggetti in live-stream e di fusione parallela dei sensori incluse nel Qualcomm Intelligent Multimedia SDK. L'ultima volta ti abbiamo guidato attraverso due applicazioni di esempio fondamentali del Qualcomm Intelligent Multimedia SDK. Il SDK si basa sul software Qualcomm® Linux®, la nostra distribuzione che ti consente di scrivere una volta e utilizzare per molti dei nostri system-on-chip (SoC) IoT. In questo post esploreremo altre due delle 22 applicazioni di esempio presenti nel SDK per dimostrare come puoi sviluppare applicazioni per i nostri chipset IoT.

Vedere attraverso l'IA: Rilevamento di oggetti in diretta streaming

Questa applicazione da riga di comando, gst-ai-object-detection, acquisisce un flusso video in tempo reale da una videocamera e lo passa ai modelli open-source YOLO (You Only Look Once) di intelligenza artificiale per il rilevamento degli oggetti. Esegue il rilevamento degli oggetti con pre-elaborazione e inferenza AI su blocchi hardware dedicati, eseguendo YOLOV5, YOLOV8 o YOLO-Nas utilizzando il Snapdragon Neural Processing SDK. Successivamente mostra un'anteprima con i risultati sovrapposti, come etichette e riquadri di delimitazione, basati sul modello. La pipeline dell'applicazione è strutturata come segue:

qtiqmmfsrc – Utilizzando questo plugin di gstreamer, l'applicazione cattura il live stream della fotocamera e utilizza tee per dividere il flusso.
qtimlvconverter – Questo plugin di preprocessing esegue attività come la conversione dei colori, il down-/upscaling e la normalizzazione sui dati dello stream. Converte il flusso video in un flusso di tensori per l'inferenza successiva.
qtimlsnpe – Questo plugin di inferenza per il machine learning applica YOLO-Nas (predefinito), YOLOV8 o YOLOV5 per rilevare oggetti nel flusso. Esegue il runtime di elaborazione neurale Snapdragon in hardware su un'unità di elaborazione neurale (NPU) basata su CPU, GPU e DSP.
Il runtime SNPE esegue l'inferenza sul flusso di tensori e produce un flusso di tensori con i risultati dell'inferenza.
qtimlvdetection – Per il post-processing, questo plugin applica la soglia al numero scelto di risultati desiderati. Carica il modulo YOLO-Nas per il post-processing, produce fotogrammi video contenenti solo i bounding box (per sovrapposizioni) e passa i fotogrammi per la composizione video.
qtivcomposer – Questo plugin sovrappone frame, con le bounding box e le etichette, ai frame del flusso video dalla telecamera in diretta, quindi trasferisce i buffer gst con i livelli combinati.
Waylandsink invia il flusso video ricevuto a Weston, che rende il flusso video su un display locale.

Ecco un esempio di utilizzo di gst-ai-object-detection per rilevare una persona in un flusso video della telecamera:

Quando utilizzeresti questa applicazione?

gst-ai-object-detection ha dozzine di classi che puoi incorporare nelle tue applicazioni per rilevare oggetti (persone, veicoli, animali, ecc.) e localizzarli in un fotogramma della videocamera. Gli esempi includono il rilevamento di caschi, fuoco/fumo e intrusi.

Fusione AI Parallela: Quattro Inferenze AI su Telecamera Live

Questa applicazione da riga di comando, gst-ai-parallel-inference, estende l'app a un canale sopra citata a quattro canali di elaborazione parallela di modelli AI su blocchi hardware dedicati. Oltre al rilevamento degli oggetti, aggiunge classificazione, rilevamento della postura e segmentazione, quindi visualizza anteprime composte ridimensionate della live camera stream con sovrapposti gli output di tutti e quattro i modelli. Il pipeline dell'applicazione è una variazione di quella sopra, con un flusso separato per ogni inferenza AI come mostrato di seguito:

qtiqmmfsrc – Utilizzando questo plugin di GStreamer, l'applicazione cattura il flusso live della fotocamera, quindi utilizza tee per generare quattro flussi paralleli.
qtimlvconverter – Questo plugin di pre-elaborazione svolge attività come la conversione del colore, il down/upscaling e la normalizzazione sui dati del flusso. Converte il flusso video in un flusso di tensori per l'inferenza successiva.
qtimlsnpe – Questo plugin per l'inferenza del machine learning utilizza YOLO-Nas per il rilevamento degli oggetti e DeepLabv3 per la segmentazione delle immagini. Il plugin esegue il runtime di elaborazione neurale Snapdragon sull'hardware di una CPU-,
qtimltflite – Questo plugin utilizza PoseNet per il rilevamento delle pose e Inception V3 per la classificazione degli oggetti. Il plugin esegue il runtime TFLite sull'hardware utilizzando una unità di elaborazione neurale (NPU) basata su CPU, GPU e DSP.
Il post-processing utilizza un plugin diverso per ogni modello.
qtimlvdetection – Per il rilevamento degli oggetti, questo plugin applica la soglia al numero scelto di risultati desiderati. Carica il modulo di post-elaborazione YOLO-Nas, produce fotogrammi video contenenti solo le bounding box (per sovrapposizione) e trasferisce i fotogrammi per la composizione video.
qtimlvclassification – Per la classificazione, questo plugin applica la soglia al numero scelto di risultati desiderati. Carica il modulo di post-elaborazione Inception V3, produce fotogrammi video con etichette di classificazione (per sovrapposizione) e trasferisce i fotogrammi per la composizione video.
qtimlvpose – Per la stima della posa, questo plugin applica la soglia al numero scelto di risultati desiderati. È in grado di caricare moduli per diversi modelli di stima della posa. In questo caso d'uso, carica il modulo PoseNet, produce fotogrammi video con pose disegnate (per sovrapposizioni) e passa i fotogrammi per la composizione video.
qtimlvsegmentation – Per la segmentazione, questo plugin converte i tensori di inferenza che riceve in formati video che i nostri plugin multimediali possono comprendere successivamente.
qtivcomposer – Questo plugin sovrappone i frame dei modelli AI ai frame del flusso della videocamera live, quindi trasferisce i buffer gst con i livelli combinati.
Waylandsink invia il flusso video ricevuto a Weston, che rende il flusso video su un display locale.

Ecco un esempio del flusso video renderizzato da gst-ai-parallel-inference:

Quando utilizzeresti questa applicazione?

Come un superset di gst-ai-object-detection, gst-ai-parallel-inference ti permette di rilevare persone, veicoli, animali e altri oggetti – persino fumo e fuoco – in un fotogramma della videocamera. Con il rilevamento delle pose, puoi determinare, ad esempio, se una persona sta sdraiata, seduta o in piedi, con la possibilità di stabilire se la persona sia caduta. Un allenatore di palestra o un istruttore di yoga può utilizzare il rilevamento delle pose per capire se uno studente sta assumendo correttamente una determinata posizione. Un’applicazione ergonomica può osservare e ricordare la postura corretta su una sedia o a una scrivania. Gli scenari delle applicazioni di classificazione includono la categorizzazione dei prodotti, mentre per la segmentazione gli ambiti includono produzione, sanità e logistica.

Prossimi Passi

Questi sono due esempi aggiuntivi delle applicazioni coinvolgenti che abbiamo creato per mostrare Qualcomm Linux. Puoi ottenerle insieme all’intero Qualcomm Intelligent Multimedia SDK in open source, con altre 20 applicazioni per AI e multimedia. Successivamente, puoi iniziare a integrarle nelle tue applicazioni. Abbiamo progettato Qualcomm Linux in modo che tu possa scrivere una sola volta e utilizzare lo stesso codice sorgente su diversi chip IoT. Il Qualcomm Intelligent Multimedia SDK rappresenta la prima volta che abbiamo reso disponibili a sviluppatori via API tutti i nostri sottosistemi multimediali – inclusi fotocamera, intelligenza artificiale e audio. Poiché mettiamo sempre più a disposizione in open source, puoi personalizzare, sperimentare e contribuire a questo lavoro. È un grande passo nella nostra mentalità orientata agli sviluppatori, in cui rendiamo più facile per te sviluppare le personalizzazioni che desideri nelle tue applicazioni IoT basate su Linux.

Tag articolo

Droni

Internet delle Cose (IoT)

QUALCOMM

Intelligenza Artificiale (AI)