Nuova, potentissima rete neurale di Tesla per la guida autonoma

La nuova rete neurale messa a punto da Tesla per la gestione delle videocamere di bordo e l’analisi delle immagini da esse provenienti è di una potenza inaudita. Questa almeno è l’opinione di un’analista che ha avuto modo di provare in anteprima le novità introdotte e valutare alcuni dettagli tecnici, restando stupito.

Detta così in effetti per i non addetti ai lavori non sembra granché, ma i riflessi positivi dell’analisi delle immagini sulle capacità di guida autonoma di Autopilot sono notevoli. La nuova rete neurale anzitutto assegna lo stesso peso alle informazioni provenienti da tutte le otto videocamere presenti a bordo, mentre attualmente per l’analisi del traffico sono utilizzate principalmente quelle anteriori con l’integrazione di alcuni dati raccolti da quelle posteriori, mentre le laterali sono sfruttate solo in caso di pioggia o maltempo, quando cioè i bordi laterali delle carreggiate divengono meno visibili.

tesla

La nuova rete neurale inoltre integra le videocamere all’interno di un’unica rete e ciò permette di elaborare fin dall’inizio i dati raccolti in maniera omogenea, mentre prima le videocamere erano gestite da reti differenti e i dati integrati in un secondo momento e solo all’occorrenza.

Oltre a ciò il nuovo sistema raccoglie immagini di qualità assai più elevata rispetto al passato (1.280 x 960 pixel con tre canali colore e due frame al secondo per le tre camere frontali; quella posteriore e 640 x 480 pixel sempre su tre canali colore e con 2 frame al secondo per le altre. Questo incremento di qualità implica la capacità di cogliere maggiori dettagli, poter riconoscere la tipologia di ciascun veicolo e rilevare meglio la velocità, la direzione e la traiettoria di ognuno.

La cosa che più ha impressionato l’analista però sono la dimensione e la potenza di calcolo della nuova rete neurale, tale da mettere in crisi l’hardware attuale delle Tesla e giustificare quindi l’intenzione dell’azienda di Elon Musk di svilupparsi da sé i processori di prossima generazione. Per comprendere le dimensioni del salto infatti bisogna pensare che un aumento dei dati da elaborare non comporta un corrispondente aumento lineare delle capacità di calcolo, ma un salto esponenziale.

tesla 1

Secondo l’analista, infatti, se la videocamera cattura immagini da 1.280 x 960 x 3 canali x 2 frame al secondo produrrà come input file da 7,3 MB, mentre la versione precedente (640 x 416 x 2) produceva file da 0,5 MB, in pratica 13 volte più piccoli.

“Quando incrementi il numero di parametri in una rete neurale di un fattore 5 non ottieni semplicemente un aumento corrispondente della capacità di elaborazione e della mole di dati necessari all’addestramento […] Così, se la capacità di calcolo (della rete neurale della versione) V8 era pari, diciamo, a 10, quella del V9 sarà corrispondente a 100mila“, ha osservato nel suo report l’analista, che non ha esitato a definire la nuova rete neurale la più grande di questo tipo mai mostrata al pubblico.