Ricerca nel sito web

TripoSR: sintesi rapida di oggetti 3D da singole immagini


Introduzione

Questo post del blog presenta TripoSR, un nuovo modello di ricostruzione 3D che utilizza l'architettura del trasformatore per ottenere una rapida generazione di immagini 3D feed-forward introdotta da Stability AI. TripoSR è in grado di produrre una mesh 3D da una singola immagine in meno di 0,5 secondi. Costruito sulla base dell'architettura di rete del modello di ricostruzione di grandi dimensioni (LRM), TripoSR incorpora miglioramenti significativi nell'elaborazione dei dati, nella progettazione del modello e nelle metodologie di formazione. Le valutazioni condotte su set di dati disponibili al pubblico dimostrano che TripoSR supera le altre alternative open source sia quantitativamente che qualitativamente. Rilasciato con licenza MIT, TripoSR mira a fornire a ricercatori, sviluppatori e creativi progressi all'avanguardia nell'intelligenza artificiale generativa 3D.

Questo articolo fornisce anche una demo di TripoSR utilizzando la piattaforma Paperspace e utilizzando la GPU NVIDIA RTX A6000. NVIDIA RTX A6000 è nota per il suo potente visual computing e la precisione del nuovo Tensor Float 32 (TF32) fornisce fino a 5 volte il throughput di allenamento rispetto alla generazione precedente. Questa prestazione accelera l'addestramento del modello di intelligenza artificiale e scienza dei dati senza richiedere modifiche al codice.

Panoramica del modello

TripoSR è un modello all'avanguardia per la ricostruzione di oggetti 3D da singole immagini. Si basa sull'architettura del trasformatore, migliorata con nuove tecniche. Il design di TripoSR si basa sul modello di ricostruzione di grandi dimensioni (LRM). Sfruttando un trasformatore di visione pre-addestrato (DINOv1) per la codifica delle immagini, TripoSR cattura caratteristiche sia globali che locali cruciali per la ricostruzione 3D. Il suo decodificatore trasforma queste caratteristiche codificate in una rappresentazione 3D compatta, abile nel gestire forme e trame complesse. In particolare, TripoSR non si basa su parametri espliciti della fotocamera, consentendogli di adattarsi a vari scenari del mondo reale senza informazioni precise sulla fotocamera. Questa flessibilità ne migliora la robustezza sia durante l'addestramento che durante l'inferenza. Rispetto al suo predecessore LRM, TripoSR introduce miglioramenti significativi, che esploreremo ulteriormente.

Configurazione del modello di TripoSR

Due dei principali miglioramenti dei dati incorporati durante le raccolte di dati di formazione sono: -

1.) Data Curation: sottoinsieme attentamente curato del set di dati Objaverse, ciò ha portato a un miglioramento della qualità dei dati di addestramento.

2.) Rendering dei dati: è stata incorporata un'ampia gamma di metodi di rendering dei dati per imitare meglio la distribuzione delle immagini del mondo reale. Questo approccio rafforza la capacità di generalizzazione del modello, anche quando è addestrato esclusivamente sul set di dati Objaverse.

Ottimizzazione del canale triplano

Una delle modifiche apportate per aumentare l’efficienza e le prestazioni del modello è stata la disposizione dei canali nella rappresentazione triplano-NeRF. Questo passaggio è fondamentale per utilizzare in modo efficiente la memoria della GPU sia durante l'addestramento che durante l'inferenza. È particolarmente importante perché il rendering del volume è impegnativo dal punto di vista computazionale. Il numero di canali influisce anche sulla capacità del modello di ricostruire immagini dettagliate e di alta qualità. Dopo aver sperimentato, abbiamo deciso di utilizzare 40 canali. Questa configurazione ci consente di allenarci con batch di dimensioni maggiori e risoluzioni più elevate mantenendo basso l'utilizzo della memoria durante l'inferenza.

Confronto con il modello SOTA (fonte)

Risultati della ricerca su TripoSR

TripoSR è stato valutato rispetto ai precedenti metodi SOTA utilizzando due set di dati e metriche di ricostruzione 3D. Per le valutazioni sono stati presi in considerazione due set di dati pubblici, GSO e OmniObject3D. Sono stati scelti altri 300 oggetti diversi da ciascun set di dati per garantire una valutazione equa. Convertendo le rappresentazioni 3D implicite in mesh e confrontandole utilizzando parametri come Chamfer Distance e F-score, TripoSR ha sovraperformato tutti i metodi precedenti in termini di precisione.

TripoSR è anche veloce, impiegando solo circa 0,5 secondi per generare una mesh 3D da una singola immagine. Rispetto ad altre tecniche, è una delle più veloci pur mantenendo la massima precisione.

Nei confronti visivi, TripoSR produce ricostruzioni dalla forma e dalla struttura migliori rispetto ad altri metodi. Mentre alcuni metodi hanno difficoltà con la fluidità o l'allineamento, TripoSR cattura bene i dettagli complessi.

Confronto con LRM Open Source (Sorgente)

Esegui TripoSR

Eseguiamo il modello e utilizziamolo per generare immagini 3D. Inizieremo verificando le specifiche della GPU: -

!nvidia-smi

1.Clonare il repository

Per cominciare, clona il repository per ottenere i file necessari

!git clone https://github.com/VAST-AI-Research/TripoSR.git
cd TripoSR/

2.Aggiorna "setuptools" e installa i pacchetti necessari utilizzando "pip"

!pip install --upgrade setuptools
!pip install -r requirements.txt

3.Una volta installate le librerie richieste, eseguire l'app gradio

!python gradio_app.py

Questo blocco di codice genererà l'URL pubblico e l'URL locale, fai clic sul collegamento e verrai reindirizzato all'app gradio.

Inoltre, il blocco di codice genererà l'app Gradio direttamente all'interno del notebook stesso, mostrando una delle caratteristiche interessanti della creazione di un'app Gradio.

Conclusione

In questo articolo presentiamo TripoSR, un modello di ricostruzione 3D feedforward open source all'avanguardia. Il modello si basa su un'architettura a trasformatore ed è sviluppato su rete LRM. Questo ultimo modello da immagine a 3D è realizzato per soddisfare le crescenti esigenze dei professionisti dell'intrattenimento, dei giochi, del design industriale e dell'architettura. Offre output reattivi, consentendo la visualizzazione dettagliata di oggetti 3D.

Ci auguriamo che ti sia piaciuto leggere questo articolo insieme alla demo di Paperspace sull'app gradio.

Riferimenti

  • Documento di ricerca originale
  • Stabilità ai