Il prossimo 22 giugno, verrà presentato alla Conference on Computer Vision and Pattern Recognition un nuovo metodo di apprendimento profondo, messo a punto da un team di ricercatori della University of Washington, dedicato all’animazione automatica di singole immagini fotografiche.
La ricerca, finanziata oltre che dal UW Reality Lab, anche da Facebook, Google, Futurewai ed Amazon, si era prefissata lo scopo di creare animazioni partendo da un’immagine statica ed unica, senza alcun input esterno od aggiuntivo. Insomma, si voleva usare il deep learning per trasformare una foto… in un video.
Nella fase attualmente raggiunta, la rete neurale addestrata riesce ad animare qualsiasi oggetto o materiale abbia un’evoluzione fluida, quindi nuvole, corsi d’acqua, colonne di fumo, cascate. Il sistema opera delle previsioni in base a come si muoverebbero realmente questi elementi, grazie alle informazioni acquisite direttamente dall’immagine di partenza.
Gli scienziati hanno addestrato la rete mediante l’analisi di migliaia di video di panorami naturali, così che l’algoritmo potesse apprendere come eventuali increspature prevedono l’andamento di uno scroscio d’acqua o come le forme delle nubi preannunciano un loro dissolvimento. Il risultato finale è un breve video in alta definizione, che si ripete in loop, dando l’impressione di un morbido movimento infinito.
📸 – Sarah McQuate, University of Washington
I ricercatori, guidati dal dottorando Aleksander Hołyński, come prossimo step, puntano ad applicare queste animazioni alle persone, generando il movimento dei capelli che fluttuano al vento, l’oscillazione di un piede o un battito di ciglia.
Sempre rimanendo nella sfera dell’apprendimento profondo, avevamo già parlato nello scorso mese di Marzo degli studi del Massachusetts Institute of Technology riguardanti la creazione di ologrammi 3D in tempo reale, sempre addestrando la rete neurale con grandi set di informazioni.
Molte sono le ricerche attualmente in corso che vanno a concentrarsi sul miglioramento del fotorealisimo. Intel, per esempio, ha recentemente mostrato quanto possa essere efficace l’azione del machine learning su immagini digitali, prendendo in prestito le grafiche del famosissimo videogame Grand Theft Auto V. Sfruttando una rete neurale convoluzionale ispirata a processi biologici visivi ed utilizzando un grande database di immagini ad alta risoluzione di una cittadina tedesca, la rete è riuscita a sostituire in tempo reale i vari elementi scenici con quelli realistici, ottenendo un risultato sorprendente.