Hvad Nvidias nye tekst-til-3D betyder for teknik og produktdesign

tl; dr: Generativ AI udvikler sig i et spændende tempo. Den seneste algoritme fra Nvidia konverterer tekst til 3D-mesh dobbelt så hurtigt som projekter offentliggjort for knap 2 måneder siden. Det betyder, at de tekniske muligheder nu allerede overgår vores evne til at arbejde med dem.

Sidste uge papir af Nvidia-forskere demonstrerede den eksponentielle hastighed, hvormed det generative AI-rum udvikler sig. Denne eksplosion af aktivitet – især synlig i løbet af de sidste 9 måneder – vil have indflydelse på alle dele af livet, ikke mindst på produktdesign, konstruktion og produktion. Ændringerne vil frigøre industrien fra strukturelle begrænsninger i den måde, ideer kommunikeres på, styrke hurtigere innovationscyklusser og i sidste ende give den mulighed for at levere sine løfter om bæredygtighed.

Eksempler på mesh fra Nvidia Researchs Magic 3D-algoritmer med de prompter, der bruges til at generere dem.

Nvidia Deep Imagination Research

Efter at have fået at vide i årevis, at kunstig intelligens fundamentalt ville revolutionere den måde, vi arbejder på, forventede få, at den kreative sektor var blandt dets første ofre. Fremkomsten af GPT-3s menneskelignende tekstgenerator i 2020 bragte mulighederne i skarpere fokus. Det har været en vild tur siden da: DALL-E (tekst-til-billede), Whisper (talegenkendelse) og senest Stable Diffusion (tekst-til-billede) øgede ikke kun kapaciteten af tale og visuelle AI-værktøjer, men også reduceret de nødvendige ressourcer for at bruge dem (fra 175 mia. parametre for GPT-3 til 900 mio. for stabil diffusion).

Stable Diffusions størrelse betyder mindre end 5 GB diskplads – der kan køres på enhver bærbar computer. Ikke kun det; i modsætning til OpenAI (som hovedsageligt er finansieret af Microsoft og udgiver GPT-3, DALL-E og Whisper), er Stable Diffusion open source, hvilket betyder, at andre kan bygge videre på dets læring meget lettere. Det betyder, at vi kun ser begyndelsen af den innovative cyklus – der er meget mere i vente, som Nvidias papir nu viser.

Stable Diffusions bagmænd (stability.ai) sætter yderligere gang i denne trend ved at give teknologiske og økonomiske tilskud til andre hold, der tager udforskningen i nye retninger. Derudover gør et væld af projekter værktøjerne tilgængelige for en stadig bredere vifte af brugere. Blandt dem er plugins til Blender, et open source-designværktøj og Adobes proprietære Photoshop-ækvivalent. Fuld API-adgang til værktøjerne finansieres med store venturekapitaldollar, hvilket betyder, at hundredvis af millioner softwareudviklere, ikke kun et par hundrede tusinde dataingeniører, nu vil skabe deres egne værktøjer på disse algoritmer.

Tale, billeder og tekst er blandt de første vertikaler, der bliver forstyrret af disse teknologier. Men 3D er ikke langt bagefter. Ud over nichegenerativ kunst er tegnefilm det indlysende første anvendelsespunkt. Der er allerede en Pokémon-generator baseret på Stable Diffusion. Visuelle effekter og film er næste gang. Men mange andre sektorer vil sandsynligvis blive forstyrret - blandt dem interiørdesign med Interiorai.com førende.

I al denne spænding føles det som en eftertanke at anvende innovationerne på Design & Engineering. Alligevel vil det sandsynligvis være det område, der i sidste ende bliver mest berørt. Selvfølgelig er der indledende udfordringer: For det første er Stable Diffusion og dens landsmænd endnu ikke særlig præcise. Det er ikke et problem for tegnefilm, men det er en stor udfordring for ethvert forsøg på at transformere tekst til fulde 3D-geometrier, der bruges i industrielle sammenhænge. Det er et område, der har haft en vis begyndende interesse (et projekt kaldet Bits101 blev lanceret i Israel i 2015). Dette kan være industriens hellige gral, men der er mange mellemliggende udfordringer, som kan være meget nemmere at løse. Disse omfatter forbedret genkendelse af objekter (Yolo-algoritmen bliver allerede brugt med stor effekt), hvilket vil føre til forbedret citering og annotering – forbedre kvaliteten og reducere fejl. Plugins skulle også gøre det lettere at bruge Generative AI til at udvikle grundlæggende designs (Primitives), som derefter kan redigeres yderligere i designværktøjer for at forbedre tolerancen efter krav. Det er en tilgang, der allerede er brugt i Altairs Inspire, som brugte Finite Element Analysis til at gøre det samme. Disse primitiver kan også tjene som en syntetisk database med kommenterede modeller, som der er mangel på i 3D CAD-industrien. Physnas administrerende direktør og grundlægger påpeger dette i en artikel detaljerede deres egne forsøg på at bruge disse nye metoder til at skabe detaljerede 3D-designs, hvilket også fremhæver en række faldgruber ved at bruge syntetiske data til at drive disse algoritmer. At skabe 3D-design ud fra 2D-tegninger er et andet potentielt anvendelsesområde, ligesom intelligent CAM – føder fra en bibliotek af værktøjsslid for at bestemme de bedste bearbejdningsstrategier.

Disse udfordringer er vigtige og lukrative at løse i og for sig selv. Alligevel vil deres vigtigste effekt være at hjælpe med at udvikle idé-til-design-vejen ved i sidste ende at reducere afhængigheden af 3D-design til at kommunikere hensigter. Design, hvad enten det er 2D eller 3D, har fungeret som det primære middel til at oversætte kundernes behov til færdige produkter. Det begrænser industrien, fordi disse designs fungerer som en sort boks, hvori alle disse værdifulde kundeindsigter, produktionsbegrænsninger og virksomhedens mål er gemt, ude af stand til at blive adskilt, men alligevel alene identificeret. Det betyder, at når noget ændrer sig, er det nærmest umuligt blot at justere designet. Dette er grunden til, at fremstillingsinnovationer såsom 3D-print tager så lang tid at adoptere og skuffer kortsigtede investorer. Komponenterne, der udgør et fly, er "sat" fra det øjeblik, de er designet, på trods af en mere end 20 år produktiv levetid. Der er næsten ingen muligheder for innovation – disse skal afvente lanceringen af næste generation.

At være i stand til at ændre en enkelt begrænsning og tillade en algoritme som f.eks. Stable Diffusion at rekonstruere design- og produktionsparametrene vil markant fremskynde vedtagelsen af nye innovationer og give os mulighed for at bygge lettere, bedre ydende produkter hurtigere. Som de gør i Formel 1 eller Systems Design, vil fremtidige ingeniører fungere som constraint managers, der er i stand til at udtrykke i ord og med henvisning til datakilder, hvad formålet med og begrænsningerne for produktet er.

Uden at fremskynde konstruktionsprocessen for nye og eksisterende produkter på denne måde har vi næsten ingen mulighed for at nå de ambitiøse bæredygtighedsmål, vi skal sætte os selv. For at gøre dette skal vi først blive enige om et sprog, som vi kan bruge til at kommunikere ud over design. Denne nye semantiske model er det åbenlyse hul i innovationerne skitseret ovenfor. En række virksomheder er allerede begyndt at eksperimentere med det, som f.eks nTopologi med dens begreber om felter. Og alligevel er forandringstempoet langsomt, i modsætning til de algoritmer, som den semantiske model vil fodre. Nvidias nye algoritme er angiveligt over dobbelt så hurtig som DreamFusion, udgivet for mindre end 2 måneder siden. Produkt- og ingeniørvirksomheder skal arbejde på at fange deres ideer på nye, fremtidssikrede måder nu for at få mest muligt ud af de muligheder, som denne eksplosion af generativ AI rummer. Forandringens hastighed i algoritmer har endnu en gang vist, at morseloven gælder overalt, hvor værktøjer bliver digitaliseret. Udfordringen er fortsat vores menneskelige manglende evne til at omfavne denne forandring og implementere nye kommunikationsmetoder, der er i stand til at frigøre deres potentiale, på trods af opgavens presserende karakter.

Kilde: https://www.forbes.com/sites/andrewegner/2022/11/24/what-nvidias-new-text-to-3d-means-for-engineering–product-design/