Fremskridt inden for computersyn driver transportautonomi

Syn er et kraftfuldt menneskeligt sensorisk input. Det muliggør komplekse opgaver og processer, vi tager for givet. Med en stigning i AoT™ (Autonomy of Things) i forskellige applikationer lige fra transport og landbrug til robotteknologi og medicin, bliver kameraernes, computerens og maskinlæringens rolle i at give menneskelignende vision og kognition betydning. Computervision som en akademisk disciplin tog fart i 1960'erne, primært på universiteter, der beskæftiger sig med det nye område af kunstig intelligens (AI) og maskinlæring. Det udviklede sig dramatisk i de næste fire årtier, da der blev gjort betydelige fremskridt inden for halvleder- og computerteknologier. Nylige fremskridt inden for dyb læring og kunstig intelligens har yderligere accelereret anvendelsen af ​​computersyn for at give real-time, lav latenstid perception og erkendelse af miljøet, hvilket muliggør autonomi, sikkerhed og effektivitet i forskellige applikationer. Transport er et område, der har haft stor gavn af.

LiDAR (Light Detection and Ranging) er en aktiv optisk billedbehandlingsmetode, der bruger lasere til at bestemme 3D-miljøet omkring et objekt. Det er en af ​​de teknologier, som computervisionsløsninger (som udelukkende er afhængige af omgivende lys og ikke bruger lasere til 3D-perception) forsøger at forstyrre. Det fælles tema er, at menneskelige chauffører ikke har brug for LiDAR til dybdeopfattelse, så det skal maskiner heller ikke. Aktuelle kommercielle L3 autonome kørselsfunktioner (fuldstændig autonomi i specifikke geografier og vejrforhold, med føreren klar til at tage kontrol inden for få sekunder) produkter i dag brug LiDAR. Rent visionsbaserede teknikker har stadig ikke været i stand til at tilbyde denne mulighed kommercielt.

ANNONCE

TeslaTSLA
er en dominerende fortaler for at bruge passivt kamerabaseret computersyn til at give passagerkøretøjers autonomi. Under virksomhedens seneste AI Day-begivenhed leverede Elon Musk og hans ingeniører en imponerende præsentation af dets AI, datastyring og computerfunktioner, der blandt andet understøtter funktionen Full Self Driving (FSD) på flere Tesla-modeller. FSD kræver, at den menneskelige chauffør til enhver tid er engageret i køreopgaven (hvilket er i overensstemmelse med L2-autonomi). I øjeblikket er denne mulighed tilgængelig på 160,000 køretøjer købt af kunder i USA og Canada. En suite med 8 kameraer på hvert køretøj giver et 360°-belægningskort. Kamera (og andre) data fra disse køretøjer bruges til at træne dets neurale netværk (som bruger automatisk mærkning) til at genkende objekter, plotte potentielle køretøjsbaner, vælge optimale og aktivere de passende kontrolhandlinger. ~75 opdateringer af det neurale netværk er sket i løbet af de sidste 12 måneder (~1 opdatering hvert 7. minut), da nye data løbende indsamles, og mærkningsfejl eller manøvreringsfejl opdages. Det trænede netværk udfører planlægnings- og kontrolhandlinger gennem en indbygget, redundant arkitektur af specialbygget computerelektronik. Tesla forventer, at FSD i sidste ende vil føre til autonome køretøjer (AV'er), som giver fuldstændig autonomi i visse operationelle designdomæner uden påkrævet menneskelig chaufførinddragelse (også kaldet L4-autonomi).

Andre virksomheder som Phiar, Helm.ai og NODAR forfølger også computervisionen. NODAR sigter mod betydeligt at udvide billedområdet og 3D-opfattelsen af ​​stereokamerasystemer ved at lære at justere for kameraforskydning og vibrationseffekter gennem patenterede maskinlæringsalgoritmer. Det rejste for nylig $12 mio til produktiseringen af ​​sit flagskibsprodukt, Hammerhead™, som bruger "hyldevare" kameraer i bilindustrien og standard computerplatforme.

Bortset fra omkostninger og størrelse er et hyppigt argument imod at bruge LiDAR, at det har begrænset rækkevidde og opløsning sammenlignet med kameraer. For eksempel er LiDAR'er med en rækkevidde på 200 m og 5-10 M punkter/sekund (PPS svarende til opløsning) tilgængelige i dag. Ved 200 m vil små forhindringer som mursten eller dækaffald registrere meget få punkter (måske 2-3 i lodret og 3-5 i vandret retning), hvilket gør genkendelse af objekter vanskelig. Tingene bliver endnu mere grove på længere afstande. Til sammenligning kan standard megapixelkameraer, der kører ved 30 Hz, generere 30M pixels/sekund, hvilket muliggør overlegen genkendelse af objekter selv på lange afstande. Mere avancerede kameraer (12 M pixels) kan øge dette endnu mere. Spørgsmålet er, hvordan man udnytter disse massive data og producerer handlingsvenlig opfattelse med forsinkelser på millisekundniveau, lavt strømforbrug og forringede lysforhold.

ANNONCE


Genkend, et Californien-baseret firma, forsøger at løse dette problem. Ifølge CEO Mark Bolitho er dens mission at "leverer overmenneskelig visuel opfattelse til fuldt autonome køretøjer." Virksomheden blev grundlagt i 2017, har rejst 75 millioner dollars til dato og har 70 ansatte. RK Anand, en alun fra Juniper Networks, er en af ​​medstifterne og Chief Product Officer. Han mener, at brugen af ​​kameraer med højere opløsning, med > 120 dB dynamisk rækkevidde, der kører ved høje billedhastigheder (for eksempel OnSemi, Sony og Omnivision), giver de data, der kræves for at skabe 3D-information i høj opløsning, hvilket er afgørende for at realisere AV'er. Mulighederne for dette er:

  1. Specialdesignede ASIC'er til at behandle dataene effektivt og producere nøjagtige og højopløselige 3D-kort over bilmiljøet. Disse er fremstillet på en TSMC 7 nm proces, med en chipstørrelse på 100 mm², der opererer ved en 1 GHz frekvens.
  2. Proprietære maskinlæringsalgoritmer til at behandle millioner af datapunkter offline for at skabe det trænede neurale netværk, som derefter kan fungere effektivt og lære kontinuerligt. Dette netværk giver perceptionen og inkluderer objektklassificering og -detektering, semantisk segmentering, vognbanedetektering, trafikskilte og trafiklysgenkendelse
  3. Minimering af off-chip-lagring og multiplikationsoperationer, som er strømkrævende og skaber høj latenstid. Recognis ASIC-design er optimeret til logaritmisk matematik og bruger addition. Yderligere effektivitet opnås ved at gruppere vægte optimalt i det trænede neurale netværk.

Under træningsfasen bruges en kommerciel LiDAR som grundsandhed til at træne stereokameradata med høj opløsning og høj dynamisk rækkevidde for at udtrække dybdeinformation og gøre den robust over for fejljustering og vibrationseffekter. Ifølge hr. Anand er deres maskinlæringsimplementering så effektiv, at den kan ekstrapolere dybdeestimater ud over de træningsintervaller, der leveres af kalibrerings LiDAR (som giver grundsandheden til en rækkevidde på 100 m).

ANNONCE

Ovenstående træningsdata blev udført i dagtimerne med et stereopar af 8.3 megapixel kameraer, der kørte ved 30 Hz billedhastigheder (~0.5B pixels pr. sekund). Det demonstrerer det trænede netværks evne til at udtrække 3D-information i scenen ud over den 100 m rækkevidde, det blev trænet med. Recognis løsning kan også ekstrapolere sin indlæring med dagdata til nattetid (Figur 2).

ANNONCE

Ifølge hr. Anand er rækkeviddedataene nøjagtige til inden for 5 % (ved lange afstande) og tæt på 2 % (ved kortere afstande). Løsningen giver 1000 TOPS (billioner operationer pr. sekund) med 6 ms latency og 25W strømforbrug (40 TOPS/W), hvilket er førende i branchen. Konkurrenter, der bruger heltalsmatematik, er > 10 gange lavere på denne metric. Recognis løsning er i øjeblikket i forsøg hos flere Tier 1-leverandører til bilindustrien.

Prophesee ("forudsige og se, hvor handlingen er"), baseret i Frankrig, bruger sine begivenhedsbaserede kameraer til AV'er, Advanced Driver Assistance Systems (ADAS), industriel automation, forbrugerapplikationer og sundhedspleje. Grundlagt i 2014 virksomheden lukkede for nylig sin C-runde-finansiering på $50 mio, med et samlet beløb på 127 mio. USD indsamlet til dato. Xiaomi, en førende producent af mobiltelefoner, er en af ​​investorerne. Prophesees mål er at efterligne menneskesyn, hvor receptorerne i nethinden reagerer på dynamisk information. Den menneskelige hjerne fokuserer på at behandle ændringer i scenen (især til kørsel). Den grundlæggende idé er at bruge kamera- og pixelarkitekturer, der registrerer ændringer i lysintensitet over en tærskelværdi (en hændelse) og kun leverer disse data til computerstakken til yderligere behandling. Pixelerne arbejder asynkront (ikke indrammet som i almindelige CMOS-kameraer) og med meget højere hastigheder, da de ikke behøver at integrere fotoner som i et konventionelt frame-baseret kamera og vente på, at hele billedet er færdigt med dette før udlæsningen af ​​dataene. Fordelene er betydelige – lavere databåndbredde, beslutningsforsinkelse, lagerplads og strømforbrug. Virksomhedens første VGA begivenhedsbaserede visionsensor i kommerciel kvalitet havde et højt dynamisk område (>120 dB), lavt strømforbrug (26 mW på sensorniveau eller 3 nW/hændelse). En HD (High Definition) version (udviklet i fællesskab med Sony) med brancheførende pixelstørrelse (< 5 μm) er også blevet lanceret.

ANNONCE

Disse sensorer udgør kernen i Metavision®-sensingplatformen, som bruger AI til at give smart og effektiv opfattelse af autonomi-applikationer og er under evaluering af flere virksomheder i transportområdet. Bortset fra fremadvendt opfattelse for AV'er og ADAS, er Prophesee aktivt engageret med kunder for overvågning af driveren i kabinen til L2 og L3 applikationer, se figur 4:

Automotive muligheder er lukrative, men design-in cyklusser er lange. I løbet af de sidste to år har Prophesee oplevet betydelig interesse og trækkraft i maskinsynsområdet til industrielle applikationer. Disse omfatter højhastighedsoptælling, overfladeinspektion og vibrationsovervågning.

ANNONCE

Prophesee annoncerede for nylig samarbejder med førende udviklere af machine vision-systemer for at udnytte muligheder inden for industriel automation, robotteknologi, automotive og IoT (Internet of Things). Andre umiddelbare muligheder er billedsløringskorrektion til mobiltelefoner og AR/VR-applikationer. Disse bruger sensorer i lavere format end dem, der bruges til de længerevarende ADAS/AV-muligheder, bruger endnu lavere strøm og opererer med betydeligt lavere latenstid.


Israel er en førende innovatør inden for højteknologi med betydelige ventureinvesteringer og et aktivt opstartsmiljø. Siden 2015 er der sket omkring 70 mia. USD i venture-ledede investeringer i teknologisektoren. En del af dette er inden for computersyn. Mobileye stod i spidsen for denne revolution i 1999, da Amnon Shashua, en førende AI-forsker ved Hebrew University, grundlagde virksomheden for at fokusere på kamerabaseret opfattelse af ADAS og AV'er. Virksomheden ansøgte om en børsnotering i 2014 og blev opkøbt af IntelINTC
i 2017 for $15 mia. I dag er det let den førende aktør inden for computervision og AV-domænet og for nylig meddelte sin hensigt om at ansøge om en børsnotering og blive en selvstændig enhed. Mobileye havde en omsætning på $1.4 mia./år og beskedne tab ($75 mio.). Det giver computersynsfunktioner til 50 automotive OEM'er, som implementerer det på tværs af 800 bilmodeller til ADAS-funktioner. I fremtiden har de til hensigt at føre an i L4-køretøjsautonomi (ingen driver nødvendig) ved at bruge denne computervisionsekspertise og LiDAR-kapaciteter baseret på Intels siliciumfotonik-platform. Mobileyes værdiansættelse er anslået til ~$50B, når de endelig offentliggøres.

ANNONCE

Champel hovedstad, baseret i Jerusalem, er på forkant med at investere i virksomheder, der udvikler produkter baseret på computervision til forskellige applikationer fra transport og landbrug til sikkerhed og sikkerhed. Amir Weitman er medstifter og administrerende partner og startede sit ventureselskab i 2017. Den første fond investerede $20M i 14 virksomheder. En af deres investeringer var i Innoviz, som blev børsnoteret gennem en SPAC-fusion i 2018 og blev en LiDAR-enhjørning. Anført af Omer Keilaf (som kom fra teknologienheden i Efterretningskorpset for Israel Defence Force), virksomheden er i dag førende inden for LiDAR-implementeringer til ADAS og AV'er, med flere designgevinster hos BMW og Volkswagen.

Champel Capitals anden fond (Impact Deep Tech Fund II) blev startet i januar 2022 og har rejst 30 mio. USD til dato (målet er 100 mio. USD ved udgangen af ​​2022). Et dominerende fokus er på computervision, med 12 millioner USD indsat i fem virksomheder. Tre af disse bruger computersyn til transport og robotteknologi.

TankU, baseret i Haifa, startede driften i 2018 og har rejst 10 millioner dollars i finansiering. Dan Valdhorn er administrerende direktør og er uddannet fra Unit 8200, en elite højteknologisk gruppe inden for den israelske forsvarsstyrke, der er ansvarlig for signalintelligens og kodedekryptering. TankUs SaaS-produkter (Software as a Service) automatiserer og sikrer processer i komplekse udendørs miljøer, der servicerer køretøjer og chauffører. Disse produkter bruges af ejere af bilflåder, private biler, tankstationer og elektriske ladestationer for at forhindre tyveri og svindel i automatiserede finansielle transaktioner. Brændstoftjenester til køretøjer genererer årligt ~2T USD i globale indtægter, hvoraf ejere af private og erhvervskøretøjer bruger 40 % eller 800 milliarder USD. Detailhandlere og flådeejere mister ~100 mia. USD årligt på grund af tyveri og svindel (for eksempel brug af et flådebrændstofkort til uautoriserede private køretøjer). CNP-svindel (Card not present) og manipulation/tyveri af brændstof er yderligere kilder til tab, især ved brug af stjålne kortoplysninger i mobilapps til betalinger.

ANNONCE

Virksomhedens TUfuel-produkt letter sikker betaling med et enkelt tryk, blokerer for de fleste former for svindel og advarer kunder, når de har mistanke om svindel. Det gør det baseret på en AI-motor, der er trænet på data fra eksisterende CCTV'er i disse faciliteter og digitale transaktionsdata (inklusive POS og andre back-end-data). Parametre som køretøjets bane og dynamik, køretøjets ID, rejsetid, kilometertal, brændstoftid, brændstofmængde, brændstofhistorik og føreradfærd er nogle attributter, der overvåges for at opdage svindel. Disse data hjælper også detailhandlere med at optimere driften af ​​webstedet, øge kundeloyaliteten og implementere visionsbaserede marketingværktøjer. Ifølge administrerende direktør Dan Valdhorn opdager deres løsning 70 % af flåden, 90 % af kreditkort og 70 % af manipulationsrelaterede svindelhændelser.

Sonol er et energiserviceselskab, der ejer og driver et netværk af 240 stationer og dagligvarebutikker i hele Israel. TUfuel er installeret på deres websteder og har demonstreret forbedret sikkerhed, forebyggelse af svindel og kundeloyalitet. Produktforsøg er i gang i USA i samarbejde med en førende global leverandør af tankstationer og dagligvarebutiksudstyr. Lignende initiativer er også i gang i Afrika og Europa.

ANNONCE

Tel-Aviv-baseret ITC blev grundlagt i 2019 af maskinlæringsakademikere fra Ben-Gurion University. ITC skaber SaaS-produkter, der "mål trafikstrømmen, forudsige overbelastning og afbød den gennem smart manipulation af lyskryds - før kødannelser begynder at danne sig." I lighed med TankU bruger den data fra hyldekameraer (allerede installeret ved adskillige trafikkryds) til at opnå live trafikdata. Data fra tusindvis af kameraer på tværs af en by analyseres, og parametre som køretøjstype, hastighed, bevægelsesretning og rækkefølge af køretøjstyper (lastbiler vs. biler) udvindes ved anvendelse af proprietære AI-algoritmer. Simuleringer forudsiger trafikflow og potentielle trafikpropper op til 30 minutter i forvejen. Trafiklys justeres ved hjælp af disse resultater for at udjævne trafikstrømmen og forhindre kø.

Træning af AI-systemet tager en måneds visuelle data på tværs af en typisk by og involverer en kombination af overvåget og uovervåget læring. ITC's løsning er allerede installeret i Tel-Aviv (rangeret på 25. plads i verdens mest overbelastede byer i 2020), med tusindvis af kameraer opsat i hundredvis af vejkryds styret af trafiklys. ITC's system håndterer i øjeblikket 75 køretøjer, som forventes at fortsætte med at vokse. Virksomheden installerer en lignende evner i Luxembourg og starter forsøg i større amerikanske byer. Globalt administrerer dens løsning 300,000 køretøjer med driftssteder i Israel, USA, Brasilien og Australien. Dvir Kenig, CTO, brænder for at løse dette problem – at give folk personlig tid tilbage, reducere drivhusgasser, øge den samlede produktivitet og vigtigst af alt, reducere ulykker i overbelastede vejkryds. Ifølge Mr. Kenig, "vores implementeringer viser en reduktion på 30% i trafikpropper, hvilket reducerer uproduktiv køretid, stress, brændstofforbrug og forurening."

ANNONCE

Indendørs robotik var Grundlagt i 2018 , for nylig indsamlet 18 millioner dollars i finansiering. Virksomheden, der er baseret nær Tel-Aviv, Israel, udvikler og sælger autonome droneløsninger til indendørs sikkerhed, sikkerhed og vedligeholdelsesovervågning. Administrerende direktør og medstifter, Doron Ben-David, har en betydelig erfaring med robotter og luftfart oparbejdet hos IAIIAI
(en stor forsvarets hovedentreprenør) og MAFAT (en avanceret forskningsorganisation inden for det israelske forsvarsministerium), som ligner DARPA i USA. De voksende investeringer i smarte bygninger og kommercielle sikkerhedsmarkeder giver anledning til behovet for autonome systemer, der kan bruge computersyn og andre sensoriske input i små og store indvendige kommercielle rum (kontorer, datacentre, varehuse og butikslokaler). Indoor Robotics retter sig mod dette marked ved at bruge indendørs droner udstyret med hyldekameraer og termiske og infrarøde rækkeviddesensorer.

Ofir Bar-Levav er Chief Business Officer. Han forklarer, at manglen på GPS har hæmmet indendørs droner i at lokalisere sig inde i bygninger (typisk GPS-afvist eller unøjagtig). Derudover manglede praktiske og effektive docking- og strømforsyningsløsninger. Indoor Robotics løser dette med fire drone-monterede kameraer (øverst, nede, venstre, højre) og enkle rækkeviddesensorer, der nøjagtigt kortlægger et indendørs rum og dets indhold. Kameradataene (kameraer leverer lokaliserings- og kortlægningsdata) og termiske sensorer (også monteret på dronen) analyseres af et AI-system for at opdage potentielle sikkerheds-, sikkerheds- og vedligeholdelsesproblemer og advare kunden. Dronerne driver sig selv gennem en loftmonteret "dockingflise", som sparer værdifuld gulvplads og tillader dataindsamling under opladning. De økonomiske fordele ved at automatisere disse banale processer, hvor menneskelig arbejdskraft er kompleks og dyr med hensyn til rekruttering, fastholdelse og uddannelse, er tydelige. Brug af luftdroner vs. jordbaserede robotter har også betydelige fordele i form af kapital- og driftsomkostninger, bedre udnyttelse af gulvplads, frihed til at bevæge sig uden at støde på forhindringer og effektivitet af kameradatafangst. Ifølge Mr. Bar-Levav vil Indoor Robotics' TAM (Total Addressable Market) inden for indendørs intelligente sikkerhedssystemer være på 80 mia. USD i 2026. Nøglekundesteder omfatter i dag varehuse, datacentre og kontorcampusser hos førende globale virksomheder.

ANNONCE


Computervision revolutionerer autonomispillet – inden for bevægelsesautomatisering, sikkerhed, smart bygningsovervågning, svindeldetektion og og trafikstyring. Kraften fra halvledere og AI er kraftfulde muliggører. Når først computere mestrer denne utrolige sensoriske modalitet på en skalerbar måde, er mulighederne uendelige.

Kilde: https://www.forbes.com/sites/sabbirrangwala/2022/10/04/advances-in-computer-vision-propel-transportation-autonomy/