Juridisk dommedag for generativ AI ChatGPT, hvis fanget i at plagiere eller krænke, advarer AI-etik og AI-lov

Ripper generativ kunstig intelligens såsom ChatGPT vores websteder og menneskeligt udviklet indhold af? Vær opmærksom, vær ... [+] ked af det, vær klar.

ghettoer

Giv kredit, hvor der skal krediteres.

Det er lidt visdom, som du måske er opdraget til at tro fuldt og fast på. Man antager eller forestiller sig faktisk, at vi alle med rimelighed kan være enige om, at dette er en retfærdig og fornuftig tommelfingerregel i livet. Når nogen gør noget, der fortjener anerkendelse, så sørg for, at de får deres fortjente anerkendelse.

Det modsatte synspunkt ville virke meget mindre overbevisende.

Hvis nogen gik rundt og insisterede på, at kredit skulle ikke blive anerkendt, når kredit forfalder, ja, du kan måske hævde, at en sådan overbevisning er uhøflig og muligvis underhåndet. Vi bliver ofte voldsomt forstyrrede, når kredit bliver snydt af nogen, der har udrettet noget bemærkelsesværdigt. Jeg tør godt sige, at vi især misforstår, når andre fejlagtigt tager æren for andres arbejde. Det er en foruroligende dobbeltmoral. Den person, der skulle have fået æren, nægtes deres øjeblik i solen. Desuden nyder tricksteren rampelyset, selvom de fejlagtigt narrer os til at uretage vores gunstige følelser.

Hvorfor al denne diskurs om at opnå kredit på de mest rigtige måder og afværge de forkerte og foragtelige måder?

Fordi vi ser ud til at stå over for en lignende knibe, når det kommer til det seneste inden for kunstig intelligens (AI).

Ja, påstande er, at dette sker beviseligt via en type AI kendt som Generativ AI. Der er en masse håndværk over, at Generative AI, den hotteste AI i nyhederne i disse dage, allerede har taget æren for, hvad den ikke fortjener at tage æren for. Og dette vil sandsynligvis forværres, efterhånden som generativ kunstig intelligens i stigende grad bliver udvidet og brugt. Mere og mere ære tilfører den generative AI, mens desværre de, der rigt fortjener den sande ære, efterlades i støvet.

Min foreslåede måde at tydeligt betegne dette påståede fænomen er via to smarte slagord:

1) Plagiat i skala
2) Krænkelse af ophavsret i stor målestok

Jeg antager, at du måske er opmærksom på generativ AI på grund af en meget populær AI-app kendt som ChatGPT, der blev udgivet i november af OpenAI. Jeg vil sige mere om generativ AI og ChatGPT et øjeblik. Bliv ved.

Lad os komme med det samme til kernen af, hvad der så at sige får folks geder.

Nogle har ihærdigt klaget over, at generativ kunstig intelligens potentielt river mennesker af, der har skabt indhold. Du kan se, de fleste generative AI-apps er data trænet ved at undersøge data fundet på internettet. Baseret på disse data kan algoritmerne finpudse et stort internt mønster-matchende netværk i AI-appen, der efterfølgende kan producere tilsyneladende nyt indhold, der forbløffende ser ud, som om det blev udtænkt af menneskehånd snarere end et stykke automatisering

Denne bemærkelsesværdige bedrift skyldes i høj grad brugen af internetscannet indhold. Uden mængden og rigdommen af internetindhold som en kilde til datatræning ville den generative AI stort set være tom og have ringe eller ingen interesse for at blive brugt. Ved at lade AI undersøge millioner og atter millioner af online-dokumenter og tekst, sammen med al slags tilknyttet indhold, afledes mønstermatchningen gradvist for at forsøge at efterligne menneskeproduceret indhold.

Jo mere indhold der undersøges, er oddsene for, at mønstermatchningen vil blive mere finpudset og blive endnu bedre til mimik, alt andet lige.

Her er så zillion-dollar spørgsmålet:

Stort spørgsmål: Hvis du eller andre har indhold på internettet, som en generativ AI-app er blevet trænet i, gør det formodentlig uden din direkte tilladelse og måske helt uden din bevidsthed overhovedet, skulle du have ret til en del af kagen med hensyn til hvilken værdi der opstår af den generative AI-datatræning?

Nogle hævder heftigt, at det eneste rigtige svar er Ja, især at disse menneskelige indholdsskabere virkelig fortjener deres klip af handlingen. Sagen er, at du ville være hårdt presset for at finde nogen, der har fået deres rimelige andel, og værre endnu, næsten ingen har fået nogen som helst andel. De internetindholdsskabere, der ufrivilligt og ubevidst har bidraget, bliver i det væsentlige nægtet deres retmæssige kredit.

Dette kan karakteriseres som grusomt og skandaløst. Vi har lige gennemgået udpakningen af visdommens visdom om, at kredit skal gives, hvor der skal krediteres. I tilfælde af generativ AI er det tilsyneladende ikke tilfældet. Den langvarige og dydige tommelfingerregel om kredit ser ud til at være hårdhændet overtrådt.

Puha, lyder replikken, du overvurderer fuldstændigt og misfortolker situationen. Selvfølgelig undersøgte den generative AI indhold på internettet. Selvfølgelig var dette meget nyttigt som en del af datatræningen af den generative AI. Indrømmet, de imponerende generative AI-apps i dag ville ikke være så imponerende uden denne velovervejede tilgang. Men du er gået en bro for langt, når du siger, at indholdsskaberne skal tildeles en særlig ære.

Logikken er som følger. Mennesker går ud på internettet og lærer ting fra internettet, gør det rutinemæssigt og uden besvær i sig selv. En person, der læser blogs om VVS og derefter ser frit tilgængelige videoer om VVS-installation, kan næste dag gå ud og få arbejde som VVS-installatør. Behøver de at give en del af deres VVS-relaterede pengeoverførsel til bloggeren, der skrev om, hvordan man rører en vask? Skal de give et gebyr over til vloggeren, der lavede videoen, der viser trinene til at reparere et utæt badekar?

Næsten bestemt ikke.

Datatræningen af den generative AI er blot et middel til at udvikle mønstre. Så længe outputtet fra generativ AI ikke blot er gengivelse af præcis det, der blev undersøgt, kan du overbevisende argumentere for, at de har "lært" og derfor ikke er underlagt at give nogen specifik kredit til nogen specifik kilde. Medmindre du kan fange den generative AI i at udføre en nøjagtig regurgitation, er indikationerne, at AI'en har generaliseret ud over en bestemt kilde.

Ingen kredit skyldes nogen. Eller man antager, at man kan sige, at kredit går til alle. Den samlede tekst og andet indhold af menneskeheden, der findes på internettet, får æren. Vi får alle æren. At forsøge at udpege kredit til en bestemt kilde er meningsløst. Vær glad for, at AI bliver avanceret, og at menneskeheden alt i alt vil gavne. Disse opslag på internettet burde føle sig beæret over, at de bidrog til en fremtid med fremskridt inden for kunstig intelligens, og hvordan dette vil hjælpe menneskeheden for evigt.

Jeg vil have mere at sige om begge disse modstridende synspunkter.

I mellemtiden, læner du dig mod lejren, der siger, at kreditering er forfalden og forsinket for dem, der har websteder på internettet, eller oplever du, at den modsatte side, der siger, at internetindholdsskabere er deciderede ikke at blive flået er en mere overbevisende kropsholdning?

En gåde og en gåde hænger sammen.

Lad os pakke dette ud.

I dagens klumme vil jeg tage fat på disse udtrykte bekymringer om, at generativ AI i det væsentlige plagierer eller muligvis krænker ophavsretten til indhold, der er blevet lagt ud på internettet (betragtet som et spørgsmål om intellektuel ejendomsret eller IP). Vi vil se på grundlaget for disse betænkeligheder. Jeg vil lejlighedsvis henvise til ChatGPT under denne diskussion, da det er 600-punds gorillaen af generativ AI, men husk, at der er masser af andre generative AI-apps, og de er generelt baseret på de samme overordnede principper.

I mellemtiden undrer du dig måske over, hvad generativ AI i virkeligheden er.

Lad os først dække det grundlæggende i generativ AI, og derefter kan vi se nærmere på det presserende emne.

Ind i alt dette kommer en række overvejelser om AI-etik og AI-lov.

Vær opmærksom på, at der er løbende bestræbelser på at gennemsyre etiske AI-principper i udviklingen og anvendelsen af AI-apps. Et voksende kontingent af bekymrede og tidligere AI-etikere forsøger at sikre, at bestræbelserne på at udtænke og vedtage AI tager hensyn til et syn på at gøre AI til gode og afværge AI For Bad. Ligeledes er der foreslået nye AI-love, der bliver fløjtet rundt som potentielle løsninger for at forhindre AI-bestræbelser fra at gå amok med menneskerettigheder og lignende. For min løbende og omfattende dækning af AI-etik og AI-lovgivning, se linket her , linket her, For blot at nævne nogle få.

Udviklingen og udbredelsen af etiske AI-forskrifter forfølges for forhåbentlig at forhindre samfundet i at falde i et utal af AI-inducerende fælder. For min dækning af FN's AI-etiske principper som udtænkt og støttet af næsten 200 lande via UNESCOs indsats, se linket her. På samme måde undersøges nye AI-love for at forsøge at holde AI på en jævn køl. Et af de seneste optagelser består af et sæt foreslåede AI Bill of Rights som det amerikanske Hvide Hus for nylig udgav for at identificere menneskerettigheder i en tidsalder med kunstig intelligens, se linket her. Det kræver en landsby at holde AI- og AI-udviklere på en retfærdig vej og afskrække den målrettede eller utilsigtede underhåndsindsats, der kan underbyde samfundet.

Jeg vil flette AI-etik og AI-lovrelaterede overvejelser ind i denne diskussion.

Grundlæggende om generativ AI

Den mest kendte forekomst af generativ AI er repræsenteret af en AI-app ved navn ChatGPT. ChatGPT sprang ind i den offentlige bevidsthed tilbage i november, da den blev udgivet af AI-forskningsfirmaet OpenAI. Lige siden ChatGPT har høstet store overskrifter og forbavsende overskredet sine tildelte femten minutters berømmelse.

Jeg gætter på, at du sikkert har hørt om ChatGPT eller måske endda kender nogen, der har brugt det.

ChatGPT betragtes som en generativ AI-applikation, fordi den tager noget tekst fra en bruger som input og derefter genererer eller producerer et output, der består af et essay. AI'en er en tekst-til-tekst-generator, selvom jeg beskriver AI'en som værende en tekst-til-essay-generator, da det lettere tydeliggør, hvad den almindeligvis bruges til. Du kan bruge generativ kunstig intelligens til at komponere lange kompositioner, eller du kan få den til at give ret korte pittige kommentarer. Det hele er efter dit bud.

Alt du skal gøre er at indtaste en prompt, og AI-appen genererer et essay til dig, der forsøger at svare på din prompt. Den komponerede tekst vil virke, som om essayet er skrevet af den menneskelige hånd og sind. Hvis du skulle indtaste en prompt, der sagde "Fortæl mig om Abraham Lincoln", vil den generative AI give dig et essay om Lincoln. Der er andre former for generativ AI, såsom tekst-til-kunst og tekst-til-video. Jeg vil her fokusere på tekst-til-tekst-variationen.

Din første tanke kunne være, at denne generative evne ikke virker som en så stor sag med hensyn til at producere essays. Du kan nemt foretage en onlinesøgning på internettet og let finde tonsvis af essays om præsident Lincoln. Kickeren i tilfælde af generativ AI er, at det genererede essay er relativt unikt og giver en original komposition snarere end en kopi. Hvis du skulle prøve at finde det AI-producerede essay online et sted, ville du sandsynligvis ikke opdage det.

Generativ AI er præ-trænet og gør brug af en kompleks matematisk og beregningsmæssig formulering, der er blevet sat op ved at undersøge mønstre i skrevne ord og historier på tværs af nettet. Som et resultat af at undersøge tusinder og millioner af skrevne passager, kan AI'en udspy nye essays og historier, der er en blanding af det, der blev fundet. Ved at tilføje forskellige probabilistiske funktioner, er den resulterende tekst temmelig unik i forhold til, hvad der er blevet brugt i træningssættet.

Der er mange bekymringer om generativ AI.

En afgørende ulempe er, at essays produceret af en generativ-baseret AI-app kan have forskellige løgne indlejret, herunder åbenlyst usande fakta, fakta, der er vildledende portrætteret, og tilsyneladende fakta, der er helt opdigtede. Disse opdigtede aspekter omtales ofte som en form for AI hallucinationer, et slagord, som jeg ikke favoriserer, men som desværre synes at vinde populær indpas alligevel (for min detaljerede forklaring om, hvorfor dette er elendig og uegnet terminologi, se min dækning på linket her).

En anden bekymring er, at mennesker let kan tage æren for et generativt AI-produceret essay, på trods af at de ikke selv har skrevet essayet. Du har måske hørt, at lærere og skoler er ret bekymrede over fremkomsten af generative AI-apps. Studerende kan potentielt bruge generativ AI til at skrive deres tildelte essays. Hvis en elev hævder, at et essay er skrevet af deres egen hånd, er der ringe chance for, at læreren kan skelne, om det i stedet er smedet af generativ AI. For min analyse af denne elev og lærer forvirrende facet, se min dækning på linket her , linket her.

Der har været nogle sindssyge store påstande på sociale medier om Generativ AI hævder, at denne seneste version af AI faktisk er følende AI (nej, de tager fejl!). Dem i AI-etik og AI-lov er især bekymrede over denne spirende tendens med udstrakte påstande. Du kan høfligt sige, at nogle mennesker overvurderer, hvad nutidens AI faktisk kan. De antager, at AI har egenskaber, som vi endnu ikke har været i stand til at opnå. Det er uheldigt. Endnu værre, de kan tillade sig selv og andre at komme i alvorlige situationer på grund af en antagelse om, at AI'en vil være sansende eller menneskelignende i at kunne handle.

Antropomorf ikke AI.

Hvis du gør det, bliver du fanget i en klæbrig og hård afhængighedsfælde, hvor du forventer, at AI'en gør ting, den ikke er i stand til at udføre. Når det er sagt, er det seneste inden for generativ AI relativt imponerende for, hvad det kan. Vær dog opmærksom på, at der er betydelige begrænsninger, som du hele tiden bør huske på, når du bruger en generativ AI-app.

En sidste advarsel for nu.

Hvad end du ser eller læser i et generativt AI-svar synes skal formidles som rent faktuelle (datoer, steder, personer osv.), sørg for at forblive skeptisk og være villig til at dobbelttjekke, hvad du ser.

Ja, datoer kan opdigtes, steder kan finde på, og elementer, som vi normalt forventer at være hævet over bebrejdelser, er alle underlagt mistanke. Tro ikke på, hvad du læser, og hold et skeptisk øje, når du undersøger generative AI-essays eller output. Hvis en generativ AI-app fortæller dig, at Abraham Lincoln fløj rundt i landet i sit private jetfly, ville du utvivlsomt vide, at dette er malarky. Desværre er nogle mennesker måske ikke klar over, at jetfly ikke var til stede i hans tid, eller de ved måske, men undlader at bemærke, at essayet fremsætter denne frekke og skandaløst falske påstand.

En stærk dosis sund skepsis og en vedvarende tankegang af vantro vil være dit bedste aktiv, når du bruger generativ AI.

Vi er klar til at gå ind i næste fase af denne opklaring.

Internettet og generativ AI er i dette sammen

Nu hvor du har et billede af, hvad generativ AI er, kan vi udforske det irriterende spørgsmål om, hvorvidt generativ AI er retfærdigt eller uretfærdigt "løftende", eller nogle vil sige åbenlyst udnytte Internetindhold.

Her er mine fire vitale emner, der er relevante for denne sag:

1) Dobbeltproblemer: Plagiat og krænkelse af ophavsret
2) At forsøge at bevise plagiat eller krænkelse af ophavsret vil være et forsøg
3) At argumentere for plagiat eller krænkelse af ophavsret
4) Lovlige landminer venter

Jeg vil dække hvert af disse vigtige emner og komme med indsigtsfulde overvejelser, som vi alle bør tænke over. Hvert af disse emner er en integreret del af et større puslespil. Du kan ikke kun se på ét stykke. Du kan heller ikke se på noget stykke isoleret fra de andre stykker.

Dette er en indviklet mosaik, og hele puslespillet skal tages ordentligt harmonisk i betragtning.

Dobbeltproblemer: Plagiat og krænkelse af ophavsret

Det dobbelte problem for dem, der laver og arbejder med generativ kunstig intelligens, er, at deres varer muligvis gør to dårlige ting:

1) Plagiat. Den generative AI kunne fortolkes som plagiere indhold, der findes på internettet i henhold til internetscanningen, der fandt sted under datatræning af AI.
2) Krænkelse af ophavsret. Den generative AI kunne hævdes som virksomhed krænkelse af ophavsret forbundet med internetindholdet, der blev scannet under datatræning.

For at præcisere, er der meget mere indhold på internettet, end der faktisk typisk scannes til datatræning af generativ AI. Kun en lille brøkdel af internettet er normalt ansat. Således kan vi formodentlig antage, at alt indhold, der ikke blev scannet under datatræning, ikke har noget særligt oksekød med generativ AI.

Dette er dog noget diskutabelt, da du potentielt kan tegne en linje, der forbinder andet indhold, der blev scannet, med det indhold, der ikke blev scannet. Et andet vigtigt forbehold er også, at selvom der er indhold, der ikke er scannet, kan det stadig argumenteres for at være plagieret og/eller krænket ophavsret, hvis outputtet fra den generative AI muligvis lander på samme ordlyd. Min pointe er, at der er meget squishiness i alt dette.

Bundlinie: Generativ AI er fyldt med potentielle AI Etiske og AI Lov juridiske gåder, når det kommer til plagiat og krænkelse af ophavsret understøtter den fremherskende datatræningspraksis.

Indtil videre har AI-magere og AI-forskere skøjtet igennem dette stort set uden skud, på trods af det truende og betænkeligt dinglende sværd, der hænger over dem. Kun få retssager er til dato blevet indledt mod denne praksis. Du har måske hørt eller set nyhedsartikler om sådanne retslige handlinger. Den ene involverer for eksempel tekst-til-billede-firmaerne Midjourney og Stability AI for at krænke kunstnerisk indhold, der er lagt på internettet. En anden medfører tekst-til-kode-krænkelse mod GitHub, Microsoft og OpenAI på grund af Copilot-softwaren, der producerer AI-apps. Getty Images har også haft til formål at gå efter Stability AI for tekst-til-billede krænkelse.

Du kan forudse, at flere sådanne retssager vil blive anlagt.

Lige nu er det lidt tilfældigt at indlede disse retssager, da resultatet er relativt ukendt. Vil retten side med AI-skaberne, eller vil de, der mener, at deres indhold blev uretfærdigt udnyttet, vinde? En kostbar juridisk kamp er altid en alvorlig sag. Udgifterne til de store sagsomkostninger skal afvejes mod chancerne for at vinde eller tabe.

AI-skaberne ser ud til at have næsten intet andet valg end at kæmpe. Hvis de faldt ind, selv en lille smule, er oddsene, at en strøm af yderligere retssager ville resultere (i det væsentlige åbner døren for øgede chancer for, at andre også vinder). Når først der er lovligt blod i vandet, vil de resterende lovlige hajer skynde sig til den betragtede "lette score", og et tæsk og bankende monetært blodbad ville helt sikkert forekomme.

Nogle mener, at vi bør vedtage nye AI-love, der ville beskytte AI-skaberne. Beskyttelsen kan endda have tilbagevirkende kraft. Grundlaget for dette er, at hvis vi vil se generative AI-fremskridt, er vi nødt til at give AI-skaberne en sikker zone-landingsbane. Når først retssager begynder at score sejre mod AI-skaberne, hvis det sker (vi ved det ikke endnu), er bekymringen, at generativ AI vil forsvinde, da ingen vil være villige til at støtte AI-virksomhederne.

Som dygtigt påpeget i et nyligt Bloomberg Law-stykke med titlen "ChatGPT: IP, Cybersecurity & Other Legal Risks of Generative AI" af Dr. Ilia Kolochenko og Gordon Platt, Bloomberg Law, februar 2023, er her to vigtige uddrag, der gentager disse synspunkter:

"En ophedet debat raser nu blandt amerikanske jurister og IP-juraprofessorer om, hvorvidt den uautoriserede skrabning og efterfølgende brug af ophavsretsbeskyttede data udgør en krænkelse af ophavsretten. Hvis synet fra advokater, der ser krænkelser af ophavsretten i en sådan praksis, er fremherskende, kan brugere af sådanne AI-systemer også være ansvarlige for sekundær krænkelse og potentielt stå over for juridiske konsekvenser."
"For at løse udfordringen fuldt ud, bør lovgivere overveje ikke bare at modernisere den eksisterende lovgivning om ophavsret, men også implementere et sæt AI-specifikke love og regler."

Husk på, at vi som samfund indførte juridisk beskyttelse for udvidelse af internettet, som det er vidne til nu af Højesteret, der gennemgår den berømte eller berygtede Section 230. Det forekommer således inden for rimelighed og præcedens, at vi kunne være villige til at gøre nogle lignende beskyttelser for fremme af generativ AI. Måske kunne beskyttelserne konfigureres midlertidigt og udløber efter generativ AI har nået et forudbestemt færdighedsniveau. Andre beskyttelsesbestemmelser kunne udtænkes.

Jeg vil snart offentliggøre min analyse af, hvordan højesterets vurdering og endelige afgørelse om Section 230 kan påvirke fremkomsten af generativ AI. Hold øje med det kommende opslag!

Tilbage til den skarpt udtalte mening om, at vi burde give spillerum til den samfundsmæssige ærefrygtindgydende teknologiske innovation kendt som generativ AI. Nogle vil sige, at selv hvis den påståede krænkelse af ophavsretten har eller sker, burde samfundet som helhed være villig til at tillade dette med det specifikke formål at fremme generativ kunstig intelligens.

Håbet er, at nye AI-love ville blive omhyggeligt udformet og justeret til de detaljer, der er forbundet med datatræning til generativ AI.

Der er masser af modargumenter til denne idé om at udtænke nye AI-love til dette formål. En bekymring er, at enhver sådan ny AI-lov vil åbne sluserne for alle former for ophavsretskrænkelse. Vi vil beklage den dag, hvor vi tillod sådanne nye AI-love at lande på bøgerne. Uanset hvor hårdt du prøver at begrænse dette til kun AI-datatræning, vil andre snigende eller behændigt finde smuthuller, der vil svare til uhæmmet og voldsom krænkelse af ophavsretten.

Argumenterne går rundt og rundt.

Et argument, der ikke holder særligt vand, har at gøre med at forsøge at sagsøge selve AI'en. Bemærk, at jeg har henvist til AI-mageren eller AI-forskerne som de skyldige interessenter. Det er mennesker og virksomheder. Nogle foreslår, at vi bør målrette AI som den part, der skal sagsøges. Jeg har diskuteret udførligt i min klumme, at vi endnu ikke tilskriver AI juridisk person, se linket her for eksempel, og således ville sådanne retssager rettet mod AI i sig selv blive betragtet som meningsløse lige nu.

Som et tillæg til spørgsmålet om, hvem eller hvad der skal sagsøges, bringer dette et andet saftigt emne op.

Antag, at en bestemt generativ AI-app er udtænkt af en eller anden AI-producent, som vi vil kalde Widget Company. Widget Company er relativt lille i størrelse og har ikke meget omsætning, og heller ikke meget i form af aktiver. At sagsøge dem vil sandsynligvis ikke skaffe de store rigdomme, som man måske søger. Højst ville du blot have den tilfredsstillelse at rette op på det, du opfatter som forkert.

Du vil gå efter den store fisk.

Her er hvordan det kommer til at opstå. En AI-producent vælger at gøre deres generative AI tilgængelig for Big Time Company, et stort konglomerat med tonsvis af dej og tonsvis af aktiver. En retssag om navngivning af Widget Company ville nu have et bedre mål i udsigt, nemlig også ved at navngive Big Time Company. Dette er en David og Goliat-kamp, som advokater ville nyde. Selvfølgelig vil Big Time Company uden tvivl forsøge at vrikke af fiskekrogen. Hvorvidt de kan gøre det, er endnu en gang et juridisk spørgsmål, der er usikkert, og de kan blive håbløst bundet ind i møget.

Før vi kommer meget videre på dette, vil jeg gerne have noget afgørende på bordet om de påståede indgreb i generativ AI på grund af datatræning. Jeg er sikker på, at du intuitivt indser, at plagiat og krænkelse af ophavsret er to noget forskellige dyr. De har meget til fælles, selvom de også adskiller sig markant.

Her er en praktisk kortfattet beskrivelse fra Duke University, der forklarer de to:

“Plagiat defineres bedst som uanerkendt brug af en anden persons arbejde. Det er et etisk spørgsmål, der involverer et krav om kredit for arbejde, som sagsøgeren ikke har oprettet. Man kan plagiere en andens værk uanset ophavsretsstatus for det pågældende værk. For eksempel er det ikke desto mindre plagiat at kopiere fra en bog eller artikel, der er for gammel til stadig at være under copyright. Det er også plagiat at bruge data hentet fra en ikke-anerkendt kilde, selvom faktuelt materiale som data muligvis ikke er beskyttet af ophavsret. Plagiat er dog let helbredt - korrekt citat til den oprindelige kilde til materialet."
”Krænkelse af ophavsretten er derimod uautoriseret brug af en andens værk. Dette er et juridisk spørgsmål, der afhænger af, hvorvidt værket er beskyttet af ophavsret i første omgang, såvel som af detaljer som hvor meget der bruges og formålet med brugen. Hvis man kopierer for meget af et beskyttet værk, eller kopierer til et uautoriseret formål, vil det ikke løse problemet blot at anerkende den originale kilde. Kun ved at søge forudgående tilladelse fra indehaveren af ophavsretten undgår man risikoen for en krænkelsesafgift."

Jeg påpeger vigtigheden af disse to bekymringer, så du vil indse, at retsmidler kan variere i overensstemmelse hermed. Desuden er de begge indblandet i overvejelser, der gennemsyrer AI-etik og AI-lov, hvilket gør dem lige værd at undersøge.

Lad os undersøge et påstået middel eller løsning. Du vil se, at det kan hjælpe på det ene af de dobbelte problemer, men ikke det andet.

Nogle har insisteret på, at alt hvad AI-skaberne skal gøre er at citere deres kilder. Når generativ AI producerer et essay, skal du blot inkludere specifikke citater for det, der står i essayet. Angiv forskellige URL'er og andre indikationer af, hvilket internetindhold der blev brugt. Dette ser ud til at få dem fri af betænkeligheder med plagiat. Det udsendte essay ville formodentlig klart identificere, hvilke kilder der blev brugt til den formulering, der blev produceret.

Der er nogle uenigheder i den påståede løsning, men på et 30,000 fods niveau, lad os sige, at det fungerer som en semi-tilfredsstillende kur mod plagiat-dilemmaet. Som nævnt ovenfor i forklaringen om krænkelse af ophavsretten, får citering af kildemateriale dig ikke nødvendigvis ud af hundehuset. Hvis man antager, at indholdet var ophavsretligt beskyttet, og afhængigt af andre faktorer, såsom hvor meget af materialet, der blev brugt, kan det afventende sværd af ophavsretskrænkelse svinge skarpt og endeligt nedad.

Double trouble er kodeordet her.

At prøve at bevise plagiat eller krænkelse af ophavsret vil være et forsøg

Bevis det!

Det er det slidte omkvæd, som vi alle har hørt på forskellige tidspunkter i vores liv.

Du ved, hvordan det går. Du kan hævde, at der sker eller er sket noget. Du ved måske i dit hjerte, at dette har fundet sted. Men når det kommer til push-versus-shove, skal du have beviset.

I dagens sprogbrug skal du vise kvitteringer, som de siger.

Mit spørgsmål til dig er dette: Hvordan skal vi beviseligt bevise, at generativ kunstig intelligens har udnyttet internetindhold upassende?

Man formoder, at svaret skal være nemt. Du beder eller fortæller den generative AI om at producere et udskrevet essay. Du tager derefter essayet og sammenligner det med det, der kan findes på internettet. Hvis du finder essayet, bam, har du den generative AI naglet til den velsprogede væg.

Livet ser aldrig ud til at være så nemt.

Forestil dig, at vi får generativ AI til at producere et essay, der indeholder omkring 100 ord. Vi går rundt og prøver at nå ud til alle afkroge af internettet og søger efter de 100 ord. Hvis vi finder de 100 ord, vist i nøjagtig samme rækkefølge og på en identisk måde, ser det ud til, at vi har fanget os selv et varmt ord.

Antag dog, at vi på internettet finder et tilsyneladende "sammenlignbart" essay, selvom det kun matcher 80 af de 100 ord. Dette synes måske stadig nok. Men forestil dig, at vi kun finder et eksempel på 10 ord af de 100, der matcher. Er det nok til at hævde, at der enten er sket plagiat, eller at der er sket en krænkelse af ophavsretten?

Gråhed findes.

Tekst er sjov på den måde.

Sammenlign dette med tekst-til-billede eller tekst-til-kunst omstændigheder. Når generativ AI giver en tekst-til-billede- eller tekst-til-kunst-funktion, indtaster du en tekstprompt, og AI-appen producerer et billede, der er lidt baseret på den prompt, du har givet. Billedet kan være ulig ethvert billede, der nogensinde er blevet set på denne eller nogen anden planet.

På den anden side kan billedet minde om andre billeder, der findes. Vi kan se på det generative AI-producerede billede og lidt af mave-instinkt sige, at det helt sikkert ligner et andet billede, som vi har set før. Generelt er visuel aspekter af sammenligning og kontrast udføres lidt lettere. Når det er sagt, skal du vide, at enorme juridiske debatter sikrer, hvad der udgør overlapning eller replikering af et billede fra et andet.

En anden lignende situation eksisterer med musik. Der er generative AI-apps, der giver dig mulighed for at indtaste en tekstprompt, og outputtet produceret af AI er lydmusik. Disse tekst-til-lyd- eller tekst-til-musik AI-funktioner er lige nu begyndt at dukke op. En ting, du kan satse din højeste dollar på, er, at musikken produceret af generativ AI vil blive grundigt undersøgt for krænkelse. Vi ser ud til at vide det, når vi hører musikalsk krænkelse, selvom dette igen er et komplekst juridisk spørgsmål, der ikke kun er baseret på, hvordan vi har det med den opfattede replikation.

Tillad mig endnu et eksempel.

Tekst-til-kode generativ AI giver dig mulighed for at indtaste en tekstprompt, og AI'en vil producere programmeringskode til dig. Du kan derefter bruge denne kode til at forberede et computerprogram. Du kan bruge koden nøjagtigt som den er genereret, eller du kan vælge at redigere og justere koden, så den passer til dine behov. Der er også behov for at sikre, at koden er passende og brugbar, da det er muligt, at der kan opstå fejl og falskheder i den genererede kode.

Din første antagelse kan være, at programmeringskoden ikke er anderledes end tekst. Det er bare tekst. Nok er det en tekst, der giver et bestemt formål, men det er stadig tekst.

Nå, ikke ligefrem. De fleste programmeringssprog har et stramt format og struktur i forhold til arten af kodningsudsagn for det pågældende sprog. Dette er på en måde meget snævrere end fritflydende naturligt sprog. Du er noget indrammet med hensyn til, hvordan kodningsudsagn er formuleret. Ligeledes er rækkefølgen og måden, hvorpå udsagn bruges og opstilles, lidt indrammet.

Alt i alt er muligheden for at vise, at programmeringskoden blev plagieret eller krænket, næsten nemmere end naturligt sprog. Når en generativ AI går til at scanne programmeringskode på internettet og senere genererer programmeringskode, vil chancerne for at argumentere for, at koden var åbenlyst replikeret, være relativt mere overbevisende. Ikke en slam dunk, så forvent bitre kampe om dette.

Min overordnede pointe er, at vi kommer til at have de samme AI-etik og AI-love-problemer, som konfronteres med alle former for generativ AI.

Plagiat og krænkelse af ophavsret vil være problematisk for:

Tekst-til-tekst eller tekst-til-essay
Tekst-til-billede eller tekst-til-kunst
Tekst-til-lyd eller tekst-til-musik
Tekst-til-video
Tekst-til-kode
Osv

De er alle underlagt de samme bekymringer. Nogle er måske lidt nemmere at "bevise" end andre. Alle vil de have deres egen række af mareridt af en AI-etik og AI-lov-grundstødning.

Påberåber sig plagiat eller krænkelse af ophavsret

Til diskussionsformål, lad os fokusere på tekst-til-tekst eller tekst-til-essay generativ AI. Det gør jeg delvist på grund af ChatGPTs enorme popularitet, som er tekst-til-tekst-typen af generativ AI. Der er mange mennesker, der bruger ChatGPT, sammen med mange andre, der bruger forskellige lignende tekst-til-tekst-generative AI-apps.

Ved de mennesker, der bruger generative AI-apps, at de potentielt er afhængige af plagiat eller krænkelse af ophavsretten?

Det virker tvivlsomt, at de gør det.

Jeg vil vove at påstå, at den fremherskende antagelse er, at hvis den generative AI-app er tilgængelig til brug, skal AI-producenten eller den virksomhed, der har betjent AI'en, vide eller være sikker på, at der ikke er noget uheldigt ved de varer, de tilbyder til brug. Hvis du kan bruge det, skal det være over bord.

Lad os gense min tidligere kommentar om, hvordan vi vil prøve at bevise, at en bestemt generativ AI arbejder på et forkert grundlag med hensyn til datatræningen.

Jeg kan også tilføje, at hvis vi kan fange en generativ AI, der gør det, vil chancerne for at fange de andre sandsynligvis blive forbedret. Jeg siger ikke, at alle generative AI-apps ville være i samme båd. Men de kommer til at befinde sig i temmelig hårdt hav, når en af dem er fastgjort til væggen.

Også derfor vil det være umådeligt umagen værd at holde øje med de eksisterende retssager. Den første, der vinder med hensyn til den påståede krænkelse, hvis dette sker, vil muligvis betyde undergang og dysterhed for de andre generative AI-apps, medmindre en vis snæverhed undslipper de bredere problemer. De, der taber med hensyn til den påståede krænkelse, betyder ikke nødvendigvis, at de generative AI-apps kan ringe med klokker og fejre. Det kan være, at tabet tilskrives andre faktorer, der ikke er så relevante for de andre generative AI-apps, og så videre.

Jeg havde nævnt, at hvis vi tager et 100-ords essay og prøver at finde de præcise ord i nøjagtig samme rækkefølge på internettet, kan vi have en relativt solid sag for plagiat eller krænkelse af ophavsretten, alt andet lige. Men hvis antallet af ord, der matcher, er lavt, ser vi ud til at være på tynd is.

Det vil jeg gerne grave dybere ned i.

Et indlysende aspekt ved at lave en sammenligning består af nøjagtig de samme ord i nøjagtig samme rækkefølge. Dette kan forekomme for hele passager. Dette ville være praktisk at få øje på, næsten som at blive givet os på et sølvfad.

Vi kan også være mistænksomme, hvis kun et uddrag af ord matcher. Ideen ville være at se, om de er afgørende ord eller måske fyldord, som vi let kan fjerne eller ignorere. Vi ønsker heller ikke at blive narret af brugen af ord i deres fortid eller fremtid, eller en anden tomfjolleri. Disse variationer i ord bør også overvejes.

Et andet niveau af sammenligning ville være, når ordene ikke er særligt de samme ord i stor udstrækning, men selv i en varieret tilstand synes ordene stadig at fremføre de samme pointer. For eksempel vil et resumé ofte bruge ganske ens ord som en originalkilde, men vi kan se, at resuméet virker baseret på originalkilden.

Det sværeste niveau af sammenligning ville være baseret på koncepter eller ideer. Antag, at vi ser et essay, der ikke har de samme eller lignende ord som sammenligningsgrundlag, men essensen eller ideerne er de samme. Vi er ganske vist på vej ind i et groft territorium. Hvis vi uden videre skulle sige, at ideer er tæt beskyttet, ville vi lægge låg på næsten alle former for viden og vidensudvidelse.

Vi kan igen henvise til en praktisk forklaring fra Duke University:

"Copyright beskytter ikke ideer, kun det specifikke udtryk for en idé. For eksempel besluttede en domstol, at Dan Brown ikke krænkede ophavsretten til en tidligere bog, da han skrev The Da Vinci Code fordi alt, hvad han lånte fra det tidligere arbejde, var de grundlæggende ideer, ikke detaljerne i plot eller dialog. Da ophavsretten har til formål at fremme kreativ produktion, opretholder det formålet med ophavsretten at bruge andres ideer til at skabe et nyt og originalt værk, og det krænker den ikke. Kun hvis man kopierer en andens udtryk uden tilladelse, er ophavsretten potentielt krænket.”
”For at undgå plagiat skal man derimod anerkende kilden selv til ideer, der er lånt fra en anden, uanset om de ideers udtryk er lånt med dem. En omskrivning kræver således citering, selvom den sjældent rejser noget ophavsretligt problem."

Bemærk venligst som tidligere identificeret forskellene mellem de dobbelte problem-facetter.

Nu er det noget, der har foregået i mange år at omsætte sammenligningsmetoderne i praksis. Tænk på det på denne måde. Studerende, der skriver essays til deres skolearbejde, kan blive fristet til at hente indhold fra internettet og lade som om, at de har skrevet de A-klasse Pulitzer-prisvindende ord.

Lærere har brugt programmer til at kontrollere plagiat i lang tid for at håndtere dette. En lærer tager en elevs essay og fører det ind i plagiatkontrollen. I nogle tilfælde vil en hel skole licensere brugen af et plagiatkontrolprogram. Når eleverne afleverer et essay, skal de først sende essayet til plagiatkontrolprogrammet. Læreren informeres om, hvad programmet rapporterer.

Desværre skal du være ekstremt forsigtig med, hvad disse plagiatkontrolprogrammer har at sige. Det er vigtigt omhyggeligt at vurdere, om de rapporterede indikationer er gyldige. Som allerede nævnt kan evnen til at konstatere, om et værk blev kopieret, være sløret. Hvis du tankeløst accepterer resultatet af kontrolprogrammet, kan du fejlagtigt beskylde en elev for at kopiere, når de ikke gjorde det. Dette kan være sjæleknusende.

For at fortsætte, kan vi prøve at bruge plagiatkontrolprogrammer i området for test af generative AI-output. Behandl de udsendte essays fra en generativ AI-app, som om den var skrevet af en studerende. Vi måler derefter, hvad plagiatkontrollen siger. Dette gøres med et gran salt.

Der er en nylig forskningsundersøgelse, der forsøgte at operationalisere disse typer sammenligninger i forbindelse med generativ AI på netop denne måde. Jeg vil gerne gennemgå nogle interessante resultater med dig.

For det første kræves der tilføjet baggrund. Generativ AI omtales nogle gange som LLM'er (store sprogmodeller) eller blot LM'er (sprogmodeller). For det andet er ChatGPT baseret på en version af en anden OpenAI generativ AI-pakke kaldet GPT-3.5. Før GPT-3.5 var der GPT-3, og før det var GPT-2. I dag betragtes GPT-2 som ret primitiv i forhold til den senere serie, og vi venter alle spændt på den kommende afsløring af GPT-4, se min diskussion på linket her.

Det forskningsstudie, som jeg kort vil udforske, bestod i at undersøge GPT-2. Det er vigtigt at indse, da vi nu er længere end GPT-2's muligheder. Foretag ikke nogen forhastede konklusioner om resultaterne af denne analyse af GPT-2. Ikke desto mindre kan vi lære en hel del af vurderingen af GPT-2. Undersøgelsen har titlen "Do Language Models Plagiarize?" af Jooyoung Lee, Thai Le, Jinghui Chen og Dongwon Lee, der optræder i ACM WWW '23, 1.-5. maj 2023, Austin, TX, USA.

Dette er deres vigtigste forskningsspørgsmål:

"I hvilken udstrækning (ikke begrænset til memorering) udnytter LM'er sætninger eller sætninger fra deres træningseksempler?"

De brugte disse tre niveauer eller kategorier af potentielt plagiat:

"Ordret plagiat: Nøjagtige kopier af ord eller sætninger uden transformation."
"Plagiering i parafrase: Synonym substitution, ordomlægning og/eller tilbageoversættelse."
"Idéplagiat: Repræsentation af kerneindhold i en langstrakt form."

GPT-2 blev faktisk trænet i internetdata og dermed en egnet kandidat til denne type analyse:

"GPT-2 er præ-trænet på WebText, der indeholder over 8 millioner dokumenter hentet fra 45 millioner Reddit-links. Da OpenAI ikke har udgivet WebText offentligt, bruger vi OpenWebText, som er en open source-genskabelse af WebText-korpuset. Det er blevet brugt pålideligt af tidligere litteratur."

Selektive nøgleresultater som uddrag fra undersøgelsen består af:

"Vi opdagede, at forudtrænede GPT-2-familier plagierer fra OpenWebText."
"Vores resultater viser, at finjustering markant reducerer sager om ordret plagiat fra OpenWebText."
"I overensstemmelse med Carlini et al. og Carlini et al., finder vi ud af, at større GPT-2-modeller (large og xl) generelt genererer plagierede sekvenser hyppigere end mindre."
"Men forskellige LM'er kan vise forskellige plagieringsmønstre, og derfor kan vores resultater ikke direkte generalisere til andre LM'er, herunder nyere LM'er såsom GPT-3 eller BLOOM."
"Derudover er automatiske plagiatdetektorer kendt for at have mange fejltilstande (både i falsk negativ og falsk positiv).
"I betragtning af at et flertal af LM'ers træningsdata er skrabet fra nettet uden at informere indholdsejere, har deres gentagelse af ord, sætninger og endda kerneideer fra træningssæt til genererede tekster etiske implikationer."

Vi har bestemt brug for mange flere undersøgelser af denne art.

Hvis du er nysgerrig efter, hvordan GPT-2 kan sammenlignes med GPT-3 vedrørende datatræning, er der en ganske markant kontrast.

Ifølge rapporterede indikationer var datatræningen for GPT-3 meget mere omfattende:

”Modellen blev trænet ved hjælp af tekstdatabaser fra internettet. Dette omfattede hele 570 GB data hentet fra bøger, webtekster, Wikipedia, artikler og andre skrifter på internettet. For at være endnu mere præcis blev der ført 300 milliarder ord ind i systemet" (BBC Science Focus magasinet, "ChatGPT: Alt hvad du behøver at vide om OpenAIs GPT-3-værktøj" af Alex Hughes, februar 2023).

For dem af jer, der er interesseret i mere dybdegående beskrivelser af datatræningen til GPT-3, er her et uddrag fra det officielle GPT-3-modelkort, der er offentliggjort på GitHub (sidst opdateret dato angivet som september 2020):

"GPT-3 træningsdatasættet er sammensat af tekst, der er lagt ud på internettet, eller af tekst uploadet til internettet (f.eks. bøger). De internetdata, som den er blevet trænet på og evalueret i forhold til til dato, omfatter: (1) en version af CommonCrawl-datasættet, filtreret baseret på lighed med referencekorpora af høj kvalitet, (2) en udvidet version af Webtekst-datasættet, (3 ) to internetbaserede bogkorpus og (4) engelsksprogede Wikipedia."
"I betragtning af dets træningsdata er GPT-3's output og ydeevne mere repræsentative for internetforbundne befolkninger end dem, der er gennemsyret af verbal, ikke-digital kultur. Den internetforbundne befolkning er mere repræsentativ for udviklede lande, velhavende, yngre og mandlige synspunkter og er for det meste USA-centreret. Velhavende nationer og befolkninger i udviklede lande viser højere internetpenetration. Den digitale kønsfordeling viser også, at færre kvinder er repræsenteret online på verdensplan. Derudover, fordi forskellige dele af verden har forskellige niveauer af internetpenetration og adgang, underrepræsenterer datasættet mindre forbundne fællesskaber."

En ting, der kan tages fra ovenstående indikation om GPT-3, er, at en tommelfingerregel blandt dem, der laver generativ AI, er, at jo flere internetdata du kan scanne, stiger oddsene for at forbedre eller fremme den generative AI.

Du kan se på dette på en af to måder.

1) Forbedret AI. Vi kommer til at have generativ kunstig intelligens, der gennemgår så meget af internettet som muligt. Det spændende resultat er, at den generative AI bliver bedre, end den allerede er. Det er noget at se frem til.
2) Kopieringspotentiale i massevis. Denne udvidelse af scanning af internettet gør på en ubehagelig og engagerende måde problemet med plagiat og krænkelse af ophavsret potentielt større og større. Mens der før ikke var så mange indholdsskabere påvirket, kommer størrelsen til at blomstre. Hvis du er en advokat på siden af indholdsskaberne, får du tårer i øjnene (måske tårer af forfærdelse eller glædestårer over, hvilke udsigter dette bringer i form af retssager).

Er glasset halvt fyldt eller halvtomt?

Du bestemmer.

Lovlige landminer venter

Et spørgsmål, som du måske overvejer, er, om dit udsendte internetindhold anses for at være fair game for at blive scannet. Hvis dit indhold er bag en betalingsmur, er det formentlig ikke et mål for at blive scannet, fordi det ikke umiddelbart kan nås, afhængigt af betalingsmurens styrke.

Jeg vil gætte på, at de fleste almindelige mennesker ikke har deres indhold gemt væk bag en betalingsmur. De ønsker, at deres indhold skal være offentligt tilgængeligt. De antager, at folk vil tage et kig på det.

Betyder det også aksiomatisk at have dit indhold offentligt tilgængeligt, at du godkender det til at blive scannet til brug af generativ AI, som er ved at blive datatrænet?

Måske ja måske nej.

Det er en af de juridiske sager, der ruller med øjnene.

Vender tilbage til det tidligere citerede Bloomberg lov artikel, nævner forfatterne vigtigheden af de vilkår og betingelser (T&C), der er knyttet til mange websteder:

"Den lovlige landmine - som i høj grad ignoreres af uvidende AI-virksomheder, der driver online-bots til dataskrabning - er skjult i vilkår og betingelser, der almindeligvis er tilgængelige på offentlige websteder af alle typer. I modsætning til den aktuelt uafklarede IP-lov og dilemmaet for krænkelse af ophavsret, er et websteds vilkår og betingelser understøttet af veletableret kontraktlovgivning og kan normalt håndhæves i retten med et tilstrækkeligt antal præcedenser."

De indikerer, at hvis du antager, at dit websted har en licensrelateret side, er chancerne for, at hvis du brugte en standardiseret moderne skabelon, kan den indeholde en afgørende klausul:

"Som følge heraf indeholder de fleste vilkår og betingelser for websteder - der er rigeligt tilgængelige i gratis adgang - en klausul, der forbyder automatiseret dataskrabning. Ironisk nok er sådanne frit tilgængelige skabeloner muligvis blevet brugt til ChatGPT-træning. Derfor kan indholdsejere ønske at gennemgå deres vilkår og betingelser og indsætte en separat klausul, der klart forbyder al brug af indhold fra webstederne til AI-træning eller relaterede formål, uanset om det indsamles manuelt eller automatisk, uden forudgående skriftlig tilladelse fra webstedsejeren ."

En ekstra kicker er inkluderet i deres analyse af potentielle handlinger for indholdsskabere at tage om deres websteder:

"Derfor kan indsættelse af en eksigibel erstatningsbestemmelse for hver overtrædelse af klausulen om ikke-skrabning, forstærket med et påbud-uden-bindingsbestemmelse, være en holdbar løsning for de forfattere af kreativt indhold, som ikke er ivrige efter at levere frugten af deres intellektuelt arbejde til AI-træningsformål uden at blive betalt for det eller i det mindste givet en ordentlig kredit for deres arbejde."

Du kan eventuelt kontakte din advokat om dette.

Nogle siger, at dette er en vigtig måde at forsøge at fortælle AI-skaberne, at indholdsskabere er meget seriøse med at beskytte deres indhold. At sikre, at din licens har den korrekte ordlyd, ser ud til at sætte AI-skaberne på varsel.

Andre er dog lidt nedslåede. De siger modløst, at du kan fortsætte med at sætte det hårdeste og mest dødelige juridiske sprog på din hjemmeside, men i sidste ende vil AI-magerne scanne det. Du vil ikke vide, at de gjorde det. Du vil have en djævel af en tid, der beviser, at de gjorde det. Det er usandsynligt, at du opdager, at deres output afspejler dit indhold. Det er en kamp op ad bakke, som du ikke kommer til at vinde.

Modargumentet er, at du overgiver slaget, før det overhovedet blev ført. Hvis du i det mindste ikke har et tilstrækkeligt juridisk sprog, og hvis du nogensinde fanger dem, vil de vrikke og vævle sig frem til at undslippe ethvert ansvar. Alt sammen fordi du ikke postede den rigtige form for juridisk sprogbrug.

I mellemtiden vil en anden tilgang, der søger at vinde, bestå af mærkning dit websted med noget, der siger, at webstedet ikke skal scannes af generativ AI. Tanken er, at en standardiseret markør ville blive udtænkt. Websteder kan formodentlig tilføje markøren til deres websted. AI-producenter ville blive fortalt, at de skulle ændre deres datascanning for at springe over de markerede websteder.

Kan en markørtilgang være vellykket? Bekymringerne omfatter omkostningerne til at anskaffe og opsætte mærkerne. Sammen med om AI-skaberne vil overholde markørerne og sikre, at de undgår at scanne de markerede steder. Et andet perspektiv er, at selvom AI-skaberne ikke går med på markeringerne, giver dette endnu et afslørende fingerpeg om at gå til retten og argumentere for, at indholdsskaberen gik den sidste mil for at forsøge at advare om AI-scanningen.

Yikes, det hele får dit hoved til at snurre.

Konklusion

Et par sidste bemærkninger om dette vanskelige emne.

Er du klar til et tankevækkende perspektiv på hele denne kunstige intelligens som et dilemma, der plagierer og krænker ophavsret?

En stor del af antagelsen om at "fange" generativ AI ved plagiat eller krænkelse af ophavsret afhænger af at opdage output, der ligner meget tidligere værker såsom indholdet på internettet, der potentielt blev scannet under datatræning.

Antag dog, at et opdel-og-hersk-trick er på spil her.

Her er hvad jeg mener.

Hvis den generative AI låner en lille smule herfra og en lille smule derfra, og i sidste ende blander dem sammen til at producere et bestemt output, er chancerne for at være i stand til at have et gotcha-øjeblik formindsket enormt. Ethvert output vil tilsyneladende ikke stige til en tilstrækkelig tærskel til, at man med sikkerhed kan sige, at det var kopieret fra et bestemt kildeelement. Det resulterende essay eller andre outputmåder vil kun brøkdele kunne matches. Og ved den sædvanlige tilgang med at forsøge at argumentere for, at plagiat eller krænkelse af ophavsretten har fundet sted, er du normalt nødt til at fremvise mere, end en lille bitte smule er på spil, især hvis stykket ikke er en fremtrædende og kan findes bredt på internettet (underbud). enhver tilstrækkelig bevisbyrde for uretmæssig tilegnelse).

Kan du stadig overbevisende erklære, at datatræningen af generativ AI har rippet websteder og indholdsskabere af, selvom det foreslåede bevis er en tilsyneladende uvæsentlig andel?

Tænk over det.

Hvis vi står over for potentielt plagiat i stor målestok og krænkelse af ophavsret i stor målestok, er vi muligvis nødt til at ændre vores tilgang til at definere, hvad der udgør plagiat og/eller krænkelse af ophavsret. Måske er der tale om plagiering eller krænkelse af ophavsretten i det store og hele. En mosaik bestående af tusinder eller millioner af små uddrag kan fortolkes som at begå sådanne krænkelser. Det tilsyneladende problem er dog, at dette kan få al slags indhold til pludselig at komme under en paraply af brud. Dette kan være en glidebane.

Tunge tanker.

Når vi taler om tunge tanker, sagde Leo Tolstoj, den legendariske forfatter, berømt: "Den eneste mening med livet er at tjene menneskeheden."

Hvis din hjemmeside og andres hjemmesider bliver scannet for at forbedre kunstig intelligens, og selvom du ikke får en eneste krone for det, kan du måske have en højtidelig trøst i den brændende tro på, at du bidrager til menneskehedens fremtid? Det virker som en lille pris at betale.

Nå, medmindre AI viser sig at være den frygtede eksistentielle risiko, der udsletter alle mennesker fra eksistensen. Det skal du ikke tage æren for. Jeg går ud fra, at du lige så snart ikke ville bidrage til det forfærdelige resultat. Hvis man lægger den katastrofale forudsigelse til side, tænker du måske, at hvis AI-skaberne tjener penge på deres generative AI, og de ser ud til at nyde profitmagten, så burde du også få en del af kagen. Del og del ens. AI-skaberne bør bede om tilladelse til at scanne ethvert websted og derefter også forhandle en pris, der skal betales for at have fået lov til at foretage scanningen.

Giv kredit, hvor der skal krediteres.

Lad os give Sir Walter Scott det sidste ord for nu: "Åh, sikke et sammenfiltret net vi væver. Når vi først øver os på at bedrage."

Dette gælder måske, hvis du tror, at bedrag er på vej, eller måske gælder det ikke, hvis du mener, at alt er godt og fuldkommen ligefremt og legitimt. Giv venligst generøst dig selv kredit for at tænke over dette. Du fortjener det.

Kilde: https://www.forbes.com/sites/lanceeliot/2023/02/26/legal-doomsday-for-generative-ai-chatgpt-if-caught-plagiarizing-or-infringing-warns-ai-ethics- og-ai-lov/