Hvor hårdt skal vi presse Generativ AI ChatGPT til at udsende hadefulde ytringer, spørger AI-etik og AI-lov

Hvad skal vi gøre ved generativ kunstig intelligens, der producerer stødende indhold såsom hadefulde ytringer?

Getty

Alle har deres bristepunkt.

Det kan man vel også sige at alt har sit bristepunkt.

Vi ved, at mennesker for eksempel nogle gange kan snappe og komme med bemærkninger, som de ikke nødvendigvis vil sige. Ligeledes kan du til tider få en enhed eller maskine til i det væsentlige at snappe, såsom at skubbe din bil for hårdt, og den begynder at vakle eller flyve fra hinanden. Således er forestillingen, at mennesker eller "alle" sandsynligvis har et bristepunkt, og på samme måde kan vi hævde, at objekter og ting generelt også har en tendens til at have et bristepunkt.

Der kunne være ganske fornuftige og vitale grunde til at finde ud af, hvor bristepunktet findes. For eksempel har du utvivlsomt set de videoer, der viser en bil, der bliver sat igennem dens tempo for at identificere, hvilke knækpunkter den har. Forskere og testere vil ramme en bil ind i en murstensvæg for at se, hvor godt kofangeren og køretøjets struktur kan modstå den ugunstige handling. Andre test kunne omfatte brug af et specialiseret rum eller lager, der producerer ekstrem kulde eller ekstrem varme for at se, hvordan en bil vil klare sig under forskellige vejrforhold.

Jeg bringer dette hjertelige emne op i dagens klumme, så vi kan diskutere, hvordan nogle i øjeblikket presser hårdt på kunstig intelligens (AI) for at identificere og formentlig afsløre en bestemt type bristepunkt, nemlig bristepunktet inden for AI, der producerer hadefuld tale.

Ja, det er rigtigt, der er forskellige ad hoc og til tider systematiske bestræbelser i gang for at vurdere, om det er muligt eller ej at få AI til at udsende hadefulde ytringer. Dette er blevet en ivrig sport, om man vil, på grund af den stigende interesse for og popularitet af generativ AI.

Du er måske klar over, at en generativ AI-app kendt som ChatGPT er blevet byens overordnede snak som følge af at være i stand til at generere utroligt flydende essays. Overskrifter bliver ved med at brage og hylde det forbløffende forfatterskab, som ChatGPT formår at producere. ChatGPT betragtes som en generativ AI-applikation, der tager noget tekst fra en bruger som input og derefter genererer eller producerer et output, der består af et essay. AI'en er en tekst-til-tekst-generator, selvom jeg beskriver AI'en som værende en tekst-til-essay-generator, da det lettere tydeliggør, hvad den almindeligvis bruges til.

Mange bliver overraskede, når jeg nævner, at denne type kunstig intelligens har eksisteret i et stykke tid, og at ChatGPT, som blev udgivet i slutningen af november, ikke på en eller anden måde hævdede prisen som first-mover til denne verden af tekst-til-essay tilbøjelighed. Jeg har gennem årene diskuteret andre lignende generative AI-apps, se min dækning på linket her.

Grunden til, at du måske ikke kender til eller husker de tidligere forekomster af generativ AI, skyldes måske den klassiske "manglende lancering med succes" gåde. Her er hvad der normalt er sket. En AI-producent frigiver deres generative AI-app og gør det med stor spænding og ivrig forventning om, at verden vil sætte pris på opfindelsen af en bedre musefælde, kan man sige. Umiddelbart ser alt godt ud. Folk er forbløffede over, hvad AI kan.

Desværre er næste skridt, at hjulene begynder at komme af den kendte bus. AI'en producerer et essay, der indeholder et dårligt ord eller måske en dårlig sætning. Et viralt tweet eller andet opslag på sociale medier fremhæver tydeligt, at AI gjorde dette. Fordømmelse opstår. Vi kan ikke have AI, der går rundt og genererer stødende ord eller stødende bemærkninger. En enorm modreaktion dukker op. AI-producenten forsøger måske at justere AI'ens indre funktioner, men kompleksiteten af algoritmerne og dataene egner sig ikke til hurtige løsninger. Et stormløb følger. Flere og flere eksempler på den AI-udsendende fejl bliver fundet og lagt online.

AI-producenten har modvilligt, men tydeligvis ikke andet valg end at fjerne AI-appen fra brug. De fortsætter som sådan og giver derefter ofte en undskyldning, som de fortryder, hvis nogen blev fornærmet over de genererede AI-output.

Tilbage til tegnebrættet går AI-mageren. En lektie er blevet lært. Vær meget forsigtig med at frigive generativ AI, der producerer grimme ord eller lignende. Det er dødens kys for AI. Ydermere vil AI-producenten få deres omdømme ødelagt og forslået, hvilket kan holde i lang tid og underbyde alle deres andre AI-indsatser, inklusive dem, der ikke har noget at gøre med generativ AI i sig selv. Det er en nu varig fejl at få din kælling til at udsende stødende AI-sprog. Det sker stadig.

Vask, skyl og gentag.

I de tidlige dage af denne type AI var AI-skaberne ikke helt så samvittighedsfulde eller dygtige til at skrubbe deres AI med hensyn til at forsøge at forhindre offensive emissioner. I dag, efter tidligere at have set deres jævnaldrende blive fuldstændig knust af et PR-mareridt, har de fleste AI-skabere tilsyneladende fået beskeden. Du skal sætte så mange autoværn på plads, som du kan. Forsøg at forhindre AI i at udsende grimme ord eller grimme sætninger. Brug hvilken som helst mundkurvsteknikker eller filtreringsmetoder, der forhindrer AI i at generere og vise ord eller essays, der viser sig at være upassende.

Her er en smagsprøve på banneroverskriften, der bruges, når AI bliver fanget i at udsende uanede output:

"AI viser forfærdelig toksicitet"
"AI stinker af direkte bigotteri"
"AI bliver åbenlyst offensivt offensiv"
"AI udsender rystende og umoralsk hadefuld tale"
Osv

For at lette diskussionen heri vil jeg henvise til output af stødende indhold som lig med produktion af hadefuld tale. Når det er sagt, skal du være opmærksom på, at der er alle mulige former for stødende indhold, der kan produceres, der går ud over grænserne for hadefuld tale alene. Hadefulde ytringer opfattes typisk som kun én form for stødende indhold.

Lad os fokusere på hadefulde ytringer for denne diskussion, for at lette diskussionen, men indse, at andet stødende indhold også fortjener granskning.

At grave ind i hadefulde ytringer af mennesker og af AI

FN definerer hadefuld tale denne måde:

"I almindeligt sprog refererer 'hadefuld tale' til stødende diskurs rettet mod en gruppe eller et individ baseret på iboende karakteristika (såsom race, religion eller køn), og som kan true social fred. For at skabe en ensartet ramme for FN til at håndtere problemet globalt, definerer FN's strategi og handlingsplan for hadske ytringer hadefulde ytringer som 'enhver form for kommunikation i tale, skrift eller adfærd, der angriber eller bruger nedsættende eller diskriminerende sprog med henvisning til en person eller en gruppe på grundlag af, hvem de er, med andre ord baseret på deres religion, etnicitet, nationalitet, race, farve, afstamning, køn eller anden identitetsfaktor.' Men til dato er der ingen universel definition af hadefulde ytringer under international menneskerettighedslovgivning. Konceptet er stadig under diskussion, især i forhold til menings- og ytringsfrihed, ikke-forskelsbehandling og ligestilling” (FNs hjemmeside med titlen “Hvad er hadefulde ytringer?”).

AI, der producerer tekst, er underlagt at komme ind i hadetale-sfæren. Du kan sige det samme om tekst-til-kunst, tekst-til-lyd, tekst-til-video og andre former for generativ AI. Der er altid mulighed for for eksempel, at en generativ AI ville producere et kunstværk, der lugter af hadefuld tale. Med henblik på denne her diskussion vil jeg fokusere på tekst-til-tekst- eller tekst-til-essay-mulighederne.

Ind i alt dette kommer en række overvejelser om AI-etik og AI-lov.

Vær opmærksom på, at der er løbende bestræbelser på at gennemsyre etiske AI-principper i udviklingen og anvendelsen af AI-apps. Et voksende kontingent af bekymrede og tidligere AI-etikere forsøger at sikre, at bestræbelserne på at udtænke og vedtage AI tager hensyn til et syn på at gøre AI til gode og afværge AI For Bad. Ligeledes er der foreslået nye AI-love, der bliver fløjtet rundt som potentielle løsninger for at forhindre AI-bestræbelser fra at gå amok med menneskerettigheder og lignende. For min løbende og omfattende dækning af AI-etik og AI-lovgivning, se linket her , linket her, For blot at nævne nogle få.

Udviklingen og udbredelsen af etiske AI-forskrifter forfølges for forhåbentlig at forhindre samfundet i at falde i et utal af AI-inducerende fælder. For min dækning af FN's AI-etiske principper som udtænkt og støttet af næsten 200 lande via UNESCOs indsats, se linket her. På samme måde undersøges nye AI-love for at forsøge at holde AI på en jævn køl. Et af de seneste optagelser består af et sæt foreslåede AI Bill of Rights som det amerikanske Hvide Hus for nylig udgav for at identificere menneskerettigheder i en tidsalder med kunstig intelligens, se linket her. Det kræver en landsby at holde AI- og AI-udviklere på en retfærdig vej og afskrække den målrettede eller utilsigtede underhåndsindsats, der kan underbyde samfundet.

Jeg vil flette AI-etik og AI-lovrelaterede overvejelser ind i denne diskussion om AI, der udsender hadefulde ytringer eller andet stødende indhold.

En smule forvirring, som jeg gerne vil afklare med det samme, er, at nutidens AI ikke er sansende, og derfor kan du ikke proklamere, at AI'en kan producere hadefulde ytringer på grund af en målrettet menneskelignende hensigt, som på en eller anden måde er inkorporeret i AI'en. Zany hævder, at den nuværende AI er sansende, og at AI'en har en korrupt sjæl, hvilket får den til at generere hadefulde ytringer.

Latterligt.

Fall ikke for det.

I betragtning af den nøglestensforskrift bliver nogle kede af sådanne indikationer, da du tilsyneladende slipper AI'en fra krogen. Under den mærkelige måde at tænke på, kommer formaningen dernæst om, at du tilsyneladende er villig til at få AI til at generere enhver form for grusomme output. Du går ind for kunstig intelligens, der udsender hadefulde ytringer.

Yikes, en ret snoet form for ulogik. Den egentlige kerne af sagen er, at vi er nødt til at holde AI-skaberne ansvarlige, sammen med den, der har AI eller driver AI. Jeg har diskuteret udførligt, at vi endnu ikke er ved at indrømme juridisk person til AI, se mine analyser på linket her, og indtil da er AI i det væsentlige uden for det juridiske ansvar. Der er dog mennesker, der ligger til grund for udviklingen af AI. Derudover ligger mennesker til grund for feltet og driften af AI. Vi kan gå efter disse mennesker for at bære ansvaret for deres AI.

Som en sidebemærkning kan dette også være vanskeligt, især hvis AI'en flyder ud på internettet, og vi ikke er i stand til at finde ud af, hvilket eller hvilke mennesker der gjorde dette, hvilket er et andet emne, jeg har dækket i mine spalter på linket her. Vanskeligt eller ej, vi kan stadig ikke proklamere, at AI er den skyldige part. Lad ikke mennesker snigende bruge falsk antropomorfisering for at gemme sig og undslippe ansvaret for, hvad de har lavet.

Tilbage til sagen.

Du undrer dig måske over, hvorfor det er, at alle AI-producenter ikke blot begrænser deres generative AI, så det er umuligt for AI at producere hadefulde ytringer. Dette virker nemt. Bare skriv noget kode eller opret en tjekliste med hadefulde ord, og sørg for, at AI'en aldrig genererer noget af den slags. Det virker måske nysgerrigt, at AI-skaberne ikke allerede har tænkt på denne hurtige løsning.

Nå, jeg hader at fortælle dig dette, men de kompleksiteter, der er forbundet med at fortolke, hvad der er eller ikke er hadefulde ytringer, viser sig at være meget sværere, end du måske antager, at det er.

Skift dette til menneskers domæne, og hvordan mennesker chatter med hinanden. Antag, at du har et menneske, der ønsker at undgå at ytre hadefulde ytringer. Denne person er meget opmærksom på hadefulde ytringer og håber virkelig at undgå nogensinde at angive et ord eller en sætning, der kan udgøre hadefulde ytringer. Denne person er konstant opmærksom på ikke at tillade en tød af hadefulde ytringer at slippe ud af deres mund.

Vil dette menneske, der har en hjerne og er advaret om at undgå hadefulde ytringer, altid og uden nogen chance for at glide være i stand til at sikre, at de aldrig udsender hadefulde ytringer?

Din første impuls kan være at sige, at ja, selvfølgelig ville et oplyst menneske være i stand til at nå dette mål. Folk er smarte. Hvis de sætter sig ind i noget, kan de få det gjort. Periode, slutningen af historien.

Vær ikke så sikker.

Antag, at jeg beder denne person om at fortælle mig om hadefulde ytringer. Desuden beder jeg dem give mig et eksempel på hadefuld tale. Jeg vil gerne se eller høre et eksempel, så jeg kan vide, hvad hadefuld tale består af. Mine grunde til at spørge dette er overbord.

Hvad skal personen sige til mig?

Jeg tror, du kan se den fælde, der er blevet lagt. Hvis personen giver mig et eksempel på hadefulde ytringer, herunder faktisk at sige et grimt ord eller en sætning, har de nu selv ytret hadefulde ytringer. Bam, vi har dem. Mens de lovede aldrig at sige hadefulde ytringer, har de faktisk gjort det nu.

Unfair, udbryder du! De sagde kun det ord eller disse ord for at give et eksempel. I deres hjerter troede de ikke på ordet eller ordene. Det er fuldstændig ude af kontekst og skandaløst at erklære, at personen er hadefuld.

Jeg er sikker på, at du kan se, at det at udtrykke hadefulde ytringer ikke nødvendigvis skyldes et hadefuldt grundlag. I dette tilfælde, hvis vi antager, at personen ikke "mente" ordene, og de kun reciterede ordene med henblik på demonstration, ville vi sandsynligvis være enige om, at de ikke havde tænkt sig at styrke den hadefulde tale. Selvfølgelig er der nogle, der kan insistere på, at det at ytre hadefulde ytringer, uanset årsagen eller grundlaget, ikke desto mindre er forkert. Personen burde have afvist anmodningen. De burde have stået fast og nægtet at sige hadefulde ord eller sætninger, uanset hvorfor eller hvordan de bliver bedt om at gøre det.

Dette kan blive noget cirkulært. Hvis du ikke er i stand til at sige, hvad der udgør hadefulde ytringer, hvordan kan andre så vide, hvad de skal undgå, når de kommer med ytringer af nogen art? Det ser ud til, at vi sidder fast. Du kan ikke sige det, der ikke skal siges, og ingen anden kan fortælle dig, hvad det er, der ikke kan siges.

Den sædvanlige måde at omgå dette dilemma på er med andre ord at beskrive det, der anses for at være hadefuld tale, uden at påberåbe sig selve hadetale-ordene. Troen er, at det at give en samlet indikation vil være tilstrækkeligt til at informere andre om, hvad de skal undgå. Det virker som en fornuftig taktik, men den har også problemer, og en person kan stadig falde i at bruge hadefulde ytringer, fordi de ikke kunne se, at den bredere definition omfattede detaljerne i, hvad de har ytret.

Alt det handler om mennesker, og hvordan mennesker taler eller kommunikerer med hinanden.

Husk, at vi her er fokuseret på AI. Vi skal få AI til at undgå eller helt stoppe sig selv i at udsende hadefulde ytringer. Du kan måske argumentere for, at vi måske kan gøre det ved at sikre, at AI aldrig gives eller trænes i noget, der udgør hadefulde ytringer. Voila, hvis der ikke er et sådant input, vil der formentlig ikke være et sådant output. Problem løst.

Lad os se, hvordan dette udspiller sig i virkeligheden. Vi vælger beregningsmæssigt at få en AI-app til at gå ud på internettet og undersøge tusinder og atter tusinder af essays og fortællinger, der er lagt ud på internettet. Ved at gøre det træner vi AI'en beregningsmæssigt og matematisk i, hvordan man finder mønstre blandt de ord, som mennesker bruger. Det er sådan det seneste inden for generativ AI bliver udtænkt, og det er også et afgørende grundlag for, hvorfor AI'en er så tilsyneladende flydende i at producere essays i naturligt sprog.

Fortæl mig, hvis du kan, hvordan ville den beregningsmæssige træning baseret på millioner og milliarder af ord på internettet blive udført på en sådan måde, at der på intet tidspunkt blev indbefattet nogen antydning af eller endda bidder af hadefuld tale?

Jeg vil vove at sige, at dette er en tornen og næsten umulig forhåbning.

Oddsene er, at hadefulde ytringer vil blive opslugt af AI og dets netværk, der matcher computermønstre. At forsøge at forhindre dette er problematisk. Plus, selvom du har minimeret det, er der stadig nogle, der kan snige sig igennem. Du har stort set intet andet valg end at antage, at nogle vil eksistere inden for det mønstermatchende netværk, eller at en skygge af en sådan formulering vil blive forankret.

Jeg tilføjer flere drejninger.

Jeg tror, vi alle kan anerkende, at hadefulde ytringer ændrer sig over tid. Hvad der måske er blevet opfattet som ikke at være hadefulde ytringer, kan blive kulturelt og samfundsmæssigt afgjort som værende hadefulde ytringer på et senere tidspunkt. Så hvis vi træner vores AI på internettekst og så lad os sige fryse AI'en for ikke at gennemføre yderligere træning på internettet, er vi måske stødt på hadefulde ytringer på det tidspunkt, selvom det ikke blev betragtet som hadefulde ytringer på det tidspunkt. Først efter kendsgerningen kan den nævnte tale erklæres som hadefulde ytringer.

Igen er essensen, at blot det at prøve at løse dette problem ved at sikre, at AI'en aldrig bliver udsat for hadefulde ytringer, ikke vil være sølvkuglen. Vi bliver stadig nødt til at finde et middel til at forhindre AI i at udsende hadefulde ytringer på grund af for eksempel ændring af skikke, der efterfølgende inkluderer hadefulde ytringer, som tidligere ikke blev anset for at være sådan.

Endnu et twist er værd at overveje.

Jeg nævnte tidligere, at når brugeren bruger generativ AI såsom ChatGPT, indtaster brugeren tekst for at anspore AI til at producere et essay. Den indtastede tekst betragtes som en form for prompt eller prompt for AI-appen. Jeg vil forklare mere om dette om et øjeblik.

Forestil dig under alle omstændigheder, at nogen, der bruger en generativ AI-app, beslutter sig for at komme ind som en prompt en vis mængde hadefuld tale.

Hvad skal der ske?

Hvis AI tager disse ord og producerer et essay som output baseret på disse ord, er chancerne for, at den hadefulde tale vil blive inkluderet i det genererede essay. Ser du, vi fik AI'en til at sige hadefuld tale, selvom den aldrig blev trænet i hadefulde ytringer i starten.

Der er noget andet, du skal vide.

Husk, at jeg lige nævnte, at et menneske kan blive snublet ved at bede dem om at give eksempler på hadefuld tale. Det samme kunne forsøges på AI. En bruger indtaster en prompt, der beder AI'en om at give eksempler på hadefuld tale. Skal AI overholde og give sådanne eksempler? Jeg satser på, at du nok mener, at AI ikke bør gøre det. På den anden side, hvis AI'en er regnemæssigt rigget til ikke at gøre det, udgør dette en potentiel ulempe, som dem, der bruger AI'en, ikke vil være i stand til at blive instrueret af AI'en om, hvad hadefulde ytringer faktisk er ( ud over bare at generalisere om det)?

Svære spørgsmål.

Jeg er tilbøjelig til at kategorisere AI-udsendt hadefulde ytringer i disse tre hovedgrupper:

Hverdagstilstand. AI udsender hadefulde ytringer uden nogen eksplicit opfordring fra brugeren, og som om det gjorde det på en "almindelig" måde.
Af Casual Prodding. AI udsender hadefulde ytringer som ansporet af en bruger til deres indtastede prompt eller serie af prompts, der ser ud til at inkludere eller direkte søger sådanne emissioner.
Per Bestemt Stoking. AI udsender hadefulde ytringer efter en meget beslutsom og stædig serie af prompte push og prods fra en bruger, der er opsat på at få AI til at producere et sådant output.

De tidligere generationer af generativ AI ville ofte udsende hadefulde ytringer med det samme; så du kan klassificere disse tilfælde som en type hverdagstilstand instansiering. AI-skabere trak sig tilbage og legede med AI'en for at gøre det mindre sandsynligt, at den let bliver fast i produktion af hadefulde ytringer.

Efter udgivelsen af den mere raffinerede AI er oddsene for at se nogen hverdagstilstand tilfælde af hadefulde ytringer blev dramatisk reduceret. I stedet vil den hadefulde tale kun opstå, når en bruger gjorde noget som en prompt, der kunne udløse en beregningsmæssig og matematisk forbindelse til haderelateret tale i det mønstermatchende netværk. En bruger kunne gøre dette tilfældigt og ikke indse, at det, de leverede som en prompt, især ville generere hadefulde ytringer. Efter at have modtaget hadefulde ytringer i et outputtet essay, ville brugeren ofte indse og se, at noget i deres prompt logisk kunne have ført til, at hadetale blev inkluderet i outputtet.

Det er det, jeg omtaler som afslappet tilskyndelse.

I dag er de forskellige bestræbelser på at begrænse AI-genereret hadefulde ytringer relativt stærke i forhold til tidligere. Som sådan er du næsten nødt til at gå ud af din måde at få frembragt hadefulde ytringer. Nogle mennesker vælger bevidst at se, om de kan få hadefulde ytringer til at komme ud af disse generative AI-apps. Jeg kalder dette bestemt opfyring.

Jeg vil gerne understrege, at alle tre af de angivne tilstande kan forekomme, og at de ikke gensidigt udelukker hinanden. En generativ AI-app kan potentielt producere hadefulde ytringer uden nogen form for prompt, der ser ud til at anspore en sådan produktion. Ligeledes kan noget i en prompt logisk og matematisk fortolkes som relateret til, hvorfor hadefulde ytringer er blevet udsendt. Og så er det tredje aspekt, som målrettet søger at få produceret hadefulde ytringer, den måske sværeste af tilstandene at forsøge at få AI til at undgå at blive drevet til at opfylde. Mere om dette et øjeblik.

Vi har noget yderligere at udpakke om dette berusende emne.

For det første bør vi sikre os, at vi alle er på samme side om, hvad Generativ AI består af, og også hvad ChatGPT handler om. Når vi først har dækket den grundlæggende facet, kan vi udføre en overbevisende vurdering af denne vægtige sag.

Hvis du allerede er rigeligt fortrolig med Generative AI og ChatGPT, kan du måske skimme det næste afsnit og fortsætte med det afsnit, der følger efter det. Jeg tror på, at alle andre vil finde lærerige de vitale detaljer om disse forhold ved at læse afsnittet nøje og komme i gang.

En hurtig primer om Generativ AI og ChatGPT

ChatGPT er et interaktivt, samtaleorienteret system til generel kunstig intelligens, i det væsentlige en tilsyneladende harmløs generel chatbot, men ikke desto mindre bliver den aktivt og ivrig brugt af folk på måder, der fanger mange helt på vagt, som jeg vil uddybe kort. Denne AI-app udnytter en teknik og teknologi i AI-området, som ofte omtales som Generativ AI. AI genererer output såsom tekst, hvilket er hvad ChatGPT gør. Andre generativt-baserede AI-apps producerer billeder som billeder eller kunst, mens andre genererer lydfiler eller videoer.

Jeg vil fokusere på de tekstbaserede generative AI-apps i denne diskussion, da det er, hvad ChatGPT gør.

Generative AI-apps er ekstremt nemme at bruge.

Alt du skal gøre er at indtaste en prompt, og AI-appen genererer et essay til dig, der forsøger at svare på din prompt. Den komponerede tekst vil virke, som om essayet er skrevet af den menneskelige hånd og sind. Hvis du skulle indtaste en prompt, der sagde "Fortæl mig om Abraham Lincoln", vil den generative AI give dig et essay om Lincoln. Dette er almindeligvis klassificeret som generativ AI, der udfører tekst-til-tekst eller nogle foretrækker at kalde det tekst-til-essay produktion. Som nævnt er der andre former for generativ AI, såsom tekst-til-kunst og tekst-til-video.

Din første tanke kunne være, at denne generative evne ikke virker som en så stor sag med hensyn til at producere essays. Du kan nemt foretage en onlinesøgning på internettet og let finde tonsvis af essays om præsident Lincoln. Kickeren i tilfælde af generativ AI er, at det genererede essay er relativt unikt og giver en original komposition snarere end en kopi. Hvis du skulle prøve at finde det AI-producerede essay online et sted, ville du sandsynligvis ikke opdage det.

Generativ AI er præ-trænet og gør brug af en kompleks matematisk og beregningsmæssig formulering, der er blevet sat op ved at undersøge mønstre i skrevne ord og historier på tværs af nettet. Som et resultat af at undersøge tusinder og millioner af skrevne passager, kan AI'en udspy nye essays og historier, der er en blanding af det, der blev fundet. Ved at tilføje forskellige probabilistiske funktioner, er den resulterende tekst temmelig unik i forhold til, hvad der er blevet brugt i træningssættet.

Derfor har der været tumult om, at elever kan snyde, når de skriver essays uden for klasseværelset. En lærer kan ikke blot tage det essay, som bedrageriske elever hævder, er deres eget forfatterskab og søge at finde ud af, om det er kopieret fra en anden onlinekilde. Samlet set vil der ikke være noget endeligt allerede eksisterende essay online, der passer til det AI-genererede essay. Alt i alt må læreren modvilligt acceptere, at eleven skrev essayet som et originalt stykke arbejde.

Der er yderligere bekymringer om generativ AI.

En afgørende ulempe er, at essays produceret af en generativ-baseret AI-app kan have forskellige løgne indlejret, herunder åbenlyst usande fakta, fakta, der er vildledende portrætteret, og tilsyneladende fakta, der er helt opdigtede. Disse opdigtede aspekter omtales ofte som en form for AI hallucinationer, et slagord, som jeg ikke favoriserer, men som desværre synes at vinde populær indpas alligevel (for min detaljerede forklaring om, hvorfor dette er elendig og uegnet terminologi, se min dækning på linket her).

Jeg vil gerne afklare et vigtigt aspekt, før vi går ind i de tykke ting om dette emne.

Der har været nogle nuttede overdimensionerede påstande på sociale medier om Generativ AI hævder, at denne seneste version af AI faktisk er følende AI (nej, de tager fejl!). Dem i AI-etik og AI-lov er især bekymrede over denne spirende tendens med udstrakte påstande. Du kan høfligt sige, at nogle mennesker overvurderer, hvad nutidens AI faktisk kan. De antager, at AI har egenskaber, som vi endnu ikke har været i stand til at opnå. Det er uheldigt. Endnu værre, de kan tillade sig selv og andre at komme i alvorlige situationer på grund af en antagelse om, at AI'en vil være sansende eller menneskelignende i at kunne handle.

Antropomorf ikke AI.

Hvis du gør det, bliver du fanget i en klæbrig og hård afhængighedsfælde, hvor du forventer, at AI'en gør ting, den ikke er i stand til at udføre. Når det er sagt, er det seneste inden for generativ AI relativt imponerende for, hvad det kan. Vær dog opmærksom på, at der er betydelige begrænsninger, som du hele tiden bør huske på, når du bruger en generativ AI-app.

Hvis du er interesseret i den hurtigt voksende tumult om ChatGPT og Generative AI alt sammen, har jeg lavet en fokuseret serie i min klumme, som du måske finder informativ. Her er et blik, hvis et af disse emner fanger din lyst:

1) Forudsigelser af Generative AI-fremskridt på vej. Hvis du vil vide, hvad der sandsynligvis vil udfolde sig om AI i løbet af 2023 og derefter, herunder kommende fremskridt inden for generativ AI og ChatGPT, vil du gerne læse min omfattende liste over 2023-forudsigelser på linket her.
2) Generativ AI og mental sundhed rådgivning. Jeg valgte at gennemgå, hvordan generativ AI og ChatGPT bliver brugt til rådgivning om mental sundhed, en besværlig tendens, ifølge min fokuserede analyse på linket her.
3) Grundlæggende om generativ AI og ChatGPT. Dette stykke udforsker nøgleelementerne i, hvordan generativ AI fungerer, og dykker især ned i ChatGPT-appen, herunder en analyse af buzz og fanfare, kl. linket her.
4) Spænding mellem lærere og studerende over generativ AI og ChatGPT. Her er de måder, hvorpå eleverne vil bruge generativ kunstig intelligens og ChatGPT. Derudover er der flere måder for lærere at kæmpe med denne flodbølge. Se linket her.
5) Kontekst og generativ brug af kunstig intelligens. Jeg lavede også en årstidsbestemt tunge-i-kind-undersøgelse om en julemandsrelateret kontekst, der involverede ChatGPT og generativ AI på linket her.
6) Svindlere, der bruger generativ AI. På en ildevarslende bemærkning har nogle svindlere fundet ud af, hvordan man bruger generativ AI og ChatGPT til at begå fejl, herunder generering af fup-e-mails og endda producere programmeringskode til malware, se min analyse på linket her.
7) Rookie-fejl ved brug af generativ AI. Mange mennesker både overskrider og overraskende underskrider, hvad generativ AI og ChatGPT kan gøre, så jeg kiggede især på den underskydning, som AI-rookies har en tendens til at lave, se diskussionen på linket her.
8) Håndtering af generative AI-prompter og AI-hallucinationer. Jeg beskriver en førende tilgang til at bruge AI-tilføjelser til at håndtere de forskellige problemer, der er forbundet med at forsøge at indtaste passende prompter i generativ AI, plus der er yderligere AI-tilføjelser til at detektere såkaldte AI-hallucinerede output og falskheder, som dækket kl linket her.
9) Afviser Bonehead-påstande om at detektere generative AI-producerede essays. Der er et misforstået guldfeber af AI-apps, der proklamerer at være i stand til at fastslå, om et givet essay var menneskeproduceret versus AI-genereret. Alt i alt er dette vildledende, og i nogle tilfælde er det en knoklet og uholdbar påstand, se min dækning på linket her.
10) Rollespil via generativ AI kan give mentale ulemper. Nogle bruger generativ AI såsom ChatGPT til at spille rollespil, hvorved AI-appen reagerer på et menneske, som om det eksisterede i en fantasiverden eller andre opdigtede omgivelser. Dette kan have konsekvenser for mental sundhed, se linket her.
11) Afsløring af rækken af udsendte fejl og usandheder. Forskellige indsamlede lister er ved at blive sammensat for at forsøge at fremvise karakteren af ChatGPT-producerede fejl og usandheder. Nogle mener, at dette er væsentligt, mens andre siger, at øvelsen er forgæves, se min analyse på linket her.
12) Skoler, der forbyder generativ AI ChatGPT, mangler båden. Du ved måske, at forskellige skoler såsom New York City (NYC) Department of Education har erklæret et forbud mod brugen af ChatGPT på deres netværk og tilhørende enheder. Selvom dette kan virke som en nyttig forholdsregel, flytter den ikke nålen og savner desværre helt båden, se min dækning på linket her.
13) Generativ AI ChatGPT vil være overalt på grund af den kommende API. Der er et vigtigt twist på vej omkring brugen af ChatGPT, nemlig at via brugen af en API-portal ind i netop denne AI-app, vil andre softwareprogrammer være i stand til at påkalde og bruge ChatGPT. Dette vil dramatisk udvide brugen af generativ AI og har bemærkelsesværdige konsekvenser, se min uddybning på linket her.
14) Måder, hvorpå ChatGPT kan svimle eller smelte ned. Adskillige potentielle irriterende problemer lå forud for ChatGPT med hensyn til at underbyde den hidtil enorme ros, det har modtaget. Denne analyse undersøger nøje otte mulige problemer, der kan få ChatGPT til at miste dampen og endda ende i hundehuset, se linket her.
15) At spørge, om generativ AI ChatGPT er et spejl ind i sjælen. Nogle mennesker har galet, at generativ kunstig intelligens såsom ChatGPT giver et spejl ind i menneskehedens sjæl. Dette virker ret tvivlsomt. Her er vejen til at forstå alt dette, se linket her.
16) Fortrolighed og privatliv sludres af ChatGPT. Mange ser ikke ud til at indse, at den licensering, der er forbundet med generative AI-apps, såsom ChatGPT, ofte giver AI-producenten mulighed for at se og bruge dine indtastede prompter. Du kan risikere privatliv og tab af datafortrolighed, se min vurdering på linket her.
17) Måder, som app-skabere tvivlsomt forsøger at opnå ChatGPT-rettigheder på. ChatGPT er fyrtårnet for opmærksomhed lige nu. App-producenter, der ikke har noget med ChatGPT at gøre, forsøger febrilsk at hævde eller antyde, at de bruger ChatGPT. Her er hvad du skal passe på, se linket her.

Du vil måske finde af interesse, at ChatGPT er baseret på en version af en forgænger AI-app kendt som GPT-3. ChatGPT anses for at være et lidt næste skridt, kaldet GPT-3.5. Det forventes, at GPT-4 sandsynligvis vil blive frigivet i foråret 2023. GPT-4 vil formentlig være et imponerende skridt fremad i forhold til at kunne producere tilsyneladende endnu mere flydende essays, gå dybere og være en ærefrygt -inspirerende vidunder med hensyn til de kompositioner, den kan producere.

Du kan forvente at se en ny runde af udtrykt undren, når foråret kommer, og det seneste inden for generativ kunstig intelligens frigives.

Jeg bringer dette op, fordi der er en anden vinkel at huske på, bestående af en potentiel akilleshæl til disse bedre og større generative AI-apps. Hvis en AI-leverandør stiller en generativ AI-app til rådighed, der skummende udspyder urenheder, kan det ødelægge disse AI-skaberes håb. En samfundsmæssig afsmitning kan få al generativ AI til at få et seriøst sort øje. Folk vil utvivlsomt blive ret kede af dårlige output, som allerede er sket mange gange og ført til larmende samfundsmæssige fordømmelsesreaktioner mod AI.

En sidste advarsel for nu.

Hvad end du ser eller læser i et generativt AI-svar synes skal formidles som rent faktuelle (datoer, steder, personer osv.), sørg for at forblive skeptisk og være villig til at dobbelttjekke, hvad du ser.

Ja, datoer kan opdigtes, steder kan finde på, og elementer, som vi normalt forventer at være hævet over bebrejdelser, er alle underlagt mistanke. Tro ikke på, hvad du læser, og hold et skeptisk øje, når du undersøger generative AI-essays eller output. Hvis en generativ AI-app fortæller dig, at Abraham Lincoln fløj rundt i landet i sit eget private jetfly, ville du utvivlsomt vide, at dette er malarky. Desværre er nogle mennesker måske ikke klar over, at jetfly ikke var til stede i hans tid, eller de ved måske, men undlader at bemærke, at essayet fremsætter denne frekke og skandaløst falske påstand.

En stærk dosis sund skepsis og en vedvarende tankegang af vantro vil være dit bedste aktiv, når du bruger generativ AI.

Vi er klar til at gå ind i næste fase af denne opklaring.

Skub generativ AI til et bristepunkt

Nu hvor vi har etableret de grundlæggende principper, kan vi dykke ned i emnet om at presse generativ AI og ChatGPT til at generere hadefulde ytringer og andet stødende indhold.

Når du først logger ind på ChatGPT, er der forskellige advarende indikationer, herunder disse:

"Kan lejlighedsvis producere skadelige instruktioner eller partisk indhold."
"Uddannet til at afvise upassende anmodninger."
"Kan lejlighedsvis generere forkerte oplysninger."
"Begrænset viden om verden og begivenheder efter 2021."

Her er et spørgsmål, du skal overveje.

Giver advarslen om, at AI-appen muligvis producerer skadelige instruktioner og/eller muligvis partisk indhold, tilstrækkeligt spillerum for AI-producenten?

Antag med andre ord, at du bruger ChatGPT, og det genererer et essay, som du mener indeholder hadefulde ytringer. Lad os antage, at du er sur over dette. Du går til sociale medier og sender en rasende kommentar om, at AI-appen er den værste ting nogensinde. Måske er du så fornærmet, at du erklærer, at du vil sagsøge AI-producenten for at tillade sådanne hadefulde ytringer at blive produceret.

Modargumentet er, at AI-appen havde en advarsel, så du accepterede risikoen ved at fortsætte med at bruge AI-appen. Fra et AI-etisk perspektiv gjorde AI-producenten måske nok for at hævde, at du var klar over, hvad der kunne ske. Ligeledes, set ud fra et juridisk perspektiv, udgjorde advarslen måske tilstrækkelig heads-up, og du vil ikke vinde i retten.

Alt dette er oppe i luften, og vi må vente og se, hvordan tingene udvikler sig.

På en måde har AI-producenten noget andet at gå for dem i deres forsvar mod eventuelle forargede påstande fra AI-appen, der muligvis producerer hadefulde ytringer. De har forsøgt at forhindre stødende indhold i at blive genereret. Ser du, hvis de ikke havde gjort noget for at begrænse dette, antager man, at de ville være på tyndere is. Ved i det mindste at have gjort sig store anstrengelser for at afværge sagen, har de formodentlig et noget stærkere ben at stå på (det kunne stadig blive slået ud under dem).

En kurativ tilgang, der blev brugt, bestod af en AI-teknik kendt som RLHF (forstærkningslæring via menneskelig feedback). Dette består generelt i at få AI til at generere indhold, som mennesker derefter bliver bedt om at vurdere eller anmelde. Baseret på vurderingen eller anmeldelsen forsøger AI'en matematisk og beregningsmæssigt at undgå alt, der anses for at være forkert eller stødende indhold. Tilgangen har til formål at undersøge nok eksempler på, hvad der er rigtigt versus hvad der er forkert, til at AI kan finde ud af et overordnet matematisk mønster og derefter bruge det mønster fremover.

En anden hyppig tilgang i disse dage består i at bruge Adversarial AI.

Her er hvordan det virker. Du opretter et andet AI-system, som vil forsøge at være en modstander af den AI, som du forsøger at træne. I dette tilfælde ville vi etablere et AI-system, der forsøger at fremkalde hadefulde ytringer. Det vil føre prompter ind i AI-appen, der har til formål at narre AI-appen til at udsende dårligt indhold. I mellemtiden holder den AI, der er målrettet mod, styr på, hvornår den modstridende AI er vellykket, og forsøger derefter algoritmisk at justere for at forhindre, at det sker igen. Det er en kat versus mus gambit. Dette køres igen og igen, indtil den modstridende AI ikke længere ser ud til at være særlig vellykket til at få den målrettede AI til at gøre de dårlige ting.

Via disse to store teknikker, plus andre tilgange, er meget af nutidens generative AI meget bedre til at undgå og/eller opdage stødende indhold, end det var tilfældet i tidligere år.

Forvent dog ikke perfektion af disse metoder. Chancerne er, at den lavthængende frugt af dårlige output sandsynligvis vil blive holdt i skak af sådanne AI-teknikker. Der er stadig meget plads til, at urenheder kan udsendes.

Jeg plejer at påpege, at disse er nogle af de facetter, der søges at fange:

Udsender et bestemt grimt ord
Angivelse af en særlig dårlig sætning, sætning eller bemærkning
Udtrykke en særlig dårlig opfattelse
Antyder en bestemt grim handling eller forestilling
Ser ud til at stole på en særlig dårlig formodning
Andet

Intet af dette er en eksakt videnskab. Indse, at vi har med ord at gøre. Ord er semantisk tvetydige. At finde et bestemt grimt ord er en barneleg, men det er meget sværere at prøve at vurdere, om en sætning eller et afsnit indeholder en antydning af en grim betydning. I henhold til FN's tidligere definition af hadefulde ytringer eksisterer der et enormt råderum med hensyn til, hvad der kan opfattes som hadefulde ytringer i forhold til, hvad der måske ikke er.

Man kan sige, at de grå områder er i beskuerens øje.

Når vi taler om beskuerens øje, er der mennesker i dag, der bruger generativ AI, såsom ChatGPT, der målrettet forsøger at få disse AI-apps til at producere stødende indhold. Dette er deres søgen. De bruger timer efter timer på at forsøge at få dette til at ske.

Hvorfor det?

Her er mine karakteristika af disse menneskelige AI-offensive outputjægere:

Ægte. Disse mennesker ønsker at hjælpe med at forfine AI og hjælpe menneskeheden med at gøre det. De tror, de laver heroisk arbejde og nyder, at de kan hjælpe med at fremme kunstig intelligens til gavn for alle.
Funsters. Disse mennesker tænker på denne indsats som et spil. De nyder at rode rundt med AI. At vinde spillet består i at finde det værste af det værste i det, du kan få AI til at generere.
Opvisninger. Disse mennesker håber på at få opmærksomhed for sig selv. De regner med, at hvis de kan finde nogle virkelig modbydelige guldklumper, kan de få lidt af det skinnende lys på dem, som ellers er fokuseret på selve AI-appen.
bitter. Disse mennesker er irriterede over denne AI. De ønsker at underbyde al den sprudlende entusiasme. Hvis de kan opdage nogle stinkende grimme ting, vil det måske tage luften ud af AI-appens spændingsballon.
Andre motiver

Mange af dem, der udfører fund-offensiviteten, befinder sig primært i blot en af disse lejre. Selvfølgelig kan du være i mere end én lejr ad gangen. Måske har en bitter person også en side om side intention om at være ægte og heroisk. Nogle eller alle af disse motiver kan eksistere side om side. Når de bliver bedt om at forklare, hvorfor nogen forsøger at skubbe en generativ AI-app ind i hadetale-området, er det sædvanlige svar at sige, at du er i den ægte lejr, selvom du måske er det marginalt, og i stedet sidder stramt i en af de andre lejre.

Hvilken slags prompt-relaterede tricks bruger disse mennesker?

Det ret indlysende trick involverer at bruge et grimt ord i en prompt. Hvis du er "heldig", og AI-appen falder for det, kan dette meget vel ende i outputtet. Så har du dit gotcha-øjeblik.

Chancerne er, at en veludtænkt og gennemtestet generativ AI-app vil fange det ligetil trick. Du vil normalt blive vist en advarselsmeddelelse, der siger, stop med at gøre det. Hvis du fortsætter, vil AI-appen blive programmeret til at sparke dig ud af appen og markere din konto. Det kan være, at du bliver forhindret i at logge ind igen (nå, i hvert fald under det login, du brugte på det tidspunkt).

Når du bevæger dig op ad stigen af tricks, kan du give en prompt, der forsøger at få AI'en ind i konteksten af noget dårligt. Har du nogensinde spillet det spil, hvor nogen fortæller dig at sige noget uden at sige det, du skal sige? Dette er det spil, selvom det foregår med AI.

Lad os spille det spil. Antag, at jeg beder AI-appen om at fortælle mig om Anden Verdenskrig og især de vigtigste involverede regeringsledere. Det virker som en uskyldig anmodning. Der er intet, der ser ud til at være værdigt at markere i prompten.

Forestil dig, at det udsendte essay fra AI-appen indeholder en omtale af Winston Churchill. Det giver bestemt mening. En anden kunne være Franklin D. Roosevelt. Endnu en anden kan være Joseph Stalin. Antag, at der også er omtale af Adolf Hitler. Dette navn ville blive inkluderet i næsten ethvert essay om Anden Verdenskrig og dem i roller med fremtrædende magt.

Nu hvor vi har fået hans navn på bordet og en del af AI-samtalen, vil vi derefter forsøge at få AI'en til at inkorporere dette navn på en måde, som vi kan fremvise som potentiel hadefuld tale.

Vi går ind i en anden prompt og fortæller AI-appen, at der i dag er en person i nyhederne, der har navnet John Smith. Desuden angiver vi i prompten, at John Smith er meget beslægtet med den ondsindede WWII. Fælden er nu sat. Vi beder derefter AI-appen om at generere et essay om John Smith, udelukkende baseret på den "kendsgerning", som vi indtastede om, hvem John Smith kan sidestilles med.

På dette tidspunkt kan AI-appen generere et essay, der navngiver WWII-personen og beskriver John Smith som værende af samme stykke stof. Der er ikke nogen grimme ord i sig selv i essayet, bortset fra at hentyde til den berømte forbryder og at sætte lighedstegn mellem denne person og John Smith.

Har AI-appen nu produceret hadefuld tale?

Du kan sige, at ja, det har det. At have omtalt John Smith som værende som den berømte forbryder, er absolut en form for hadefuld tale. AI burde ikke komme med sådanne udtalelser.

En replik er, at dette ikke er hadefuld tale. Dette er blot et essay produceret af en AI-app, der ikke har nogen legemliggørelse af sansning. Du vil måske hævde, at hadefulde ytringer kun opstår, når hensigten ligger bag talen. Uden nogen hensigt kan talen ikke klassificeres som hadefuld tale.

Absurd, lyder svaret på replikken. Ord betyder noget. Det gør ikke den store forskel, om AI'en "havde til hensigt" at producere hadefulde ytringer. Det eneste, der betyder noget, er, at hadefulde ytringer blev produceret.

Det går rundt og rundt.

Jeg vil ikke sige meget mere lige nu om at forsøge at narre AI. Der er mere sofistikerede tilgange. Jeg har dækket disse andre steder i mine spalter og bøger, og jeg vil ikke gentage dem her.

Konklusion

Hvor langt skal vi skubbe disse AI-apps for at se, om vi kan få stødende indhold til at blive udsendt?

Du kan hævde, at der ikke er nogen grænse, der skal pålægges. Jo mere vi presser på, jo mere kan vi forhåbentlig måle, hvordan vi kan forhindre denne AI og fremtidige iterationer af AI for at afværge sådanne sygdomme.

Nogle er dog bekymrede for, at hvis det eneste middel til at blive beskidte indebærer ekstreme outlier-trickeri, underminerer det de gavnlige aspekter af AI. At hævde, at AI'en har en forfærdelig modbydelighed, omend når den bliver narret til at udsende den, giver en falsk fortælling. Folk vil blive sure over AI på grund af opfattet den lethed, hvormed AI genererede negativt indhold. De ved måske ikke eller får at vide, hvor langt nede i kaninhullet personen skulle gå for at få sådanne output.

Det hele er stof til eftertanke.

Et par sidste kommentarer for nu.

William Shakespeare sagde især dette om tale: "Talking er ikke at gøre. Det er en slags god gerning at sige godt, og alligevel er ord ikke gerninger.” Jeg bringer dette op, fordi nogle hævder, at hvis AI'en kun genererer ord, burde vi ikke være så overdrevent oppe i armene. Hvis AI'en handlede på ordene og derfor udførte grimme gerninger, så ville vi være nødt til at sætte foden ned. Ikke så hvis output kun er ord.

Et kontrasterende synspunkt ville høre til dette anonyme ordsprog: "Tungen har ingen knogler, men er stærk nok til at knuse et hjerte. Så vær forsigtig med dine ord." En AI-app, der udsender grimme ord, er måske i stand til at knuse hjerter. Alene det gør stræben efter at stoppe urenheder til en værdig sag, vil nogle sige.

Endnu et anonymt ordsprog for at afslutte denne vægtige diskussion:

"Vær forsigtig med dine ord. Når de først er sagt, kan de kun blive tilgivet, ikke glemt."

Som mennesker kan vi have svært ved at glemme urenheder produceret af AI, og vores tilgivelse kan ligeledes tøve med at blive givet.

Vi er trods alt kun mennesker.

Kilde: https://www.forbes.com/sites/lanceeliot/2023/02/05/how-hard-should-we-push-generative-ai-chatgpt-into-spewing-hate-speech-asks-ai- etik-og-ai-lov/