En ny studie finner at det er mer tekst skapt av AI enn skrevet av mennesker på Internett

Bortenfor halvparten av artiklene som er tilgjengelige på nettet, ville være skrevet av AI. Dette ble avslørt av en fersk studie utført av SEO-analyseselskapet Grafitt som nylig publiserte resultatene av en forskning der det kom frem at en november 2024 mengden AI-genererte artikler publisert på nettet har overgått mengden av tekster skrevet av mennesker. Det er første gang noe lignende har skjedd: I en kort periode produserte maskiner mer tekstinnhold enn «kjøtt og blod»-forfattere. Studien, som undersøkte 65 000 artikler på engelsk samlet fra det store åpen kildekodearkivet Vanlig krypmen viste også at veksten av kunstig generert innhold har stabilisert seg siden mai 2024.

Et sentralt element i denne forskningen er at til tross for mengden tekst skrevet av algoritmer, vises det meste ikke i søkemotorer eller i chatboter som ChatGPT: ifølge Graphite kommer fortsatt mer enn 80 % av resultatene som vises av Google og samtaleassistenter fra artikler skrevet av folk. Dataene tyder på at, i det minste for nå, kunstig intelligens har ikke «tatt kontroll» over informasjon på nett, men snarere har ved siden av mennesket i en form for samproduksjon som blir stadig mer utbredt og vanskelig å skille.

Grafitts undersøkelse og metoden som ble brukt

Graphites undersøkelse var basert på en metodikk veldig presis. For å vurdere spredningen av AI-skapt innhold brukte forskerne en AI-detektor utviklet av SurferSEOi stand til å analysere 500 ord tekstblokker og anslå sannsynligheten for at de ble skrevet av en språkmodell. En artikkel vurderes «kunstig» hvis over 50 % av innholdet ble generert av et AI-system. Før de brukte denne klassifiseringen, ønsket de lærde å verifisere presisjonen til verktøyet, beregne frekvensen av falske positiver (dvs. menneskelige tekster feilaktig merket som kunstige) og falske negativer (tekster generert av AI som ikke gjenkjennes som sådan). Analysen viste en falsk positiv rate på 4,2 %testartikler publisert før lanseringen av ChatGPT, en periode der tekstene etter all sannsynlighet i sin helhet var skrevet av mennesker. De falsk negativ ratei stedet stoppet kl 0,6 %ved å bruke artikler produsert av GPT-4o, en av de mest avanserte språklige modellene som var tilgjengelige på søketidspunktet, ved å bruke en veldig detaljert og definert oppfordring til å produsere tekster om ulike emner. Av disse foreløpige kontrollene fremkom det at klassifiseringen gjort ved hjelp av SurferSEO detektor viser seg å være ganske pålitelig med en AI korrekt deteksjonsrate på 99,4 %.

Resultatene som ble samlet inn skisserte en klar trend: fra november 2022i det øyeblikket ChatGPT ble offentlig, eksploderte automatisert innholdsproduksjon bokstavelig talt. Alene 12 måneder AI-genererte artikler har gått videre til å representere omtrent 39 % av publiserte tekster, til det punktet å kort overgå menneskelige november 2024. Siden 2025 har imidlertid situasjonen stabilisert seg og de to verdiene har vært på linje. Graphite antar at denne nedgangen skyldes den dårlige ytelsen til tekster produsert av AI i søkemotorer: Googles søkemotor, for eksempel, har en tendens til å prioritere innhold skrevet av mennesker, ansett som mer pålitelig og relevant. En annen undersøkelse utført av det samme selskapet fant det 86 % av artiklene i Google Søk er av menneskelig opprinnelsemens bare 14 % kommer fra kunstige intelligenssystemer. En lignende data kommer overraskende nok også fra de viktigste AI-chatbotene: ChatGPT og Perplexity siterer for82 % artikler skrevet av mennesker og kun for 18 % artikler hvis tekst er generert ved hjelp av kunstig intelligens.

Studiens begrensninger

Graphite-studien som oppdaget prosentandelen av spredning av AI-tekster på nettet, så interessant som den er, viser fortsatt noen grensertydelig fremhevet også av forfatterne av studien selv. Først og fremst bør det huskes det Common Crawl-databasendatakilden som ble brukt til forskningen, Den dekker ikke hele nettet. Mange betalte nettsteder forhindrer at innholdet deres blir indeksert, som derfor ikke er inkludert i prøvene som er analysert i studien. Dette betyr at prosentandelen av artikler skrevet av mennesker faktisk kan være høyere enn beregnet. Foruten dette innrømmer forfatterne av studien det det kan være vanskelig å skille artikler skrevet av AI og deretter redigert av menneskeri tillegg til at AI-modeller fortsetter å forbedre seg og kan derfor bli stadig vanskeligere å oppdage.