Jak rozpoznać tekst napisany przez AI?

Tekst napisany przez człowieka czy wygenerowany przez AI? Czy da się to w ogóle rozróżnić? A jeśli tak, to w jaki sposób – no i ostatecznie, czy w ogóle jest sens to robić?

Spis treści:

AI tworzy zaskakująco „ludzkie” teksty
Dlaczego tak trudno rozpoznać tekst napisany przez AI?
Detektory AI
Powtarzające się struktury i zwroty
Halucynacje
Czy warto dociekać, czy tekst jest wygenerowany?
Podsumowując w punktach

Zobacz też:

Do czego używam ChatGPT w pozycjonowaniu stron internetowych

AI tworzy zaskakująco „ludzkie” teksty

Ilość tekstów w przestrzeni internetowej stworzonych przy pomocy AI jest przeogromna i z każdym dniem się zwiększa – to fakt.

Narzędzia do generowania treści, jak i osoby z nich korzystające rozwijają się w takim tempie, że dzisiaj praktycznie niemożliwe jest odróżnienie tekstu napisanego przez AI od tekstu napisanego przez człowieka.

Gdy pod koniec 2020 roku OpenAI udostępniło nam ChatGPT w wersji GPT-3 wiele osób (w tym ja) zachwycało się możliwościami generowania tekstów przy pomocy tego narzędzia.

Było to przełomowe rozwiązanie, które biło na głowę dotychczasowe – i w wielu aspektach ułomne – generatory tekstu.

Mimo to GPT-3 wciąż popełniał sporo błędów, a wygenerowane teksty można było rozpoznać na pierwszy rzut oka. I to bez większych problemów.

Szybki przeskok o prawie 4 lata i here we are – OpenAI rozwinęło swoją technologię do tego stopnia, że dziś problemy z określeniem, czy dany tekst został napisany przez AI mają nawet specjaliści siedzący głęboko w temacie. Mowa zarówno o ekspertach od pozycjonowania, jak i osobach, które na co dzień tworzą i edytują treści w internecie.

GPT-4, czyli obecnie najbardziej zaawansowany multimodalny model językowy potrafi stworzyć naprawdę dobre (czytaj – naturalnie brzmiące i merytoryczne) treści, których nie powstydziłby się niejeden copywriter.

Dobre do tego stopnia, że zasadne było stworzenie tekstu, który właśnie czytasz. Czy da się odróżnić tekst wygenerowany przez AI od tekstu napisanego przez człowieka?

Dlaczego tak trudno rozpoznać tekst napisany przez AI?

Po pierwsze konkurencja. Ona zawsze napędza rozwój. Po ChacieGPT szybko na rynku zaczęły się pojawiać inne narzędzia działające na podobnej zasadzie, a każdy producent chciał wydać produkt lepszy od pozostałych.

Dziś do generowania tekstów mamy już mnóstwo narzędzi, a niektóre z nich są nawet wyspecjalizowane w konkretnych formach np. specjalne narzędzia do pisania artykułów blogowych, do opisów kategorii w e-commerce, czy do pisania e-booków.

Mnogość narzędzi na rynku zmusza programistów za nie odpowiedzialnych do ciągłego ulepszania swoich rozwiązań, dzięki czemu odpowiedzi generowane przez AI z miesiąca na miesiąc stają się coraz lepszej jakości.

Jednak nie tylko narzędzia się rozwijają. Rozwijają się także osoby, które z nich korzystają.

Podczas pracy ze sztuczną inteligencją bardzo często wspomina się o zasadzie „garbage in, garbage out”. Oznacza ona, że jakość odpowiedzi wygenerowanej przez model będzie tym lepsza, im lepszej jakości będzie prompt, czyli instrukcja od osoby generującej dany tekst.

Coraz więcej osób szkoli się konkretnie z tworzenia wartościowych promptów, dzięki czemu również poprawia się jakość generowanych przez nich tekstów.

1. Detektory AI

Pierwszy i najprostszy sposób na to, jak sprawdzić, czy tekst został wygenerowany przez AI to detektory.

Detektory AI to narzędzia, które służą do sprawdzania, czy dany tekst został wygenerowany przez sztuczną inteligencję, czy napisany przez człowieka.

Korzystają one ze skomplikowanych algorytmów i modeli językowych i analizują treści pod kątem:

struktury tekstu;
stylu, w którym zostały napisane;
charakterystycznych dla AI cech i zwrotów.

Na podstawie takiej analizy pokazują one, najczęściej w formie procentowej, jaka część tekstu została wygenerowana przez AI, a jaka napisana przez człowieka.

Czy są one jednak skuteczne? Nie do końca. Najczęściej zdecydowanie zawyżają procentowy udział AI w tworzeniu tekstu.

Sprawdziłem zresztą w kilku popularnych detektorach poprzedni fragment tego artykułu przed redakcją (zapewniam, że piszę go samodzielnie :D), czego wyniki zamieszczam poniżej.

ZeroGPT

Według ZeroGPT w poprzednim fragmencie samodzielnie napisałem 2 zdania. Reszta (87% treści) to według tego detektora tekst wygenerowany przez AI.

Skuteczność wykrywania treści AI przez ZeroGPT jest więc raczej mizerna :D. Oczywiście to tylko jeden przykład, ale daje on już jakiś ogólny ogląd sytuacji.

Copyleaks

Copyleaks również nie wierzy w moje zdolności pisarskie i po przeanalizowaniu mojego fragmentu stwierdza, że został on napisany przez sztuczną inteligencję.

Writer AI content detector

AI content detector do Writer To jeden z niewielu detektorów, które testowałem, który ocenił mój tekst jako „stworzony przez człowieka”.

Niestety nie świadczy to wcale o nim dobrze, bo z ciekawości chwilę później sprawdziłem nim opis, który wygenerowałem w ChatGPT za pomocą jednozdaniowego prompta.

No i ten tekst również został przez ten detektor uznany za napisany przez człowieka.

Smodin

Najlepiej ze wszystkich detektorów, które testowałem spisał się Smodin. Poprawnie wskazał, że fragment mojego artykułu jest napisany przez człowieka, a także że fragmenty wygenerowane są… cóż, wygenerowane.

Isgen

Detektor Isgen poradził sobie wzorowo – bezbłędnie wskazał, że tekst w całości został napisany przez człowieka.

Co ciekawe, w narzędziu mamy podgląd tzw. podziału prawdopodobieństwa.

Możemy więc sprawdzić nie tylko to, czy tekst został napisany przez sztuczną inteligencję czy człowieka, ale także jakie jest prawdopodobieństwo, że stworzono go z wykorzystaniem obu „technik” pisania.

Tak czy inaczej – jak widać – nie można do końca polegać na detektorach.

Nie uważam, że zawsze się one mylą i można wszystkie wyrzucić do kosza. Twierdzę jednak, że rozpoznanie tekstu napisanego przez AI jest coraz trudniejsze, a oszukanie takich detektorów wręcz przeciwnie, staje się coraz łatwiejsze.

2. Powtarzające się struktury i zwroty

Wiemy już, że detektory AI często zawodzą. Czy są więc jakieś inne metody na rozpoznawanie tekstów napisanych przez AI?

Odpowiedź brzmi tak. Można próbować oceniać je „na oko” – czyli przeanalizować pod kątem np. powtarzających się zwrotów, które występują najczęściej na początku oraz na końcu wygenerowanego tekstu.

Każdy kto generuje treści na co dzień z łatwością rozpozna zwroty charakterystyczne dla konkretnych modeli językowych.

Z mojego doświadczenia wynika, że takie zwroty to między innymi:

„W tym artykule przyjrzymy się…” i różne wariacje (w tym blogu, wpisie blogowym, artykule blogowym omówimy/wyjaśnimy itd.)

„W dzisiejszym dynamicznym świecie…” – to jeden z najbardziej charakterystycznych i najczęściej powtarzających się zwrotów w tekstach AI. Zwykle po nim pada określenie branży lub konkretnej tematyki wypisanej w prompcie. Tutaj także mamy różne wersje, np. „w dzisiejszym świecie…”, „w dzisiejszych/obecnych czasach…” itd.

Nie tylko… ale także…”;
„Na podstawie dostępnych danych…”.

Tego typu charakterystycznych dla AI zwrotów jest dużo więcej, a im dłużej pracuje się z tekstami, tym więcej się ich zauważa.

Ba – postanowiłem sam zapytać ChatGPT w wersji 4o, jakich sformułowań używa najczęściej przy generowaniu treści :). Część z nich faktycznie dość dobrze kojarzę i mogę potwierdzić, że często pojawiają się w tekstach.

Typowe zwroty AI nie są jednak czynnikiem, na podstawie którego uznałbym jednoznacznie tekst za wygenerowany. Przecież każdy może użyć tych konkretnych zwrotów w swojej wypowiedzi i wcale nie musi być do tego ChatemGPT.

No i w drugą stronę, każdy podczas generowania tekstu może umieścić w prompcie instrukcję o zakazie używania takich zwrotów. Wtedy tekst będzie w 100% wygenerowany, a zwrotów po prostu nie będzie.

3. Analiza tekstu

Kolejnym krokiem, który podejmuję, by odróżnić tekst wygenerowany przez AI od tego napisanego przez człowieka, jest analiza treści.

Ja zawsze zwracam pod tym kątem uwagę na kilka elementów:

1. Kalki z języka angielskiego

AI ma w zwyczaju przekładać 1:1 konstrukcje używane np. tylko w języku angielskim i stosować je w tekstach po polsku.

Przykładem takiego wyrażenia może być „oferta dedykowana”, której nagminnie używa ChatGPT (z ang. dedicated to – czyli: „skierowana do”).

2. Zbyt długie i rozbudowane zdania

Czytasz zdanie, a końca nie widać? To może być fragment wygenerowany przez AI.

Zdania ciągnące się przez kilka wierszy, wielokrotnie złożone i po prostu mocno zagmatwane, to kolejny sygnał, mogący świadczyć o sztucznej inteligencji „za klawiaturą”.

3. Brak naturalnych błędów

Tekst napisany do bólu poprawnie i schematycznie może wskazywać na treść wygenerowaną przez AI. W końcu błądzić jest rzeczą ludzką i nawet najlepszym pisarzom czy copywriterom zdarza się popełnić drobne błędy w trakcie pisania tekstu.

4. Błędy interpunkcyjne

Choć sztuczna inteligencja raczej nie popełnia zbyt wielu błędów językowych czy gramatycznych, to zdarza jej się dodawać nadprogramowe przecinki – szczególnie po przysłówkach.

Niestety ludzie często też to robią – ale obecność tylko takich błędów może już zapalić lampkę ostrzegawczą.

5. Tekst pozbawiony emocjonalnego przekazu

Gdy czytam tekst i mam wrażenie maszynowego „odhaczania” kolejnych zdań bez przerw na jakąkolwiek refleksję, to również zapala mi się czerwona lampka.

Ten punkt dotyczy jednak tylko tekstów wygenerowanych niezbyt umiejętnie. Korzystając z odpowiednich promptów zawsze można pokierować AI tak, by stworzyła tekst wywołujący określone emocje, zawierający kwieciste metafory, CTA itd.

6. Mocno niespójne informacje w różnych akapitach

W różnych miejscach w tekście wygenerowanym przez AI mogą pojawiać się całkowicie sprzeczne informacje, co także może wskazywać na tekst wygenerowany przez sztuczną inteligencję.

Może to wynikać np. z błędnej interpretacji danych przez algorytm lub tzw. halucynacji AI.

7. Wielokrotnie powtarzająca się treść

Niemal bliźniacze fragmenty tekstu mogą pojawiać się w różnych miejscach w treści – na początku, w środku i na końcu.

Sztuczna inteligencja cały czas ma tendencję do wielokrotnego powracania do tych samych informacji, ale ubierania ich w nieco inne słowa. Można to podsumować jako klasyczne „lanie wody”.

8. Braki w warstwie merytorycznej

Braki w warstwie merytorycznej widoczne są najczęściej w bardziej specjalistycznych, branżowych treściach. W tematach ogólnych sztuczna inteligencja radzi sobie (zazwyczaj) całkiem nieźle.

9. Język niepasujący do tematu

AI potrafi niekiedy zastosować zbyt barwny, pompatyczny język, który zupełnie nie pasuje do opisywanej kwestii.

Takie sytuacje zdarzają się najczęściej przy masowym generowaniu treści, gdzie nikt nie czyta tego, co „wypluje” AI przed publikacją.

4. Halucynacje

Halucynacje to chyba najłatwiejszy do wyłapania czynnik świadczący o udziale AI w procesie tworzenia treści.

Halucynacje to po prostu błędy merytoryczne, które powstają, gdy model generujący dany tekst nie ma odpowiedniej wiedzy na temat, o którym pisze. W takich przypadkach często zdarza mu się wypisywać totalne bzdury, które łatwo zweryfikować, jeśli tylko mamy podstawową wiedzę z danej tematyki.

ChatGPT może na przykład napisać nam artykuł o tym, że w Polsce rozważa się pozwolenie dzieciom na prowadzenie samochodu po uzyskaniu pisemnej zgody rodziców.

A może zastanawialiście się kiedyś, jak by to było jeździć na rowerach, które… nie mają kół? Spokojnie, ChatGPT zna odpowiedź na to pytanie i podpowie Wam, jak w przyszłości rozwinie się ta technologia :D.

Czy warto dociekać, czy tekst jest wygenerowany?

Detektory zawodzą. Powtarzające się, charakterystyczne zwroty można edytować, analiza tekstu nigdy nie daje 100% pewności, a halucynacje zdarzają się głównie w skrajnych przypadkach.

Jednym zdaniem: jednoznaczne określenie, czy tekst został napisany przez człowieka, czy sztuczną inteligencję jest naprawdę coraz trudniejsze.

Zastanówmy się jednak, czy warto w ogóle tak zawzięcie analizować teksty pod kątem tego, czy zostały one wygenerowane.

Zacznijmy od SEO.

W swoich wytycznych Google oficjalnie mówi, że nie ma przeciwwskazań do generowania treści przy pomocy AI tak długo, jak te treści są przydatne dla użytkownika.

Google nie ma też problemu z wyświetlaniem na wysokich pozycjach w wynikach wyszukiwania tekstów wygenerowanych przez AI.

Jedyny, niezmienny warunek, jaki te teksty muszą spełniać, to dawanie użytkownikom wartościowych odpowiedzi na pytania, które zadają.

Nie ma więc żadnego powodu, by usilnie piętnować wszystkie teksty generowane pod SEO.

Jeśli są one dobrej jakości, przekazują prawdziwe informacje w prosty sposób i są wartościowe dla użytkowników, to Google może oceniać je równie dobrze, co teksty napisane w całości przez człowieka.

A co z tekstami, które nie są pod SEO, a na przykład na social media?

Nie jestem tutaj ekspertem, ale wydaje mi się, że sytuacja wygląda podobnie, jak w SEO.

Można wygenerować dobry tekst i można wygenerować słaby tekst.

Można też ręcznie napisać zarówno dobry, jak i słaby tekst.

Wszystko zależy od umiejętności jakie posiadamy. Kiedyś chodziło głównie o umiejętności pisarskie. Dzisiaj na wadze zyskują w tej kwestii również umiejętności tworzenia odpowiednich promptów.

W tej materii również bezsensownym wydaje mi się ganianie copywriterów za korzystanie z AI. Jeśli tylko dostarczają teksty dobrej jakości, które spełniają swoje cele, to dlaczego mielibyśmy im zabraniać korzystania z technologii?

To trochę tak, jakbyśmy zabraniali budowlańcom korzystania z koparek czy betoniarek.

Podsumowując, rozpoznanie tekstu wygenerowanego przez AI jest coraz trudniejsze, ale też coraz bardziej bezsensowne.

Skupmy się na tym, aby teksty były wartościowe. Jeśli będą one przekazywały prawdziwe i istotne informacje w przyjazny dla użytkownika sposób, to nie ma znaczenia, czy stworzy je w 100% copywriter, czy narzędzie korzystające ze sztucznej inteligencji, czy copywriter wspomagający się AI.

Podsumowując w punktach

Rozróżnianie treści AI od tekstów napisanych przez człowieka staje się coraz trudniejsze – co wynika głównie z niesamowitego tempa rozwoju algorytmów LLM i uczenia maszynowego.
Podstawowym narzędziem do wykrywania tekstów wygenerowanych przez sztuczną inteligencję są detektory AI – jednak nie są one 100-procentowo skuteczne.
Teksty stworzone przez AI zawierają typowe konstrukcje i zwroty występujące najczęściej w pierwszym i ostatnim akapicie – chodzi o takie wyrażenia jak np. „w dzisiejszym dynamicznym świecie…”.
W celu odróżnienia tekstu wygenerowanego przez AI od tego napisanego przez człowieka warto wykonać analizę treści, skupiając się na takich aspektach jak kalki językowe, zbyt rozbudowane zdania czy sprawdzenie poprawności merytorycznej.
Sztuczna inteligencja może „halucynować” – czyli z niezwykłą pewnością siebie pisać totalne bzdury, które można łatwo zweryfikować.
Teksty AI nie są banowane ani w żaden sposób karane przez Google – nic więc nie stoi na przeszkodzie, by zajmowały wysokie pozycje w wynikach wyszukiwania, o ile są dobrze zoptymalizowane i odpowiadają na potrzeby odbiorców.

Autor artykułu

Brajan Pogwizd

Specjalista SEO w agencji Top Online. W pracy najbardziej lubi analizować konkurencję i optymalizować treści. Intensywnie testuje możliwości wykorzystania sztucznej inteligencji w pozycjonowaniu stron.

Zobacz profil autora