Regex ma w SEO (i nie tylko) mnóstwo zastosowań. Osobiście najczęściej korzystam z niego w Google Search Console – gdzie pozwala on na niestandardowe filtrowanie danych. Oto jak i po co z niego korzystam.
Spis treści:
- Czym są wyrażenia regularne?
- Do czego służą wyrażenia regularne i jak są zbudowane?
- Jak nauczyłem się wyrażeń regularnych
- Regex a ChatGPT
- Gdzie można użyć wyrażeń regularnych w GSC?
- Wybór podstrony do optymalizacji
- Szukanie fraz wartych wykorzystania
- Wyszukiwanie fraz o określonej liczbie słów
- Wyszukiwanie fraz o intencji informacyjnej
- Wyszukiwanie adresów URL z polskimi znakami
- Weryfikacja trailing slash
- Podsumowanie w punktach
Czym są wyrażenia regularne?
Wyrażenia regularne (ang. regular expression – w skrócie regex), to zestaw specjalnych reguł, który pozwala na wyszukiwanie, dopasowywanie lub zastępowanie fragmentów tekstu.
Regex jest wykorzystywany w wielu językach programowania. Używa się go w różnych celach, np. aby znaleźć wszystkie numery telefonów w dokumencie lub usunąć niechciane znaki.
Znalazł też parę zastosowań w pozycjonowaniu.
Dzięki niemu mogę sprawniej analizować dane w Google Search Console w bardziej zaawansowany sposób. Można go wykorzystać nie tylko GSC, ale ja skupię się tutaj właśnie na nim.
Przedstawię Ci parę rozwiązań, które sam stosuje w analizach, żeby ułatwić sobie pracę.
Do czego służą wyrażenia regularne i jak są zbudowane?
W praktyce wyrażenie regularne to ciągi znaków zbudowane z kilku podstawowych komponentów, które pozwalają definiować wzorce dopasowań do tekstu
Główne elementy regex to:
- znaki dosłowne (znaki, które mają być dosłownie dopasowane do tekstu),
- znaki specjalne (które służą budowaniu wzorców),
- grupy i alternatywy (służące do grupowania wyrażeń),
- zbiory znaków (określa się w nich zbiory dopuszczalnych znaków lub ich zakresy),
- kwantyfikatory (pozwalają wskazać liczbę wystąpień),
- kotwice (mogę wskazać nimi początek lub koniec tekstu).
Poza nimi występują jeszcze metaznaki, które są z góry ustalonymi zakresami/klasami znaków.
Przykładem wyrażenia regularnego może być wyrażenie \d{4}
, w którym :
- \d (metaznak) oznacza dowolną cyfrę (0-9).
- {4} (kwantyfikator) oznacza cztery cyfry z rzędu.
Takie wyrażenie regularne w połączeniu z odpowiednim narzędziem czy skryptem może mi posłużyć np. do znajdowania lat w dokumencie (np. 2024, 1998).
Jak można wykorzystać taki mechanizm w pozycjonowaniu? Opcji jest mnóstwo.
Potrzebujesz sprawdzić wyniki na kilkadziesiąt słów kluczowych o podobnej budowie? Wykorzystując regex błyskawicznie przefiltrujesz dane.
Chcesz zweryfikować coś w określonej grupie adresów URL? Regex pomoże Ci znaleźć wyniki tych, które pasują do schematu.
Musisz porównać do siebie kilka podstron? Regex wyciąga pomocną dłoń :)
Wszystkie dostępne znaki regex znajdziesz np. w Regular Expressions Cheat Sheet. Jak zobaczysz jednak poniżej, wcale nie trzeba się ich uczyć.
Jak nauczyłem się wyrażeń regularnych
Osobiście naukę wyrażeń regularnych zacząłem od filmów poradnikowych na YouTube. Obejrzałem kilka materiałów, zanotowałem co ważniejsze i próbowałem to jakoś wykorzystać.
Przede wszystkim uczyłem się jednak właśnie w praktyce, wspierając się przy tym stronami, które pozwalają sprawdzić napisanych przez nas regexy.
Regex101.com - jedna ze stron na których możemy sprawdzać i testować swoje regexy.
Zaczynałem właśnie na Regex101.com – na tej stronie na początku próbowałem sobie bardzo prostych regexów. Żeby zobaczyć, jak to działa i jakie daje możliwości.
Później próbowałem wykorzystywać w pracy gotowe rozwiązania przygotowane przez innych ludzi. Nie trzeba daleko szukać, na LinkedInie przewija się sporo takich postów – użytkownicy dzielą się swoimi sprawdzonymi rozwiązaniami.
Dzięki nim mogłem przećwiczyć w praktyce, już stricte w pozycjonowaniu, jak takie wyrażenia można wykorzystać i jakie dane można za ich pomocą otrzymać. Głównie właśnie w Search Console.
Tak stopniowo rozwijałem swoje umiejętności, a obecnie potrafię już nie tylko napisać proste regexy, ale też np. modyfikować różne schematy z sieci pod swoje potrzeby, a nawet tworzyć własne.
Regex a ChatGPT?
Uprzedzając pytania, tak, ChatGPT bardzo dobrze radzi sobie z tworzeniem wyrażeń regularnych. Powiem więcej, obecnie może nawet bez problemu odegrać rolę nauczyciela, który przeprowadzi Cię przez podstawy regex.
Od niedawna mamy także możliwość korzystania z asystentów AI/GPTs (oraz tworzenia własnych). I jak się już pewnie domyślasz – są wśród nich takie wyspecjalizowane w tworzeniu Regex.
Jednego z takich asystentów, sprawdzonego w praktyce, dodałem na naszą podstronę z GPTs: GPTs - Lista asystentów GPT społeczności SEO Samodzielni.
Korzystam z niego, gdy potrzebuje napisać bardziej zaawansowane regexy, albo potrzebuje upewnić się, jak działa dany element.
Gdzie można użyć wyrażeń regularnych w GSC?
Jeśli chcę analizować widoczność strony, to w GSC przechodzę do zakładki Skuteczność.
Żeby przeszukać dostępne tutaj dane dane według wyrażenia regularnego, wybieram kolejno: „Nowa” > „Zapytanie / Strona” > „Filtruj / Porównaj” > „Niestandardowe (wyrażenie regularne)”. I to właśnie w tym miejscu (widocznym na screenshocie powyżej) wklejam swój regex.
Warto wiedzieć
Wyrażenia regularne w Search Console stosuję poprzez dodanie odpowiedniego filtra w raporcie Skuteczności.
W zależności od tego, co chcę analizować w danym przypadku, wybieram odpowiedni filtr Strony lub Zapytania oraz jego wariant (Filtruj/Porównaj).
A skoro wiadomo już, gdzie można wpisać wyrażenie regularne w GSC, to czas przejść do praktyki :).
1. Wybór podstrony do optymalizacji
Jak pewnie wiesz, jedną z naszych często wykorzystywanych w Top Online strategii jest tworzenie ukrytych kategorii.
Zawsze od razu po stworzeniu ich wdrażam podstawową optymalizację: H1, meta tagi i tak dalej. Jeśli kategorii jest jednak więcej niż kilka, to treści na nie zlecam stopniowo, w kolejnych miesiącach.
W takiej sytuacji muszę jakoś zdecydować o kolejności – o tym, które podstrony opiszemy jako pierwsze. I to właśnie tutaj przydają się wyrażenia regularne w Search Console. Szczególnie, jeśli nie da się tych podstron analizować za pomocą podstawowych filtrów.
Warto wiedzieć
Jeśli analizujesz nowo utworzone podstrony, to musisz poczekać, aż zostaną one wykryte przez Google – wcześniej nie zobaczysz ich w Search Console.
Jak to robię?
Na początek znajduje wspólny element dla adresów URL, które chcę przeanalizować.
W przypadku ukrytych kategorii wspólną częścią będzie zwykle wystąpienie w adresie jednej z kilku fraz, na których bazowałem w doborze.
Warto dodać też długość zapytania większą niż liczba słów we wskazanych frazach (żeby nie analizować ogólnych kategorii).
Do stworzenia takiego wyrażenia regularnego wykorzystuje ChatGPT albo GPTs, tak jak wspominałem na początku wpisu:
Korzystając z takiego wyrażenia regularnego mogę spokojnie przeanalizować wszystkie nowo utworzone kategorie. Wystarczy, że miejsce „fraza1”, „fraza2” itd. wstawię słowa kluczowe na podstawie których dobierałem frazy do nowych podstron.
Co więcej, mogę też zmodyfikować Regex tak, by wykluczał adresy, które zawierają tylko tę frazę (np. główne kategorie, od których wychodziłem do tworzenie nowych, ukrytych):
Celowo nie podaję tutaj gotowych wyrażeń regularnych do skopiowania, bo mogłyby one się nie sprawdzić, np. ze względu na inną strukturę adresów w Twoim serwisie.
No dobra, a jak z tego korzystam?
Przefiltrowane tak dane o widoczności wykorzystuję głównie do filtrowania po pozycji danych adresów URL.
W ten sposób łatwo wyciągam z GSC te adresy, które np. są poza TOP20 czy poza TOP10. To dla nich w pierwszej kolejności zlecam opisy kategorii, żeby poprawić ich pozycję.
Jak widać mam wykorzystany filtr w postaci wyrażeń regularnych, a także średniej pozycji. W ten sposób mogę szybko ustalić, nad którymi adresami ze strony powinienem jeszcze popracować.
Warto wiedzieć
W taki sam sposób możesz analizować też podstrony ofertowe, widoczność swojego bloga, czy coś jeszcze innego – ta metoda niekoniecznie musi dotyczyć ukrytych kategorii.
2. Szukanie fraz wartych wykorzystania
Kolejną rzeczą, do której wykorzystuję wyrażenia regularne jest research nowych słów kluczowych.
Tutaj opcji jest mnóstwo. Mogę np. poszukać fraz zaczynających się na daną literę. Po to, żeby móc stworzyć na nie nowe podstrony i podpiąć je w leksykonie. Żeby zapełnić braki w leksykonie dla danej sekcji.
Dla przykładu powiedzmy, że potrzebuje ukrytych kategorii dla literki „K”. Zastosuję wiec taki regex:
^\bk\w*(?:\s+\b\w+\b)*$
Po wklejeniu go do filtrowania w GSC dostaję dyspozycji wszystkie słowa kluczowe zaczynające się na K, na które widoczna była strona.
Teraz wystarczy sprawdzić, czy dla jakichś słów kluczowych możemy jeszcze stworzyć nowe podstrony. Zwykle będą to te o małej liczbie wyświetleń i nie mające kliknięć.
3. Wyszukiwanie fraz o określonej liczbie słów
Kolejny sposób na wykorzystanie regex w Search Console, to wyszukiwanie fraz o określonej liczbie słów.
^\b\w+\b(\s\b\w+\b){2,3}$
- za pomocą tego wyrażenia regularnego mogę znaleźć w Google Search Console słowa kluczowe, które od 3 do 4 słów.
Po co mi takie filtrowanie? To proste – jeśli optymalizuję naprawdę spory serwis, to dzięki takiemu regexowi mogę łatwo wyłapać tzw. „low-hanging fruits”. Czyli podstrony, z których można łatwo „wyciągnąć” dodatkową widoczność czy ruch.
Chodzi o to, że na główne frazy (1-2 słowa) taki serwis zwykle ma już stabilne pozycje lub wykorzystuje większość dostępnych zapytań.
Na dłuższe natomiast może być często np. na pozycjach bliskich TOP10, podczas, gdy nigdy nie był na nie optymalizowany.
Znalezienie podstron, które są w takiej sytuacji pozwala często za pomocą paru drobnych zmian w treści czy dodania linków wewnętrznych z odpowiednim anchorem na przestrzeni kilku dni zyskać dodatkowych użytkowników.
A jeśli znajdę takich podstron i fraz kilkanaście lub kilkadziesiąt – efekt zrobi się już całkiem pokaźny.
4. Wyszukiwanie fraz o intencji informacyjnej
(?i)\b(co|gdzie|kiedy|jak|kto)\b
- dzięki temu wyrażeniu mogę znaleźć w Google Search Console słowa kluczowe, które posiadają intencję informacyjną.
Dzięki takiemu filtrowaniu mogę szybko „wyłowić” np. pomysły na artykuły blogowe dla sklepu internetowego.
Taki „patent” ma ważną przewagę nad klasycznym szukaniem nowych fraz (np. w planerze): korzystając z niego znajduję zapytania, na które Google JUŻ wyświetla sporadycznie pozycjonowany przeze mnie serwis.
Specjalnie stworzony pod takie słowo kluczowe artykuł będzie więc znacznie łatwiej budował pozycję w wynikach. Zwykle zostanie też szybciej zindeksowany.
5. Wyszukiwanie adresów URL z polskimi znakami
Tym razem szukam nie dodatkowego potencjału, a po prostu błędów.
Jak wiadomo, polskie znaki w adresach URL to nic dobrego – są problematyczne dla użytkowników, a często także dla robotów internetowych i serwerów.
„Wrzucenie” takiego filtra do raportu Skuteczności na początku współpracy pozwala szybko skreślić ten problem z listy potencjalnych błędów.
.*[ąćęłńóśźż].* - znajduje w GSC wszystkie polskie znaki
Z tego filtrowania korzystam też w przypadku tych serwisów, w których był już wcześniej problemy z polskimi znakami w URL-ach.
Przydaje się ono do sprawdzania, czy wszystkie poprawione adresy zostały już poprawnie zindeksowane. Często po zmianie adresów problem potrafi wrócić, np. przez to, że do starych URL-i ciągle kierują jakieś linki.
6. Weryfikacja trailing slash
No i na koniec kolejny sposób na weryfikację poprawnego indeksowania i ewentualne sprawdzenie, czy na stronie nie występuje trailing slash.
.*/$
- znajduje w GSC adresy URL zakończone /
^.*[^/]$
- znajduje w GSC adresy URL niezakończone /
To tylko niektóre z wyrażeń regularnych, jakie można wykorzystać w swojej codziennej pracy z GSC. Zachęcam do głębszego zapoznania się z tematem, bo z doświadczenia wiem, że regex może bardzo usprawnić codzienną pracę.
Osobiście korzystam z niego prawie przy każdej głębszej analizie w GSC.
Podsumowanie w punktach
- Wyrażenia regularne to reguły, które pozwalają na wyszukiwanie, dopasowywanie lub zastępowanie fragmentów tekstu.
- W SEO przydają się one przy wielu różnych czynnościach, między innymi w analizie danych w Search Console.
- Naukę regex najlepiej zacząć od poradników YouTube wprowadzających w temat, a potem jak najszybciej przejść do praktyki.
- Świetnym rozwiązaniem, które przyda się na początku (i nie tylko) są strony sprawdzające regex – np. regex101.com.
- Wyrażenia regularne w Search Console stosuję w filtrach raportu Skuteczności, odpowiednio dla stron lub zapytań.
- Wykorzystuje je między innymi do tego, żeby łatwo odnaleźć podstrony do optymalizacji w określonych grupach adresów.
- Przydają się także do wyszukiwania fraz wartych wykorzystania w leksykonie, czy po prostu do rozbudowy serwisu.
- Z wyrażeniami regularnymi w GSC wyszukuję też frazy o określonej liczbie słów, np. po to, żeby znajdować te warte dodatkowej optymalizacji.
- Po regex sięgam również wtedy, gdy potrzebuję dobrać frazy na wpisy blogowe – bo pozwala on wyszukać te z intencją informacyjną, na które już mam widoczność.
- Przydaje mi się on i do wychwytywania błędów: między innymi zindeksowanych adresów URL z polskimi znakami i trailing slash.