Jak przeszukiwać dokumenty z pomocą wyrażeń regularnych i Pythona3 – cz. 1.

Co to są wyrażenia regularne i jak można z nich korzystać?
Wyrażenia regularne pomagają nam odnaleźć dane słowa, liczby i różne kombinacje znaków. Znajomość wyrażeń regularnych może pomóc w pisaniu dużo prostszych programów zajmujących się odnajdywaniem poszukiwanych słów.

Używając następujących wyrażeń możemy odnaleźć konkretne litery, liczby, etc.:
[a, b, c, d, e ,f] = wyszukuje litery od a do f
[a-z] = wyszukuje małe litery alfabetu
[^x] = wyszukuje wszystko oprócz x
\d = wyszukuje wszystkie cyfry z zakresu [0-9]
\D = wyszukuje wszystko oprócz cyfr [^0-9]
\s = wyszukuje spacje, tabulatory, nowa linia
\S = wyszukuje wszystko bez spacji, tabulatorów, nowej linii
\w = wyszukuje duże i małe litery oraz cyfry [a-zA-Z0-9_]
\W = wyszukuje wszystko oprócz dużych i małych liter oraz cyfr [^a-zA-Z0-9_]
[\s.,] = wyszukuje spacje, kropki i przecinki

Ponadto przy pomocy wyrażeń regularnych możemy określić miejsc występowania oraz rodzaj i liczbę powtórzeń danego wyrażenia
^ – wyszukuje czy na początku dokumentu znajduje się dane wyrażenie
$ – wyszukuje czy dokument kończy się wyrażeniem
. = wyszukuje wszystko oprócz znaku nowej linii
* = poprzedni znak 0 lub więcej razy (np. ab*a = aa, aba, abba, abbba, abbbba, etc.)
? = poprzedni znak zero lub jeden raz (np. abb?a = aba, abba)
+ = poprzedni znak raz lub więcej razy (np. ab+a = aba, abba, abbba, etc.)
{x, y} = poprzedni znak od x do y razy (np. ab{2, 3}a = abba, abbba)

Wyrażenia możemy też grupować
(ab) = grupa
l(ab)*el = wyszuka: lel, label, lababel, labababel, lababababel, etc.

W kolejnych wpisach znajdziecie kilka konkretnych przykładów użycia wyrażeń regularnych.

Dodaj komentarz

Twój adres email nie zostanie opublikowany. Pola, których wypełnienie jest wymagane, są oznaczone symbolem *