🐧 Практическое руководство по пониманию регулярных выражений на Linux

Автор cryptoparty На чтение 3 мин Опубликовано 05.02.2024

Регулярные выражения, часто сокращаемые до regex, – это последовательности символов, образующие шаблон поиска.

Они могут использоваться для сопоставления и манипулирования строками и являются необходимым инструментом в арсенале любого программиста или системного администратора, особенно в среде Linux.

В этой статье мы постараемся раскрыть суть regex, приведя практические примеры и советы по работе с ними.

Содержание

Понимание основ регекса
Ключевые компоненты Regex:
Эксперименты с Regex на Linux
1. Поиск текста с помощью grep
2. Замена текста с помощью sed
3. Извлечение данных с помощью awk
Советы по экспериментированию с Regex

Понимание основ регекса

По своей сути, шаблон regex позволяет вам определить структуру того, что вы пытаетесь сопоставить.

Это могут быть как простые шаблоны, такие как конкретное слово, так и сложные шаблоны, включающие различные типы символов и специальные символы.

Ключевые компоненты Regex:

Литералы: Это регулярные символы, которые совпадают сами с собой. Например, ‘a’ соответствует символу ‘a’.
Метасимволы: Такие символы, как *, +, ?, |, ^ и $, имеют специальные значения. Например, * означает “ноль или более вхождений предыдущего элемента”.
Классы символов: Обозначаются квадратными скобками [] и соответствуют любому из вложенных символов. Например, [abc] соответствует ‘a’, ‘b’ или ‘c’.
Эскейп-символы: Обратная косая черта \ превращает специальные символы в литералы. Например, \. будет соответствовать точке.

Эксперименты с Regex на Linux

Linux предлагает различные инструменты для экспериментов с regex, такие как grep, sed, awk и perl. Вот несколько практических примеров:

1. Поиск текста с помощью grep

grep обычно используется для поиска по тексту.

Предположим, у вас есть файл sample.txt, и вы хотите найти все строки, содержащие номер телефона в формате XXX-XXX-XXXX.

Патерн:

\b\d{3}-\d{3}-\d{4}\b

Команда:


grep -P '\b\d{3}-\d{3}-\d{4}\b' sample.txt

2. Замена текста с помощью sed

sed отлично подходит для замены текста.

Представьте, что вы хотите заменить даты в формате YYYY-MM-DD на DD-MM-YYYY.

Regex патерн:

(\d{4})-(\d{2})-(\d{2})

Команда:


sed -E 's/(\d{4})-(\d{2})-(\d{2})/\3-\2-\1/' sample.txt

3. Извлечение данных с помощью awk

awk – мощный инструмент для обработки данных.

Допустим, у вас есть файл CSV, и вы хотите извлечь строки, в которых второй столбец соответствует определенному шаблону.

Шаблон Regex: Для поиска шаблона ‘abc’ во втором столбце.

Команда:


awk -F, '$2 ~ /abc/' sample.csv

Советы по экспериментированию с Regex

Начните с простого: Начните с базовых шаблонов и постепенно усложняйте их.
Используйте онлайн-тестеры Regex: Такие инструменты, как Regex101, предоставляют песочницу для тестирования шаблонов.
Читабельность имеет значение: Regex может быть сложным. Комментируйте свои шаблоны или разбивайте их на удобные для чтения сегменты.
Учитесь на примерах: Смотрите на реальные примеры и пытайтесь понять, как они работают.
Регулярно практикуйтесь: Регулярное использование в различных контекстах поможет закрепить ваше понимание.

см. также: