Работа с текстом на Linux

Ссылки по теме

Команды обработки текста

Команды обработки текста:

sort - сортировка строк (по тексту, по числовым значениям)
tsort - топологическая сортировка
cat - вывод текста, нумерация строк, удаление повторяющихся пустых строк
grep - фильтрация строк
sed - поиск и замена подстроки в тексте, трансформация текста
cut - разделение каждой строки на поля по разделяющей подстроке и вывод нужных полей
uniq - удаляет повторяющиеся строки идущие друг за другом, выводит количество повторений каждой строки
awk, gawk - скриптовый интерпретатор для обработки текста
head - вывод первых N строк
tail - вывод последних N строк
fmt - форматирование текста
wc - подсчет количества строк или слов
pr - подготовка текста к печати (форматирование полей, страниц, колонок, построчное объединение файлов и вывод в разных колонках)
tr - трансляция или удаление символов (трансляция - замена одного подмножества символов другим)
expand - преобразует символы табуляции в пробелы
unexpand - преобразует пробелы в символы табуляции
paste - построчное объединение нескольких файлов в один много-колоночный файл
join - объединяет строки двух файлов по значению общего поля (подобие JOIN в реляционных базах данных)
look - вывод строк начинающихся с заданной подстроки в отсортированном файле (предназначена для поиска в словаре, словатьпо умолчанию /usr/share/dict/words)
fold
col
column
colrm
nl
gettext
iconv
recode
TeX, gs
groff, tbl, eqn
lex, yacc

Интерактивные

more - интерактивный просмотр текста
less - альтернатива more, быстрее работает с большими файлами

Примеры

# удаление повторяющихся символов
echo '1   2       3' | tr -s ' '
1 2 3

# замена символов
echo '1,2,3' | tr ',' ';'
1;2;3

# удаление символов
echo '  1;    2;     3' | tr -d ' '
1;2;3

Работа с текстом на Linux

Навигация

Поиск