
03.09.2016, 00:25
|
|
Elder - Старейшина
Регистрация: 23.05.2012
Сообщений: 3,462
Провел на форуме: 1070390
Репутация:
81
|
|
Вот для начала, всем пригодится):
================================================== ======
2)..........Сортировать и удалить повторы) sort -u 1.dic > sorted.dic
)........................Удалить возврат каретки) tr -d '\r' bezCR.dic
)........................Удалить возврат каретки) sed $'s/\r//' 1.dic > bezCR.dic
3).....Удалить пробелы в начале и конце) sed 's/^[ \t]*//;s/[ \t]*$//' 1.dic > bezprobelov-nachale-konce.dic
3).....Удалить пробелы в начале и конце) sed -r 's/^\s*//;s/\s*$//' 1.dic > bezprobelov-nachale-konce.dic
3).....Удалить пробелы в начале и конце) egrep -oi "\S*|\S.*\S" 1.dic > bezprobelov-nachale-konce.dic
4)...................Удалить короче 8 символов) sed -r '/.{8,}/!d' 1.dic > dlinee7.dic
4)...................Удалить короче 8 символов) sed '/......../!d' 1.dic > dlinee7.dic
4)...................Удалить короче 8 символов) grep ........ 1.dic > dlinee7.dic
4)...................Удалить короче 8 символов) egrep ".{8,}" 1.dic > dlinee7.dic
e)............Удалить слова с ASCII выше 127) sed '/^[\d9\d10\d13\d32-\d126]*$/!d' 1.dic > ASCII.dic
e)............Удалить слова с ASCII выше 127) sed '/^[\t\n\r -~]*$/!d' 1.dic > ASCII.dic
)...........Удалить ASCII-символы выше 127) sed 's/[^\d9\d10\d13\d32-\d126]//g' 1.dic > ochishen.dic
)...........Удалить ASCII-символы выше 127) tr -dc '\11\12\15\40-\176' ochishen.dic
)..........Оставить только с ASCII выше 127) sed '/[^\t\n\r -~]/!d' 1.dic > musor.dic
5)...................Разбить по количеству слов) split -l 10000000 1.dic
f)...............................Сравнить два словаря) comm -13 proverochniy.dic 1.dic > sravnenniy.dic
f)...............................Сравнить два словаря) join -v2 proverochniy.dic 1.dic > sravnenniy.dic - только первое слово
)..................Подсчитать количество строк) wc -l 1.dic
)....................Подсчитать количество слов) wc -w 1.dic
)............Подсчитать количество символов) wc -c 1.dic
|
|
|