
26.12.2016, 20:08
|
|
Banned
Регистрация: 15.08.2016
Сообщений: 108
Провел на форуме: 37120
Репутация:
0
|
|
Никто не вкурсе как быстро отсортировать большой словарь около 250гиг ?
Что я хочу удалить строки из большого словаря которые дублируются в моем основном словаре 17гиг.
Для этого нужно выполнить команду (предварительно отсортировав словари):
comm -31 dic1.lst dic2.lst > out.lst ### вывести уникальные строки файла 2
join -v2 dic1.lst dic2.lst > out.lst ### печатать не имеющие пары строки из файла НОМЕР 2 или "-v1" - файла 1
командой LC_ALL=C sort dic.lst > dicout.lst сортирует очень быстро в 4-5раз быстрее(хотя заметил что немного другая сортировка) чем просто sort dic.lst > dicout.lst и comm или join почему-то
ругаются данные файла 1 не отсортированы. может какой-то параметр добавить после LC_ALL=C sort ???
|
|
|