Показать сообщение отдельно

  #1930  
Старый 26.12.2016, 20:08
Zayac
Banned
Регистрация: 15.08.2016
Сообщений: 108
Провел на форуме:
37120

Репутация: 0
По умолчанию

Никто не вкурсе как быстро отсортировать большой словарь около 250гиг ?

Что я хочу удалить строки из большого словаря которые дублируются в моем основном словаре 17гиг.

Для этого нужно выполнить команду (предварительно отсортировав словари):

comm -31 dic1.lst dic2.lst > out.lst ### вывести уникальные строки файла 2

join -v2 dic1.lst dic2.lst > out.lst ### печатать не имеющие пары строки из файла НОМЕР 2 или "-v1" - файла 1

командой LC_ALL=C sort dic.lst > dicout.lst сортирует очень быстро в 4-5раз быстрее(хотя заметил что немного другая сортировка) чем просто sort dic.lst > dicout.lst и comm или join почему-то

ругаются данные файла 1 не отсортированы. может какой-то параметр добавить после LC_ALL=C sort ???
 
Ответить с цитированием