Сообщение от
fire-dance
Собрал вообще словарь бомбу!
1.Все словари Shedz 160гиг объединил с словарями с сайтаhttp://wordbook.xyz/download/там гдето ДОХмнога гиг но когда почистил от дублей вышло 126 гиг...
Все это я объединил удалил дубли,удалил строки меньше 8 и больше 64<br/>
вышло 106 гиг пока вылаживать я не буду хочу довести дело до максимума..
Наличие просто огромного числа "кракозябр" в этом словаре сподвигло к обновлению своей небольшой программки для очистки всего этого безобразия... Спасибо
fire-dance за его работу и мою идею
Что программа может: обрабатывать файлы очень большого размера, удалять весь мусор, теги HTML, коды символов ASCII преобразовывать в сами символы, удалять строки короче 8-ми символов, удалять все цифры или только 8-, 9-, 10-значные числа и т.п. Работает с текстом в формате Windows, но сохранять почищенный файл может и в *nix (LF). Корректно обрабатывает текстовые файлы и в nix-формате. Есть короткая встроенная справка. Нету: вирусов, кейлоггеров, троянов, руткитов и прочей братии.
Скачать можно здесь. Там же, уровнем выше (XXXL), лежат уже очищенные словари
fire-dance пока ещё не все, но пополняются по мере очистки.
P.S. Стабильно работает на Win 7 Ultimate x64.