ANTICHAT

ANTICHAT (https://forum.antichat.xyz/index.php)
-   Песочница (https://forum.antichat.xyz/forumdisplay.php?f=189)
-   -   Как быстро удалить Дубликаты строк с оригиналом (https://forum.antichat.xyz/showthread.php?t=433435)

Found 23.11.2015 12:53

Всем привет..,

Собственно вопрос, через программы или может быть есть Онлайн сервис -что конечно же удобней было бы для меня

Пример есть хеши:

05703552841fe4f579d1c75bd4b8d8a1

2363f2308fe82cbaf3240141003462e1

ef0de5525ec9d0a8679525f1753fea00

05703552841fe4f579d1c75bd4b8d8a1

Представим список большой как удалить из этих строк "05703552841fe4f579d1c75bd4b8d8a1" вместе с оригиналом что бы получить на выходе:

2363f2308fe82cbaf3240141003462e1

ef0de5525ec9d0a8679525f1753fea00

ZodiaX 23.11.2015 13:42

Цитата:

Сообщение от Found

Всем привет..,
Собственно вопрос, через программы или может быть есть Онлайн сервис -что конечно же удобней было бы для меня
Пример есть хеши:
05703552841fe4f579d1c75bd4b8d8a1
2363f2308fe82cbaf3240141003462e1
ef0de5525ec9d0a8679525f1753fea00
05703552841fe4f579d1c75bd4b8d8a1
Представим список большой как удалить из этих строк "05703552841fe4f579d1c75bd4b8d8a1" вместе с оригиналом что бы получить на выходе:
2363f2308fe82cbaf3240141003462e1
ef0de5525ec9d0a8679525f1753fea00

Любой текстовый редактор -> заменить 'hash' на ' '

Если удалять списком то можно как то так:

Код:

#!/usr/bin/env python
al = []
fi = []
with open('откуда удаляем.txt') as f:
    al = f.read().splitlines()
with open('что удаляем.txt') as f:
    fi = f.read().splitlines()
ss = set(al) -  set(fi)
print ss


Found 23.11.2015 13:47

Без Скрипта, и не вручную, еще варианты есть? -онлайн сервис например

По скрипту я и сам могу удалить но это геморно каждый раз

grimnir 23.11.2015 16:12

TextPipe так без проблем сделает /threads/403345/

xusanokaz 06.01.2016 22:09

FlodDublicarot в помощь

Found 07.02.2016 03:29

Цитата:

Сообщение от grimnir

TextPipe так без проблем сделает
/threads/403345/

3.5 Gb файл -нажал удалить дубликаты на файл, вышла консоль и все черный экран малевича

Цитата:

Сообщение от xusanokaz

FlodDublicarot в помощь

Ссылко по названию в гугле ничего не находит

grimnir 08.02.2016 12:48

http://snag.gy/jjaA5.jpg

http://snag.gy/HMIHX.jpg

pw0ned 08.02.2016 17:35

TextUtils by Lays

Присутствует удаление дубликатов.

grimnir 08.02.2016 18:06

Цитата:

Сообщение от pw0ned

TextUtils by Lays
Присутствует удаление дубликатов.

я так понял ему не удаление надо дубликатов,а удаление из списка другово списка с удалением дубликатов. А то так ULM вне конкуренции http://unifiedlm.com/Home

lifescore 08.02.2016 20:39

Цитата:

Сообщение от grimnir

я так понял ему не удаление надо дубликатов,а удаление из списка другово списка с удалением дубликатов. А то так ULM вне конкуренции
http://unifiedlm.com/Home

согласен, CLI версия

пример сравнения 2ух баз по 300 метров каждая. Сравнение и удаление строк которые присутствуют в сравниваемой базе.

2 базы по 300метров (600мб в сумме) - за 12 сек управилось.

http://i.imgur.com/75vInAK.jpg

Спокойно берет и 28 гб файлики. Наверно, из софта выше, только textpipe сможет также, но примерно за месяц...


Время: 10:16