ANTICHAT.XYZ    VIDEO.ANTICHAT.XYZ    НОВЫЕ СООБЩЕНИЯ    ФОРУМ  
Баннер 1   Баннер 2

ANTICHAT — форум по информационной безопасности, OSINT и технологиям

ANTICHAT — русскоязычное сообщество по безопасности, OSINT и программированию. Форум ранее работал на доменах antichat.ru, antichat.com и antichat.club, и теперь снова доступен на новом адресе — forum.antichat.xyz.
Форум восстановлен и продолжает развитие: доступны архивные темы, добавляются новые обсуждения и материалы.
⚠️ Старые аккаунты восстановить невозможно — необходимо зарегистрироваться заново.
Вернуться   Форум АНТИЧАТ > Программирование_OLD > PHP, PERL, MySQL, JavaScript
   
 
 
Опции темы Поиск в этой теме Опции просмотра

  #11  
Старый 01.06.2009, 19:34
Gifts
Reservists Of Antichat - Level 6
Регистрация: 25.04.2008
Сообщений: 827
Провел на форуме:
2769640

Репутация: 1304


По умолчанию

iv. Странно, что ваша регулярка вообще работает. Она забирает все, что находится внутри тегов <cite/> если там не содержится слеш

И чем вам моя не нравится? Если забирает много ненужного, тогда так:

Код:
import re
dom = '''<cite>domain3.com</cite>sad ja sad. asda  da.das asda. asdasdaswq.
sadas awe.q eqw .eqweqwe .qw eqwesa . <cite>www.domain3.com</cite>
<cite>qwe.domain1.com</cite> Lorem ipsum sit amet
<cite> http://qwe.rty.domain1.com</cite>
<cite>qwe.rty.domain2.com/index.html</cite>'''
out = re.findall(r'''<cite>.*?(\w+\.\w+)[\s/<>"']''',dom)
print set(out)
Все домены второго уровня без повторов
 
 





Здесь присутствуют: 1 (пользователей: 0 , гостей: 1)
 


Быстрый переход




ANTICHAT.XYZ