Показать сообщение отдельно

  #461  
Старый 01.06.2009, 19:34
Gifts
Reservists Of Antichat - Level 6
Регистрация: 25.04.2008
Сообщений: 827
Провел на форуме:
2769640

Репутация: 1304


По умолчанию

iv. Странно, что ваша регулярка вообще работает. Она забирает все, что находится внутри тегов <cite/> если там не содержится слеш

И чем вам моя не нравится? Если забирает много ненужного, тогда так:

Код:
import re
dom = '''<cite>domain3.com</cite>sad ja sad. asda  da.das asda. asdasdaswq.
sadas awe.q eqw .eqweqwe .qw eqwesa . <cite>www.domain3.com</cite>
<cite>qwe.domain1.com</cite> Lorem ipsum sit amet
<cite> http://qwe.rty.domain1.com</cite>
<cite>qwe.rty.domain2.com/index.html</cite>'''
out = re.findall(r'''<cite>.*?(\w+\.\w+)[\s/<>"']''',dom)
print set(out)
Все домены второго уровня без повторов
 
Ответить с цитированием