Форум АНТИЧАТ - Показать сообщение отдельно - [Регулярки & Mod

iv. Странно, что ваша регулярка вообще работает. Она забирает все, что находится внутри тегов <cite/> если там не содержится слеш

И чем вам моя не нравится? Если забирает много ненужного, тогда так:

Код:

import re
dom = '''<cite>domain3.com</cite>sad ja sad. asda  da.das asda. asdasdaswq.
sadas awe.q eqw .eqweqwe .qw eqwesa . <cite>www.domain3.com</cite>
<cite>qwe.domain1.com</cite> Lorem ipsum sit amet
<cite> http://qwe.rty.domain1.com</cite>
<cite>qwe.rty.domain2.com/index.html</cite>'''
out = re.findall(r'''<cite>.*?(\w+\.\w+)[\s/<>"']''',dom)
print set(out)

Все домены второго уровня без повторов