думаю, алогоритм такой:
1) получить список адресов для спайдинга
а) ручками
б) с помощью поисковика, например спайдер делает запрос в гугл на частозапрашиваемое слово. потом выцепляет оттуда ссылки на найденные сайты (*)
2) делать запросы на адреса, получать хтмл код в ответ и выдирать из него мыльники по маске (например, все слова (строки?) вида *@*.*
(*) означает, что я не знаю (мне стыдно ), как реализовать получение хтмл кода в обратном запросе, но думаю, это очень просто =)
ЗЫ [krot], можешь постучать мне в асю. разберемся вместе)