Здравствуйте,не мог ли бы вы мне подсказать как быстро можно собрать список .edu сайтов с ПР>=5???
Если данный список есть у кого-либо,то прошу его выложить.Заранее спасибо.
--------[ Использование скрипта: ]---------------------
в файл search.inc вписываем все запросы к google, например:
site:.edu
inurl:"/guestbook/"
inurl:"/gb/"
В файл site.inc если нужны дополнительные зоны - вписываем под имеющимися
Запускаем getdb.pl. В окне будут показыватся запросы и полученные результаты.
После сбора ссылок скрипт автоматически удалит дублирующиеся ссылки и начнет проверку на PageRank
В результате ссылки будут раскиданы по текстовым файлам pr0.txt - pr10.txt ,
и один общий файл db_pr.txt, отсортированный так, что в начале идут ссылки с самым высоким PR.
После сбора ссылок их количество можно посмотреть запустив:
count.pl db_pr.txt
Также присутствуют отдельные скрипты для удаления дублей и проверки pagerank
remdup.pl - удаляет дупы из файла db.txt и сохраняет чистый в файл db_rmd.txt
checkpr.pl - проверяет страницы из файла db_rmd.txt на pagerank и раскидывает их в файлы с pr_[x].txt,
где x - pagerank страницы, а также создает один общий файл db_pr.txt , в начале идут ссылки с самымвысоким PR
Для парсинга просто запроса без доменных зон - в файле sites.inc стереть все и
просто нажать Enter (сделать перенос строки).