
01.05.2008, 16:49
|
|
Постоянный
Регистрация: 07.02.2006
Сообщений: 630
Провел на форуме: 12985021
Репутация:
676
|
|
Вот очень полезный скрипт:
--------[ Использование скрипта: ]---------------------
в файл search.inc вписываем все запросы к google, например:
site:.edu
inurl:"/guestbook/"
inurl:"/gb/"
В файл site.inc если нужны дополнительные зоны - вписываем под имеющимися
Запускаем getdb.pl. В окне будут показыватся запросы и полученные результаты.
После сбора ссылок скрипт автоматически удалит дублирующиеся ссылки и начнет проверку на PageRank
В результате ссылки будут раскиданы по текстовым файлам pr0.txt - pr10.txt ,
и один общий файл db_pr.txt, отсортированный так, что в начале идут ссылки с самым высоким PR.
После сбора ссылок их количество можно посмотреть запустив:
count.pl db_pr.txt
Также присутствуют отдельные скрипты для удаления дублей и проверки pagerank
remdup.pl - удаляет дупы из файла db.txt и сохраняет чистый в файл db_rmd.txt
checkpr.pl - проверяет страницы из файла db_rmd.txt на pagerank и раскидывает их в файлы с pr_[x].txt,
где x - pagerank страницы, а также создает один общий файл db_pr.txt , в начале идут ссылки с самымвысоким PR
Для парсинга просто запроса без доменных зон - в файле sites.inc стереть все и
просто нажать Enter (сделать перенос строки).
http://www.sendspace.com/file/o6numb
pwd: JHgfjdai7
Последний раз редактировалось aka PSIH; 01.05.2008 в 16:59..
|
|
|