Показать сообщение отдельно

  #8  
Старый 01.05.2008, 16:49
aka PSIH
Постоянный
Регистрация: 07.02.2006
Сообщений: 630
Провел на форуме:
12985021

Репутация: 676


По умолчанию

Вот очень полезный скрипт:

Цитата:
--------[ Использование скрипта: ]---------------------

в файл search.inc вписываем все запросы к google, например:

site:.edu
inurl:"/guestbook/"
inurl:"/gb/"

В файл site.inc если нужны дополнительные зоны - вписываем под имеющимися

Запускаем getdb.pl. В окне будут показыватся запросы и полученные результаты.

После сбора ссылок скрипт автоматически удалит дублирующиеся ссылки и начнет проверку на PageRank

В результате ссылки будут раскиданы по текстовым файлам pr0.txt - pr10.txt ,
и один общий файл db_pr.txt, отсортированный так, что в начале идут ссылки с самым высоким PR.

После сбора ссылок их количество можно посмотреть запустив:


count.pl db_pr.txt

Также присутствуют отдельные скрипты для удаления дублей и проверки pagerank

remdup.pl - удаляет дупы из файла db.txt и сохраняет чистый в файл db_rmd.txt

checkpr.pl - проверяет страницы из файла db_rmd.txt на pagerank и раскидывает их в файлы с pr_[x].txt,
где x - pagerank страницы, а также создает один общий файл db_pr.txt , в начале идут ссылки с самымвысоким PR


Для парсинга просто запроса без доменных зон - в файле sites.inc стереть все и
просто нажать Enter (сделать перенос строки).
http://www.sendspace.com/file/o6numb
pwd: JHgfjdai7

Последний раз редактировалось aka PSIH; 01.05.2008 в 16:59..
 
Ответить с цитированием