HOME FORUMS MEMBERS RECENT POSTS LOG IN  
× Авторизация
Имя пользователя:
Пароль:
Нет аккаунта? Регистрация
Баннер 1   Баннер 2
НОВЫЕ ТОРГОВАЯ НОВОСТИ ЧАТ
loading...
Скрыть
Вернуться   ANTICHAT > ИНФО > Статьи
   
 
 
Опции темы Поиск в этой теме Опции просмотра

  #36  
Старый 08.08.2013, 16:10
FunOfGun
Постоянный
Регистрация: 05.09.2012
Сообщений: 388
С нами: 7202486

Репутация: 124
По умолчанию

Цитата:
Сообщение от tararatino  
Работало, работает и работать будет!
Любой спам-фильтр - это фактически регулярка!
Если Вы когджа нибудь писали регулярки, то должны понимать что даже слово "мама" можно "представить пользователю" в десятках вариаций! А если слов (фраз) достаточно много, то и вариантов больше!
Вы считаете за "символы", только буквы и цифры?
А как же табуляция и пробелы?
А различная кодировка и перекодирование?
А различная длина строк и пробелы в конце них?
А разное количество строк и пустое пространство между ними?
А если речь заходит об HTML, то тут "вариаций" на 2 порядка больше ... если не на три порядка!
Одним словом - рандом убить и победить не возможно!
Ни в тексте ни в бинарниках (но это уже отдельная песня).
если бы я писал антиспам, я бы в первую очередь избавился от всего, что невидимо для человека(табуляции, html теги и т.д.), картинок(т.к. их сложнее анализировать), потом привел бы к удобной мне кодировке и только после этого уже анализировал:

если в тексте много слов, набранных в двух раскладках(русские+английс кие буквы в одном слове) -- скорей всего спам

если много "слов", в которых смешаны буквы и цифры(g64wrfgs64w) -- спам

сравнил бы с другими сообщениями, отмеченными как спам

и т.д. множество условий ​
 
Ответить с цитированием
 



Предыдущая тема Следующая тема

Здесь присутствуют: 1 (пользователей: 0 , гостей: 1)
 


Быстрый переход




ANTICHAT ™ © 2001- Antichat Kft.