защита сайта от сканирования сайтами

Discussion in 'PHP' started by GAiN, 2 Jan 2014.

  1. GAiN

    GAiN Elder - Старейшина

    Joined:
    2 Apr 2011
    Messages:
    2,544
    Likes Received:
    168
    Reputations:
    99
    можно ли защитить сайт от сканеров сайтов?
    например webproverka.com и подобные таким же и прочими которые типа проверяют на вирусы и прочее
     
    1 person likes this.
  2. barnaki

    barnaki Elder - Старейшина

    Joined:
    2 Nov 2008
    Messages:
    673
    Likes Received:
    125
    Reputations:
    4
    ну если будут хотеть сканировать именно твой сайт то наверное нет. по крайней польское посольство не может. но можно как они усложнить задачу.
    например когда я писал робота для их сайта там был такой момент. что страницы должны были посещаться в строгом порядке. и для перехода между надо было найти 2 случайных цифровых свойства css атрибута. это помоему было Heigth невидимого дива. они всегда менялись. но потом отослать их сумму в аякс запросе. и только если ты все правильно сделал + у тебя правильная кука оно отвечало исходником следующей страницы. и таких штук там было много. может и тебе что то такое сделать.
    но думаю при современных технологиях 100% гарантии не даст ничего.
     
    1 person likes this.
  3. b3

    b3 Moderator

    Joined:
    5 Dec 2004
    Messages:
    1,992
    Likes Received:
    886
    Reputations:
    198
    То есть пользователю нужно открывать исходник страницы чтоб серфить сайт? Что ты морозишь...
     
    _________________________
    1 person likes this.
  4. barnaki

    barnaki Elder - Старейшина

    Joined:
    2 Nov 2008
    Messages:
    673
    Likes Received:
    125
    Reputations:
    4
    не это ты морозишь. обфусцированным джавасриптом берутся эти переменные и передаются в виде суммы аякс запросом при клике на кнопку далее. в ответ получаем html страницы со злым контентом . и отрисовавыем его. саму сумму храним где угодно и проверяем . если правильно то отдаем страницу если нет то не отдаем.так что скажи что не понял как это . а не хами.
     
    #4 barnaki, 2 Jan 2014
    Last edited: 2 Jan 2014
  5. b3

    b3 Moderator

    Joined:
    5 Dec 2004
    Messages:
    1,992
    Likes Received:
    886
    Reputations:
    198
    Превосходная защита...
    Я то понял, нужно быть только анитчатовцем головного мозга чтоб не понять такую елементарнейшую "систему защиты". Но вопрос другой, ты реально считаешь это защитой от парсеров?
     
    _________________________
  6. barnaki

    barnaki Elder - Старейшина

    Joined:
    2 Nov 2008
    Messages:
    673
    Likes Received:
    125
    Reputations:
    4
    ай иди маме хаме. объяснять тебе не осталось никакого желания.
     
  7. madhatter

    madhatter Member

    Joined:
    7 Aug 2013
    Messages:
    565
    Likes Received:
    50
    Reputations:
    54
    Господа, ладно вам сраться. barnaki описывает реально имеющий место быть способ п-расить ботов. К сожалению, боты поисковиков на это зачастую косо смотрят. Вообще вся навигация в ряде порталов построена по такому идиотскому образу - нельзя просто так взять и зайти по линку. Обязательно надо натыкать себе непонятных сессийных плюшек навигации и т.п.

    И в любой защите от тех или иных ботов есть принципиальнейший вопрос: защищаться ли от рандомных залетных ботов, или от написанных специально для этого портала. Смею предположить, здесь и случилось недопонимание.

    ТС: Да, можно. Вопрос в том, с какой целью. Если вы хотите прятать плоенты, да связки, стоит задуматься: если даже какой-то захудалый бот палит связку, то как будут бибикать аверы на машинах клиентов? Может, стоит почистить связку?
    Как вариант, можно посмотреть на методку работы известных ботов "за доброе дело", путем натравливания их на свой сайт и анализа логов. От этого и отплясывать в зависимости от тупости\продвинутости бота. В конце концов, никто не мешает вам ставить всякие waf'ы и с чистой совестью банить ботов "за сканирование". Активные системы обнаружения вторжения(на сканы тоже косо смотрящие) никто не отменял.
     
  8. qaz

    qaz Elder - Старейшина

    Joined:
    12 Jul 2010
    Messages:
    1,582
    Likes Received:
    173
    Reputations:
    75
    а чё тут гадать? чем боты отлчаются от обычных браузеров, как правило не юзают джава скрипт и не принимают куки, банально пишется 2 скрипта, один записывает ip в таблицу и юзается в интексе, второй делает тоже самое но подгружается на страницу джавоскриптом, потом сравниваются ip в обеих колонках таблицы, и банятся ip которые есть в одной колонке но нет в другой
     
  9. b3

    b3 Moderator

    Joined:
    5 Dec 2004
    Messages:
    1,992
    Likes Received:
    886
    Reputations:
    198
    яснапонятно...
    хами? яснапонятна...

    Радует что есть такие специалисты как вы, облегчаете работу, создаёте дырявое ПО, "ахирительные" защиты от парсинга, вот чего не хватает чтоб вы еще от ддоса писали скрипты защиты на пхп.

    А теперь давай для начала определимся о каких пауках идет речь. Если тебе не нравятся боты гугла, ты можешь запретить им индексировать через robots.txt.
    Если ты хочешь защитится от парсеров которые пишут кодеры типа barnaki ты можешь втулить мега-защиту отсылающую аяксы (тем самым устаивая паливо левым запросом который любой школо уровя чуть выше barnaki сможет отснифать и догадаться что сие творение есть "сесурити")
    И последний вариант что вы будете делать от парсеров типа Human Emulator которые обрабатывают JS, flash ? У кого нибудь есть вразумительные идеи, или ответ типа
    это панацея?
     
    _________________________
  10. madhatter

    madhatter Member

    Joined:
    7 Aug 2013
    Messages:
    565
    Likes Received:
    50
    Reputations:
    54
    Ну для начала, лично у меня с парсерами проблем нет - я не топикстартер. Среди сеошников ходит баечка о том, что гугл класть хотел на robots.txt и про запас индексирует все.

    А снифать предложенную идею с ксс не нужно - достаточно просто посмотреть исходники.

    Полагаю, вопрос топикстартера исчерпывающе решен.

    Касательно парсеров под конкретный портал. Я всегда считал и считаю, что если живой клиент в вебе может получить данные, то абсолютно всегда можно сделать парсер, который эти данные будет получать. Защиты от этого не только нет, но и архитектурно быть не может. Можно лишь усложнять жизнь в той или иной мере. В конце концов, ничего не мешает написать надбраузерное расширение, которое будет использовать браузер для обработки js,css,etc, а после выдергивать данные, осуществляя навигации при помощи эмулации ввода. В этом случае совершенно невозможно сказать, человек это делает или бот.
     
  11. b3

    b3 Moderator

    Joined:
    5 Dec 2004
    Messages:
    1,992
    Likes Received:
    886
    Reputations:
    198
    Имеется ввиду смотреть исходник после того как снифером увидишь заголовки и какие данные передаются. По поводу robots.txt хз, ПС сами по себе жадные на выдачу а чтоб еще индексировали закрытый контент похоже на бред) Может просто были единичные случаи и то с своей спецификой, допустим закрыта папка /111 но в карте сайта она прописана.

    Тут полностью согласен.
     
    _________________________
    1 person likes this.
  12. OxoTnik

    OxoTnik На мышей

    Joined:
    10 Jun 2011
    Messages:
    980
    Likes Received:
    525
    Reputations:
    173
    Если надо заблокироватся от определённых сайтов сканеров,
    думаю можно легко заблокировать на стороне севера их IP адреса
     
  13. Kamik

    Kamik Member

    Joined:
    2 Dec 2008
    Messages:
    123
    Likes Received:
    84
    Reputations:
    8
    Можно в принципе нечто из такой серии - Блочить юзерагенты (как например в wso2 сделано) :D

    PHP:
    if(!empty($_SERVER['HTTP_USER_AGENT'])) {
        
    $userAgents = array("Google""Slurp""MSNBot""ia_archiver""Yandex""Rambler");
        if(
    preg_match('/' implode('|'$userAgents) . '/i'$_SERVER['HTTP_USER_AGENT'])) {
            
    header('HTTP/1.0 404 Not Found');
            exit;
        }
    }
     
    1 person likes this.
  14. GAiN

    GAiN Elder - Старейшина

    Joined:
    2 Apr 2011
    Messages:
    2,544
    Likes Received:
    168
    Reputations:
    99
    robots.txt вообще неэффективен, если ссылки есть где то или даже на конкретном сайте - то такая закрытая ссылка всплывёт
    под ней надпись будет:
    но ссылка будет в поиске искаться !
    на такие страницы лучше проверки ставить по реферер, куки итд - или если надо комменты не выводить в поиск - закрыть, но не скрывать за паролем через авторизацию, 410 код отдавать всегда, браузерам всёравно а ботам знак что страницы нет!

    вот например http://webproverka.com/comments.php?antichat.ru - понятно что это говноотзывы - липовые генерированые, но значит ачат сканирует ихний бот
    и весь вопрос был не о поисковых ботах разных поисковиков, а вот о таких плешивых сайтах вроде http://webproverka.com, которые всякую x*йню выводят, причём сами, без разрешения или предварительной регистрации, и хрентус от туда её уберёшь, а ещё она индексируется.
    такие сайты хрен убрать из выдачи, разве только ддосом
    а часто в логах таких ботов найти сложно так как они например такой useragent имеют: Mozilla/5.0 (Windows NT 6.1; WOW64; rv:32.0) Gecko/20100101 Firefox/32.0

    или даже такой:Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)
    им никто не мешает любой agent делать, и менять их при каждом заходе, и даже айпи чередовать
     
Loading...