Техника для идентификации авторов анонимных текстов в интернете

Discussion in 'Мировые новости. Обсуждения.' started by Solitude, 10 Jan 2013.

  1. Solitude

    Solitude Member

    Joined:
    29 Aug 2011
    Messages:
    445
    Likes Received:
    23
    Reputations:
    1
    Техника для идентификации авторов анонимных текстов в интернете

    На хакерской конференции 29C3 Chaos Communication Congress в Гамбурге выступили две девушки с лингвистического факультета, которые представили эффективную технику определения автора анонимных текстов. Техника позволяет работать на текстах разных стилей. Например, можно определить автора научной работы по его сообщениям в чате, и наоборот. На выборке из 100 пользователей подпольных форумов и хакерских чатов система показала точность распознавания 80%.

    [​IMG]

    Один из методов лингвистического анализа — использование служебных слов. Очень часто человек использует одни и те же служебные слова и в научной работе, и в чате. В целом, методика основана на статистическом анализе письменного текста, то есть стилометрии. Стилометрия — прикладная область стилистики, которая занимается анализом текстов в филологии и юридической экспертизе.

    Авторы работы считают, что систему стилометрического анализа можно успешно использовать для выявления владельцев ботнетов, продавцов нелегального товара в интернете, авторов вредоносных программ и др. Подобные возможности системы могут заинтересовать правоохранительные органы. Собственно, такие программы создавались и раньше, например, стилометрический фреймворк JStylo или другие программы с использованием скрытого распределения Дирихле (LDA), с помощью которого можно автоматически отличить лексику в разговоре о продаже кредиток от лексики на тему написания эксплойтов. То есть, можно автоматически выявлять разговоры на определённую тематику, сканируя логи сотен подпольных форумов.

    Программа осуществила сканирование миллионов сообщений на форумах thebadhackerz.com, blackhatpalace.com, www.carders.cc, free-hack.com, hackel1te.info, hack-sector.forumh.net, rootwarez.org, L33tcrew.org и antichat.ru с участием нескольких десятков тысяч авторов дискуссий. Программа сумела определить 300 тем обсуждений на форумах, самые популярные из которых — кардинг, сервисы шифрования, взлом паролей и инструменты для чёрной поисковой оптимизации. На диаграмме показан анализ текстов с российского форума Antichat.ru.

    [​IMG]

    К сожалению, для определения автора текста нужно как минимум 5000 слов, написанных им лично. Поэтому количество авторов на хакерских форумах, которых удалось идентифицировать, снижается до нескольких сотен.

    Тексты на других языках, отличных от английского, переводятся на английский и тоже отлично анализируются программой, с определением автора. Однако, использование жаргона leetspeak существенно осложняет задачу.

    Выступление девушек-лингвистов на конференции 29C3 Chaos Communication Congress записано на видео.

    https://www.youtube.com/watch?feature=player_embedded&v=QRY2mfLpPCs
    Видеофайл в формате flv https://depositfiles.com/files/zz9d7elyy
    10.01.2013
    http://www.xakep.ru/post/59921/​
     
    #1 Solitude, 10 Jan 2013
    Last edited by a moderator: 11 Jan 2013
  2. justonline

    justonline network ninja

    Joined:
    27 Jul 2011
    Messages:
    627
    Likes Received:
    61
    Reputations:
    53
    шо та мне кажется, что это неэффективно для русскоязычных бордов с жаргоном)
     
  3. kastin

    kastin Elder - Старейшина

    Joined:
    6 Jul 2009
    Messages:
    534
    Likes Received:
    54
    Reputations:
    35
    Жаргон тот же язык. Так что все эффективно.
    :eek:
    Вот так вот просто сидишь тут, общаешься, а за тобой следят...
     
    #3 kastin, 10 Jan 2013
    Last edited: 10 Jan 2013
  4. kastin

    kastin Elder - Старейшина

    Joined:
    6 Jul 2009
    Messages:
    534
    Likes Received:
    54
    Reputations:
    35
  5. user100

    user100 Moderator

    Joined:
    24 Dec 2011
    Messages:
    3,296
    Likes Received:
    9,571
    Reputations:
    338
    Фанаты "албанского языка" останутся безнаказанными!!!
     
    _________________________
  6. justonline

    justonline network ninja

    Joined:
    27 Jul 2011
    Messages:
    627
    Likes Received:
    61
    Reputations:
    53
    збс, посоны, я ваще наебашился сегодня и ебнул на*** к хуям два тицастых сайта

    прошу прощения за маты. а завтра этот же человек напишет вполне пригодный для общения текст. тут два живых лингвиста не справятся точно :)
     
  7. XHTTP

    XHTTP Elder - Старейшина

    Joined:
    24 Feb 2007
    Messages:
    183
    Likes Received:
    132
    Reputations:
    65
    5000 слов? произведется скриптотема котoрaя просто напросто будeт заменять буквы одного языкa нa другой. Если доб@вить спeцсимволы, то прoга перeстанет быть пoлезной.
     
  8. OxoTnik

    OxoTnik На мышей

    Joined:
    10 Jun 2011
    Messages:
    1,091
    Likes Received:
    526
    Reputations:
    173
    они скоро и обвинения в суде будут пихать по своей технологий!
     
  9. shell_c0de

    shell_c0de Hack All World

    Joined:
    7 Jul 2009
    Messages:
    1,123
    Likes Received:
    601
    Reputations:
    684
    не буду как раньше, с ошибками писать )
     
    _________________________
  10. GoodGoogle

    GoodGoogle Moderator

    Joined:
    5 Aug 2011
    Messages:
    1,129
    Likes Received:
    293
    Reputations:
    225
    Мне вот интересно, с чем они будут сравнивать итоги анализов? Даже если прогнать по социальной сети Вконтакте все собранное, я уверен на 90%, что даже 1 владельца не смогут найти, исключая тех, кто явно выдал себя ссылками в темах или указал номер аськи, мыло или сайт, такой же как в топиках.
     
  11. dev1k

    dev1k Member

    Joined:
    25 Nov 2011
    Messages:
    22
    Likes Received:
    44
    Reputations:
    49
    shkol'nikam hana !!!!!
     
  12. kastin

    kastin Elder - Старейшина

    Joined:
    6 Jul 2009
    Messages:
    534
    Likes Received:
    54
    Reputations:
    35
    В общем не успокаивайте себя и не стройте теорий по поводу каким образом они найдет. Атичат уже просканили. Базы собраны. Все под колпаком.

    зы. Поздно пить боржоми... :)
     
  13. OxoTnik

    OxoTnik На мышей

    Joined:
    10 Jun 2011
    Messages:
    1,091
    Likes Received:
    526
    Reputations:
    173
    Возможно они имели ввиду, что найдут этого же человека, с вероятностью 80% на аналогичных форумах

    Это их максимальная возможность... всё таки бабы, и построили они свою теорию по поиску своих мужей по барам.
     
  14. TADIAMOND

    TADIAMOND Member

    Joined:
    19 Feb 2011
    Messages:
    154
    Likes Received:
    34
    Reputations:
    5
    Для справки: словарный запас среднестатистического человека 40 слов(это те слова, которыми он общается постоянно)!

    Теперь посмотрим на наше общество, у каждого общества свой лексикон/жаргон, по большому счету, если ориентироваться тупо по словам, не то чтобы не реально вычислить, просто под такие определения будут попадать много левых, ведь половиной таких слов пользуется весь форум! Другое дело, если человек использует свои характерные слова, но такое встречается редко! Так что делаем выводы господа!
     
  15. kastin

    kastin Elder - Старейшина

    Joined:
    6 Jul 2009
    Messages:
    534
    Likes Received:
    54
    Reputations:
    35
    Смотрите видео, там принцип работы обсуждается.
     
  16. Bannеd

    Bannеd Banned

    Joined:
    4 Jan 2013
    Messages:
    13
    Likes Received:
    1
    Reputations:
    0
    анализ показал, что на форуме античат большинство пользователей чаще всего употребляют фразы "школьник", "кидала", "юзай гугл" и ":("
     
  17. +toxa+

    +toxa+ Smack! SMACK!!!

    Joined:
    16 Jan 2005
    Messages:
    1,699
    Likes Received:
    1,028
    Reputations:
    1,228
    Вообще когда-нибудь, но это должно было случиться. Имхо технология полезная итп, но субъективно для этих самых хэккеров - не очень)
     
    _________________________
  18. ^NSA^

    ^NSA^ Elder - Старейшина

    Joined:
    3 Jul 2012
    Messages:
    69
    Likes Received:
    29
    Reputations:
    32
    спс, за новость хоть знать буду если на западе будут предъявы.
    Разве искусство троллинга не спасет с от анализа?
     
  19. justonline

    justonline network ninja

    Joined:
    27 Jul 2011
    Messages:
    627
    Likes Received:
    61
    Reputations:
    53
    даа...будут ловить деток с хакира и античата :) сурьезные дельцы, на мой взгляд, не интересуются общением ни в соц сетях ни на форумах :)
     
  20. оlbaneс

    оlbaneс Moderator

    Joined:
    5 Nov 2007
    Messages:
    1,501
    Likes Received:
    827
    Reputations:
    355
    билять, аперидил
     
    _________________________
Loading...