http://news.open.by/it/97173

Лингвисты нашли способ установить автора анонимной публикации в Интернете с точностью до 80%
На хакерской конференции Chaos Communication Congress 29C3 группа американских аспирантов-лингвистов из Университета Дрекселя (Филадельфия) представила свою разработку - программу для установления авторства текста. Подобная программа может помочь в выявлении хакеров, взломщиков программ и создателей вредоносных вирусов. Инструмент деанонимизации пока что существует в виде альфа-версии; его разработка еще не завершена.
Методика, использованная создателями программы, основана на стилометрии, прикладной области лингвостилистики, занимающейся статистическим анализом письменного текста.

Программа выявляет закономерности в текстах, а также использование служебных слов, которые создают уникальное строение предложения в каждом конкретном случае. Тексты на языках, отличных от английского, переводятся на английский и тоже отлично анализируются программой, с определением автора.

Технология распознавания способна работать с текстами разных стилей. Например, можно определить автора научной работы по его сообщениям в чате, и наоборот. На выборке из 100 пользователей подпольных форумов и хакерских чатов система показала точность распознавания 80%.

Авторы считают, что систему стилометрического анализа можно успешно использовать для выявления владельцев ботнетов, продавцов нелегального товара в интернете, авторов вредоносных программ и др. Подобные возможности системы могут заинтересовать правоохранительные органы.

Исследователи провели сканирование миллионов сообщений на форумах thebadhackerz.com, blackhatpalace.com, www.carders.cc, free-hack.com, hackel1te.info, hack-sector.forumh.net, rootwarez.org, L33tcrew.org и antichat.ru с участием нескольких десятков тысяч авторов дискуссий. Программа сумела определить 300 тем обсуждений на форумах, самые популярные из которых - кардинг, сервисы шифрования, взлом паролей и инструменты для "черной" поисковой оптимизации.

Однако для выявления автора текста необходимо будет соблюсти ряд условий, которые обеспечат высокую точность анализа.

Так, в исследовании должно участвовать не более 50 авторов текстов, на каждого из которых необходимо собрать соответствующий материал - тексты совокупной длиной не менее 6500 слов. Также не представится возможным определить авторство текста, длина которого будет менее 500 слов.

Затруднить поиск могут использование автором жаргона, "альтернативного алфавита" или языка, отличного от английского, однако текст, переведенный автоматическим переводчиком, также может успешно выступать материалом для анализа.

Отметим, что в рамках того же проекта ведется и разработка "убийцы" программ, определяющих авторство, - системы, призванной помочь авторам избавиться от уникальности своих текстов.

George Yves пишет

однако текст, переведенный автоматическим переводчиком, также может успешно выступать материалом для анализа.

полная чушь
давно известен способ скрытия стилистики когда даём текст на перевод одному переводчику а потом другой переводит назад. в случае с электронным достаточно просто попереводить текст туда-обратно
вот кто угадает автора этих известных строк?
Я помню время чудес
У вас есть передо мной
Чем видение мира
Красота только

okkamas_knife пишет

вот кто угадает автора этих известных строк?
Я помню время чудес
У вас есть передо мной
Чем видение мира
Красота только

А.С. Пушкин :D

voqabuhe
долго угадывал?:D

okkamas_knife пишет

долго угадывал?:D

Мгновенно, так что не надейся, спалят всех:D

кстати о переводе
заходим на http://www.translate.ru/
выбираем перевод с русского на английский
набираем
сосиска в тесте
жмём перевести.ржом.
для тех кто не владеет инглишем  переведите с англиского на русский последнее слово(то что с дефисами)

Мгновенно, так что не надейся, спалят всех

это потому что знаешь оригинал и по строению и ключевым словам можно догадаться.
а если я возьму какой нибудь текст который в принципе легко гуглится и переведу его также то фиг ты найдёшь оригинал
а ищо етьс псособ ерпдумнаный бртианксими уёчынми! а также вставление в текст латиницы и замен/-\  бY|{8
у них компы зависнут от такого.

okkamas_knife пишет

набираем
сосиска в тесте
жмём перевести.ржом.
для тех кто не владеет инглишем  переведите с англиского на русский последнее слово(то что с дефисами)

Получил sausage rolls Какие дефисы?

okkamas_knife пишет

это потому что знаешь оригинал и по строению и ключевым словам можно догадаться.

Ты же намякивал, что никто не догадается, так что не спрыгивай.:)

okkamas_knife пишет

а если я возьму какой нибудь текст который в принципе легко гуглится и переведу его также то фиг ты найдёшь оригинал

Дык я и не спец и у меня нет этой чудесной программы.:)

11-01-2013 22:17:55

okkamas_knife пишет

а ищо етьс псособ ерпдумнаный бртианксими уёчынми! а также вставление в текст латиницы и замен/-\  бY|{8
у них компы зависнут от такого.

Ты не забывай, что речь всё же идёт о комментариях в интернете, а не о шифровках шпионов. А то тебя вообще никто не поймёт, и просто потеряется смысл писать комментарии.:D

voqabuhe пишет

Получил sausage rolls Какие дефисы?

гуглом переводил небось?
промт выдаёт sausage in the father-in-law

voqabuhe пишет

Ты же намякивал, что никто не догадается, так что не спрыгивай.

это твои догадки, я не намекал а спросил а пример действительно неудачный
слишком много народу на Я помню ....
продолжают ..чудное мгновенье.

вот попробуй эту строчку узнать:D тоже известная
один раз в течение ледяного зимнего времени

voqabuhe пишет

Ты не забывай, что речь всё же идёт о комментариях в интернете, а не о шифровках шпионов

дык не обязательно весь текст так преобразовывать. достаточно отдельных слов или букв
B эT0й cтр0чкe ecть лaтиHицa и ЦифpbI.
для тебя она легко читаема, а для машины это уже мусор.

okkamas_knife
Весь день искал дома сосиски, но так и не нашел.
Потом посмотрел на довольное лицо тестя и понял: сосиски в тесте..

вот попробуй эту строчку узнатьbig_smile.png тоже известная
один раз в течение ледяного зимнего времени

Н.А.Некрасов :D

11-01-2013 23:57:42

okkamas_knife пишет

дык не обязательно весь текст так преобразовывать. достаточно отдельных слов или букв
B эT0й cтр0чкe ecть лaтиHицa и ЦифpbI.
для тебя она легко читаема, а для машины это уже мусор.

Ты не учитываешь, что если сильно понадобиться кого-то расколоть, то текст можно немного и отредактировать, убрать твои ухищрения вручную, а дальше дело техники.

сосиска в тесте :D
img2285548a6babddc1d4c5ab1dde27f697.jpg

voqabuhe пишет

Ты не учитываешь, что если сильно понадобиться кого-то расколоть, то текст можно немного и отредактировать, убрать твои ухищрения вручную, а дальше дело техники.

при грамотном подходе расколоть нельзя.
ща в сети такое количество текстов что можно просто составлять нужный из чужих кусков.

Вот вы все тут в шпиёнов играете, а между тем, это довольно полезный алгоритм для кибернетики, в целом, и для распознавания натуральной речи, в частности.
Но с этой стороны никто, конечно, даже не взглянул.

Tiger.711 пишет

, и для распознавания натуральной речи, в частности.

разве что речь граммар-наци будет распознавать, а для выведения системы из строя будут использоваться записи сантехника дяди Пети! - как загнёт чтонибудь многоэтажно рекурсивное так их машинка и сгорит!:lol:

Вспомнились Носовский и Фоменко с их нарративными текстами. Только они это делали вручную -- с компами тогда напряги были

George Yves пишет

Авторы считают, что систему стилометрического анализа можно успешно использовать для выявления владельцев ботнетов, продавцов нелегального товара в интернете, авторов вредоносных программ и др. Подобные возможности системы могут заинтересовать правоохранительные органы.

Увы - сомневаюсь. Разве что как некое дополнительное косвенное подтверждение, не более того. Точность 80% явно недостаточна. Потому как любой адвокат уцепится за оставшиеся 20% акулье-бульдожьей хваткой.

okkamas_knife
Хаха. Проблема выделения приказов среди натуральной речи? Не, не слышал.

Tiger.711 пишет

Хаха. Проблема выделения приказов среди натуральной речи? Не, не слышал.

выделить мало,надо ещё ж и понять их.
как машина поймёт известную инструкцию "положь колдобину со стороны загогулины,дергани два раза за пимпочку..."?

Самообучение. Техник такую словесную конструкции машине уже не раз говорил, и машина запомнила, что это означает. Плюс генетические алгоритмы, чтобы адаптироваться к каждой конкретной ситуации.

Полезная программа для наших следователей - исходя из того, что для определения авторства текста нужно, чтобы в анализе принимало участие не более 50 анализируемых образцов и нужен предварительный массив текста в 6500 слов (видимо для этого и заставляют бедных школьников писать сочинения), то при грамотном подборе сравниваемых текстов под статью можно будет подвести кого угодно...

О господи,до сих пор копирасты правят миром.Неужели не понятно,что как бы копирасты не старались,все равно кто-то да обойдет.

Tiger.711 пишет

Самообучение. Техник такую словесную конструкции машине уже не раз говорил, и машина запомнила, что это означает.

ну тогда поясни  КАК она запомнит то что НЕ знает?как машина узнает что означает конкретное слово?
особенно если слово не имеет однозначного значения.

вот догадайся что означает фраза "Я у него новое железо сразу выкупил!"
можешь перечитать эту фразу хоть стотыщьраз . давай напиши что она означает!
и заметь ты человек а не программа.