>Форум Mozilla Россия http://forum.mozilla-russia.org/index.php >Флейм http://forum.mozilla-russia.org/viewforum.php?id=14 >Лингвисты создали программу для установления авторства текста http://forum.mozilla-russia.org/viewtopic.php?id=57669 |
George Yves > 11-01-2013 18:11:03 |
Лингвисты нашли способ установить автора анонимной публикации в Интернете с точностью до 80% На хакерской конференции Chaos Communication Congress 29C3 группа американских аспирантов-лингвистов из Университета Дрекселя (Филадельфия) представила свою разработку - программу для установления авторства текста. Подобная программа может помочь в выявлении хакеров, взломщиков программ и создателей вредоносных вирусов. Инструмент деанонимизации пока что существует в виде альфа-версии; его разработка еще не завершена. Методика, использованная создателями программы, основана на стилометрии, прикладной области лингвостилистики, занимающейся статистическим анализом письменного текста. Программа выявляет закономерности в текстах, а также использование служебных слов, которые создают уникальное строение предложения в каждом конкретном случае. Тексты на языках, отличных от английского, переводятся на английский и тоже отлично анализируются программой, с определением автора. Технология распознавания способна работать с текстами разных стилей. Например, можно определить автора научной работы по его сообщениям в чате, и наоборот. На выборке из 100 пользователей подпольных форумов и хакерских чатов система показала точность распознавания 80%. Авторы считают, что систему стилометрического анализа можно успешно использовать для выявления владельцев ботнетов, продавцов нелегального товара в интернете, авторов вредоносных программ и др. Подобные возможности системы могут заинтересовать правоохранительные органы. Исследователи провели сканирование миллионов сообщений на форумах thebadhackerz.com, blackhatpalace.com, www.carders.cc, free-hack.com, hackel1te.info, hack-sector.forumh.net, rootwarez.org, L33tcrew.org и antichat.ru с участием нескольких десятков тысяч авторов дискуссий. Программа сумела определить 300 тем обсуждений на форумах, самые популярные из которых - кардинг, сервисы шифрования, взлом паролей и инструменты для "черной" поисковой оптимизации. Однако для выявления автора текста необходимо будет соблюсти ряд условий, которые обеспечат высокую точность анализа. Так, в исследовании должно участвовать не более 50 авторов текстов, на каждого из которых необходимо собрать соответствующий материал - тексты совокупной длиной не менее 6500 слов. Также не представится возможным определить авторство текста, длина которого будет менее 500 слов. Затруднить поиск могут использование автором жаргона, "альтернативного алфавита" или языка, отличного от английского, однако текст, переведенный автоматическим переводчиком, также может успешно выступать материалом для анализа. Отметим, что в рамках того же проекта ведется и разработка "убийцы" программ, определяющих авторство, - системы, призванной помочь авторам избавиться от уникальности своих текстов. |
okkamas_knife > 11-01-2013 20:05:18 |
George Yves пишет
полная чушь |
voqabuhe > 11-01-2013 21:14:30 |
okkamas_knife пишет
А.С. Пушкин |
okkamas_knife > 11-01-2013 21:27:45 |
voqabuhe |
voqabuhe > 11-01-2013 21:35:46 |
okkamas_knife пишет
Мгновенно, так что не надейся, спалят всех |
okkamas_knife > 11-01-2013 21:47:11 |
кстати о переводе
это потому что знаешь оригинал и по строению и ключевым словам можно догадаться. |
voqabuhe > 11-01-2013 22:13:01 |
okkamas_knife пишет
Получил sausage rolls Какие дефисы? okkamas_knife пишет
Ты же намякивал, что никто не догадается, так что не спрыгивай. okkamas_knife пишет
Дык я и не спец и у меня нет этой чудесной программы. 11-01-2013 22:17:55 okkamas_knife пишет
Ты не забывай, что речь всё же идёт о комментариях в интернете, а не о шифровках шпионов. А то тебя вообще никто не поймёт, и просто потеряется смысл писать комментарии. |
okkamas_knife > 11-01-2013 23:03:15 |
voqabuhe пишет
гуглом переводил небось? voqabuhe пишет
это твои догадки, я не намекал а спросил а пример действительно неудачный вот попробуй эту строчку узнать тоже известная voqabuhe пишет
дык не обязательно весь текст так преобразовывать. достаточно отдельных слов или букв |
littleleshy > 11-01-2013 23:22:28 |
okkamas_knife |
voqabuhe > 11-01-2013 23:42:51 |
Н.А.Некрасов 11-01-2013 23:57:42 okkamas_knife пишет
Ты не учитываешь, что если сильно понадобиться кого-то расколоть, то текст можно немного и отредактировать, убрать твои ухищрения вручную, а дальше дело техники. |
adidharma > 12-01-2013 01:47:10 |
сосиска в тесте |
okkamas_knife > 12-01-2013 01:53:28 |
voqabuhe пишет
при грамотном подходе расколоть нельзя. |
Tiger.711 > 12-01-2013 04:16:05 |
Вот вы все тут в шпиёнов играете, а между тем, это довольно полезный алгоритм для кибернетики, в целом, и для распознавания натуральной речи, в частности. |
okkamas_knife > 12-01-2013 06:16:43 |
Tiger.711 пишет
разве что речь граммар-наци будет распознавать, а для выведения системы из строя будут использоваться записи сантехника дяди Пети! - как загнёт чтонибудь многоэтажно рекурсивное так их машинка и сгорит! |
hobo-mts > 12-01-2013 08:13:41 |
Вспомнились Носовский и Фоменко с их нарративными текстами. Только они это делали вручную -- с компами тогда напряги были |
Vladimir_S > 12-01-2013 09:20:48 |
George Yves пишет
Увы - сомневаюсь. Разве что как некое дополнительное косвенное подтверждение, не более того. Точность 80% явно недостаточна. Потому как любой адвокат уцепится за оставшиеся 20% акулье-бульдожьей хваткой. |
Tiger.711 > 12-01-2013 11:56:58 |
okkamas_knife |
okkamas_knife > 12-01-2013 23:45:39 |
Tiger.711 пишет
выделить мало,надо ещё ж и понять их. |
Tiger.711 > 14-01-2013 01:22:47 |
Самообучение. Техник такую словесную конструкции машине уже не раз говорил, и машина запомнила, что это означает. Плюс генетические алгоритмы, чтобы адаптироваться к каждой конкретной ситуации. |
Zaycoff > 14-01-2013 15:28:11 |
Полезная программа для наших следователей - исходя из того, что для определения авторства текста нужно, чтобы в анализе принимало участие не более 50 анализируемых образцов и нужен предварительный массив текста в 6500 слов (видимо для этого и заставляют бедных школьников писать сочинения), то при грамотном подборе сравниваемых текстов под статью можно будет подвести кого угодно... |
Apple hater > 14-01-2013 16:49:20 |
О господи,до сих пор копирасты правят миром.Неужели не понятно,что как бы копирасты не старались,все равно кто-то да обойдет. |
okkamas_knife > 14-01-2013 19:39:38 |
Tiger.711 пишет
ну тогда поясни КАК она запомнит то что НЕ знает?как машина узнает что означает конкретное слово? вот догадайся что означает фраза "Я у него новое железо сразу выкупил!" |