Программа выявляет закономерности в текстах, а также использование служебных слов, которые создают уникальное строение предложения в каждом конкретном случае. Тексты на языках, отличных от английского, переводятся на английский и тоже отлично анализируются программой, с определением автора.
Технология распознавания способна работать с текстами разных стилей. Например, можно определить автора научной работы по его сообщениям в чате, и наоборот. На выборке из 100 пользователей подпольных форумов и хакерских чатов система показала точность распознавания 80%.
Авторы считают, что систему стилометрического анализа можно успешно использовать для выявления владельцев ботнетов, продавцов нелегального товара в интернете, авторов вредоносных программ и др. Подобные возможности системы могут заинтересовать правоохранительные органы.
Исследователи провели сканирование миллионов сообщений на форумах thebadhackerz.com, blackhatpalace.com, www.carders.cc, free-hack.com, hackel1te.info, hack-sector.forumh.net, rootwarez.org, L33tcrew.org и antichat.ru с участием нескольких десятков тысяч авторов дискуссий. Программа сумела определить 300 тем обсуждений на форумах, самые популярные из которых - кардинг, сервисы шифрования, взлом паролей и инструменты для "черной" поисковой оптимизации.
Однако для выявления автора текста необходимо будет соблюсти ряд условий, которые обеспечат высокую точность анализа.
Так, в исследовании должно участвовать не более 50 авторов текстов, на каждого из которых необходимо собрать соответствующий материал - тексты совокупной длиной не менее 6500 слов. Также не представится возможным определить авторство текста, длина которого будет менее 500 слов.
Затруднить поиск могут использование автором жаргона, "альтернативного алфавита" или языка, отличного от английского, однако текст, переведенный автоматическим переводчиком, также может успешно выступать материалом для анализа.
Отметим, что в рамках того же проекта ведется и разработка "убийцы" программ, определяющих авторство, - системы, призванной помочь авторам избавиться от уникальности своих текстов.
May the FOSS be with you!
Отсутствует
однако текст, переведенный автоматическим переводчиком, также может успешно выступать материалом для анализа.
полная чушь
давно известен способ скрытия стилистики когда даём текст на перевод одному переводчику а потом другой переводит назад. в случае с электронным достаточно просто попереводить текст туда-обратно
вот кто угадает автора этих известных строк?
Я помню время чудес
У вас есть передо мной
Чем видение мира
Красота только
Отредактировано okkamas_knife (11-01-2013 20:05:41)
я помню те времена когда обновления программ убирали проблемы и исправляли баги, а не добавляли их.
toxID:05AB9B827D896AACEE7FF4573A02FB8F025F46ADC856B98F65BC1BA9BD21A81DC98BA9C36CE3
Отсутствует
вот кто угадает автора этих известных строк?
Я помню время чудес
У вас есть передо мной
Чем видение мира
Красота только
А.С. Пушкин
Отсутствует
voqabuhe
долго угадывал?
я помню те времена когда обновления программ убирали проблемы и исправляли баги, а не добавляли их.
toxID:05AB9B827D896AACEE7FF4573A02FB8F025F46ADC856B98F65BC1BA9BD21A81DC98BA9C36CE3
Отсутствует
кстати о переводе
заходим на http://www.translate.ru/
выбираем перевод с русского на английский
набираем
сосиска в тесте
жмём перевести.ржом.
для тех кто не владеет инглишем переведите с англиского на русский последнее слово(то что с дефисами)
Мгновенно, так что не надейся, спалят всех
это потому что знаешь оригинал и по строению и ключевым словам можно догадаться.
а если я возьму какой нибудь текст который в принципе легко гуглится и переведу его также то фиг ты найдёшь оригинал
а ищо етьс псособ ерпдумнаный бртианксими уёчынми! а также вставление в текст латиницы и замен/-\ бY|{8
у них компы зависнут от такого.
я помню те времена когда обновления программ убирали проблемы и исправляли баги, а не добавляли их.
toxID:05AB9B827D896AACEE7FF4573A02FB8F025F46ADC856B98F65BC1BA9BD21A81DC98BA9C36CE3
Отсутствует
набираем
сосиска в тесте
жмём перевести.ржом.
для тех кто не владеет инглишем переведите с англиского на русский последнее слово(то что с дефисами)
Получил sausage rolls Какие дефисы?
это потому что знаешь оригинал и по строению и ключевым словам можно догадаться.
Ты же намякивал, что никто не догадается, так что не спрыгивай.
а если я возьму какой нибудь текст который в принципе легко гуглится и переведу его также то фиг ты найдёшь оригинал
Дык я и не спец и у меня нет этой чудесной программы.
Добавлено 11-01-2013 22:17:55
а ищо етьс псособ ерпдумнаный бртианксими уёчынми! а также вставление в текст латиницы и замен/-\ бY|{8
у них компы зависнут от такого.
Ты не забывай, что речь всё же идёт о комментариях в интернете, а не о шифровках шпионов. А то тебя вообще никто не поймёт, и просто потеряется смысл писать комментарии.
Отредактировано voqabuhe (11-01-2013 22:17:55)
Отсутствует
Получил sausage rolls Какие дефисы?
гуглом переводил небось?
промт выдаёт sausage in the father-in-law
Ты же намякивал, что никто не догадается, так что не спрыгивай.
это твои догадки, я не намекал а спросил а пример действительно неудачный
слишком много народу на Я помню ....
продолжают ..чудное мгновенье.
вот попробуй эту строчку узнать тоже известная
один раз в течение ледяного зимнего времени
Ты не забывай, что речь всё же идёт о комментариях в интернете, а не о шифровках шпионов
дык не обязательно весь текст так преобразовывать. достаточно отдельных слов или букв
B эT0й cтр0чкe ecть лaтиHицa и ЦифpbI.
для тебя она легко читаема, а для машины это уже мусор.
я помню те времена когда обновления программ убирали проблемы и исправляли баги, а не добавляли их.
toxID:05AB9B827D896AACEE7FF4573A02FB8F025F46ADC856B98F65BC1BA9BD21A81DC98BA9C36CE3
Отсутствует
okkamas_knife
Весь день искал дома сосиски, но так и не нашел.
Потом посмотрел на довольное лицо тестя и понял: сосиски в тесте..
Отсутствует
вот попробуй эту строчку узнать тоже известная
один раз в течение ледяного зимнего времени
Н.А.Некрасов
Добавлено 11-01-2013 23:57:42
дык не обязательно весь текст так преобразовывать. достаточно отдельных слов или букв
B эT0й cтр0чкe ecть лaтиHицa и ЦифpbI.
для тебя она легко читаема, а для машины это уже мусор.
Ты не учитываешь, что если сильно понадобиться кого-то расколоть, то текст можно немного и отредактировать, убрать твои ухищрения вручную, а дальше дело техники.
Отредактировано voqabuhe (11-01-2013 23:57:42)
Отсутствует
Ты не учитываешь, что если сильно понадобиться кого-то расколоть, то текст можно немного и отредактировать, убрать твои ухищрения вручную, а дальше дело техники.
при грамотном подходе расколоть нельзя.
ща в сети такое количество текстов что можно просто составлять нужный из чужих кусков.
я помню те времена когда обновления программ убирали проблемы и исправляли баги, а не добавляли их.
toxID:05AB9B827D896AACEE7FF4573A02FB8F025F46ADC856B98F65BC1BA9BD21A81DC98BA9C36CE3
Отсутствует
Вот вы все тут в шпиёнов играете, а между тем, это довольно полезный алгоритм для кибернетики, в целом, и для распознавания натуральной речи, в частности.
Но с этой стороны никто, конечно, даже не взглянул.
Большой кот... Пуфыстый... Полосатый... Зубастый (:
Отсутствует
, и для распознавания натуральной речи, в частности.
разве что речь граммар-наци будет распознавать, а для выведения системы из строя будут использоваться записи сантехника дяди Пети! - как загнёт чтонибудь многоэтажно рекурсивное так их машинка и сгорит!
я помню те времена когда обновления программ убирали проблемы и исправляли баги, а не добавляли их.
toxID:05AB9B827D896AACEE7FF4573A02FB8F025F46ADC856B98F65BC1BA9BD21A81DC98BA9C36CE3
Отсутствует
Авторы считают, что систему стилометрического анализа можно успешно использовать для выявления владельцев ботнетов, продавцов нелегального товара в интернете, авторов вредоносных программ и др. Подобные возможности системы могут заинтересовать правоохранительные органы.
Увы - сомневаюсь. Разве что как некое дополнительное косвенное подтверждение, не более того. Точность 80% явно недостаточна. Потому как любой адвокат уцепится за оставшиеся 20% акулье-бульдожьей хваткой.
"Большинство философов до сих пор придерживается весьма нефилософских воззрений на многие вопросы философии" Эдгар Аллан По
Отсутствует
okkamas_knife
Хаха. Проблема выделения приказов среди натуральной речи? Не, не слышал.
Большой кот... Пуфыстый... Полосатый... Зубастый (:
Отсутствует
Хаха. Проблема выделения приказов среди натуральной речи? Не, не слышал.
выделить мало,надо ещё ж и понять их.
как машина поймёт известную инструкцию "положь колдобину со стороны загогулины,дергани два раза за пимпочку..."?
я помню те времена когда обновления программ убирали проблемы и исправляли баги, а не добавляли их.
toxID:05AB9B827D896AACEE7FF4573A02FB8F025F46ADC856B98F65BC1BA9BD21A81DC98BA9C36CE3
Отсутствует
Самообучение. Техник такую словесную конструкции машине уже не раз говорил, и машина запомнила, что это означает. Плюс генетические алгоритмы, чтобы адаптироваться к каждой конкретной ситуации.
Большой кот... Пуфыстый... Полосатый... Зубастый (:
Отсутствует
Полезная программа для наших следователей - исходя из того, что для определения авторства текста нужно, чтобы в анализе принимало участие не более 50 анализируемых образцов и нужен предварительный массив текста в 6500 слов (видимо для этого и заставляют бедных школьников писать сочинения), то при грамотном подборе сравниваемых текстов под статью можно будет подвести кого угодно...
Отсутствует
О господи,до сих пор копирасты правят миром.Неужели не понятно,что как бы копирасты не старались,все равно кто-то да обойдет.
Отсутствует
Самообучение. Техник такую словесную конструкции машине уже не раз говорил, и машина запомнила, что это означает.
ну тогда поясни КАК она запомнит то что НЕ знает?как машина узнает что означает конкретное слово?
особенно если слово не имеет однозначного значения.
вот догадайся что означает фраза "Я у него новое железо сразу выкупил!"
можешь перечитать эту фразу хоть стотыщьраз . давай напиши что она означает!
и заметь ты человек а не программа.
я помню те времена когда обновления программ убирали проблемы и исправляли баги, а не добавляли их.
toxID:05AB9B827D896AACEE7FF4573A02FB8F025F46ADC856B98F65BC1BA9BD21A81DC98BA9C36CE3
Отсутствует