>Форум Mozilla Россия http://forum.mozilla-russia.org/index.php >О проекте http://forum.mozilla-russia.org/viewforum.php?id=23 >Новый русский словарь hunspell http://forum.mozilla-russia.org/viewtopic.php?id=14700 |
stoneflash > 26-12-2006 16:40:31 |
ragnaar |
Infant > 26-12-2006 17:02:23 |
http://hunspell.sourceforge.net/ |
dvdianov > 27-12-2006 09:43:11 |
Без филолога не обойтись.... У меня maman завкаф на филфаке МГУ. Но студентов нормальных знаю и я. Попробую связаться. Может кого найду. |
TLemur > 27-12-2006 09:49:21 |
А зачем искать? Вот он я - почти готовый (год осталось) переводчик-филолог... |
dvdianov > 27-12-2006 09:50:56 |
Так там есть поближе и без меньше. А так и меня тоже можно. По русскому всегда 5. |
AKS > 27-12-2006 15:54:19 |
Зачем ближе? Интернету не ведомы расстояния... |
dvdianov > 27-12-2006 20:27:30 |
Абосолютно согласен. Я прошу меня в корректоры зачислять. А с машиной вопрос решил я. Все райт. |
Merlyel > 27-12-2006 20:37:49 |
Тут много у кого по русскому пять, похоже Тоже что ли выз |
Modex > 27-12-2006 20:39:05 |
dvdianov
Мда... В таком короткой предложении ошибка и "райт"... что это за слово? |
dvdianov > 27-12-2006 21:04:55 |
Разве сам никогда не ошибался, когда быстро набивал текст на клавиатуре? Точно 5. А "Райт" это right , по английски кажется "в порядке, порядок" они иногда орут: олл райт! Все в порядке! |
Modex > 27-12-2006 21:59:47 |
Кстати... а какая разница той системы что сейчас и той что будет? dvdianov |
Infant > 27-12-2006 22:01:49 |
Заканчиваем личную переписку и оффтоп. Пишем только по делу. Не хотелось бы огорчать «отличников» русского языка, но посоветовал бы посмотреть http://sourceforge.net/docman/display_doc.php?docid=29374&group_id=143754 и попробовать свои силы в простеньком словаре слов эдак на 20. Со всеми их словоформами естественно. |
ragnaar > 27-12-2006 22:52:33 |
Поскольку обсуждать тут пока нечего - тему закрываю. Она будет открыта, когда будут необходимо. Пока что по вопросу словаря пишите мне в ПМ. |
ragnaar > 02-03-2007 20:45:46 |
Хотелось бы возобновить обсуждение этой темы. |
TLemur > 03-03-2007 15:39:59 |
ragnaar 2. А Орфографический? Хотя бы такой: http://ru.wikisource.org/wiki/%D0%9E%D1 … 0%BA%D0%B0 Он на википедии. Если он там, значит совместим, или я ошибаюсь? |
ragnaar > 03-03-2007 17:41:44 |
TLemur |
ragnaar > 03-03-2007 21:49:36 |
Еще несколько мыслей/вопросов В новой вики изменять и создавать статьи смогут все зарегистрированные пользователи. Нужно ли отдельные правила для раздела словаря? То есть чтобы только определенные пользователи могли работать над словарем. |
ego > 03-03-2007 22:52:29 |
С автоматическим обновлением! Можно будет не отходя от кассы ошибки вылавливать |
TLemur > 04-03-2007 08:03:35 |
ragnaar
На мой взгляд, да. Открытое распространение словаря, нашел ошибку - зарегистрировался на вики - исправил ошибку. |
ragnaar > 04-03-2007 11:28:30 |
Да, я об этом тоже подумал Вполне реально.
Я под отдельными правилами подразумевал, создание отдельной группы в вики только члены которой могут работать над словарем... |
Avator > 04-03-2007 13:33:25 |
Мне кажется, если будет автоматическая сборка словаря, то стоит. |
Unghost > 04-03-2007 22:31:46 |
TLemur
Если мы не успеем к выходу 3.0, то постараемся внести его в 3.0.0.1 или следующую багфиксовую версию. Это возможно и уже делалось для других локализаций. См. например Bug 363819 - Update Polish spellcheck dictionary in Firefox 2 Добавлено Вск 04 Мар 2007 22:34:36 : |
stoneflash > 05-03-2007 10:36:56 |
Если обратное возможно, то, думаю, можно так сделать. На счёт автоматических сборок: это не обязательно, но вряд ли это будет сложно, так что было бы неплохо. |
TLemur > 05-03-2007 12:35:24 |
Unghost
Можно, но некоторые флаги не будут поддерживаться. |
Unghost > 06-03-2007 23:03:21 |
TLemur
Я это к тому что пока Firefox hunspell не поддерживает, а значит для тестирования нам придётся переконвертировать в myspell. |
ragnaar > 06-03-2007 23:34:25 |
Я предполагал, что тестировать в ООо... Ночные сборки Fx3 не поддерживают Hunspell? |
Unghost > 07-03-2007 01:14:11 |
ragnaar |
Modex > 07-03-2007 08:25:22 |
Ну если кто-то на исходники применит патч из бага и сделает свою сборку, то... |
TLemur > 07-03-2007 13:33:49 |
Modex А по-моему, в баге 319778 нет патча рабочего... ragnaar Я предлагаю проверять правила полу-автоматически: 1. Куча народу заносит новые слова в словарь. |
Infant > 07-03-2007 16:15:09 |
TLemur |
TLemur > 07-03-2007 16:49:14 |
Infant А под линукс нету бинарника hunspell? |
Vednier > 07-03-2007 17:05:12 |
а по моему патч есть |
Infant > 07-03-2007 17:09:15 |
TLemur |
ragnaar > 07-03-2007 21:38:52 |
Я не видел... если только в репозиториях дистрибутивов есть... Или кто-то соберет |
Infant > 07-03-2007 21:55:50 |
ragnaar |
Unghost > 08-03-2007 20:19:42 |
Infant
apt-get install hunspell не катит ? |
stoneflash > 09-03-2007 11:55:39 |
http://www.mozilla-russia.org/projects/ … l#encoding
Отразить - лишнее. |
ragnaar > 09-03-2007 12:58:11 |
stoneflash |
TLemur > 09-03-2007 14:22:29 |
stoneflash Может быть, "не позволяет отразить", тем более, что в английском так и есть - "it fails to allow a full implementation" |
TLemur > 10-03-2007 10:41:25 |
Я скомпилировал hunspell для windows. Две версии: С возможностью интерактивной проверки Установка: 1. Скачать файл. Протестировано на Windows XP SP2 (русская). |
Vednier > 06-08-2007 19:53:27 |
Заменили Майспелл на Ханспелл в транке. |
stoneflash > 06-08-2007 20:25:31 |
Русский словарь не готов еще? |
TLemur > 07-08-2007 10:11:44 |
stoneflash Откуда? Кто-то вроде помогать хотел |
ego > 07-08-2007 15:59:44 |
Как помочь-то? Что делать? Кто ведет проект? |
stoneflash > 07-08-2007 16:56:54 |
TLemur Добавлено Втр 07 Авг 2007 16:59:09 : |
TLemur > 07-08-2007 20:36:04 |
Пока надо готовить голый файл словаря. Идем в Викитеку (http://ru.wikisource.org/wiki/%D0%9E%D1 … 0%BA%D0%B0, , копируем текст статьи. И удаляем все, кроме собственно слов в именительном падеже, без ударения и помет. Добавлено Втр 07 Авг 2007 20:46:48 : |
Shutnik > 08-08-2007 05:48:26 |
TLemur |
TLemur > 08-08-2007 09:24:58 |
shutnik Из такого: Выделить код Код:# а 1, нескл., с. (название буквы) # а 2, союз, частица, межд. # а-а-а, межд. # ааро́новец, -вца, тв. -вцем # ааро́новский # ааро́новцы, -ев, ед. -вец, -вца, тв. -вцем # ааро́новщина, -ы # абажу́р, -а # абажу́рный # абажуродержа́тель, -я # абажу́рчик, -а # аба́з, -а # абази́н, -а # абази́нец, -нца, тв. -нцем # абази́нка, -и, р. мн. -нок # абази́нский надо сделать такое: Выделить код Код:а а-а-а аароновец аароновский аароновцы абажур абажурный абажуродержатель абажурчик абаз абазин абазинец абазинка абазинский Т.е. убрать все пометы, все ударения, все окончания, все омонимы, все символы форматирования вики |
Shutnik > 08-08-2007 12:23:29 |
TLemur |
Infocatcher > 08-08-2007 12:59:48 |
Я полагаю, можно так: Выделить код Код:text .replace(/^# */mg, "") .replace(/́/g, "") // .replace(/[ \t]+/g, " ") .replace(/,.*$/mg, "") .replace(/ *\d+/g, ""); var arr = text.split("\n"); for(var i = 0; i < arr.length - 1; i++) if(arr[i] == arr[i + 1]) arr[i] = ""; var res = arr.join("\n").replace(/\s+/g, "\n"); |
TLemur > 08-08-2007 20:16:33 |
shutnik Проверь, пожалуйста, и код Infocatcher.
Нет, выдранной базы нет. |
Shutnik > 09-08-2007 19:05:58 |
TLemur первым делом я выдрал из вики базу слов. у меня получилось 32 файла, в каждом из которых были слова на определенную букву. далее, я соединил все файлы в один и применил замену "(,|;|\(|\[).*$" на "". поскольку было очень много слов, имеющих разные значения и в базе присутствовали слова типа "слово 1, слово 2", я применил замену "\w$" на "". под конец ещё раз отсортировал получившуюся базу и удалил дубликаты слов. собственно, выкладываю: words.rar. Added Чтв 09 Авг 2007 19:18:03 : |
Infocatcher > 09-08-2007 20:49:21 |
Вроде бы /[^а-яё -]/i тоже работает: |
TLemur > 09-08-2007 23:39:24 |
shutnik Спасибо за базу. Я же говорил: не знаток я этих regexp Только для новой вики нашего форума, на которой и будет проходить работа, надо файлы по буквам. Я надеюсь, переразбить обратно на файлы по буквам трудно не будет? И скриптик, который все это обратно будет склеивать, может быть, тоже выложишь? |
Infant > 09-08-2007 23:44:58 |
TLemur |
Shutnik > 09-08-2007 23:45:43 |
TLemur |
TLemur > 09-08-2007 23:47:44 |
Infant я так думаю, что в словарь на этапе его разработки слова новые будут добавлять люди. А людям так удобнее, когда по буквам. Или есть другие варианты? Готов выслушать. |
ragnaar > 10-08-2007 09:49:32 |
смысл в том, что представьте размер страницы где целиком .dic файл и сколько она будет загружаться... Нынешний словарь - 3,3mb, планируется что новый должен быть меньше за счет продвинутых афиксов, но в любом случае dic будет больше 1 мегабайта, а не у всех быстрые линии и анлим.. |
TLemur > 10-08-2007 12:35:39 |
shutnik Надо опустить этап "я соединил все файлы в один", повторив все сначала. |
Shutnik > 10-08-2007 13:55:40 |
TLemur |
TLemur > 10-08-2007 14:30:00 |
shutnik Да я не тороплю... |
Shutnik > 10-08-2007 16:32:17 |
TLemur "́ " -> "" - убираем ударения собственно, words_base.rar. |
TLemur > 10-08-2007 19:20:41 |
shutnik Спасибо. |
Infant > 16-11-2007 21:44:01 |
А между тем автор продолжает улучшать движок. Добавлены кое-какие прибамбасы для исправления ошибок не связанных с орфографией (флаг KEY). К сожалению теперь документация на сайте автора представлена в каком-то нечитаемом виде (по крайней мере так она выглядит у меня). Нет ни разделов, ни заголовков. В самом тексте большие лакуны. |
Unghost > 14-12-2007 20:27:27 |
Открепляю. |
Unghost > 14-12-2007 22:47:33 |
PiVV |
Unghost > 16-12-2007 18:38:43 |
PiVV
Обещают, что успеют. |
Unghost > 16-12-2007 19:53:53 |
PiVV |
Infant > 30-12-2007 18:59:57 |
Возник у меня вот такой вопрос: Кто-то пробовал создавать свой словарь или всё остановилось на:
переводе документации (которая к настоящему моменту несколько устарела) и созданием списка слов из Викисловаря? Это собственно предвопрос к главному: А нужен ли нам вообще русский словарь hunspell? Настолько ли он лучше существующих для myspell, которые и так поддерживаются? К вызывавшимся курировать проект есть только один вопрос: в чём была (возможно осталась до сих пор) идея создания словаря через вики? Только если можно более подробно чем: «слова помещаются в вики, все желающие пишут правила». Собственно сами правила написания правил меня и интересуют. Никаких примеров, образцов выдано не было. А ведь от этого сильно зависит сама структура файлов словаря и аффиксов. P.S. Хотелось бы увидеть какое-то подобие дискуссии, а не только мои единственные сообщения. |
Unghost > 30-12-2007 19:25:17 |
Infant
Качество текущего словаря далеко от идеала. Много ложных предположений, раздутый размер и не поддерживается буква ё.
Если бы удалось включить в сборку словарь Лебедева, то я бы вопрос о новом словаре вообще не подымал. |
Infant > 30-12-2007 19:38:00 |
Всё время забываю само собой разумеющиеся, для меня, факты. Поэтому в вопросе подразумевалось не отсутствие необходимости в новом словаре под свободной лицензией, а нужен ли он именно на движке hunspell. А может на старом myspell или вообще на каком-то другом созданном специально для русского языка.
Из моего опыта, движок hunspell также не блещет качеством предположений. Что впрочем может быть связано с выбранной мною структурой построения словаря. Именно поэтому интересно обменяться мнениями с кем-то кто также пытался создать словарь. |
Unghost > 30-12-2007 21:07:09 |
Infant
Разницы особой нет, они довольно близки по функциональности. Какие-то другие движки Mozilla не поддерживаются. |
TLemur > 31-12-2007 08:45:58 |
Infant Я пытался написать часть словаря, поскольку собирался курировать его создание. |
Infant > 31-12-2007 14:20:37 |
Хорошо, опишу моё видение проблемы. |
Infant > 31-12-2007 14:54:29 |
Вот исходя из таких рассуждений (появление класса приставок, двойная суффиксальная замена) формат hunspell действительно кажется более удобным и пригодным для построения нового словаря. Да, как-то упустил в предыдущем сообщении, движок hunspell поддерживает словари формата myspell. Что достаточно разумно со стороны автора, поскольку не все языки могут себе позволить обзавестись новыми словарями в одно мгновение. Добавлено Mon Dec 31 15:23:09 2007 : |
Infant > 31-12-2007 15:34:27 |
При создании словаря по второму варианту выявилась неприятная особенность hunspell — плохой метод построения предположений для слов не найденных в словаре. Возможно это вызвано цифровым описанием правил, но пока что так за ними легче следить визуально и отказаться от неё я не вижу возможности. В третьем варианте попытался перейти к двухбуквенным описаниям, но улучшения не заметил. |
Unghost > 03-01-2008 18:59:13 |
Я конечно извиняюсь, но что мешает взять словарь Константина Книжника, включённый в существующие сборки Firefox, и довести его до ума? Добавлено Thu Jan 3 19:01:15 2008 : |
Infant > 03-01-2008 19:20:02 |
Ничего не мешает, просто разбираться и так и так. В своём легче разобраться Я думай если выложить то что у меня сейчас есть вряд ли кто без меня разберётся. |
cyber-pilot > 01-02-2008 14:40:57 |
Все прочитал, но так и не понял как создавать новый словарь. Точнее мне нужно добавить в уже существующий словарь новые слова со всеми словоформами. |
TLemur > 01-02-2008 17:13:14 |
cyber-pilot Если добавлять только одно слово, тогда щелкаете по нему правой кнопкой и Добавить в словарь. |
Infant > 01-02-2008 19:24:09 |
cyber-pilot |
cyber-pilot > 02-02-2008 13:59:17 |
TLemur пишет
Мне нужно добавить со всеми словоформами. Infant пишет
В том-то и вопрос: "Как определить под какие правила подпадает слово"? По аналогии не подходит, хотелось бы как-то автоматизировать процесс. При том же с трудом верится, что составители словаря в ручную подбирали все правила. |
Infant > 02-02-2008 15:05:22 |
cyber-pilot
Насчёт автоматизации — я бы тоже не отказался Делали составители словаря это вручную или нет могут сказать только они сами. Единственное что могу ещё добавить, что словарь строился на основе словаря Зализняка. |
cyber-pilot > 03-02-2008 23:08:04 |
Сделал программку, которая проверяет какие правила из affix файла подходят для неизвестного слова. В среднем получается 12 подходящих правил. Теперь остается отбросить ненужные. Вот думаю как это лучше сделать. Может действительно по аналогии действовать, т.е. Как думаете, правильно я рассуждаю? |
TLemur > 04-02-2008 12:12:33 |
cyber-pilot Не пойдет, в русском языке нет ни классов слов, ни сингармонизма, чтобы по последним эн знакам определить, какое окончание цеплять. |
cyber-pilot > 04-02-2008 12:20:15 |
Я пока не вижу другого способа, чтобы выбрать наиболее подходящие правила. При том же я собираюсь сделать так, что если предложенные правила окажутся неправильными, то пользователь сможет выбрать другие. |
cyber-pilot > 04-02-2008 15:25:24 |
TLemur пишет
Вот здесь вот http://www.5ballov.ru/referats/preview/15883/1 например, говорится, что по принципу аналогии вероятность правильного анализа слов при обработке текстов любой тематики превышает 99% И еще есть программы, которые умеют строить список словоформ для неизвестных слов, например ОРФО. |
TLemur > 04-02-2008 15:48:37 |
ОРФО задает несколько вопросов пользователю. т.к. по нескольким падежам узнать остальные окончания возможно.
Не стал бы доверять рефератам |
cyber-pilot > 04-02-2008 19:38:24 |
TLemur пишет
У меня ОРФО сразу выдает гипотезы словоформ, причем первая из них в основном правильная. А если ни одна из них не подошла, то можно в режиме "Эксперт" самому выбрать, что это за слово. |
cyber-pilot > 26-02-2008 00:21:10 |
Сделал программку, которая анализирует неизвестное слово и выдает гипотезы остальных словоформ. В принципе довольно неплохо угадывает, если бы еще она определяла какая это часть речи, было бы вообще здорово. |
Infant > 26-02-2008 00:28:52 |
cyber-pilot |
TLemur > 09-04-2008 07:22:08 |
и
Прогресс есть? |
Shutnik > 09-04-2008 13:38:39 |
они уже не работают над словарём... |
TLemur > 09-04-2008 16:17:25 |
Shutnik
Кто они? Компания или МРО? |
Unghost > 10-04-2008 21:37:52 |
TLemur |
Infant > 24-11-2008 21:15:09 |
Поскольку тему про организацию работы над словарём благополучно засрали, то может продолжим конструктивное обсуждение здесь? |
Quicksilver tears > 24-11-2008 21:16:21 |
Там был мой ответ, который удалили. Напишу его сюда: Это, так сказать, набросок... |
Infant > 24-11-2008 21:39:49 |
Что хотелось бы видеть мне. Теперь замечания по наброску. |
Quicksilver tears > 24-11-2008 21:42:42 |
Кстати, а с Лебедевым кто-нибудь контактировал, узнавал о том, продолжается ли работа над словарём, кто участвует и т.д.? |
Quicksilver tears > 26-11-2008 22:02:10 |
Infant
Я полагаю, что нужно сначала изучить уже существующий вариант. Так как создавать с нуля - крайне затратная и долгая работа.
Подумаю, чуть позже отпишусь о подробностях. |
Infant > 26-11-2008 22:13:00 |
Значит будем пока экспериментировать дальше. Может что придумаю как обойтись без дефисов для проверки слов с дефисами. |
TLemur > 27-11-2008 04:54:39 |
Quicksilver tears
Уважаемые господа! для начала, не мог бы ли кто-нибудь из вас объяснить мне, что такое словарь Лебедева, что такое "вариант 0.2.1 от Unghost" и чем эти два словаря отличаются от словарей в Firefox 2.0.0.*, 3.0 и 3.0.4? Заранее благодарен. |
Infant > 27-11-2008 14:41:30 |
TLemur пишет
На страничке https://addons.mozilla.org/ru/firefox/a … sions/3703 можно обнаружить следующие версии словаря: Из readme файла включённого в 0.1 можно узнать, что этот словарь является переделкой под модуль MySpell более раннего словаря для модуля ispell версии 0.99f4 в рамках проекта словаря для OOo. Разработчиком того словаря под ispell назван Александр Лебедев. Он же, наряду с другими, принимал участие в переделке. По сути, это тот же словарь, в котором набор слов и affix-файл представлены в виде, пригодном для обработки myspell. Причём в readme файле есть интересные слова про сборку пакета и, в лицензии, упоминание об общем файле аффиксов и нескольких файлах словаря. Что, на мой взгляд, говорит о наличии исходных текстов словаря в виде отличном от того представления, который имеется у пользователя. А также о какой-то программе компиляции aff и dic файлов из этих исходных текстов. Всё это, исходные тексты, закопирайчено в лицензии Лебедевым. Версия 0.2, насколько я понимаю, является результатом проекта по сбору новых слов для словаря OOo и построен на версии 0.99g5 словаря Лебедева для ispell. Изменилась лицензия и теперь "святое имя" нельзя использовать всуе без специального разрешения. Версия 0.2.1 — попытка исправить неправильное название у файла словаря на AMO и ничем не отличается от 0.2. Так сказать, версия ещё не испорченная "Эхсплоурерами", "Виндаусами" и прочими словами-"минорами". В последующие версии уже были добавлены слова, некоторые из которых в неполной форме. По поводу того какие версии каких словарей входили в какие версии Firefox — я думаю Unghost ответит лучше и полнее. Подведём итоги. Под "словарём Лебедева" я подразумеваю переделанную для MySpell версию его словаря ispell или в данной нумерации — версию 0.1. Со словарём от Unghost варанта 0.2.1 думаю тоже всё понятно. |
Unghost > 29-11-2008 16:00:41 |
Если хотите брать первоначальный вариант словаря Лебедева, включённый в Firefox, берите его с сайта OpenOffice. |
TLemur > 29-11-2008 19:18:23 |
Unghost Меня в общем-то интересует это:
|
Unghost > 29-11-2008 19:38:36 |
0.2.1 вошёл в 3.0.2 |
TLemur > 13-07-2010 15:52:43 |
user210 > 27-04-2011 09:33:40 |
подcкажите пожалуйста как пользоваться консолькой hunspell для винды для получения исправленных слов? |
igorsub > 09-06-2011 17:36:08 |
А кто занимается словарями? Я тут неточность нашел, вместо слова «переустанавливать» мне предлагается загадочное «перестанавливать». У меня версия от 3-го мая. |
Tiger.711 > 09-06-2011 18:36:08 |
igorsub |
igorsub > 09-06-2011 23:33:51 |
Tiger.711 |
Helen_Vorobiova > 02-02-2017 16:28:59 |
Здравствуйте, возможно офтопик. |