Полезная информация

Будьте в курсе последних изменений в мире Mozilla, следя за нашим микроблогом в Twitter.

№7631-12-2007 15:34:27

Infant
   «»
 
Группа: Extensions
Откуда: Одесса
Зарегистрирован: 23-12-2004
Сообщений: 3671
UA: Minefield 3.0

Re: Новый русский словарь hunspell

При создании словаря по второму варианту выявилась неприятная особенность hunspell — плохой метод построения предположений для слов не найденных в словаре. Возможно это вызвано цифровым описанием правил, но пока что так за ними легче следить визуально и отказаться от неё я не вижу возможности. В третьем варианте попытался перейти к двухбуквенным описаниям, но улучшения не заметил.
Проблему также составляет отсутствие верификатора: нет способа построить списки правильных и ошибочных слов из имеющихся aff и dic-файлов, нет возможности быстро определить ошибку в описании из-за чего словарь перестаёт работать. Например, добавил ещё одну строку к правилу, забыл изменить количество строк в заголовке правила. Из-за этого приходится держать базу правильных и ошибочных слов и время от времени проверять ими полученный словарь на ошибки.


Благодарю алфавит за любезно предоставленные буквы.

Отсутствует

 

№7703-01-2008 18:59:13

Unghost
Призрак-админ
 
Группа: Administrators
Откуда: Moscow, Russia
Зарегистрирован: 08-10-2004
Сообщений: 11771
UA: Minefield 3.0

Re: Новый русский словарь hunspell

Я конечно извиняюсь, но что мешает взять словарь Константина Книжника, включённый в существующие сборки Firefox, и довести его до ума?
Обязательно было начинать всё с нуля?

Добавлено Thu Jan  3 19:01:15 2008 :
Исходники его лежат здесь


Do not meddle in the affairs of Wizards, for they are subtle and quick to anger.

Отсутствует

 

№7803-01-2008 19:20:02

Infant
   «»
 
Группа: Extensions
Откуда: Одесса
Зарегистрирован: 23-12-2004
Сообщений: 3671
UA: Minefield 3.0

Re: Новый русский словарь hunspell

Ничего не мешает, просто разбираться и так и так. В своём легче разобраться :) Я думай если выложить то что у меня сейчас есть вряд ли кто без меня разберётся.


Благодарю алфавит за любезно предоставленные буквы.

Отсутствует

 

№7901-02-2008 14:40:57

cyber-pilot
Участник
 
Группа: Members
Зарегистрирован: 01-02-2008
Сообщений: 7
UA: IE 6.0
Веб-сайт

Re: Новый русский словарь hunspell

Все прочитал, но так и не понял как создавать новый словарь. Точнее мне нужно добавить в уже существующий словарь новые слова со всеми словоформами.
Какой программой мне пользоваться? Или по какому алгоритму можно определить все словоформы имея неизвестное слово и файл affix?

Отсутствует

 

№8001-02-2008 17:13:14

TLemur
Забанен
 
Группа: Members
Зарегистрирован: 18-10-2004
Сообщений: 1764
UA: Firefox 2.0

Re: Новый русский словарь hunspell

cyber-pilot

Если добавлять только одно слово, тогда щелкаете по нему правой кнопкой и Добавить в словарь.

Отсутствует

 

№8101-02-2008 19:24:09

Infant
   «»
 
Группа: Extensions
Откуда: Одесса
Зарегистрирован: 23-12-2004
Сообщений: 3671
UA: Firefox 2.0

Re: Новый русский словарь hunspell

cyber-pilot
Чтобы добавить новое слово со всеми его словоформами нужно для начала определиться с правилом(ами) под которые подпадает это слово. В соответствии с этим выбрать нужное(ые) правило(а). Проще всего действовать по аналогии, то есть найти похожее слово из словаря. Но это достаточно нетривиальная задача — разобраться в формате чужого словаря.


Благодарю алфавит за любезно предоставленные буквы.

Отсутствует

 

№8202-02-2008 13:59:17

cyber-pilot
Участник
 
Группа: Members
Зарегистрирован: 01-02-2008
Сообщений: 7
UA: IE 6.0
Веб-сайт

Re: Новый русский словарь hunspell

TLemur пишет

Если добавлять только одно слово, тогда щелкаете по нему правой кнопкой и Добавить в словарь.

Мне нужно добавить со всеми словоформами.

Infant пишет

Чтобы добавить новое слово со всеми его словоформами нужно для начала определиться с правилом(ами) под которые подпадает это слово. В соответствии с этим выбрать нужное(ые) правило(а). Проще всего действовать по аналогии, то есть найти похожее слово из словаря. Но это достаточно нетривиальная задача — разобраться в формате чужого словаря.

В том-то и вопрос: "Как определить под какие правила подпадает слово"? По аналогии не подходит, хотелось бы как-то автоматизировать процесс. При том же с трудом верится, что составители словаря в ручную подбирали все правила.
Кстати, все функции HunSpell мне не нужны, достаточно тех, которые были в MySpell.

Отсутствует

 

№8302-02-2008 15:05:22

Infant
   «»
 
Группа: Extensions
Откуда: Одесса
Зарегистрирован: 23-12-2004
Сообщений: 3671
UA: Firefox 2.0

Re: Новый русский словарь hunspell

cyber-pilot

По аналогии не подходит, хотелось бы как-то автоматизировать процесс. При том же с трудом верится, что составители словаря в ручную подбирали все правила.

Насчёт автоматизации — я бы тоже не отказался :) Делали составители словаря это вручную или нет могут сказать только они сами. Единственное что могу ещё добавить, что словарь строился на основе словаря Зализняка.
По моему мнению окончательная версия правил подверглась уменьшению их количества путём объединения правил друг с другом. Вот это и составляет основную проблему. Отсутствие же каких-либо комментариев практически не позволяет с ходу определить для чего используется конкретное правило. Поэтому аналогия — единственный, на мой взгляд, не слишком затратный метод добавления словоформ в существующий чужой словарь с неизвестной структурой правил.


Благодарю алфавит за любезно предоставленные буквы.

Отсутствует

 

№8403-02-2008 23:08:04

cyber-pilot
Участник
 
Группа: Members
Зарегистрирован: 01-02-2008
Сообщений: 7
UA: IE 6.0
Веб-сайт

Re: Новый русский словарь hunspell

Сделал программку, которая проверяет какие правила из affix файла подходят для неизвестного слова. В среднем получается 12 подходящих правил. Теперь остается отбросить ненужные. Вот думаю как это лучше сделать. Может действительно по аналогии действовать, т.е.
1) создать список всех словоформ из словаря;
2) взять сколько-нибудь последних букв из "неизвестного слова" (не знаю сколько именно);
3) посмотреть какие правила наиболее часто встречаются в словаре для данного набора букв;
4) найденные правила применить к "неизвестному слову".

Как думаете, правильно я рассуждаю?

Отсутствует

 

№8504-02-2008 12:12:33

TLemur
Забанен
 
Группа: Members
Зарегистрирован: 18-10-2004
Сообщений: 1764
UA: Firefox 2.0

Re: Новый русский словарь hunspell

cyber-pilot

Не пойдет, в русском языке нет ни классов слов, ни сингармонизма, чтобы по последним эн знакам определить, какое окончание цеплять.
Например, есть глаголы на ять, которые относятся к 2 спряжению.

Отсутствует

 

№8604-02-2008 12:20:15

cyber-pilot
Участник
 
Группа: Members
Зарегистрирован: 01-02-2008
Сообщений: 7
UA: IE 6.0
Веб-сайт

Re: Новый русский словарь hunspell

Я пока не вижу другого способа, чтобы выбрать наиболее подходящие правила. При том же я собираюсь сделать так, что если предложенные правила окажутся неправильными, то пользователь сможет выбрать другие.

Отсутствует

 

№8704-02-2008 15:25:24

cyber-pilot
Участник
 
Группа: Members
Зарегистрирован: 01-02-2008
Сообщений: 7
UA: IE 6.0
Веб-сайт

Re: Новый русский словарь hunspell

TLemur пишет

cyber-pilot

Не пойдет, в русском языке нет ни классов слов, ни сингармонизма, чтобы по последним эн знакам определить, какое окончание цеплять.
Например, есть глаголы на ять, которые относятся к 2 спряжению.

Вот здесь вот http://www.5ballov.ru/referats/preview/15883/1 например, говорится, что по принципу аналогии вероятность правильного анализа слов при обработке текстов любой тематики превышает 99%

И еще есть программы, которые умеют строить список словоформ для неизвестных слов, например ОРФО.

Отредактировано cyber-pilot (04-02-2008 15:27:41)

Отсутствует

 

№8804-02-2008 15:48:37

TLemur
Забанен
 
Группа: Members
Зарегистрирован: 18-10-2004
Сообщений: 1764
UA: Firefox 2.0

Re: Новый русский словарь hunspell

И еще есть программы, которые умеют строить список словоформ для неизвестных слов, например ОРФО.

ОРФО задает несколько вопросов пользователю. т.к. по нескольким падежам узнать остальные окончания возможно.

говорится, что по принципу аналогии вероятность правильного анализа слов при обработке текстов любой тематики превышает 99%

Не стал бы доверять рефератам :)

Отсутствует

 

№8904-02-2008 19:38:24

cyber-pilot
Участник
 
Группа: Members
Зарегистрирован: 01-02-2008
Сообщений: 7
UA: IE 6.0
Веб-сайт

Re: Новый русский словарь hunspell

TLemur пишет

ОРФО задает несколько вопросов пользователю. т.к. по нескольким падежам узнать остальные окончания возможно.

У меня ОРФО сразу выдает гипотезы словоформ, причем первая из них в основном правильная. А если ни одна из них не подошла, то можно в режиме "Эксперт" самому выбрать, что это за слово.

Отсутствует

 

№9026-02-2008 00:21:10

cyber-pilot
Участник
 
Группа: Members
Зарегистрирован: 01-02-2008
Сообщений: 7
UA: IE 6.0
Веб-сайт

Re: Новый русский словарь hunspell

Сделал программку, которая анализирует неизвестное слово и выдает гипотезы остальных словоформ. В принципе довольно неплохо угадывает, если бы еще она определяла какая это часть речи, было бы вообще здорово.
http://folder.big.am/5498272

Отсутствует

 

№9126-02-2008 00:28:52

Infant
   «»
 
Группа: Extensions
Откуда: Одесса
Зарегистрирован: 23-12-2004
Сообщений: 3671
UA: Minefield 3.0

Re: Новый русский словарь hunspell

cyber-pilot
Вообще-то есть онлайн проект АОТ там и части речи догадывает.


Благодарю алфавит за любезно предоставленные буквы.

Отсутствует

 

№9209-04-2008 07:22:08

TLemur
Забанен
 
Группа: Members
Зарегистрирован: 18-10-2004
Сообщений: 1764
UA: Firefox 2.0

Re: Новый русский словарь hunspell

The tree will be frozen for FF3.0 RC1 tonight

и

А компания берётся успеть к выходу тройки? Обещают, что успеют.

Прогресс есть?

Отсутствует

 

№9309-04-2008 13:38:39

Shutnik
Участник
 
Группа: Extensions
Зарегистрирован: 12-11-2005
Сообщений: 3785
UA: Firefox 2.0

Re: Новый русский словарь hunspell

они уже не работают над словарём...

Отсутствует

 

№9409-04-2008 16:17:25

TLemur
Забанен
 
Группа: Members
Зарегистрирован: 18-10-2004
Сообщений: 1764
UA: Firefox 2.0

Re: Новый русский словарь hunspell

Shutnik

они уже не работают над словарём...

Кто они? Компания или МРО?

Отсутствует

 

№9510-04-2008 21:37:52

Unghost
Призрак-админ
 
Группа: Administrators
Откуда: Moscow, Russia
Зарегистрирован: 08-10-2004
Сообщений: 11771
UA: Minefield 3.0

Re: Новый русский словарь hunspell

TLemur
Компания. К сожалению не получилось.


Do not meddle in the affairs of Wizards, for they are subtle and quick to anger.

Отсутствует

 

№9624-11-2008 21:15:09

Infant
   «»
 
Группа: Extensions
Откуда: Одесса
Зарегистрирован: 23-12-2004
Сообщений: 3671
UA: Firefox 2.0

Re: Новый русский словарь hunspell

Поскольку тему про организацию работы над словарём благополучно засрали, то может продолжим конструктивное обсуждение здесь?


Благодарю алфавит за любезно предоставленные буквы.

Отсутствует

 

№9724-11-2008 21:16:21

Quicksilver tears
Забанен
 
Группа: Extensions
Зарегистрирован: 13-06-2005
Сообщений: 4459
UA: Firefox 3.0

Re: Новый русский словарь hunspell

Там был мой ответ, который удалили. Напишу его сюда:
John Lynx
Подумал над Вашими словами.
Результат следующий:
Вся работа делится на 2 этапа:
1. Подготовительный. В котором определяется группа людей, которые будут работать над добавлением слов в словарь. Они определяются между собой, кто будет лидером (человеком, который будет отвечать за непосредственное добавление слов в словарь и который будет осуществлять общий контроль работы остальных членов группы). Они ищут всю доступную информацию по словарю (что он из себя представляет, как организован механизм добавления слов и т.д.), вся эта информация публикуется в доступном для всех месте. Эти же люди определяют критерии, по которым слово может быть добавлено в словарь. Ставится срок, к которому работа (или какой-то промежуточный релиз) должна быть выполнена.
2. Непосредственно работа. Тут могут быть нюансы. Если, например, много людей, то можно начать распределять между участниками диапазон букв в алфавите (например, первый предлагает к дополнению слова, начинающиеся на буквы а - г, второй - д - з и т.д.). Если нет, можно выбрать какой-то иной способ работы. Это уже проблема, которую нужно будет решать непосредственно на этом этапе работы. Заранее планировать это в деталях - слишком затратно по времени и несколько нерационально.
Здесь выполнение работы, контроль, возможная коррекция сроков выполнения работы....

Это, так сказать, набросок...

Отредактировано Quicksilver tears (24-11-2008 21:16:39)

Отсутствует

 

№9824-11-2008 21:39:49

Infant
   «»
 
Группа: Extensions
Откуда: Одесса
Зарегистрирован: 23-12-2004
Сообщений: 3671
UA: Firefox 2.0

Re: Новый русский словарь hunspell

Что хотелось бы видеть мне.
1. Автоматическая сборка нужного варианта словаря.
2. Для безусловных и несомненных слов я бы предложил иметь основную базу. Плюс несколько дополнительных для сомнительных слов, специальных терминов, географических названий, имён фамилий. При этом каждый желающий мог бы выбрать себе необходимые дополнительные словари и не возникает больших проблем с включением или не включением каких-то слов в словарь.
3. Кстати, аналогично можно было бы включать в словарь и английские, немецкие, прочие словари делая би-, трилингвы.

Теперь замечания по наброску.
1. По-прежнему неясен вопрос: будет попытка продолжения развития словаря Лебедева, скажем в варианте 0.2.1 от Unghost или всё-таки будет абсолютно новый словарь?
2. Ничего не зная по пункту 2 трудно (по крайней мере для меня) принять решение стоит ли входить в группу или продолжать единоличные эксперименты.

Отредактировано Infant (24-11-2008 21:43:50)


Благодарю алфавит за любезно предоставленные буквы.

Отсутствует

 

№9924-11-2008 21:42:42

Quicksilver tears
Забанен
 
Группа: Extensions
Зарегистрирован: 13-06-2005
Сообщений: 4459
UA: Firefox 3.0

Re: Новый русский словарь hunspell

Кстати, а с Лебедевым кто-нибудь контактировал, узнавал о том, продолжается ли работа над словарём, кто участвует и т.д.?

Отсутствует

 

№10026-11-2008 22:02:10

Quicksilver tears
Забанен
 
Группа: Extensions
Зарегистрирован: 13-06-2005
Сообщений: 4459
UA: Firefox 3.0

Re: Новый русский словарь hunspell

Infant

1. По-прежнему неясен вопрос: будет попытка продолжения развития словаря Лебедева, скажем в варианте 0.2.1 от Unghost или всё-таки будет абсолютно новый словарь?

Я полагаю, что нужно сначала изучить уже существующий вариант. Так как создавать с нуля - крайне затратная и долгая работа.

2. Ничего не зная по пункту 2 трудно (по крайней мере для меня) принять решение стоит ли входить в группу или продолжать единоличные эксперименты

Подумаю, чуть позже отпишусь о подробностях.

Отсутствует

 

Board footer

Powered by PunBB
Modified by Mozilla Russia
Copyright © 2004–2020 Mozilla Russia GitHub mark
Язык отображения форума: [Русский] [English]