Полезная информация

Пользователи не любят читать документацию. Станьте оригинальным, будьте не как все. Ознакомьтесь с нашей базой знаний.

№5108-08-2007 20:16:33

TLemur
Забанен
 
Группа: Members
Зарегистрирован: 18-10-2004
Сообщений: 1764
UA: Firefox 2.0

Re: Новый русский словарь hunspell

shutnik

Проверь, пожалуйста, и код Infocatcher.

нет ли уже выдранной базы, чтобы двойную работу не делать?

Нет, выдранной базы нет.

Отсутствует

 

№5209-08-2007 19:05:58

Shutnik
Участник
 
Группа: Extensions
Зарегистрирован: 12-11-2005
Сообщений: 3785
UA: Firefox 2.0

Re: Новый русский словарь hunspell

TLemur
готово. то, что было в моих силах - сделал.

первым делом я выдрал из вики базу слов.
хотел написать скриптик, но подумал, что вручную будет быстрее.

у меня получилось 32 файла, в каждом из которых были слова на определенную букву.
прогнал через все файлы замену "/^\s*\*\s/" на "" и отсортировал для верности слова.
вот что получилось: base.rar.

далее, я соединил все файлы в один и применил замену "(,|;|\(|\[).*$" на "".

поскольку было очень много слов, имеющих разные значения и в базе присутствовали слова типа "слово 1, слово 2", я применил замену "\w$" на "".

под конец ещё раз отсортировал получившуюся базу и удалил дубликаты слов.

собственно, выкладываю: words.rar.

Added Чтв 09 Авг 2007 19:18:03 :
думаю, теперь нужно делать поиск по "[^абвгдеёжзийклмнопрстуфхцчшщъыьэюяАБВГДЕЁЖЗИЙКЛМНОПРСТУФХЦЧШЩЪЫЬЭЮЯ -]" и удалять все лишние слова и символы ("…", "—" и ещё некоторые другие)

Отредактировано shutnik (09-08-2007 19:07:48)

Отсутствует

 

№5309-08-2007 20:49:21

Infocatcher
Not found
 
Группа: Extensions
Зарегистрирован: 24-05-2007
Сообщений: 4339
UA: Firefox 2.0

Re: Новый русский словарь hunspell

думаю, теперь нужно делать поиск...

Вроде бы /[^а-яё -]/i тоже работает:
javascript: var t='1vR({}абвПРЁё23'; var r=/[^а-яё -]/ig; alert(t.replace(r, ''));

Отредактировано Infocatcher (09-08-2007 20:49:58)


Прошлое – это локомотив, который тянет за собой будущее. Бывает, что это прошлое вдобавок чужое. Ты едешь спиной вперед и видишь только то, что уже исчезло. А чтобы сойти с поезда, нужен билет. Ты держишь его в руках. Но кому ты его предъявишь?
Виктор Пелевин. Желтая стрела

Отсутствует

 

№5409-08-2007 23:39:24

TLemur
Забанен
 
Группа: Members
Зарегистрирован: 18-10-2004
Сообщений: 1764
UA: Firefox 2.0

Re: Новый русский словарь hunspell

shutnik

Спасибо за базу. Я же говорил: не знаток я этих regexp :( Только для новой вики нашего форума, на которой и будет проходить работа, надо файлы по буквам. Я надеюсь, переразбить обратно на файлы по буквам трудно не будет? И скриптик, который все это обратно будет склеивать, может быть, тоже выложишь?

Отсутствует

 

№5509-08-2007 23:44:58

Infant
   «»
 
Группа: Extensions
Откуда: Одесса
Зарегистрирован: 23-12-2004
Сообщений: 3671
UA: Firefox 2.0

Re: Новый русский словарь hunspell

TLemur
А смысл разбиения на буквы (крме того что так сделали в вики разделы)?


Благодарю алфавит за любезно предоставленные буквы.

Отсутствует

 

№5609-08-2007 23:45:43

Shutnik
Участник
 
Группа: Extensions
Зарегистрирован: 12-11-2005
Сообщений: 3785

Re: Новый русский словарь hunspell

TLemur
хм. я тоже не понял немного смысла. но сделать могу, разумеется. напиши поподробнее что нужно

Отсутствует

 

№5709-08-2007 23:47:44

TLemur
Забанен
 
Группа: Members
Зарегистрирован: 18-10-2004
Сообщений: 1764
UA: Firefox 2.0

Re: Новый русский словарь hunspell

Infant

я так думаю, что в словарь на этапе его разработки слова новые будут добавлять люди. А людям так удобнее, когда по буквам. Или есть другие варианты? Готов выслушать.

Отсутствует

 

№5810-08-2007 09:49:32

ragnaar
Administrator
 
Группа: Administrators
Зарегистрирован: 14-10-2004
Сообщений: 2567
UA: Firefox 2.0
Веб-сайт

Re: Новый русский словарь hunspell

А смысл разбиения на буквы (крме того что так сделали в вики разделы)?

смысл в том, что представьте размер страницы где целиком .dic файл и сколько она будет загружаться... Нынешний словарь - 3,3mb, планируется что новый должен быть меньше за счет продвинутых афиксов, но в любом случае dic будет больше 1 мегабайта, а не у всех быстрые линии и анлим..

Отсутствует

 

№5910-08-2007 12:35:39

TLemur
Забанен
 
Группа: Members
Зарегистрирован: 18-10-2004
Сообщений: 1764
UA: Firefox 2.0

Re: Новый русский словарь hunspell

shutnik

Надо опустить этап "я соединил все файлы в один", повторив все сначала.
Или если это легче, разбить файл words.rar по буквам.

Отсутствует

 

№6010-08-2007 13:55:40

Shutnik
Участник
 
Группа: Extensions
Зарегистрирован: 12-11-2005
Сообщений: 3785

Re: Новый русский словарь hunspell

TLemur
хорошо, выложу через пару часиков.
думаю, имеет смысл применить замену "(,|;|\(|\[|—|…).*$" на "", а не то, что выше. там более корректно.

Отсутствует

 

№6110-08-2007 14:30:00

TLemur
Забанен
 
Группа: Members
Зарегистрирован: 18-10-2004
Сообщений: 1764
UA: Firefox 2.0

Re: Новый русский словарь hunspell

shutnik

Да я не тороплю... :)

Отсутствует

 

№6210-08-2007 16:32:17

Shutnik
Участник
 
Группа: Extensions
Зарегистрирован: 12-11-2005
Сообщений: 3785

Re: Новый русский словарь hunspell

TLemur
готово. применял следующие выражения:

"́ " -> "" - убираем ударения
"(,|;|:|\(|\[|—|…).*$" -> "" - обрезаем описание / примеры / транскрипцию и т.д. после слова.
"[0-9]+$" -> "" - обрезание слов, имеющих два значения.
"-$" -> "" - различные "авиа-", "мото-" и т.п.
" и " -> "\n" - "далеко и далёко" и.д.

собственно, words_base.rar.

Отсутствует

 

№6310-08-2007 19:20:41

TLemur
Забанен
 
Группа: Members
Зарегистрирован: 18-10-2004
Сообщений: 1764
UA: Firefox 2.0

Re: Новый русский словарь hunspell

shutnik

Спасибо.

Отсутствует

 

№6416-11-2007 21:44:01

Infant
   «»
 
Группа: Extensions
Откуда: Одесса
Зарегистрирован: 23-12-2004
Сообщений: 3671
UA: Minefield 3.0

Re: Новый русский словарь hunspell

А между тем автор продолжает улучшать движок. Добавлены кое-какие прибамбасы для исправления ошибок не связанных с орфографией (флаг KEY). К сожалению теперь документация на сайте автора представлена в каком-то нечитаемом виде (по крайней мере так она выглядит у меня). Нет ни разделов, ни заголовков. В самом тексте большие лакуны.


Благодарю алфавит за любезно предоставленные буквы.

Отсутствует

 

№6514-12-2007 20:27:27

Unghost
Призрак-админ
 
Группа: Administrators
Откуда: Moscow, Russia
Зарегистрирован: 08-10-2004
Сообщений: 11771
UA: Minefield 3.0

Re: Новый русский словарь hunspell

Открепляю.


Do not meddle in the affairs of Wizards, for they are subtle and quick to anger.

Отсутствует

 

№6614-12-2007 22:47:33

Unghost
Призрак-админ
 
Группа: Administrators
Откуда: Moscow, Russia
Зарегистрирован: 08-10-2004
Сообщений: 11771
UA: Minefield 3.0

Re: Новый русский словарь hunspell

PiVV
Есть договорённость с одной компанией по созданию словаря. Да и не вижу я тут активности в этой ветке последние несколько месяцев.


Do not meddle in the affairs of Wizards, for they are subtle and quick to anger.

Отсутствует

 

№6716-12-2007 18:38:43

Unghost
Призрак-админ
 
Группа: Administrators
Откуда: Moscow, Russia
Зарегистрирован: 08-10-2004
Сообщений: 11771
UA: Minefield 3.0

Re: Новый русский словарь hunspell

PiVV

А компания берётся успеть к выходу тройки?

Обещают, что успеют.


Do not meddle in the affairs of Wizards, for they are subtle and quick to anger.

Отсутствует

 

№6816-12-2007 19:53:53

Unghost
Призрак-админ
 
Группа: Administrators
Откуда: Moscow, Russia
Зарегистрирован: 08-10-2004
Сообщений: 11771
UA: Minefield 3.0

Re: Новый русский словарь hunspell

PiVV
А какое сейчас вообще текущее состояние?


Do not meddle in the affairs of Wizards, for they are subtle and quick to anger.

Отсутствует

 

№6930-12-2007 18:59:57

Infant
   «»
 
Группа: Extensions
Откуда: Одесса
Зарегистрирован: 23-12-2004
Сообщений: 3671
UA: Minefield 3.0

Re: Новый русский словарь hunspell

Возник у меня вот такой вопрос: Кто-то пробовал создавать свой словарь или всё остановилось на:

Без филолога не обойтись.... У меня maman завкаф на филфаке МГУ. Но студентов нормальных знаю и я. Попробую связаться. Может кого найду.

А зачем искать? Вот он я - почти готовый (год осталось) переводчик-филолог.

и меня тоже можно. По русскому всегда 5.

Тут много у кого по русскому пять, похоже. Тоже что ли вызываться?

переводе документации (которая к настоящему моменту несколько устарела) и созданием списка слов из Викисловаря?

Это собственно предвопрос к главному: А нужен ли нам вообще русский словарь hunspell? Настолько ли он лучше существующих для myspell, которые и так поддерживаются?

К вызывавшимся курировать проект есть только один вопрос: в чём была (возможно осталась до сих пор) идея создания словаря через вики? Только если можно более подробно чем: «слова помещаются в вики, все желающие пишут правила». Собственно сами правила написания правил меня и интересуют. Никаких примеров, образцов выдано не было. А ведь от этого сильно зависит сама структура файлов словаря и аффиксов.

P.S. Хотелось бы увидеть какое-то подобие дискуссии, а не только мои единственные сообщения.


Благодарю алфавит за любезно предоставленные буквы.

Отсутствует

 

№7030-12-2007 19:25:17

Unghost
Призрак-админ
 
Группа: Administrators
Откуда: Moscow, Russia
Зарегистрирован: 08-10-2004
Сообщений: 11771
UA: Minefield 3.0

Re: Новый русский словарь hunspell

Infant

А нужен ли нам вообще русский словарь hunspell? Настолько ли он лучше существующих для myspell, которые и так поддерживаются?

Качество текущего словаря далеко от идеала. Много ложных предположений, раздутый размер и не поддерживается буква ё.

Настолько ли он лучше существующих для myspell, которые и так поддерживаются

Если бы удалось включить в сборку словарь Лебедева, то я бы вопрос о новом словаре вообще не подымал.
Но тот, что у нас есть сейчас, надо заменять.


Do not meddle in the affairs of Wizards, for they are subtle and quick to anger.

Отсутствует

 

№7130-12-2007 19:38:00

Infant
   «»
 
Группа: Extensions
Откуда: Одесса
Зарегистрирован: 23-12-2004
Сообщений: 3671
UA: Minefield 3.0

Re: Новый русский словарь hunspell

Всё время забываю само собой разумеющиеся, для меня, факты. Поэтому в вопросе подразумевалось не отсутствие необходимости в новом словаре под свободной лицензией, а нужен ли он именно на движке hunspell. А может на старом myspell или вообще на каком-то другом созданном специально для русского языка.

Качество текущего словаря далеко от идеала. Много ложных предположений, раздутый размер и не поддерживается буква ё.

Из моего опыта, движок hunspell также не блещет качеством предположений. Что впрочем может быть связано с выбранной мною структурой построения словаря. Именно поэтому интересно обменяться мнениями с кем-то кто также пытался создать словарь.


Благодарю алфавит за любезно предоставленные буквы.

Отсутствует

 

№7230-12-2007 21:07:09

Unghost
Призрак-админ
 
Группа: Administrators
Откуда: Moscow, Russia
Зарегистрирован: 08-10-2004
Сообщений: 11771
UA: Minefield 3.0

Re: Новый русский словарь hunspell

Infant

нужен ли он именно на движке hunspell. А может на старом myspell или вообще на каком-то другом созданном специально для русского языка.

Разницы особой нет, они довольно близки по функциональности. Какие-то другие движки Mozilla не поддерживаются.


Do not meddle in the affairs of Wizards, for they are subtle and quick to anger.

Отсутствует

 

№7331-12-2007 08:45:58

TLemur
Забанен
 
Группа: Members
Зарегистрирован: 18-10-2004
Сообщений: 1764
UA: Firefox 2.0

Re: Новый русский словарь hunspell

Infant

Я пытался написать часть словаря, поскольку собирался курировать его создание.
Основную сложность составляло то, что в русском языке есть немало слов с беглыми гласными (день - дня, днями).
И есть варианты окончаний в пределах одного склонения.

Отсутствует

 

№7431-12-2007 14:20:37

Infant
   «»
 
Группа: Extensions
Откуда: Одесса
Зарегистрирован: 23-12-2004
Сообщений: 3671
UA: Minefield 3.0

Re: Новый русский словарь hunspell

Хорошо, опишу моё видение проблемы.
Из моего рассмотрения файлов словарей myspell (ещё раз оговорюсь не спецификации, а конкретных словарей для разных языков) я сделал вывод, что myspell не поддерживает класс приставок вообще. Поскольку русский язык, в отличие от английского, использует, по большей части, для согласования слов в предложении окончания, а не предлоги или определённый порядок слов в предложении, то русский myspell словарь представляет собой словарь окончаний, а не суффиксов.
Это не было бы большой проблемой, если бы для образования разных частей речи не использовались разные суффиксы и окончания. Поэтому для разных частей речи пришлось бы использовать отдельные слова для основы из которой посредством правил получаются все другие словоформы. Двойной суффиксальной замене hunspell в таком словаре находится применение разве что для частиц -сь и -ся у глаголов.


Благодарю алфавит за любезно предоставленные буквы.

Отсутствует

 

№7531-12-2007 14:54:29

Infant
   «»
 
Группа: Extensions
Откуда: Одесса
Зарегистрирован: 23-12-2004
Сообщений: 3671
UA: Minefield 3.0

Re: Новый русский словарь hunspell

Вот исходя из таких рассуждений (появление класса приставок, двойная суффиксальная замена) формат hunspell действительно кажется более удобным и пригодным для построения нового словаря. Да, как-то упустил в предыдущем сообщении, движок hunspell поддерживает словари формата myspell. Что достаточно разумно со стороны автора, поскольку не все языки могут себе позволить обзавестись новыми словарями в одно мгновение.
В принципе, если разобраться с форматом имеющегося myspell словаря, то его можно было бы переделать под формат hunspell. Вот только это займёт достаточно много времени. И ещё не известно что будет быстрее: создать абсолютно новый или переделать старый.
Попробовав создать небольшой словарь я столкнулся со следующей проблемой. Если из именительного падежа единственного имени существительного создать правило для всех остальных падежей достаточно несложно, то как при этом учесть и все остальные словоформы (прилагательные, глаголы) с приставками и суффиксами? Во всей красе выросла проблема словарной базы. И простой список, как предлагалось в вики, совсем её не решал. Рядом выросла и другая — использование в файле словаря полной формы слова в качестве основы влечёт за собой введение основы для каждой части речи.
Таким образом возник второй вариант. Слова будут конструироваться по следующему принципу: приставка+корень+суффикс+окончание. Возможны различные сочетания. Здесь уже требовалась проверка каждого правила, поскольку имеющееся описание формата не отвечало на все вопросы. Поддержки hunspell в Firefox 3.0 всё ещё не было и словарь был благополучно заброшен где-то до середины лета.
Тем временем пытался разрешить вопрос со словарной базой. Нигде ничего готового найти не удалось и было принято Соломоново решение: взять имеющийся компакт-диск электронной библиотеки и на его основе создать общий список слов. Получилось общее количество около 1 миллиона слов. Практически сразу после получения такого количества появился вопрос какие слова включать в словарь в первую очередь? Так что пришлось ещё и список по частоте сделать. Я конечно понимаю, что выборка не слишком репрезентативная, но для начальной точки вполне подойдёт. В процессе дальнейшей работы обнаружился ещё один недостаток: слова которые переносились с одной строки на другую оказались разбитыми на две части. Иными словами в базе оказалось много мусора из начал и концов слов.

Добавлено Mon Dec 31 15:23:09 2007 :
После появления возможности проверки работы словаря непосредственно в Firefox вторая версия стала наполняться словами. Из общего списка выбирались однокоренные слова, разделялись на составляющие по приведенной выше формуле — приставка+корень+суффикс+окончание — и затем на основе этого списка однокоренных слов составлялись правила для окончаний, суффиксов и приставок. Сначала пытался объединять правила, но потом (некоторые объединённые ранее правила пришлось опять разделить) пришёл к выводу, что окончательную уборку можно будет произвести после наполнения базы аффикс-правил. Из-за этого же было выбрано цифровое представление правил. Оно позволяет иметь до 65536 различных правил.
Никаких идей по автоматизации отбора однокоренных слов из общего списка и их разбиении на составляющие у меня не возникло (их нет и сейчас), поэтому вся работа выполнялась вручную. Соответственно затраты времени оказались достаточно большими. Так что имеющийся словарь распознаёт около 10 тысяч слов из чуть более 200 корней.
Поначалу казалось, что база аффикс-правил быстро наполнится и можно будет совместными усилиями дальше расширять словарь, но оказалось что так только казалось.
Так родилась идея третьего варианта. Что собственно представляет собой словарь? Это связка dic и aff файла, в aff-файле описаны правила составления новых слов на основе тех, что имеются в dic-файле. В таком случае можно считать словарём и простой список всех словоформ в dic файле, при этом в aff-файле будет содержаться только необходимая служебная информация (кодировка, язык). Недостаток такого словаря — большой объём dic-файла. Собственно для его уменьшения и служит aff-файл. Общий список занимает около 11 мегабайт, то есть слишком объёмный. Для уменьшения размера можно взять список слов по частоте и обрезать его до количества в 100 или 50 тысяч наиболее употребительных слов и затем на его основе опять таки строить правила. То ли я уже так втянулся во второй вариант, то ли сказывается отсутствие правил, но третий вариант тоже пришлось отбросить. Хотя он даже без единого правила определяет больше слов, чем имеющийся сейчас второй вариант.


Благодарю алфавит за любезно предоставленные буквы.

Отсутствует

 

Board footer

Powered by PunBB
Modified by Mozilla Russia
Copyright © 2004–2020 Mozilla Russia GitHub mark
Язык отображения форума: [Русский] [English]