Морфологическая библиотека для разработчиков. Компания «Информатик» предлагает для разработчиков программные морфологические модули, которые предназначены для решения широкого класса задач, требующих средств поиска и анализа текстовой информации. Например, информационно-поисковые системы, аналитические системы и каталоги электронных документов. В морфологических модулях компании «Информатик» используются передовые технологии обработки текста, лингвистические и математические алгоритмы, которые могут быть использованы для контекстного поиска документов с учетом всех словоформ, нахождения синонимов, проверки грамматики, проверки орфографии и для решения задач, построенных на основе анализа информационных массивов.
Разработанные компанией «Информатик» морфологические модули используют в своих системах такие организации как: Samsung, Syngenta, Quantum Art, ALP, Яndex и многие другие. Проверка орфографии. Проверка грамматики. Проверка орфографии. Проверка орфографии (Speller) - полноценный модуль проверки орфографии: с выдачей подсказок и добавлением новых слов в словарь пользователя сразу во всех словоформах. Модуль добавления слов в словарь пользователя реализован в 2 вариантах:.
со встроенным экранным интерфейсом. без экранного интерфейса. Реализован для следующих языков:. Португальский.
Продукт поставляется в виде динамической библиотеки (*. dll) для Windows.
Проверка грамматики. Проверка грамматики (Russian Grammar) – проверяет более 40 различных грамматических правил русского языка, включая расстановку запятых. На тестах обнаруживает более 50% распространенных грамматических и синтаксических ошибок. Модуль на выходе выдает текстовое описание ошибки, а также часть предложения (абзаца), где ошибка найдена. Продукт поставляется в виде динамической библиотеки (*. dll) для Windows. Морфологические библиотеки для русского, украинского, английского, немецкого, французского, испанского, итальянского и португальского языков.
Морфологические библиотеки - объединяют несколько модулей предназначенных для морфологического анализа слов и позволяют решить следующие задачи:. Приведение слов к словарной форме. Для поиска одной формы слова по другой его форме.
Этот модуль приводит слова к словарной форме в соответствии с информацией из основного словаря или пополняемого морфологического словаря пользователя неограниченного объема. Для каждого слова дополнительно сообщается часть речи и 4-х байтный цифровой хэш-код (hash-code), с помощью которого можно индексировать тексты;. Синтез всех форм заданного слова. Модуль выдает все формы заданного слова, если оно находится в основном словаре или пополняемом морфологическом словаре пользователя неограниченного объема. Библиотека позволяет провести точный анализ слов, находящихся в словаре ОРФО. В русском словаре общей лексики содержится около 180 тысяч словарных статей (лексем), в специализированных словарях еще около 60 тысяч, дающих вместе более 4-х миллионов словоформ.
База для украинского языка содержит около 130 тысяч лексем, для английского - около 115 тысяч, для немецкого – 100 тыс. итальянского – 80 тыс. французского - 45 тыс. испанского - 48 тыс. португальского - 50 тыс. португальского (Бразилия) - 43 тыс. лексем.
Для неизвестных слов библиотека с высокой степенью достоверности помогает сделать предсказание грамматических характеристик и парадигмы на основе комплекса правил словоизменения. Ключевые характеристики модуля:. словари общеупотребительной лексики большого объема;. система быстрого пополнения словаря: в 99% случаев система сама определит тип словоизменения вводимого слова;. система генерации уникальных идентификаторов слов: каждому слову, известному системе, ставится в соответствие уникальный идентификатор, позволяющий организовать компактный индекс произвольного массива документов с последующим поиском, учитывающим все словоформы. Библиотека поможет включить морфологический анализ в системы информационного поиска.
Она поддерживает все возможности морфологического анализа для известных слов: определение грамматических характеристик слова, приведение к словарной форме, получение требуемых словоформ. Продукт поставляется в виде динамической библиотеки (*. dll) для Windows. Тезаурус (Russian Thesaurus) - выдача синонимов, антонимов и родственных слов русского языка. Словарь синонимов русского языка включает более 70 000 русских слов и выражений, образующих около 10 000 групп синонимов (более 30 000 слов и выражений), 3 500 антонимов и 14 000 рядов родственных слов (около 20 000 однокоренных слов). Тезаурус располагает возможностями:.
распознавание русских слов независимо от их формы в тексте;. для любого слова Тезаурус предлагает синонимы и антонимы в той же форме, что и исходное слово.
Расстановка переносов. Расстановка переносов (Russian Нyphenation) - расстановка переносов в словах русского языка. Есть возможность задавать качество переноса: Книжное или Газетное и код символа переноса. Сохраняется буква ё. Продукт поставляется в виде динамической библиотеки (*. dll) для Windows.