Главная
страница 1страница 2страница 3
скачать файл
Следопыт для Microsoft SQL Server 2000

Руководство по установке и использованию

Содержание


Содержание 1

I. Введение 2

1. Полнотекстовый поиск по-русски в базах данных 2

2. Системные требования 3

3. Технические характеристики 3

4. Регистрация и поддержка 4

II. Установка поисковой системы 4

III. Использование средств полнотекстового поиска в Microsoft SQL Server 7

Предикат CONTAINS 13

Предикат FREETEXT 14

Функции CONTAINSTABLE и FREETEXTTABLE 15

IV. Заключение 16

V. Приложения 17

О компании МедиаЛингва 17

Поисковая система Серверный Следопыт 17

Поисковая система MegaXS CD Searcher 18

Система автоматической классификации документов 19

Система автоматического аннотирования документов 20

Коллекция электронных словарей МультиЛекс 20

Другие программные продукты компании 22



I. Введение

1. Полнотекстовый поиск по-русски в базах данных


Мы благодарны Вам за интерес к поисковой системе Следопыт для MS SQL Server 2000.

Продукт «Следопыт для MS SQL Server 2000» работает как с Microsoft SQL Server 7.0, так и с Microsoft SQL Server 2000. В тексте данного руководства, там, где версия продукта не важна, под Microsoft SQL Server будут подразумеваться Microsoft SQL Server 7.0 или Microsoft SQL Server 2000, там, где версия продукта Microsoft SQL Server будет важна, ее номер будет указываться.

Следопыт для MS SQL Server 2000 является развитием линии поисковых программных продуктов, разработанных компанией МедиаЛингва. Следопыт поможет Вам организовать полнотекстовый поиск в Ваших базах данных. Следопыт расширяет возможности встроенной в Microsoft SQL полнотекстовой поисковой машины и дает возможность производить поиск по SQL-базам, содержащим текстовую информацию и документы на русском языке. Следопыт для MS SQL Server 2000 обеспечит Вам принципиально новые возможности по управлению и анализу Ваших текстовых данных.

Проблема поиска текстовой информации в реляционных базах данных

На сегодняшний день большие объемы информации, критически важной для повседневного ведения дел, располагаются в реляционных базах данных. Роль реляционных баз, как средства хранения и управления различными видами данных, трудно переоценить. Объемы баз данных, в первую очередь баз, построенных на основе языка SQL, непрерывно растут.

Несмотря на то, что реляционная технология предназначена для хранения, в первую очередь, структурированных данных, все чаще в базах данных оказывается слабо структурированная информация, такая как массивы текстовой информации или данные мультимедиа. При обработке таких данных возникает масса проблем, связанных, в первую очередь, со сложностью поиска по таким данным.

Производители систем управления базами данных выдвинули ряд технологических решений этой проблемы. Одним из таких решений являются системы полнотекстового поиска по текстовым полям базы данных. С помощью таких систем пользователь СУБД получает возможность сочетать в одном SQL-запросе обычные средства поиска по таблицам SQL-баз с интеллектуальными средствами поиска фрагментов текста в полях базы.



Полнотекстовый поиск в Microsoft SQL Server 7.0

Начиная с версии 7.0, компания Microsoft включила в комплект поставки Microsoft SQL Server специальную компоненту: систему полнотекстового поиска по базе данных. Эта система дает возможность пользователю находить нужные записи по разнообразным условиям, таким как поиск слов и словосочетаний, поиск слов в различных грамматических формах, а также средства поиска записей, похожих на заданный фрагмент текста. Причем для работы с этой системой пользователю не требуются дополнительные программные средства: все операторы полнотекстового поиска включены в язык Transact-SQL, используемый в этой СУБД.

Схематически работу полнотекстового поиска в Microsoft SQL можно изобразить с помощью следующей диаграммы:

Работу системы полнотекстового поиска можно разделить на два этапа.

Первый этап — индексирование текстовых данных. На этом этапе поисковая система производить выборку текстовых данных из указанных баз SQL-сервера. Далее данные передаются на обработку лингвистическим модулям, которые выделяют из текста отдельные слова и словосочетания. Далее все эти слова и фразы, вместе с информацией о записях, их содержащих, сохраняются в полнотекстовом индексе.

Вторым этапом работы такой полнотекстовой системы является собственно поиск. На этом этапе пользователь с помощью SQL-команды указывает, какие тексты ему хотелось бы найти. Этот запрос SQL-сервер передает в модуль полнотекстового поиска. Поисковый модуль производит обработку запроса с помощью лингвистических модулей. Далее, с помощью информации, сохраненной в полнотекстовом индексе, производится поиск и формируется список найденных записей. Этот список возвращается в SQL, который формирует уже окончательную таблицу результата поиска. Таблица эта предъявляется пользователю базы данных.

Разумеется, для того, чтобы поиск был произведен корректно, в поисковой системе должны иметься лингвистические модули для всех языков, с которыми работают пользователи базы. В стандартную поставку Microsoft SQL Server входит комплект лингвистических модулей для основных западноевропейских и дальневосточных языков. Следопыт для Microsoft SQL Server пополняет этот список русским языком.

Поддержка русского языка в Microsoft SQL Server

С помощью Следопыта пользователи Microsoft SQL Server получают возможность использовать все достоинства полнотекстового поиска для баз данных, хранящих информацию на русском языке. При работе с такой русифицированной поисковой системой пользователь может искать информацию с учетом всех грамматических особенностей русского языка. Поисковая система автоматически правильно учтет различные формы слов, исключит из обработки различные шумовые слова, такие как предлоги или частицы. При этом добавление этих возможностей потребуют лишь минимальных доработок программных продуктов благодаря полной интеграции Следопыта с Microsoft SQL Server и его средствами управления.

Как показывает опыт, тексты на русском языке часто хранятся вместе с текстами на английском. Не менее часто встречаются и документы, состоящие из смеси русских и английских текстовых фрагментов. Следопыт учитывает эту особенность компьютерных текстов. Для этого в систему Следопыт включен альтернативный английский лингвистический модуль, который подменяет модуль из стандартного комплекта Microsoft SQL Server. Для текстов на английском языке его поведение практически не отличается от поведения стандартного английского модуля. Однако, при обработке текстов, содержащих блоки на русском и английском языке, он производит автоматическое переключение между русскими и английскими лингвистическими модулями. Таким образом, с помощью этого модуля реализуется возможность обработки и баз данных, содержащих русский или английский текст, а также их смесь.
Полнотекстовый поиск в Microsoft SQL Server 2000

Дополнительно к возможностям полнотекстового поиска Microsoft SQL Server 7.0, в Microsoft SQL Server 2000 появилась возможность поиска по документам форматов Microsoft Word (расширение “.doc”), Microsoft Power Point (“.ppt”), Plain Text (“.txt”), HTML (“.htm”), Microsoft Excel (“.xls”), расположенным в таблицах баз данных в полях типа “image”. Также, в Microsoft SQL Server 2000 появилась возможность динамического отслеживания изменений в базе данных и обновления полнотекстового индекса (“Change Tracking”). Все эти возможности полнотекстового поиска Следопыт для MS SQL Server 2000 реализует для русского языка.


2. Системные требования


Для установки Следопыта для MS SQL Server 2000 требуется компьютер со следующими минимальными характеристиками:

  • Процессор Intel Pentium c частотой не менее 166 MHz;

  • не менее 32 MБ оперативной памяти (рекомендуется 64 MБ);

  • не менее 20 MБ дискового пространства;

  • привод CD-ROM;

  • видеоадаптер VGA (рекомендуется SVGA);

  • манипулятор «мышь».

  • Операционная система Microsoft Windows NT Server v4.0/2000 или Microsoft Windows NT Server v4.0/2000 Enterprise Edition + Service Pack 4;

  • Microsoft SQL Server v.7.0 Standard или Enterprise Edition c установленной системой полнотекстового поиска (Full-Text Search) или Microsoft SQL Server 2000 c установленной системой полнотекстового поиска.

3. Технические характеристики

Следопыт для MS SQL Server 2000 позволяет:



  • Производить индексирование текстовых полей типов char, varchar и text, записанных в кодировке Windows-1251, содержащих русский, английский текст или их смесь;

  • Производить индексирование документов типов MS Word (.doc), MS Excel (.xls)., MS PowerPoint (.ppt), HTML (.htm), Plain Text (.txt), находящихся в полях таблиц с типом данных image (только Microsoft SQL Server 2000)

  • Производить индексирование текстовых полей, хранящихся в формате Unicode (nchar, nvarchar и ntext), содержащих русский, английский текст или их смесь;

  • Выделять из текста записей базы и поисковых запросов шумовые слова и исключать их из дальнейшей обработки;

  • производить полнотекстовый поиск по базам Microsoft SQL Server с учетом грамматики русского и английского языка.

Следопыт для MS SQL Server 2000 полностью интегрирован со средствами управления Microsoft SQL Server 7.0 и Microsoft SQL Server 2000.


4. Регистрация и поддержка


До или после установки Следопыта полезно зарегистрировать Вашу покупку в компании МедиаЛингва. Регистрация даст Вам возможность:

  • Получать по телефону или по электронной почте ответы на любые вопросы, связанные с установкой и использованием программы.

  • Получать своевременную информацию о выпуске новых версий Следопыта и других программных продуктов, выпускаемых компанией МедиаЛингва.

  • Влиять на нашу техническую политику. Любая информация от Вас, будь то критика или пожелания, в конечном счете, позволит Вам быстрее получить те рабочие инструменты, в которых Вы нуждаетесь.

Зарегистрироваться очень легко:

В дистрибутив входит Анкета, содержащая необходимые вопросы для регистрации и приобретения продукта (файл anketa.html – на русском языке, файл anketa_e.html, - на английском языке).



  • По почте — заполните Анкету, распечатайте ее и отправьте по адресу: Россия, г. Москва, 115446, Коломенский проезд, дом 1А, компания «МедиаЛингва».

  • При помощи факса — Отправьте заполненную Анкету по факсу +7 (095) 115-97-75;

  • При помощи электронной почты — в конце Анкеты кликните на «отправить по e-mail».

При возникновении технических вопросов или неполадок в работе системы Следопыт для Microsoft SQL Server мы рекомендуем Вам обратиться в службу поддержки компании МедиаЛингва:

  • по телефону Службы Поддержки: +7 (095) 115-97-11.

  • по электронной почте:  support@medialingua.ru.

По этим же адресам и телефонам Вы можете обращаться с пожеланиями и предложениями, которые могли бы, на Ваш взгляд, улучшить или упростить данный программный продукт.


II. Установка поисковой системы

В этом разделе рассмотрена установка программного продукта Следопыт для MS SQL Server 2000. Здесь также рассматриваются настройки Microsoft SQL Server 2000 и Microsoft SQL Server 7.0, необходимые для успешного использования Следопыта. Если Вы планируете работать с несколькими SQL-серверами на одной машине (а Microsoft SQL Server 2000 предоставляет такую возможность), сначала установите все экземпляры Microsoft SQL Server, и, только потом устанавливайте Следопыт.


Предварительные действия и настройки (Microsoft SQL Server 2000)

Прежде чем устанавливать Следопыт для MS SQL Server 2000, необходимо убедиться в правильности настроек Microsoft SQL Server 2000. Некоторые настройки Microsoft SQL Server можно сделать только при его установке, при дальнейшей работе все эти настройки остаются неизменными. Рекомендуем Вам установить Microsoft SQL Server 2000 в соответствии с перечисленными ниже рекомендациями.





  1. На Вашем компьютере установлена система полнотекстового поиска для Microsoft SQL Server. В инсталляторе в списке устанавливаемых модулей ей соответствует компонента Full-Text Search. Эта компонента входит в комплект поставки Microsoft SQL Server 2000, и устанавливается при инсталляции “Typical”. Отметим, что система полнотекстового поиска может быть в любой момент добавлена в уже существующую установку Microsoft SQL Server 2000.




  1. Для того чтобы система полнотекстового поиска правильно обрабатывала русский текст, желательно проверить корректность языковых настроек Microsoft SQL Server 2000. Убедитесь, что Microsoft SQL Server 2000 был установлен со способом сравнения текстовых строк (Collation Designator) “Cyrillic_General” и порядком сортировки “Accent Sensitive”. Из программы “Enterprise Manager”, в свойствах установленного сервера, на вкладке “General” значение свойства “Server Collation” должно быть “Cyrillic_General_CL_AS”.

Если у Вас данное свойство имеет какое-либо другое значение, то система поиска не сможет во всех случаях корректно обработать русскоязычные данные. Возможным решением, в таком случае, является хранение текстовых данных в формате Unicode, т.е. в полях типа nchar, nvarchar или ntext. Тем не менее, если Вы планируете работать с русскоязычными текстами, желательно все же сделать вышеуказанные установки (их можно сделать, выбрав тип инсталляции “Custom” в программе установки Microsoft SQL Server 2000). Это позволит избежать лишних проблем с обработкой и отображением текстов на русском языке.
Предварительные действия и настройки (Microsoft SQL Server 7.0)

Прежде чем устанавливать Следопыт для MS SQL Server 2000 для работы с Microsoft SQL Server 7.0, необходимо убедиться в правильности настроек Microsoft SQL Server 7.0. Некоторые настройки Microsoft SQL Server можно сделать только при его установке, при дальнейшей работе все эти настройки остаются неизменными. Рекомендуем Вам установить Microsoft SQL Server 7.0 в соответствии с перечисленными ниже рекомендациями.




  1. Прежде всего, убедитесь, что Вы устанавливаете Следопыт на компьютер с уже установленным Microsoft SQL Server 7.0 Standard или Enterprise Edition.

Наш программный продукт не работает с Microsoft SQL Server 7.0 Desktop Edition. Это связано с тем, что в поставку Desktop Edition не входит система полнотекстового поиска. Установка Следопыта невозможна, также, и на компьютер под управлением Windows 95/98: компонента полнотекстового поиска не может быть установлена на этих операционных системах.


  1. Убедитесь, что на Вашем компьютере установлена система полнотекстового поиска для Microsoft SQL. В инсталляторе в списке устанавливаемых модулей ей соответствует компонента Full-Text Search. Эта компонента входит в комплект поставки Microsoft SQL Server 7.0, но по умолчанию не устанавливается. Для установки ее Вы должны запустить программу установки Microsoft SQL Server, и в списке серверных компонент выбрать компоненту Full-Text Search:

Отметим, что система полнотекстового поиска может быть в любой момент добавлена в уже существующую установку Microsoft SQL Server 7.0, как это было описано выше.




  1. Для того чтобы система полнотекстового поиска правильно обрабатывала русский текст, необходимо сделать корректные языковые настройки Microsoft SQL Server. Убедитесь что при установке Microsoft SQL Server 7.0 для записи ANSI-текстовых полей (т.е. полей типа char, varchar, text), Вами была выбрана страница 1251-Cyrillic. Настройки кодовой страницы ANSI могут быть сделаны с помощью инсталлятора Microsoft SQL, как показано на следующем рисунке:

Если у вас выбрана какая-либо другая страница, то система поиска не сможет корректно обработать русскоязычные данные, хранящиеся в полях ANSI-типов. Возможным решением, в таком случае, является хранение текстовых данных в формате Unicode, т.е. в полях типа nchar, nvarchar или ntext. Тем не менее, если Вы планируете работать с русскоязычными текстами, желательно все же установить страницу 1251-Cyrillic. Это позволит избежать лишних проблем с обработкой и отображением текстов на русском языке. К сожалению, изменить настройки кодовой страницы SQL Server возможно только путем полной переустановки сервера.


Если Вы уверены в том, что все выше изложенные действия по установке Microsoft SQL Server были Вами уже сделаны, Вы можете приступить к установке программы Следопыт для MS SQL Server 2000.
Установка Следопыта для MS SQL Server 2000

Прежде чем приступать к установке Следопыта для MS SQL Server 2000, ознакомьтесь с текстом Лицензионного Соглашения, входящим в комплект поставки данного программного продукта. Если Вы не согласны с условиями Лицензионного Соглашения, Вы должны отказаться от установки и использования Следопыта для MS SQL Server на своем компьютере.

Для успешной установки необходимы права и привилегии Администратора системы. Без привилегий Администратора системы процедура установки не может быть успешно выполнена.

Для начала установки Следопыт для MS SQL Server 2000 вставьте диск в CD-ROM или загрузите программу из Интернета, затем запустите файл sled2000. После запуска программы установки Вам необходимо будет ответить на несколько вопросов. Прервать установку Вы можете в любой момент. Ниже описаны все этапы установки программного продукта.


Выбор языка. Прежде всего, Вам предложат выбрать язык, на котором программа установки будет задавать последующие вопросы. Вы можете выбрать либо русский, либо английский язык.
Копирование файлов. После этого производится копирование необходимых файлов на жесткий диск Вашего компьютера.
Перезагрузка Windows NT. После копирования файлов Вам будет предложено перегрузить компьютер.
После установки не забудьте заполнить и отправить в компанию МедиаЛингва Анкету!

В процессе установки Следопыт изменяет установки Microsoft SQL Server. Для того чтобы установки вступили в силу, необходимо после завершения установки пересоздать и переиндексировать все существующие в SQL Server полнотекстовые каталоги.

Для этого необходимо запустить Enterprise Manager. Затем необходимо выбрать существующую базу данных и открыть список полнотекстовых каталогов (папка Full-text catalogs). После этого нужно удалить все каталоги, созданные в данной базе. Это можно сделать из меню с помощью команды Action|Remove All Catalogs. После этого полнотекстовые каталоги могут быть созданы вновь. Методы создания и управления полнотекстовыми каталогами разбираются в разделе Создание полнотекстового каталога и индексирование текстовых данных данного руководства.

Удаление Следопыта для MS SQL Server

Для удаления программного продукта Следопыт для MS SQL Server 2000 необходимо войти в систему с правами Администратора. Далее, откройте Панель Управления (Control Panel) и откройте стандартный апплет Установка и удаление программ (Add/Remove Programs). В списке установленных на Ваш компьютер программ выберите Следопыт для MS SQL Server 2000 или Sledopyt for MS SQL Server 2000 и нажмите кнопку Добавить/Удалить (Add/Remove). По этой команде запустится процедура автоматического удаления программного продукта.

После удаления необходимо будет перезагрузить операционную систему и заново пересоздать и переиндексировать все полнотекстовые каталоги.


скачать файл


следующая страница >>
Смотрите также:
1. Полнотекстовый поиск по-русски в базах данных
544.44kb.
Контрольные вопросы Дать понятие списков связанных данных (ссд). По каким признакам Excel определяет ссд?
247.59kb.
Затрачиваемые ресурсы на полнотекстовый поиск в нереляционных бд во многом зависит от количества обращений к внешней памяти, оптимизация которых обеспечивается схемой построения индекс-файла
28.86kb.
В. А. Богданова моу гимназия №3 г
45.86kb.
Базы данных Под базой данных следует понимать некоторую совокупность специально организованных данных, которые хранятся на каком-либо специально организованном носителе. База данных
70.19kb.
1. я уч в школе. В школе я уч русский язык я уже хорошо говор по русски. На уроке мы чита пиш по и говор по русски. Моя сестра тоже уч
89.26kb.
Методы манипулирования данными
20.56kb.
Существует большое количество практических задач, сводящихся к поиску кратчайших путей в сети (графе). К их числу можно отнести: поиск кратчайшего расстояния между городами
127.28kb.
Лекция №14 Распределенные базы данных
115.59kb.
1. Термины и определения (документы фстэк россии) Безопасность персональных данных
153.09kb.
Лабораторная работа №1 знакомство с microsoft access
118.32kb.
1. Введение в технологию баз данных. Обзор курса, литературы
96.19kb.