Разработка приложения для извлечения онтологической информации из текстового контента веб-ресурсов

( 1 Vote ) 
Категория: ИКТМ 2015 Просмотров: 517

УДК 004.853

РАЗРАБОТКА ПРИЛОЖЕНИЯ ДЛЯ ИЗВЛЕЧЕНИЯ
ОНТОЛОГИЧЕСКОЙ ИНФОРМАЦИИ ИЗ ТЕКСТОВОГО КОНТЕНТА ВЕБ-РЕСУРСОВ
А.В. Прохоров, к.т.н., доц.; С.М. Шелехов, студент гр. 346
Национальный аэрокосмический университет им. Н.Е. Жуковского в ХАИ»

Сегодня значительно увеличилось число прикладных задач, связанных с Интернет (поисковые системы, порталы, блоги, Википедии, Интернет-магазины и др.), что в свою очередь приводит к появлению различных идей автоматизации процессов обмена, обработки и извлечения информации из неструктурированного текста. На сегодняшний день практически вся информация, доступная в Интернет, несмотря на развитие идей SemanticWeb, не содержит семантики и поэтому ее поиск, релевантный запросам пользователя, а также интеграция в рамках конкретной предметной области затруднены. Одним из перспективных направлений в задачах автоматической обработки смыслового содержимого веб-ресурсов, извлечения и интеграции знаний из распределенных источников информации в сети Интернет является использование онтологий. Однако при использовании семантических технологий возникают вопросы, связанные с необходимостью автоматизации онтологического инжиниринга— построения, наполнения и поддержания в актуальном состоянии онтологической базы знаний. В работе рассматриваются вопросы использования онтологий в системах извлечения знаний из текстового контента веб-ресурсов. Особая роль отводится автоматизации процесса построения онтологии, когда термины предметной области и связи между ними выделяются при помощи методов компьютерного анализа текста. Этот процесс состоит из целого ряда шагов, связанных с анализом коллекции текстовых документов — лексическим, морфологическим, синтаксическим и семантическим. Дальнейшие шаги направлены на отображение контента ресурса в концептуализацию его содержания, представленную в виде OWL онтологии. Общая методика автоматизированного построения онтологии будет включать следующие шаги определение классов в
онтологии организация классов в иерархию (базовое отношение «is-a»); анализ словосочетаний для построения отношений определение слотов и их допустимых значений заполнение значений слотов для экземпляров классов фактами из текста ресурса. По всем наборам пар «текст — OWL конструкция» определены правила, позволяющие автоматизировать процесс отображения текста в соответствующую OWL-конструкцию.