Новые технологии поиска могут определить важные документы, не полагаясь на ссылки

Новые технологии поиска могут определить важные документы, не полагаясь на ссылки
Новые технологии поиска могут определить важные документы, не полагаясь на ссылкиТехнологии

Обычно поисковые системы ищут подсказки о важности документов или информации по заданному набору ключевых слов. Так работает известный алгоритм Google PageRank.

Теперь исследователи разработали способ, при котором важность документа и информации в интернете и архивах определяется по тексту, хранящемуся в этих документах. Этот метод не принимает во внимание тэги, ссылки и цитаты, которые обычно отмечаются пользователями в текстах на просторах интернета. Такая система может стать лучшим вариантом для онлайн-поиска и позволит автоматически собирать информацию по определенной теме, уверены эксперты.

В программном обеспечении, разрабатываемом в Принстонском университете, во время поиска за основу берется анализ сборника научных работ или множество сообщений в определенных блогах. Программное обеспечение работает следующим образом: оно анализирует текст в документах, а затем определяет наиболее значимые слова и фразы по отдельным категориям. Выбираются те, что чаще всего появляются во многих различных источниках. Алгоритм срабатывает даже в случае, когда в коллекцию документов добавляются новые элементы.

Свои алгоритмы исследователи проверили на примере трех крупных архивов, содержащих тысячи журнальных статей. Они обнаружили, что документы, которые программное обеспечение определило как важные, были и наиболее цитируемыми.

Но их метод также выявил новую особенность. В некоторых случаях статьи, которые не были цитируемыми, были определены как важные. Ученые обнаружили, что они как раз и являлись теми, по которым велись дискуссии ранее. И, наоборот, иногда приложение пропускало статьи, считавшимися значимыми. В этих случаях, разъясняют ученые, статьи являются серьезным ресурсом, но не представляют такой важности из-за того, что не являются носителями новых идей.

Руководивший исследованиями профессор Дэвид Блей (David Blei) говорит, что этот новый метод фиксирует различные степени важности, видя сам текст, формулировку и идею.

Исследование является частью работы по созданию новых инструментов для изучения больших коллекций документов — будь то архивы научного журнала или масса блогов и новостных статей. Блей уточняет, что, научившись хранить такое огромное количество информации, необходимо научиться и находить во всем этом многообразии наиболее полезный контент. Он добавляет, что главная задача исследователей заключается в том, чтобы создать инструменты, которые смогут рекомендовать пользователю, как изучить этот объем информации. Метод, содержащий в своей основе использование контента документа, а не ссылки или цитаты, является перспективным, уверен Блей.

Изменения текстов журнальных статей ученые изучали на протяжении года. За блогами, которые обновляются гораздо быстрее, при помощи этого метода можно проследить в течение дней или даже часов. По словам Блей, новый способ поможет пользователям ориентироваться в огромной коллекции информации намного легче.

«Процесс измерения потока информации для определения ее важности имеет большой потенциал», — говорит Джур Лескович (Jure Leskovec), доцент кафедры информатики Стэнфордского университета. Приложение, по его словам, можно использовать для персонификации, при которой программное обеспечение сможет выявлять, какие статьи наиболее читаемые, и находить статьи или сайты с соответствующим материалом.

Лескович также работает над измерениями важности информации. Он отслеживает, как высказывания «путешествуют» по интернету. Вместе с коллегами он написал алгоритмы, которые могут предсказать, как и где могут появиться новые важные сообщения. Лескович утверждает, что такая «перспективность» будет полезна для поиска в режиме реального времени, предоставляя поисковым системам новый способ для более быстрой возможности классификации и фильтрации содержимого.

Источник: www.technologyreview.com

Оставить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Что будем искать? Например,Человек

Мы в социальных сетях