Обычно поисковые системы ищут подсказки о важности документов или информации по заданному набору ключевых слов. Так работает известный алгоритм Google PageRank.
Теперь исследователи разработали способ, при котором важность документа и информации в интернете и архивах определяется по тексту, хранящемуся в этих документах. Этот метод не принимает во внимание тэги, ссылки и цитаты, которые обычно отмечаются пользователями в текстах на просторах интернета. Такая система может стать лучшим вариантом для онлайн-поиска и позволит автоматически собирать информацию по определенной теме, уверены эксперты.
В программном обеспечении, разрабатываемом в Принстонском университете, во время поиска за основу берется анализ сборника научных работ или множество сообщений в определенных блогах. Программное обеспечение работает следующим образом: оно анализирует текст в документах, а затем определяет наиболее значимые слова и фразы по отдельным категориям. Выбираются те, что чаще всего появляются во многих различных источниках. Алгоритм срабатывает даже в случае, когда в коллекцию документов добавляются новые элементы.
Свои алгоритмы исследователи проверили на примере трех крупных архивов, содержащих тысячи журнальных статей. Они обнаружили, что документы, которые программное обеспечение определило как важные, были и наиболее цитируемыми.
Но их метод также выявил новую особенность. В некоторых случаях статьи, которые не были цитируемыми, были определены как важные. Ученые обнаружили, что они как раз и являлись теми, по которым велись дискуссии ранее. И, наоборот, иногда приложение пропускало статьи, считавшимися значимыми. В этих случаях, разъясняют ученые, статьи являются серьезным ресурсом, но не представляют такой важности из-за того, что не являются носителями новых идей.
Руководивший исследованиями профессор Дэвид Блей (David Blei) говорит, что этот новый метод фиксирует различные степени важности, видя сам текст, формулировку и идею.
Исследование является частью работы по созданию новых инструментов для изучения больших коллекций документов - будь то архивы научного журнала или масса блогов и новостных статей. Блей уточняет, что, научившись хранить такое огромное количество информации, необходимо научиться и находить во всем этом многообразии наиболее полезный контент. Он добавляет, что главная задача исследователей заключается в том, чтобы создать инструменты, которые смогут рекомендовать пользователю, как изучить этот объем информации. Метод, содержащий в своей основе использование контента документа, а не ссылки или цитаты, является перспективным, уверен Блей.
Изменения текстов журнальных статей ученые изучали на протяжении года. За блогами, которые обновляются гораздо быстрее, при помощи этого метода можно проследить в течение дней или даже часов. По словам Блей, новый способ поможет пользователям ориентироваться в огромной коллекции информации намного легче.
"Процесс измерения потока информации для определения ее важности имеет большой потенциал", - говорит Джур Лескович (Jure Leskovec), доцент кафедры информатики Стэнфордского университета. Приложение, по его словам, можно использовать для персонификации, при которой программное обеспечение сможет выявлять, какие статьи наиболее читаемые, и находить статьи или сайты с соответствующим материалом.
Лескович также работает над измерениями важности информации. Он отслеживает, как высказывания "путешествуют" по интернету. Вместе с коллегами он написал алгоритмы, которые могут предсказать, как и где могут появиться новые важные сообщения. Лескович утверждает, что такая "перспективность" будет полезна для поиска в режиме реального времени, предоставляя поисковым системам новый способ для более быстрой возможности классификации и фильтрации содержимого.