Иногда нам кажется, что ничего стоящего в Интернете прочесть нельзя, тем не менее в Сети существует немало материала, из которого можно выбрать много интересного и полезного. А миллионы людей во всем мире, тем временем, напротив, говорят на языках, которые до сих пор едва представлены в Интернете, несмотря на широкий доступ ко всемирной паутине и совершенствованию технологий перевода.
Веб-гиганты Microsoft и Google пытаются изменить эту ситуацию с помощью новых технологий, направленных на перевод с языков, которые остались вне Интернета или "умерли" во многом благодаря ему. Хотя обе компании работают над технологиями перевода уже на протяжении многих лет, они до сих пор сосредоточены на таких основных международных языках как английский, испанский и китайский.
Существующие бесплатные инструменты переводов компаний Microsoft и Google - это всего лишь триумф огромного количества данных. Вместо "очеловечивания" переводчика, обучению его правилам разных языков, алгоритмы инструментов перевода учатся переводить с одного языка на другой статистически сравнивая тысячи или даже миллионы электронных документов, которые были переведены людьми.
Обе компании понемногу отходят от этой формулы, чтобы удовлетворять запросам менее популярных языков. Так, Google удалось запустить экспериментальную "альфа" поддержку для пяти индийских языков (бенгальский, гуджарати, каннада, тамильский и телугу) путем предоставления программному обеспечению уроков грамматики, в то время как Microsoft запустила сервис, который позволяет интернет-сообществу самому создавать систему перевода для своего языка, предоставляя собственный исходный материал.
Google впервые осознала необходимость обучения системы грамматике при попытке отшлифовать перевод с японского языка, говорит Ашиш Венугопал (Ashish Venugopal), научный сотрудник Google, работающий с программным обеспечением для переводов. "Мы производили предложения с глаголом в середине, но в японском языке он должен быть в конце",- говорит Венугопал. Проблема в значительной степени в системе, потому как в ней "хромает" грамматика. Исправив это, команда Google смогла запустить пять индийских языков, которыми пользуются миллионы людей на субконтиненте, но которые в значительной степени отсутствуют в Интернете.
Систему Google удалось обучить грамматике: так в предложениях грамматические части были специальным образом помечены. Получалось, что система получала больше инструкций, чем алгоритмы Google. По словам Венугопала, пока системе сложно справиться с мало распространенными языками - существующая технология перевода Google легче обрабатывает установившиеся языки, такие как французский и немецкий. Но, говорит он, в целом важна поддержка языков, которые являются относительно редкими в Интернете. "Это важная часть нашей миссии - чтобы эти языки стали доступными в Интернете",- отмечает он. "Мы не хотим, чтобы людям, публикуя свой блог, пришлось выбирать между родным языком и английским", - подчеркивает Венугопал, замечая, что целью является помощь людям из разных частей света читать блоги на родном языке пишущего.
Microsoft также заинтересована в том, чтобы мало распространенные в онлайне языки не были оттеснены на обочину Сети, говорит Кристин Толле (Kristin Tolle), директор по исследованиям в Microsoft Research. Ее команда недавно запустила сайт Translation Hub, который помогает любому пользователю создавать свои собственные программы перевода . Он предназначен для сообществ, желающих обеспечить использование их языка в Интернете.
Использование Translation Hub заключается в создании учетной записи и загрузке материалов на двух языках, перевод между которыми должен быть осуществлен. Алгоритм Microsoft использует этот материал и переводит любой написанный текст на новый язык. Свой пилотный проект Microsoft внедряла на основе языка сообщества хмонгов Калифорнии (Хмонги - этническая группа родом из горных областей современных КНР, Вьетнама, Лаоса, и Таиланда. - Infoniac).
"Позволив каждому создавать свои собственные модели перевода, мы поможем сообществам сохранять свои языки", - говорит Кристин Толле. Системы машинного перевода были разработаны примерно для 100 из 7000 языков мира, отмечает она.
По словам главы некоммерческой организации Living Tongues Грега Андерсона (Greg Anderson), в современном мире для любого сообщества присутствие в Интернете очень важно. Если вас нет в Интернете, то вы в определенной мере не существуете, поясняет он. Андерсон говорит, что возвращаются, как правило, те языки, представители которых обретают онлайн-жизнь.
Преподаватель Мичиганского университета Маргарет Нури (Margaret Noori), ратующая за сохранение оджибве (Оджибве - индейский народ алгонкинской языковой семьи. - Infoniac), добавляет, что сохранение языка включает в себя больше, чем Интернет. По ее мнению, быть представленным онлайн в современном мире важно, но не менее важны обряды, песни и традиции народов.
Translation Hub от Microsoft также направлена на создание условий для перевода специальных технических терминов, с которыми инструменты онлайн-переводов не очень хорошо справляются. Некоммерческие организации могли бы, например, использовать его для перевода материалов по сельскохозяйственной технике, говорит Толле. Эта технология может также оказаться полезной для компаний, которые хотели бы ускорить перевод инструкций по эксплуатации или других материалов. По ее словам, компании Volvo и Mercedes уже выразили заинтересованность в тестировании Translation Hub.