Как Google BERT Vs. Алгоритмы Смита работают вместе - Обзор Semalt




Google недавно выпустил исследовательский документ о своем новом алгоритме НЛП SMITH. В этом документе многие специалисты по SEO рассказали об изменениях, которые могут привести к повышению или понижению рейтинга в результатах поиска. Тем не менее, нас беспокоит то, как этот новый алгоритм СМИТ сравнивается с BERT?

В статье, опубликованной Google, они утверждали, что SMITH превосходит BERT в понимании длинных поисковых запросов и длинных документов. Что делает SMITH настолько интересным, так это то, что он может понимать отрывки в документе, аналогично тому, как BERT делает со словами и предложениями. Эта улучшенная функция SMITH позволяет с легкостью понимать более длинные документы.

Но прежде чем мы пойдем дальше, мы должны сообщить вам, что на данный момент СМИТ не живет в алгоритмах Google. Но если наши предположения верны, он будет запущен одновременно с индексацией отрывков или будет предшествовать ей. Если вы действительно заинтересованы в том, чтобы научиться ранжироваться в SEP, машинное обучение неизбежно будет рядом с этим интересом.

Итак, вернемся к теме: заменят ли BERT? Разве большая часть обширных, надежных и, следовательно, более длительных документов в Интернете не будет работать лучше с SMITH?

Давайте перейдем к дальнейшему и посмотрим, что мы сделали. SMITH может читать как толстые, так и тонкие документы. Думайте об этом как о базуке. Это может нанести большой ущерб, так как может открывать двери.

Для начала, почему БЕРТ или СМИТ?

Настоящий вопрос здесь в том, почему поисковой системе потребуется Natural Learning Processing для предоставления результатов поиска. Ответ прост. Поисковые системы требуют НЛП при переходе от поисковой системы, понимающей строки или ключевые слова, к вещам или веб-страницам.

В тех случаях, когда Google не имеет представления, что еще может быть на странице, кроме ключевых слов, или имеет ли индексируемый контент смысл по отношению к поисковому запросу. Благодаря NLP Google может понимать контекст символов, вводимых в его поисковый запрос.
Благодаря NLP Google может различать намерения пользователя, когда он говорит «берег реки» и «банковский счет». Он также может воспринимать такие утверждения, как «Кэролайн встретилась со своими друзьями, чтобы выпить, выпить, пинту, эль, пиво…» как неестественные.

Как эксперты в области SEO, мы должны сказать, что понимание поисковых запросов прошло долгий путь. Бест считает, что в прошлом было чрезвычайно сложно найти нужные статьи в Интернете.

Понимание BERT

BERT в настоящее время функционирует как лучшая модель НЛП, которая у нас есть для многих, если не для большинства приложений, особенно когда дело доходит до понимания сложных языковых структур. Многие считают первый двунаправленный символ самым большим шагом вперед в этом алгоритме. Вместо того, чтобы иметь алгоритм, который читает слева направо, BERT также может понимать слова в зависимости от их контекста. Таким образом, он не будет выдавать результаты для отдельных слов, введенных в запрос, а будет индексировать веб-страницы на основе совокупного значения слов в поисковом запросе.

Вот пример, чтобы облегчить ваше понимание:

АВТОМОБИЛЬ ИМЕЕТ СВЕТ.

Если бы вы интерпретировали это утверждение слева направо, по достижении слова «свет», вы бы классифицировали грузовик как нечто со светом. Это потому, что в заявлении грузовик появился раньше света.

Но если мы хотим классифицировать вещи на грузовиках, мы можем опустить слово «свет», потому что мы не встречаем его перед словом «грузовик».

Трудно рассматривать заявление только в одном направлении.

Вдобавок, у BERT есть еще одно секретное преимущество, заключающееся в том, что он такой замечательный, и он позволяет эффективно обрабатывать язык с более низкой стоимостью ресурсов по сравнению с предыдущими моделями. Это действительно важный фактор, который следует учитывать, когда кто-то хочет применить его ко всей сети.

Применение токенов - это еще одна эволюция, сопровождавшая BERT. В BERT 30 000 токенов, и каждый из них представляет собой общее слово с парой дополнительных токенов для символов и фрагментов на случай, если слово существует за пределами 30 000.

Благодаря своей способности обрабатывать токены и преобразователи, BERT понимал контент, что также дало ему способность адекватно понимать предложения.

Итак, если мы говорим: «Девушка пошла на берег. Позже она села на берегу реки и смотрела, как течет река».

BERT присвоит этим предложениям разные значения, потому что они относятся к двум разным вещам.

Понимание СМИТ

Затем идет SMITH - алгоритм с лучшими ресурсами и числами, который можно использовать для обработки больших документов. BERT использует около 256 токенов на документ, и когда он превышает этот порог, затраты на вычисления становятся слишком высокими для оптимальной работы. Напротив, SMITH может обрабатывать до 2248 токенов на документ. Это примерно в 8 раз больше токенов, используемых BERT.

Чтобы понять, почему затраты на вычисления растут в одной модели НЛП, мы должны сначала подумать, что нужно для понимания предложения и абзаца. Имея дело с предложением, нужно понимать только одну общую концепцию. Меньше слов, связанных друг с другом, следовательно, меньше связей между словами и идеями, которые они хранят в памяти.

Делая предложения в абзацы, связь между этими словами значительно увеличивается. Обработка текста в 8 раз потребует во много раз больше скорости и возможностей оптимизации памяти с использованием той же модели. Именно здесь компания SMITH имеет решающее значение, поскольку в основном выполняет пакетную обработку и большую часть автономной обработки. Интересно, что СМИТ по-прежнему зависит от правильного функционирования BERT.

Вот описание того, как СМИТ воспринимают документ по своей сути:
  1. Сначала он разбивает документ на группы по размерам, которыми легче управлять.
  2. Затем он обрабатывает каждый блок предложений индивидуально.
  3. Затем преобразователь изучает контекстное представление каждого блока, после чего он превращает их в представление документа.

Как работает СМИТ?

Чтобы обучить модель СМИТ, мы учимся у BERT двумя способами:

Для обучения BERT из предложения вынимается слово и предлагаются альтернативные варианты.

Лучше обученный BERT будет более успешным в выборе правильного варианта из представленных альтернатив. Например, если BERT дано предложение:

Счастливый коричневый ------ перепрыгнул через заборчик.
  • Вариант первый - помидоры.
  • Вариант второй - собачий.
Чем лучше обучен BERT, тем больше у него шансов выбрать правильный вариант, то есть второй вариант.

Этот метод обучения применяется и в СМИТ.

СМИТ умеют работать с большими документами

Чем лучше обучен СМИТ, тем больше у него шансов распознать пропущенные предложения. Та же идея с BERT, но в другом приложении. Эта часть особенно интересна, потому что она рисует мир сгенерированным Google содержимым, объединенным во встроенные страницы результатов поисковой системы. Конечно, пользователи могут уйти, но они не будут этого делать, потому что Google может собрать воедино краткий и развернутый контент из всех лучших источников на своей странице результатов.

Если вы сомневаетесь в этом, знайте, что это уже началось, и даже если они еще не освоили это, это только начало.

СМИТ лучше, чем БЕРТ?

Из всего, что вы прочитали, совершенно естественно предположить, что СМИТ лучше, и во многих задачах он действительно лучше. Но подумайте на мгновение, как вы пользуетесь Интернетом; какие вопросы вы регулярно вводите в поисковые запросы?
  • "Какой прогноз погоды на сегодня?"
  • «Маршрут в ресторан».
Для ответа на такие поисковые запросы обычно требуется краткое содержание, часто с ограниченными и несложными данными. СМИТ больше вовлечен в понимание длинных и более сложных документов и длинных и сложных поисковых запросов.

Это будет включать в себя сборку нескольких документов и тем для создания их ответов. Он определяет, как контент может быть разбит, позволяя Google знать, что нужно отображать. Это поможет Google понять, как страницы контента связаны друг с другом, и предоставит шкалу, по которой ссылки могут быть оценены среди других преимуществ.

Сказав это, мы в заключение говорим, что и БЕРТ, и СМИТ важны, и они оба служат своей уникальной цели.

Вывод

Хотя СМИТ - это базука, он нужен нам, чтобы нарисовать четкую картину того, как обстоят дела в совокупности. В ресурсах он стоит больше, потому что выполняет большую работу, но при выполнении той же работы стоит гораздо меньше, чем BERT.

BERT помогает СМИТ понимать короткие запросы и крошечные фрагменты контента. Однако это происходит до тех пор, пока Google не разработает другой алгоритм НЛП, который заменит оба, а затем мы двинемся и догоним еще один прогресс в SEO.

Заинтересованы в SEO? Ознакомьтесь с другими нашими статьями о Semalt блог.

mass gmail