Как использовать инструмент просмотра Ngram в Google Книгах

Ngram, также называемый N-граммой, представляет собой статистический анализ текста или речевого содержимого, чтобы найти n (число) какого-либо элемента в тексте.

Элемент поиска может быть любым, включая фонемы, префиксы, фразы и буквы. Хотя Ngram неясен за пределами исследовательского сообщества, он используется во многих областях и имеет большое значение для разработчиков, которые кодируют компьютерные программы, которые понимают естественный разговорный язык и реагируют на него.

В случае средства просмотра Google Книг Ngram анализируемый текст взят из огромного количества книг в открытом доступе, которые Google отсканировал, чтобы заполнить свою поисковую систему Google Книги. Для программы просмотра Google Книг Ngram Google относится к тексту, который вы собираетесь искать, как к корпусу. Ngram Viewer агрегирует по языкам, хотя вы можете отдельно анализировать британский и американский английский или объединять их вместе.

Как работает Ngram Viewer


  1. Перейдите в средство просмотра Google Книг на Ngram по адресу books.google.com/ngrams.


  2. Введите любую фразу или фразы, которые вы хотите проанализировать. Разделяйте каждую фразу запятой. Google предлагает «Альберт Эйнштейн, Шерлок Холмс, Франкенштейн», чтобы вы начали.

    В поисках NGram Viewer элементы чувствительны к регистру, в отличие от поисковых запросов Google.


  3. Выберите диапазон дат. По умолчанию от 1800 до 2000.


  4. Выберите корпус. Вы можете искать тексты на иностранных языках или тексты на английском языке, и в дополнение к стандартным вариантам вы можете заметить такие записи, как «Английский (2009)» или «Американский английский (2009)» внизу списка. Это старые версии, которые Google обновил с тех пор, но у вас может быть причина для сравнения со старыми наборами данных. Большинство пользователей могут игнорировать их и сосредоточиться на самых последних корпусах.


  5. Установите уровень сглаживания. Сглаживание относится к тому, насколько гладким является график в конце. Наиболее точное представление отражает уровень сглаживания 0, но этот параметр может быть трудным для чтения. По умолчанию установлено значение 3. В большинстве случаев вам не нужно настраивать его.


  6. Нажмите Искать много книг.


Используя Google Ngram Viewer, вы можете углубиться в данные. Если вы хотите искать глагол fish вместо существительного fish, вы можете сделать это с помощью тегов. В этом случае вы будете искать fish_VERB.

Google предоставляет полный список команд и другой расширенной документации для использования с Ngram Viewer на своем веб-сайте. 

Что показывает Ngram?

Google Ngram Viewer выводит график, который показывает использование определенной фразы в книгах во времени. Если вы ввели более одного слова или фразы, каждое из них представлено цветной линией, чтобы контрастировать с другими условиями поиска. Это похоже на Google Trends, только поиск охватывает более длительный период.

Тематическое исследование

Рассмотрим пример с уксусными пирогами. Они упоминаются в Домике Лоры Ингаллс Уайлдер в сериале «Прерия». Изучение с помощью веб-поиска Google, чтобы узнать больше о пирогах с уксусом, показывает, что они считаются частью американской южной кухни и действительно сделаны с уксусом. Они обращают внимание на времена, когда не у всех был доступ к свежим продуктам в любое время года, но так ли это на самом деле?

Поищите в Google Ngram Viewer уксусный пирог, и вы увидите некоторые упоминания о пироге как в начале, так и в конце 1800-х годов, много упоминаний в 1940-х годах и растущее число упоминаний в последнее время. Однако с уровнем сглаживания 3 вы видите плато над упоминаниями в 1800-х годах. Поскольку за это время было опубликовано не так много книг, и поскольку данные настроены на сглаживание, изображение искажается. Вероятно, только одна книга упоминала пирог с уксусом, и он был усреднен, чтобы избежать всплеска. Установив сглаживание на 0, вы можете видеть, что это именно тот случай. Пик центрируется в 1869 году, и есть еще один пик в 1897 и 1900 годах.

Маловероятно, что в остальное время никто не говорил о пирогах с уксусом: вероятно, были повсюду рецепты, но люди не писали о них в книгах, и это важное ограничение поисков Ngram.

Ссылка на основную публикацию