Все про уход за автомобилем

Частота употребления слов. Как пользоваться новым частотным словарем русской лексики

Хочу предупредить, что информация излагаемая в этой статье несколько устарела. Я не стал ее переписывать, чтобы потом можно было сравнить, как меняют стандарты SEO со временем. Актуальную же информацию на данную тему вы можете почерпнуть в новых материалах:

Здравствуйте, уважаемые читатели блога сайт. Сегодняшняя статья опять будет посвящена такой теме, как поисковая оптимизация сайтов (). Ранее мы уже затронули много вопросов, связанных с таким понятием, как .

Сегодня я хочу продолжить разговор о внутреннем SEO, уточнив при этом некоторые моменты затронутые ранее, а так же поговорить о том, что мы еще не обсуждали. Если вы способны писать хорошие уникальные тексты, но при этом не уделяете должного внимания восприятию их поисковиками, то они не смогут пробить себе дорогу в топ поисковой выдачи по запросам, связанным с тематикой ваших замечательных статей.

Что влияет на релевантность текста поисковому запросу

И это очень печально, ибо вы таким образом не реализуете весь потенциал вашего проекта, который может оказаться очень внушительным. Надо понимать, что поисковики по большей части — это тупые и прямолинейные программы, не способные выйти за рамки своих возможностей и взглянуть на ваш проект человеческими глазами.

Они не увидят многого из всего того, что есть хорошего и нужного на вашем проекте (что вы приготовили для посетители). Они умеют только анализировать текст, учитывая при этом очень много составляющих, но они по прежнему очень далеки от человеческого восприятия.

Следовательно, нам нужно будет хотя бы на время залезть в шкуру поисковых роботов и понять, на чем они концентрируют свое внимание при ранжировании различных текстов по различным поисковым запросам (). А для этого нужно иметь представление об , для этого нужно будет ознакомиться с приведенной статьей.

Обычно стараются употребить ключевые слова в заголовке странице, в некоторых внутренних заголовках, а так же равномерно и как можно естественнее распределить их по статье. Да, безусловно, выделение ключей в тексте тоже можно использовать, но при этом не стоит забывать про переоптимизацию, за которую может последовать .

Важна так же и плотность вхождения ключей в текст, но сейчас это скорее является не желательным фактором, а, наоборот, предостерегающим — нельзя перестараться.

Определяется величина плотности вхождения ключевика в документ довольно просто. Фактически это частота использования его в тексте, которая определяется делением количества его вхождение в документе на длину документа в словах. Раньше от этого напрямую зависело положение сайта в выдаче.

Но вам, наверное, понятно, что составить весь материал только из ключей будет не возможно, ибо он будет не читаемым, да слава богу этого и не нужно делать. Почему, спросите вы? Да потому, что есть предел частоты использования ключевого слова в тексте, после которого релевантность документа по запросу, содержащему этот ключевик, уже не будет повышаться.

Т.е. нам достаточно будет добиться определенной частоты и мы, таким образом, максимально оптимизируем его. Либо перестараемся и попадем под фильтр.

Остается решить два вопроса (а может быть и три): какова же эта самая максимальная плотность вхождения ключевика, после которой уже опасно ее увеличивать, а так же выяснить.

Дело в том, что ключевые слова, выделенные тегами акцентирования и заключенные в тег TITLE, имеют больший вес для поиска, чем аналогичные ключи, просто встречающиеся в тексте. Но последнее время этим стали пользоваться вебмастера и полностью заспамили этот фактор, в связи с чем его значение снизилось и даже может привести к бану всего сайта из-за злоупотреблений стронгами.

Но ключи в TITLE по прежнему актуальные, их лучше там не повторять и не слишком много пытать запихивать в один заголовок страницы. Если ключевики будут в TITLE, то мы можем существенно уменьшить их количество в статье (а значит сделать его легко читаемым и более приспособленным для людей, а не для поисковых систем), добившись той же самой релевантности, но не рискуя попасть под фильтр.

Думаю, что с этим вопросом все понятно — чем больше ключей будет заключено в теги акцентирования и TITLE, тем больше шансов потерять все и разом. Но если их не использовать совсем, то вы тоже ничего не добьетесь. Самым главным критерием является естественность внедрения ключевиков в текст. Если они есть, но читатель о них не спотыкается, то вообще все замечательно.

Теперь осталось разобраться с тем, а какая же частота употребления ключевого слова в документе является оптимальной, которая позволяет сделать страницу максимально релевантной, не не повлечет за собой санкций. Давайте сначала вспомним формулу, которую используют большинство (наверное, даже все) поисковиков для ранжирования.

Как определить допустимую частоту употребления ключа

Мы уже говорили ранее про математическую модель в упомянутой чуть выше статье. Суть ее для данного конкретного поискового запроса выражается одной упрощенной формулой: TF*IDF. Где TF — это прямая частота вхождения данного запроса в текст документа (частота, с которой слова в нем встречаются).

IDF — обратная частота встречаемости (редкость) данного запроса во всех остальных документах интернета, проиндексированных данной поисковой системой (в коллекции).

Эта формула позволяет определить соответствие (релевантность) документа поисковому запросу. Чем выше значение произведения TF*IDF, тем более релевантным будет данный документ и тем выше он будет стоять при прочих равных условиях.

Т.е. получается, что вес документа для данного запроса (его соответствие) будет тем больше, чем чаще употребляются ключи из этого запроса в тексте, и чем реже эти ключи встречаются в других документах интернета.

Понятно, что на IDF мы влиять не можем, разве что выбрав другой запрос, под который будем оптимизировать. А вот на TF мы влиять можем и будем, ибо хотим отхватить свою долю (и не малую) трафика с выдач Яндекс и Гугла по нужным нам вопросам пользователей.

Но дело в том, что алгоритмы поиска высчитывают значение TF по довольно хитрой формуле, которая учитывает рост частоты употребления ключевика в тексте только до определенного предела, после которого рост TF практически прекращается, несмотря на то, что вы будете увеличивать частоту. Это своеобразный антиспам фильтр.

Относительно давно (примерно до 2005 года) значение TF высчитывалось по довольно простой формуле и фактически было равно плотности вхождения ключевого слова. Результаты расчета релевантности по этой формуле не совсем нравились поисковикам, ибо потворствовало спаммерам.

Потом формула TF усложнилась, появилось такое понятие как тошнота страницы и оно стало зависеть не только от частоты вхождения, но так же и от частоты употребления других слов в этом же тексте. И оптимального значения TF можно было бы достигнуть, если ключ оказывался самым часто употребляемым словом.

Так же можно было увеличивать значение TF за счет увеличения размера текста с сохранением процента вхождения. Чем больше будет полотенце со статьей при том же проценте ключей, тем выше будет стоять данный документ.

Сейчас формула TF еще более усложнилась, но в тоже время сейчас у нас нет необходимости доводить плотность до того значения, когда текст станет не читаем и поисковые системы наложат бан на наш проект за спам. Да и писать несоразмерно длинные простыни сейчас тоже нет необходимости.

При сохранении той же самой идеальной плотности (мы ее определим чуть ниже из соответствующего графика), увеличение размера статьи в словах будет улучшать ее положение в выдаче только до достижения определенной длины. После того, как у вас получилась идеальная длина, дальнейшее ее увеличение не будет влиять на релевантность (точнее говоря, будет, но очень и очень мало).

Все это можно будет увидеть наглядно, если построить график на основе этой хитрой TF (прямой частоты вхождения). Если на одной шкале этого графика будет TF, а на другой шкале — процентное соотношение частоты встречаемости ключевого слова в тексте, то мы получим в результате так называемую гиперболу:

График, конечно же, приблизительный, ибо реальную формулу TF, которую используют Яндекс или Гугл, мало кто знает. Но качественно из него можно определить оптимальный диапазон , в котором должна находиться частота. Это примерно 2-3 процента от общего числа слов.

Если учесть, что вы еще будете заключать часть из ключей в теги акцентирования и заголовок TITLE, то это и будет тот предел, после которого дальнейшее увеличение плотности может быть чревато баном. Насыщать и уродовать текст большим количеством ключевиков уже не рентабельно, ибо минусов здесь будет больше, чем плюсов.

Какая длина текста будет достаточной для продвижения

Основываясь на той же самой, предполагаемой TF, можно построить график зависимости ее значения от длины в словах. При этом можно взять частоту ключевиков постоянной для любой длины и равной, например, какому-либо значению из оптимального диапазона (от 2 до 3 процентов).

Что примечательно, мы получим график точно такой же формы, как и рассмотренный выше, только по оси абсцисс будет отлажена длина текста в тысячах слов. И из него можно будет сделать вывод об оптимальном диапазоне длины , при котором уже достигается практически максимальное значение TF.

В результате получается, что она будет лежать в диапазоне от 1000 до 2000 слов. При дальнейшем увеличении релевантность практически не будет расти, а при меньшей длине она будет довольно резко падать.

Т.о. можно сделать вывод, что для того, чтобы ваши статьи могли занимать высокие места в поисковой выдаче, нужно употреблять в тексте ключевики с частотой не ниже 2-3 %. Это первый и основной вывод, который мы сделали. Ну, и второй — это то, что сейчас вовсе не обязательно писать очень объемные статьи для того, чтобы попасть в Топ.

Достаточно будет превзойти рубеж в 1000 — 2000 слов и включить в него 2-3 % ключевиков. Вот и все — это и есть рецепт идеального текста , который будет способен конкурировать за место в топе по НЧ запросу, даже без использования внешней оптимизации (покупки ссылок на эту статью с анкорами, включающими ключи). Хотя, пошариться чуток в Миралинксе , ГГЛ , Ротапосте или ГетГудЛинке можно, ибо это поможет вашему проекту.

Еще раз вам напомню, что длину написанного вами текста, а так же частоту употребления в нем тех или иных ключевых слов, вы можете узнать с помощью специализированных программ или же с помощью онлайн сервисов, специализирующихся на их анализе. Одним из таких сервисов является ISTIO , о работе с которым я рассказывал .

Все, о чем я говорил выше, не достоверно на сто процентов, но очень похоже на правду. Во всяком случае, мой личный опыт подтверждает эту теорию. Но алгоритмы работы Яндекс и Гугла постоянно претерпевают изменения и как оно будет завтра мало кто знает, кроме тех, кто близок к их разработке или разработчикам.

Удачи вам! До скорых встреч на страницах блога сайт

Вам может быть интересно

Внутренняя оптимизация - подбор ключевых слов, проверка тошноты, оптимальный Title, дублирование контента и перелинковка под НЧ
Ключевые слова в тексте и заголовках
Как ключевые слова влияют на продвижение сайта в поисковых системах
Онлайн сервисы для вебмастеров - все, что нужно для написания статей, их поисковой оптимизации и анализа ее успешности
Способы оптимизации контента и учет тематики сайта при ссылочном продвижении для сведения затрат к минимуму
Яндекс Вордстат и семантическое ядро - подбор ключевых слов для сайта с помощью статистики онлайн-сервиса Wordstat.Yandex.ru
Анкор - что это такое и насколько они важны в продвижении сайта
Какие факторы поисковой оптимизации влияют на продвижение сайта и в какой степени
Продвижение, раскрутка и оптимизация сайта самостоятельно
Учет морфология языка и другие проблемы решаемые поисковыми системами, а так же отличие ВЧ, СЧ и НЧ запросов
Траст сайта - что это такое, как его измерить в XTools, что на него влияет и как увеличить авторитетности своего сайта

Частота применения букв в русском языке

А вы знаете, что некоторые буквы алфавита встречаются в словах чаще остальных...Причем частота употребляемости гласных букв в языке выше, чем согласных.

Какие буквы русского алфавита чаще или реже всего встречаются в словах, используемых для написания текста?

Выявлением и исследованием общих закономерностей занимается статистика. С помощью этого научного направления можно ответить на поставленный выше вопрос, сосчитав количество каждой из букв русского алфавита, применяемых слов, выбрав отрывок из произведений различных авторов. Для собственного интереса и ради занятия от скуки каждый может проделать это самостоятельно. Я же сошлюсь на статистику уже проведенного исследования...

Русский алфавит кириллический. За время своего существования он пережил несколько реформ, в результате которых сложилась современная русская азбучная система, включающая 33 буквы.

о — 9.28%
а — 8.66%
е — 8.10%
и — 7.45%
н — 6.35%
т — 6.30%
р — 5.53%
с — 5.45%
л — 4.32%
в — 4.19%
к — 3.47%
п — 3.35%
м — 3.29%
у — 2.90%
д — 2.56%
я — 2.22%
ы — 2.11%
ь — 1.90%
з — 1.81%
б — 1.51%
г — 1.41%
й — 1.31%
ч — 1.27%
ю — 1.03%
х — 0.92%
ж — 0.78%
ш — 0.77%
ц — 0.52%
щ — 0.49%
ф — 0.40%
э — 0.17%
ъ — 0.04%

Русская буква, имеющая наибольшую частотность в использовании - это гласная «О », как здесь уже справедливо предположили. Есть и характерные примеры, наподобие «ОбОрОнОспОсОбнОсти » (7 штук в одном слове и ничего экзотического или удивительного; очень привычно для русского языка). Высокая популярность буквы «О» во многом объясняется таким грамматическим явлением, как полногласие. То есть, «холод» вместо «хлад» и «мороз» вместо «мраз».

А в самом начале слов чаще всего встречается согласная буква «П ». Это лидерство также уверенно и безоговорочно. Скорее всего, объяснение даёт большое количество приставок на букву «П»: пере-, пре-, пред-, при-, про- и другие.

Частота использования букв основа криптоанализа.

Частота употребления

сущ. , кол-во синонимов: 1

употребительность (10)


  • - Лексика, употребление которой ограничено в силу каких-л. экстралингвистических причин. К Л.о.у. относятся: диалектизмы, термины и профессионализмы, жаргонизмы, просторечные слова и выражения, вульгаризмы...

    Словарь социолингвистических терминов

  • Общее языкознание. Социолингвистика: Словарь-справочник

  • - перевод немецкого термина Gebrauchstypen, введенного Дельбрюком для обозначения установившихся видов употребления грамматических форм. К Т. уп. относятся, напр., различные виды синтаксического употребления...

    Энциклопедический словарь Брокгауза и Евфрона

  • - Лексика, употребление которой ограничено экстралингвистическими причинами: 1) диалектизмы, ограниченные территориально; 2) термины, используемые в научном стиле...
  • Словарь лингвистических терминов Т.В. Жеребило

  • Словарь лингвистических терминов Т.В. Жеребило

  • - Употребления, запрещающие использовать отличия одного объекта от другого: Живые организмы не могут существовать без...
  • - Употребления, соотносящиеся с конкретными представителями данного класса объектов: Мне нужно увидеть этого человека...

    Термины и понятия общей морфологии: Словарь-справочник

  • - 1) Варианты, предусмотренные правилами оформления сложных бессоюзных предложений: при пояснении или мотивации вместо двоеточия может употребляться тире: Разлука призрачна – мы будем вместе скоро...

    Синтаксис: Словарь-справочник

  • - нареч, кол-во синонимов: 1 под спудом...

    Словарь синонимов

  • - прил., кол-во синонимов: 10 выходивший в тираж изживавший себя не соответствовавший современным требованиям отживавший отживавший свой век отходивший в область предания ...

    Словарь синонимов

  • - См....

    Словарь синонимов

  • - прил., кол-во синонимов: 19 анахронический архаический архаичный вышедший в тираж изживший себя несовременный обветшалый отживший отживший свой век отошедший в область...

    Словарь синонимов

  • - прил., кол-во синонимов: 2 непригодный для использования неупотребительный...

    Словарь синонимов

  • - прил., кол-во синонимов: 3 оставивший без применения отложивший положивший под спуд...

    Словарь синонимов

  • - 1) Варианты, предусмотренные правилами оформления сложных бессоюзных предложений: при пояснении или мотивации вместо двоеточия может употребляться тире: Разлука призрачна - мы будем вместе скоро 2) При обособлении...

    Словарь лингвистических терминов Т.В. Жеребило

"частота употребления" в книгах

Частота кормления

автора Хармар Хиллери

Частота кормления

автора Хармар Хиллери

Частота кормления Необходимое число кормлений щенка в течение суток зависит от размера породы. Большинство щенков хорошо развивается при кормлении через каждые три часа днем и ночью, но если они родились преждевременно или весят при рождении меньше 85 г, их, вероятно,

Частота кормления

Из книги Разведение собак автора Хармар Хиллери

Частота кормления Необходимое число кормлений щенка в течение суток зависит от размера породы. Большинство щенков хорошо развивается при кормлении через каждые три часа днем и ночью, но если они родились преждевременно или весят при рождении меньше 85 г, их, вероятно,

Частота кормления

Из книги Собаки и их разведение [Разведение собак] автора Хармар Хиллери

Частота кормления Необходимое число кормлений щенка в течение суток зависит от размера породы. Большинство щенков хорошо развивается при кормлении через каждые три часа днем и ночью, но если они родились преждевременно или весят при рождении меньше 85 г, их, вероятно,

Частота

Из книги Недвижимость. Как ее рекламировать автора Назайкин Александр

14.2.3. Частота взаимодействия

автора Димитри Никола

14.2.3. Частота взаимодействия Чем чаще взаимодействует одна и та же группа конкурентов, тем более устойчивым становится сговор, поскольку нарушения наказываются более своевременно. Если, например, фирмы конкурируют реже, то их способность к поддержанию сговора ниже,

15.4.6. Частота аукционов

Из книги Руководство по закупкам автора Димитри Никола

15.4.6. Частота аукционов Как было рассмотрено выше, некоторые аукционные ринги могут производить перевод средств между собой после проведения аукциона, ради которого они сформировали сговор, или же вести записи сумм, подлежащих уплате, и только время от времени

8. Частота употребления служебных слов оказывается авторским инвариантом

Из книги Книга 2. Меняем даты - меняется всё. [Новая хронология Греции и Библии. Математика вскрывает обман средневековых хронологов] автора Фоменко Анатолий Тимофеевич

8. Частота употребления служебных слов оказывается авторским инвариантом Замечательным исключением является наш параметр 3 - частота употребления всех служебных слов - ПРЕДЛОГОВ, СОЮЗОВ И ЧАСТИЦ. Эволюция этого параметра в зависимости от роста объема выборки показана

Частота

Из книги Большая Советская Энциклопедия (ЧА) автора БСЭ

Частота

автора Назайкин Александр

Частота

Из книги Медиапланирование на 100 автора Назайкин Александр

Частота Телеканалы выходят в эфир на метровых и дециметровых частотах. Первыми на телевидении были освоены метровые диапазоны. В 90-е годы XX века в Москве активно заработали дециметровые каналы.Ранее частота имела существенное значение, так как для приема разных каналов

Частота

Из книги Медиапланирование на 100 автора Назайкин Александр

Частота От частоты передачи сигнала зависит его качество. В большей степени оно обеспечивается в диапазонах УКВ (частотное модулирование FM). Слушатели предпочитают хорошее звучание, поэтому у УКВ-станций значительные рейтинги аудитории, и они предпочитаемы

3.2. Частота

автора Иванов Дмитрий Олегович

3.2. Частота Когда обсуждается значимость какой-либо патологии в медицине, то, на наш взгляд, важно говорить не только об этиологии, патогенезе, клинике и тяжести возникших или могущих возникнуть повреждений и осложнений, но и о распространенности данной патологии. К

4.2. Частота

Из книги Нарушения теплового баланса у новорожденных детей автора Иванов Дмитрий Олегович

4.2. Частота Гипертермия у новорожденных встречается, вероятно, гораздо реже, чем гипотермия. Вероятно, с этим связан тот факт, что работ, посвященных гипертермии у младенцев в научной литературе чрезвычайно мало. Maayan-Metzger A. et al. (2003) проанализировали 42313 историй болезни

Частота

Из книги Нарушения обмена глюкозы у новорожденных детей автора Иванов Дмитрий Олегович

Частота Корблант М., определявший гипогликемию как концентрацию глюкозы крови менее 30 мг% (1,67 ммоль/л) в первые 72 часа жизни, обнаружил ее у 4,4%о всех живорожденных.В 1971 году Lubchenco L. О. и Bard Н. , используя критерии Корбланта М., выявили гипогликемии у новорожденных с большей

Словарь включает наиболее употребительные слова современного русского языка (2-я половина XX – начало XXI вв.), снабженные информацией о частотности употребления, статистическом распределении по текстам и жанрам, по времени создания текстов. Словарь основан на текстах Национального корпуса русского языка объемом 100 млн. словоупотреблений. Подробнее об истории частотных словарей русского языка и методах создания «Нового частотного словаря русской лексики» словаря можно прочитать во .

Разработка концепции словаря и его подготовка к изданию осуществлена О.Н.Ляшевской и С.А.Шаровым, электронная версия подготовлена А. В. Санниковым. Авторы выражают благодарность В. А. Плунгяну, А. Я. Шайкевичу, Е. А. Гришиной, Б. П. Кобрицову, Е. В. Рахилиной, С. О. Савчук, Д. В. Сичинаве и другим участникам семинара НКРЯ, принимавшим участие в обсуждении принципов создания словаря. Мы благодарим О. Урюпину, Д. и Г. Бронниковых, Б. Кобрицова, а также сотрудников ООО «Яндекс» А. Аброскина, Н. Григорьева, А. Сокирко за помощь на разных этапах сбора и компьютерной обработки материала.

Как найти слово в словаре?

Два основных раздела словаря – список слов, упорядоченный по алфавиту и по общей частоте употребления в корпусе. Все слова приводятся в исходной (начальной) форме: для имен это форма именительного падежа (для имен существительных, как правило, форма единственного числа, для имен прилагательных – полная форма мужского рода), для глаголов – форма инфинитива.

В алфавитном списке приведено 60 тысяч наиболее частотных словоформ. Чтобы найти информацию о нужном слове, перейдите в раздел , выберите первую букву слова и найдите искомое слово в таблице. Чтобы быстро найти слово, вы можете также воспользоваться окном поиска, например:

Слово : вящий

Таким способом можно найти информацию не только о каком-то конкретном слове, но и о группе слов, начинающихся или заканчивающихся одинаковым образом. Для этого в окне поиска используйте знак звездочки (*) после набранной последовательности букв («все слова, начинающиеся с…») или до цепочки букв («все слова, оканчивающиеся на…». Например, если вы хотите найти все слова, начинающиеся на пере- , наберите в окне поиска:

Слово : пере*

Если вы хотите найти все слова, оканчивающиеся на –енько , наберите в окне поиска:

Слово : *нько

В частотном списке лемм слова упорядочены по общей частоте употребления в корпусе современного русского литературного языка. Частотный список включает 20 000 наиболее употребительных лемм.

Чтобы найти информацию о нужном слове, перейдите в раздел и найдите искомое слово в таблице. Для поиска информации об отдельных словах лучше всего воспользоваться окном быстрого поиска слова.

Почему я не могу найти слова в словаре, хотя я могу найти его в корпусе?

Это может объясняться несколькими причинами. Во-первых, слово может иметь низкую частотность (например, всего 3 употребления в корпусе) или употребляться только в текстах, написанных до 1950-го года. Во-вторых, слово может встретиться много раз, но в одном-двух текстах: такие леммы были сознательно исключены из словника словаря. В третьих, мы не можем исключить, что произошла ошибка автоматического определения исходной формы или частеречной характеристики слова, или же слово было ошибочно атрибуировано как имя собственное. На сайте представлена «тестовая» версия частотного словаря, и мы собираемся продолжать работу по уточнению его лексического состава.

Какую информацию об употреблении слова можно получить?

В словаре можно получить следующую информацию об употреблении слова в корпусе:

  • общее количество употреблений леммы (общая частота в единицах ipm), см. разделы , частотные словари художественной литературы и других функциональных стилей; частотные словари имен существительных, глаголов и других частей речи
  • частотный ранг слова (то есть порядковый номер в общем частотном списке), см. разделы , частотные словари имен существительных, глаголов и других частей речи.
  • число текстов, в которых встретилось слово (число документов), см. раздел ;
  • коэффициент вариации D, см. разделы и частотные словари имен существительных, глаголов и других частей речи
  • распределение употребления слова в текстах, созданных в разные десятилетия (1950-е годы, 1960-е годы и т. д.), см. раздел ;
  • общая частота употребления отдельных словоформ, см. раздел Алфавитный список словоформ.

    В словарях значимой лексики можно также получить информацию о сравнительной частотности слова в общем корпусе и в подкорпусе текстов определенного функционального стиля (художественная литература, публицистика и т. д.) и показателе правдоподобия LL-score.

    Помимо количественных показателей, при слове указывается часть речи. Это делается для того, чтобы развести слова разных частей речи, которые имеют одинаковую исходную форму (ср. печь – имя существительное и глагол).

    Что такое ipm?

    Общая частота характеризует число употреблений на миллион слов корпуса, или ipm (instances per million words). Это общепринятая в мировой практике единица измерения частотности, которая упрощает сравнение частоты слова в разных частотных словарях и в разных корпусах. Дело в том, что выборки текстов, на которых измеряется частотность, могут довольно сильно отличаться по своим размерам. Например, если слово власть встречается 55 раз в корпусе размером 400 тыс. слов, 364 раза в миллионном корпусе и 40598 раз в 100-миллионном корпусе современного русского языка и 55673 раза в большом 135-миллио¬нном корпусе НКРЯ, то его частота в ipm составит 137.5, 364.0, 372.06 и 412.39, соответственно.

    Частотные словари под ред. Л.Н. Засориной и Л.Леннгрена были построены на выборке размером в один миллион словоупотреблений, соответственно, можно считать, что фигурирующие там абсолютные показатели также приводятся в ipm.

    Что такое коэффициент вариации D?

    Коэффициент D, введенный А. Жуйаном (Juilland et al. 1970), используется во многих частотных словарях (русском словаре Л. Леннгрена, словаре Британского национального корпуса, словаря французской лексики в области бизнеса). Этот коэффициент позволяет увидеть, насколько равномерно распределено слово в разных текстах.

    Значение коэффициента определяется в интервале от 0 до 100. Например, слово и встречается практически во всех текстах корпуса, и значение D у него близко к 100. Слово комиссуротомия встречается в корпусе 5 раз, но только в одном тексте; у него значение D около 0.

    Указание коэффициента D для каждого слова дает возможность оценить, насколько оно специфично для отдельных предметных обла¬стей. Например, слова перезрелый и имплант имеют примерно равную частоту (0,56 ipm), но при этом коэффициент D у перезрелый равен 90, а у имплант – 0. Это означает, что первое слово равномерно встречается в текстах разного направления и значимо для большого числа предметных областей, в то время как слово имплант присутствует лишь в нескольких текстах тематики «медицина и здоровье».

    Что можно узнать об истории употребления слова в разные периоды?

    Информацию о распределении частотности слова в разные десятилетия 2-ой половины XX века и в начале XXI века можно получить в . Например, можно видеть, как складывалась судьба слова перестройка :

    Резкий всплеск его употребления в 1980-е годы вполне объясним социально-историческими реалиями того времени; вместе с тем, с лингвистической точки зрения этот факт можно трактовать таким образом: слово перестройка обогатилось новым значением, которое стало доминирующим в последующие годы.

    Почему имена собственные и аббревиатуры выделены в отдельный список?

    Имена собственные отделены от основной части словника, так как образуют значительно менее стабильную в статистическом отношении группу, а их частотность в большой степени зависит от выбора текстов в корпусе и от их темы (в частности, от места и времени описываемых событий). В Леннгрен 1993 высказано мнение, что включение имен собственных в частотный словарь на общих основаниях неизбежно приводит к его преждевременному устареванию.

    В словарь включена ядерная часть этого списка, насчитывающая 3 000 наиболее частотных единиц. Для поиска данных об употреблении имен, отчеств, фамилий, прозвищ, кличек, топонимов, названий организаций и аббревиатур перейдите в раздел Алфавитный список собственных имен и аббревиатур , выберите букву, с которой начинается искомое слово и найдите его в таблице. Можно также воспользоваться окном быстрого поиска слова.

    Как получить информацию об употреблении отдельных форм слова?

    Помимо информации об употреблении леммы (то есть слова во всех формах словоизменения), в словаре можно узнать, как употребляются отдельные словоформы. Перейдите в раздел Алфавитный список словоформ, выберите букву, с которой начинается словоформа и найдите ее в таблице. Можно также воспользоваться окном быстрого поиска, например:

    Словоформа : лету

    Чтобы найти все словоформы, начинающиеся (или заканчивающиеся) с определенной последовательности букв, используйте в окне поиска знак звездочки (*). Например, все словоформы, начинающиеся с усыпи- , можно найти, набрав:

    Словоформа : усыпи*

    Все словоформы, заканчивающиеся на ¬–иком , можно найти, набрав:

    Словоформа : *иком

    Алфавитный список словоформ включает все словоформы корпуса с частотой выше 0,1 ipm (всего около 15 тыс.) и содержит информацию об их общей частоте. Омонимичные словоформы помечены в таблице знаком *.

    Как найти информацию о «самых употребительных» словах?

    С помощью нашего словаря можно найти информацию о классах слов, отличающихся общими статистическими характеристиками. Это, в частности:

  • наиболее частотные слова по общей выборке из корпуса; среднечастотные слова по общей выборке и т.д. (см. раздел );
  • слова, наиболее часто встречающиеся в подкорпусе художественной литературы (см. раздел Частотный словарь художественной литературы);
  • слова, наиболее часто встречающиеся в подкорпусе публицистики (см. раздел Частотный словарь публицистики);
  • слова, наиболее часто встречающиеся в подкорпусе другой нехудожественной литературы (см. раздел Частотный словарь другой нехудожественной литературы);
  • слова, наиболее характерные для устной речи (см. раздел Частотный словарь живой устной речи).
  • наиболее частотные имена существительные (см. раздел Частотный список имен существительных);
  • наиболее частотные глаголы (см. раздел Частотный список глаголов);

    и прочие частотные списки частеречных классов.

    Кроме предлагаемых классов, вы можете самостоятельно исследовать другие группы слов, воспользовавшись в разделе Алфавитного списка словоформ таблицей «Общий алфавитный список» (например, можно исследовать наиболее частотные глаголы с приставкой пере- , слова, встречающиеся более чем в 200-х текстах и многое другое: принципы группировки классов зависят от ваших задач и от вашей фантазии).

    Как проследить распределение частотности в текстах разных функциональных стилей?

    В частотном словаре Л.Н.Засориной приводятся данные об употреблении слова в четырех типах текстов: (I) газетно-журнальных текстах, (II) драматургии, (III) научных и публицистических текстах, (IV) художественной прозе. В нашем словаре можно получить сходную информацию, воспользовавшись разделом «Распределением лемм по функциональным стилям».

    Частотные словари функциональных стилей составлены на основе подкорпусов художественной литературы, публицистики, другой нехудожественной литературы и живой устной речи. По сравнением со словарем Л. Н. Засориной состав рубрик несколько изменен: вместо драматургии используются записи живой устной речи и расшифровки фонограмм кинофильмов, научная литература выделена в отдельную рубрику, наряду с официально-деловой, церковной и прочей нехудожественной литературой.

    В список включены 5 000 самых частотных лемм этих подкорпусов. Для каждой леммы указана часть речи, частотность в подкорпусе и коэффициент D.

    Что такое словарь значимой лексики (художественной литературы и т. д.)?

    Существуют слова, которые гораздо чаще употребляются в одном из фунциональных стилей, нежели в остальных. Например, для живой устной речи такими словами являются вот, вообще и ладно. Дейсвительно, трудно предположить, что в научно-технической литературе эти слова употребляются также часто, как в бытовом языке.

    Список наиболее типичных лемм для каждого функционального типа текстов был выделен на основе сравнения частоты лемм в данном подкорпусе текстов и в остальном корпусе. Словари значимой лексики включают по 500 лемм.

    Что означают показатели frq1, frq2 и LL-score в словаре значимой лексики?

    Frq1 – это общая частота леммы во всем корпусе (в единицах ipm), frq2 – это частота леммы в данном подкорпусе (подкорпус художественной литературы, публицистики, прочей нехудожественной литературы и живой устной речи, соответственно), LL-score – это коэффициент правдоподобия, вычисляемый на основе frq1 и frq2 по формуле, предложенной П.Рейсоном и А.Гарсайдом (см. об этом подробнее во Введении к словарю). Чем выше показатель LL-score, тем более значимо слово для данного функционального стиля.

    Как получить список 100 самых частотных глаголов?

    В разделе «Общая лексика: части речи» частотный список лемм разбит на семь подсписков: имена существительные, глаголы, имена прилагательные, наречия и предикативы, местоимения, числительные и служебные части речи. Здесь для каждой леммы указана ее общая частота и ранг (порядковый номер) в общем списке. Каждый список содержит по 1 000 наиболее частотных лемм.

    Таким образом, можно получить список 100 самых частотных глаголов, зайдя в подраздел Частотный список глаголов и выбрав первые 100 глаголов в верхней части списка. Точно так же можно узнать, какое прилагательное является наиболее частотным (как указано в разделе Частотный список имен прилагательных, это прилагательное новый ) и выяснить много других интересных фактов, касающихся состава частеречных классов.

    Как пользоваться вспомогательными таблицами?

    Вспомогательные таблицы включают, во-первых, в данные о частотности частеречных классов, а также других грамматических категорий. Эти данные получены на основание подкорпуса НКРЯ со снятой (вручную) лексико-грамматической неоднозначностиью (размер более 6 млн. словупотреблений). Поскольку статистические данные касаются крупных классов слов, есть основания полагать, что и во всем корпусе пропорция частей речи и других грамматических категорий будет такой же.

    Во-вторых, в данном разделе приводится информация о покрытии текста лексемами, средней длине слова, словоформы и предложения.

    В-третьих, здесь приводятся частотные списки употреблений букв русского алфавита, знаков препинания, а также двубуквенных и многобуквенных сочетаний.

  • Написал забавный php-скрипт. Погонял через него все тексты на« Спектаторе» на предмет языка. Всего в текстах употребляется 39110 разных словоформ. Сколько именно разных слов - определить довольно сложно. Чтобы хоть как-то приблизиться к этой цифре, я брал только первые 5 букв слова и сравнивал их. Получилось 14373 таких комбинаций. С большой натяжкой это можно назвать словарным запасом« Спектатора».

    Потом я взял слова и иследовал их на предмет частоты повторения букв. В идеале надо брать какой-нибудь словарь, для полноты картины. Прогонять тексты нельзя, нужно только уникальные слова. В тексте же одни слова повторяются чаще, чем другие. Итак, получились следующие результаты:

    о - 9.28%
    а - 8.66%
    е - 8.10%
    и - 7.45%
    н - 6.35%
    т - 6.30%
    р - 5.53%
    с - 5.45%
    л - 4.32%
    в - 4.19%
    к - 3.47%
    п - 3.35%
    м - 3.29%
    у - 2.90%
    д - 2.56%
    я - 2.22%
    ы - 2.11%
    ь - 1.90%
    з - 1.81%
    б - 1.51%
    г - 1.41%
    й - 1.31%
    ч - 1.27%
    ю - 1.03%
    х - 0.92%
    ж - 0.78%
    ш - 0.77%
    ц - 0.52%
    щ - 0.49%
    ф - 0.40%
    э - 0.17%
    ъ - 0.04%

    Тем, кто поедет на« Поле чудес», советую заучить эту таблицу наизусть. И называть слова в таком порядке. Так, например, казалось бы, такая« привычная» буква« б» употребляется реже, чем« редкая» буква« ы». Помнить надо также и то, что в слове не одни гласные. И что если вы угадали одну гласную, то нужно начинать идти по согласным. И кроме того, слово угадывается именно по согласным. Сравните:« **а**и*е» и« ср*вн*т*». И в том и в другом случае - это слово« сравните».

    И еще одно соображение. Как вы учили английский? Помните? Э пен, э пенсил, э тэйбл. Что вижу - о том и пою. А смысл?.. Как часто вы в нормальной жизни говорите слово« карандаш»? Если задача - научить говорить как можно быстрее и эффективнее, то и учить надо соответствующе. Проводим анализ языка, выделяем самые употребимые слова. И учить начинаем именно с них. Чтобы более-менее говорить на английском языке, достаточно всего полторы тысячи слов.

    Еще одно баловство: составлять слова из букв случайным образом, но учитывая частоту появления, чтобы было похоже на нормальные слова. В первой же десятке« случайных» четырехбуквенных слов выскочило« осел». В следующей полсотне - слова« мчим» и« нато». Но, увы, очень много неблагозвучных комбинаций, таких, как« блтт» или« нрро».

    Поэтому - следующий шаг. Я разбил все слова на двухбуквенные сочетания и начал случайным образом (но с учетом частоты повторения) комбинировать их. Стали в больших количествах получатся слова, похожие на« нормальные». Например:« коивдиот»,« воабма»,« апый»,« депоид»,« дебяко»,« орфа»,« поеснавы»,« озза»,« ченя»,« риторя»,« урдеед»,« утоичи»,« стых»,« сапоть»,« гравда»,« абабап»,« обарто»,« еелует»,« лярезы»,« мыни»,« бромомер» и даже« тодебыст».

    Куда применить... есть варианты. Например, написать генератор красивых фирменных игривых имен. Для йогуртов. Типа,« мемолисо» или« уторорерто». Или - генератор футуристических стихов« Бурлюк-php»:« опелдиий миатон, линоаз окмиая... деесопен одесон».

    И есть еще один вариант. Надо попробовать...

    Некоторые статистические данные об использовании русских слов:

    • Средняя длина слова 5.28 символа.
    • Средняя длина предложения 10.38 слов.
    • 1000 наиболее частотных лемм покрывает 64.0708% текста.
    • 2000 наиболее частотных лемм покрывают 71.9521% текста.
    • 3000 наиболее частотных лемм покрывают 76.5104% текста.
    • 5000 наиболее частотных лемм покрывают 82.0604% текста.

    После заметки мне пришло вот такое письмо:


    Здравствуйте, Дмитрий!

    Проанализировав статью« Язык до Киева доведет» и ту ее часть, где Вы описываете свою программу, возникла идея.
    Вами написанный скрипт кажется мне предназначенным абсолютно не для« Поля чудес» в большей мере, а для другого.
    Первое самое разумное применение результатов работы Вашего скрипта - определение порядка букв при программировании кнопок для мобильных устройств. Да, да - именно в мобильниках и нужно все это.

    Я распределил это по волнам ()

    Далее распределение по кнопкам:
    1. Все буквы из первой волны уходят на 4 кнопки в первый ряд
    2. Все буквы из второй волны тоже на остальные 4 кнопки в тот же первый ряд
    3. Все буквы из третьей волны туда же на оставшиеся две кнопки
    4. 4,5 и 6 волны уходят во второй ряд
    5. 7,8,9 волны уходят на третий ряд, причем 9-я волна уходит вся полностью (не смотря на кажущееся большое количество букв) в третий ряд 9-й кнопки, что-бы 10 кнопку оставить под всякие там знаки препинания (точка, запятая и прочее).

    Я думаю все понятно и так, без детальных обьяснений. Но все же не могли бы Вы обработать Вашим скриптом (включая знаки припинания) тексты следующего содержания:

    А потом выложить статистику? Мне показалось? что тексты максимально отражают нашу современную речь, а ведь мы как говорим, так и пишем sms.

    Заранее большое спасибо.

    Итак, анализировать частоту повторения букв можно двумя способами. Способ 1. Взять текст, найти в нем уникальные (не повторяющиеся) словоформы и анализировать их. Способ хорош для построения статистики по словам русского языка, а не по текстам. Способ 2. Не искать в тексте уникальные слова, а сразу перейти к подсчету частоты повторения букв. Получаем частоту букв в русском тексте, а не в русских словах. Для создания клавиатур и прочего нужно использовать именно этот способ: на клавиатуре набираются именно тексты.

    Клавиатуры должны учитывать не только частоту букв, но и самые упортебимые слова (словоформы). Не так уж и трудно догадаться, какие именно слова самые употребимые: это, во-первых, служебные части речи, ибо роль у них такая - служить всегда и везде, и местоимения, роль у которых не менее важная: заменять в речи любую вещь/человека (это, он, она). Ну и основные глаголы (быть, сказать). По результатам анализа перечисленных выше текстов я получил такие самые« популярные» слова:« и, не, в, что, он, я, на, с, она, как, но, его, это, к, а, все, ее, было, так, же, то, сказал, за, ты, о, у, ему, мне, только, по, меня, бы, да, вы, от, был, когда, из, для, еще, теперь, они, сказала, уже, него, нет, была, ей, быть, ну, ни, если, очень, ничего, вот, себя, чтобы, себе, этого, может, того, до, мы, их, ли, были, есть, чем, или, ней» и так далее.

    Возвращаясь к клавиатурам - очевидно, что в клавиатуре буквосочетания« не»,« что»,« он»,« на» идругие должны находится как можно ближе друг к другу, или если не вплотную, то каким-то наиболее оптимальным образом. Нужно провести исследования, каким именно образом пальцы движутся по клавиатуре, найти самые« удобные» позиции и поместить в них самые употребляемые буквы, не забывая, однако, про буквосочетания.

    Проблема, как всегда, одна: даже если и получиться создать Уникальную Клавиатуру, куда деть миллионы людей, которые уже привыкли к qwerty/йцукен?

    Насчет же мобильных устройств... Наверное, it makes sense. По крайней мере, буквы« о»,« а»,« е» и« и» должны точно находиться на одной клавише. Знаки препинания в порядке частоты употребления: , . - ? ! " ; :) (