Американский лингвист Джордж Ципф из Гарвардского университета (George Kingsley Zipf) эмпирическим путем обнаружил закономерность распределения частоты слов естественного языка:
если все слова языка (или достаточно длинного текста) упорядочить по убыванию частоты их использования, то частота n-го слова в таком списке окажется приблизительно обратно пропорциональной его порядковому номеру n (так называемому рангу этого слова). f * r = c, где f – частота слова в документе, r – ранг слова, c – константа.
Например второе по используемости слово встречается примерно в два раза реже, чем первое, третье — в три раза реже, чем первое, и т. д.
Ключевые следствия из закона Ципфа следующие:
Последние комментарии
1 год 20 недель назад
2 года 50 недель назад
2 года 50 недель назад