PM.kitten События Почему Dotty Вечный сервер LazWebBox 2.0 ИПФ Назначение Статьи

Сложность языка

Сложность естественного языка

На просторах интернета можно найти весьма странное мнение, что русский язык сложный. Потому что, мол, стакан стоит, а вилка лежит, и это путает. Но, тем самым критики русского языка лишь оправдывают нежелание этот простой и могучий русский язык учить. Как бы, достаточно, очевидно для любого, что контекстно-свободная грамматика всегда сложнее в обработке, чем контекстно-зависимая. Поэтому, когда если у вас что-либо стоит, и вы точно знаете, что стоит не вилка -- это огромнейший плюс, который трудно переоценить.

Так как у вас вариантов - в два раза меньше, если вы знаете, что это стоит, а не лежит.

Попробуйте, например, написать верификатор для контекстно-свободной грамматики Хомского. Там всего-то строк 50, но сложность алгоритма будет достаточно большая. А теперь введите контекст - и потребляемые ресурсы для обработки языка сразу станут меньше.

Русский язык удивительно простой и логичный. Чтобы понять это, достаточно сравнить, что умеет на GPT2 голосовой помощник на русском языке и голосовой помощник на GPT2 на английском или китайском.

Чтобы достигнуть того же функционала, которого достиг Яндекс, для английского уже требуется GPT3, в силу запутанности и нелогичности такого языка!

Отсюда можно ввести объективную метрику сложности естественного языка.

Сложностью естественного языка назовём минимальное число параметров обучаемой модели, которое требуется для выполнения изложений школьного уровня на этом языке.

То есть, модели на вход даётся текст, диктант, она делает изложение, которое школьный учитель оценивает не менее, чем на тройку. Минимальное число параметров такой модели и есть сложность языка. Когда мы перейдём в область точных метрик, споры о том, какой язык лучший пропадут сами собой.


Написано на Dotty и Wicket  !без Web 2.0Адаптировано для работы в Lynx  канал в Дзен