SocraThreadСанскрит: язык как код

01 / 11

Санскрит: язык как код

Эксперт — лингвист-компьютерщик, обнаруживший что Панини уже всё написал до Хомского и Бэкуса

Собеседник — технически образованный человек, пришедший разоблачить миф про NASA

≈4 835 слов · 32–40 мин чтения

Сцена 01

Компилятор за две тысячи лет до компьютера

— Подождите, я читал, что NASA признало санскрит идеальным языком для искусственного интеллекта. Это правда или один из тех интернет-мифов, которые никто не проверяет?

— Это зависит от того, что именно вы читали. Один человек из исследовательского института при NASA написал статью в 1985 году. NASA как организация ничего не «признавала» — никакого отчёта, никакой рекомендации, никакого официального решения. Но вот что интересно: в этой статье есть одно честное наблюдение, от которого тяжело избавиться — и оно важнее, чем весь миф вместе взятый. К нему мы дойдём. Но начнём с другого конца — с того, почему вообще этот разговор возможен.

— Ну, санскрит — это язык жрецов, две тысячи лет в религиозных текстах, сложный, мёртвый. Что общего с машинами?

— Вот тут-то и начинается самое странное. Потому что представление «сохранившийся язык жрецов» — это хорошая история, но не точная. Санскрит не сохранился сам по себе. Его заморозили. Один человек описал его спецификацию с такой точностью, что язык перестал иметь возможность меняться. Живые языки меняются, потому что никто не проверяет каждое слово на соответствие правилам. У санскрита появился проверяющий.

— Один человек?

— Панини. Примерно четвёртый век до нашей эры. Написал работу — Аштадхьяи, «Восемь глав». Содержит ровно 3959 правил. Каждое правило — в среднем два-три слова. И вместе они полностью описывают морфологию санскрита: как образуются слова, как они склоняются и спрягаются, как соединяются, какие формы существуют, а какие невозможны.

— Но грамматика есть в любом учебнике языка.

— Стоп. Это принципиально разные вещи, и разница тут ключевая. Учебник описывает — рассказывает, как устроен язык, что бывает, что встречается. Грамматика Панини предписывает: берёшь корень из его каталога, применяешь правило в точном порядке — и на выходе получается конкретное слово. Без вариантов. Если правила не дают результата — слова в санскрите не существует. Это не описание, это исполнимая инструкция. Разница как между описанием алгоритма сортировки и кодом, который сортирует.

— Подождите. Он что, реально написал что-то вроде кода?

— Буквально. У него есть метасимволы — он называл их анубандхи. Это специальные токены, управляющие порядком применения правил. В современном программировании это операторы управления потоком или флаги в парсерах. Правила упорядочены: более специфичное бьёт общее — точь-в-точь как приоритет в CSS-каскаде или порядок case в switch. Он придумал краткие обозначения для классов звуков — Шива-сутра, четырнадцать строчек, которые кодируют все фонологические группы. Это lookup-таблица: вместо перечисления восьми конкретных звуков — один символ.

— И он написал это устно, для запоминания?

— Устно. Всё должно было помещаться в память — потому что записывали на том же санскрите, а отдельной нотации не было. Это накладывало жёсткое ограничение: ни одного лишнего правила, никаких объяснений, только то, без чего нельзя. Лингвисты до сих пор поражаются плотности упаковки. Аштадхьяи занимает по объёму примерно как небольшая брошюра — и описывает язык с точностью, которой европейская лингвистика достигла только в двадцатом веке.

— И Бэкус переоткрыл то же самое?

— В 1959 году Джон Бэкус опубликовал Форму Бэкуса-Наура — формальную нотацию для описания грамматик языков программирования. Когда лингвисты сравнили её с Панини — структура правил оказалась практически изоморфной. Бэкус переизобрёл Панини через двадцать пять веков. При этом Бэкус не знал о Панини — эта работа была практически неизвестна на Западе до конца девятнадцатого века.

— И что это означает?

— Что формальная грамматика — не изобретение, а открытие. Существует некая математическая реальность структуры языка, которую можно обнаружить независимо, в разные эпохи, с разных сторон. И это меняет то, как мы смотрим на обоих. Панини — не просто лингвист, который тщательно описал свой язык. Он обнаружил что-то о природе языка вообще. А санскрит — не «красивый древний язык» — это язык, который получил свою операционную систему раньше, чем кто-либо понял, что языкам нужны операционные системы.

— А по классификации Хомского — санскрит где?

— Контекстно-зависимые грамматики, Type-1. Большинство языков программирования — Type-2, класс ниже по мощности. Санскрит структурно сложнее, чем C++. Это не оценочное суждение — это математическая классификация выразительной мощности грамматики. Первый компьютерный движок для Аштадхьяи запустили только в 2000-х в Пуне. Система, написанная устно в четвёртом веке до нашей эры, прошла на компьютере через двадцать пять столетий.

---

Сцена 02

Детали с бейджиками

— Хорошо, про Панини понял. Но вернёмся к NASA. Что за «честное наблюдение» в статье Бриггса?

— Произнесите вслух: «I saw the man with the telescope».

— Ну, я увидел мужчину с телескопом.

— Два варианта. Либо у вас был телескоп — и вы им наблюдали за мужчиной. Либо у мужчины был телескоп — и вы его просто увидели. Оба синтаксически совершенно правильные. Вы как человек выбрали один из них — вероятно потому что этот сценарий чаще встречается в реальной жизни. Компьютер 1985 года видел два одинаково правильных дерева разбора и не мог выбрать. У него нет доступа к «реальной жизни».

— Но это решается контекстом.

— Решается — если контекст есть. Только добавьте ещё одну именную группу в предложение — получите пять деревьев. Ещё одну — четырнадцать. Ещё — сорок два, потом сто тридцать два. Каждая дополнительная препозиционная группа умножает число возможных разборов. Это называется комбинаторный взрыв. Для некоторых конструкций парсеры 1980-х просто зависали — они шли по одному пути, упирались в тупик, возвращались назад, пробовали другой. При большом числе путей это катастрофа по времени.

— И санскрит убирает эту проблему?

— Вот что заметил Бриггс — и это честное наблюдение. В санскрите у каждого слова есть окончание, которое кодирует его роль в предложении. Восемь падежей, плюс шесть семантических ролей — карака: агент, объект, инструмент, получатель, источник, место. Ты смотришь на слово — и уже знаешь его функцию, до того как начинаешь разбирать предложение. Порядок слов при этом полностью свободен — можешь переставлять как угодно, смысл не меняется, потому что информация о роли закодирована в самом слове, а не в его позиции.

— Как детали с подписями типа на боку.

— Именно. Английский — детали без подписей, порядок обязателен. Санскрит — у каждого слова бейджик с ролью, порядок не важен. Машина не должна перебирать варианты: роль уже написана. Бриггс пошёл дальше и обнаружил, что санскритские грамматисты восемнадцатого века разбирали предложения на триплеты «субъект–отношение–объект». Он написал: это ровно то, что AI-исследователи 1980-х называли семантическими сетями — способом представления знаний, удобным для машины. Индийские грамматисты изобрели это за тысячу лет до Минского. Вот честное наблюдение. Из него получился заголовок «NASA выбрало санскрит для AI» — это уже другое.

— Но подождите — значит, санскрит полностью однозначен для машины?

— Это распространённая ошибка. Санскрит убирает один тип неоднозначности — синтаксическую: кто что с чем делает. Но есть лексическая неоднозначность — она никуда не делась. Слово «кама» — это желание вообще, имя бога любви, и конкретный чувственный аппетит. Падеж скажет тебе, что это слово в предложении субъект или объект, но не скажет, которое из трёх значений. Есть и прагматическая неоднозначность: один и тот же вопрос может быть просьбой, приказом или риторикой. И ещё шлеша — намеренная поэтическая многозначность, когда стихотворение специально написано так, чтобы читалось двумя способами одновременно. Машина с этим не справляется вообще.

— И что в итоге произошло с идеей на практике?

— Карака-система стала архитектурным принципом для машинного перевода именно индийских языков — хинди, телугу, тамильского. Когда вы переводите с хинди через Google Translate — в основе лежит идея, пришедшая из теоретической статьи, которую в 1985 году прочитали три тысячи человек. Это реальное влияние. Только оно косвенное и узкоспециализированное, а не то глобальное «NASA выбрало санскрит», о котором пишут в интернете.

---

Сцена 03

Мозг, который вырастает из текста

— Ладно, с NASA разобрались. Но я читал ещё кое-что — что пандиты имеют физически другой мозг. Это тоже из той же серии?

— Нет, данные здесь реальны. Исследователи сделали МРТ двадцати одному пандиту и двадцати одному обычному человеку для сравнения. Нашли более десяти процентов дополнительного серого вещества в обоих полушариях. А правый гиппокамп — зона, связанная с памятью и пространственной обработкой, — у пандитов больше почти на семьдесят пять процентов объёма.

— Семьдесят пять — это как вообще возможно?

— Это рекорд среди всех исследований профессиональной памяти. Для контекста: исследование лондонских таксистов, которые знают наизусть двадцать пять тысяч улиц Лондона — «The Knowledge» — это была сенсация в 2000 году, когда нашли небольшое увеличение заднего гиппокампа. Небольшое — уже сенсация. У пандитов — семьдесят пять. Это другой порядок.

— Но откуда уверенность, что это тренировка сделала мозг таким, а не отбор? Может, в пандиты берут детей, у которых уже большой гиппокамп — тех, кто справляется с нагрузкой.

— Это главный вопрос, и это настоящая дыра в исследовании. Выборка маленькая — двадцать один человек, при такой выборке статистическая мощность в нейровизуализации считается недостаточной. Контрольная группа — обычные студенты, не заучивавшие больших объёмов вообще. Нельзя разделить два эффекта: специфика санскрита как языка — это одно. Многолетняя тренировка памяти с экстремальной интенсивностью и мультисенсорной нагрузкой — это другое. Если бы рядом стояло второе исследование с хафизами — людьми, учащими Коран с сопоставимой интенсивностью — тогда можно было бы разделить. Пока этого сравнения нет.

— Хорошо, но что именно они делают эти десять тысяч часов?

— Семь-десять лет по восемь-десять часов в день. Больше десяти тысяч часов до уровня «начального». Метод называется гхана-патха. Берёшь три слова — A, B, C — и произносишь их в порядке: A-B, B-A, A-B-C, C-B-A, A-B-C. Потом следующую группу. Это не зубрение последовательности — ты постоянно реконструируешь текст из кусков в разном порядке. Твой мозг не может полагаться на инерцию: следующее слово нужно каждый раз извлекать активно.

— А почему это сложнее обычного заучивания?

— Потому что одновременно ещё несколько вещей. Точный питч-акцент: в ведическом санскрите три тона, как в тональных языках — удатта, анудатта, сварита. Строгий ритм — нельзя замедлиться или ускориться. Правила сандхи при соединении слов — они меняют звучание, и каждое изменение должно быть воспроизведено точно. И движения рук — мудры, физически привязанные к конкретным моментам текста. Пять зон коры работают параллельно с одним источником информации. А если ошибся — начинаешь с самого начала всей рецитации, не с места ошибки. Нулевая терпимость.

— Это звучит как отбор сам по себе. Выживают только те, у кого уже большой гиппокамп.

— Возможно. Но посмотрите с другой стороны: система производит людей с рекордным гиппокампом воспроизводимо, из поколения в поколение, тысячи лет. Вопрос о причинности важен для науки. Для практики — если эффект воспроизводится, он реален.

---

Сцена 04

Ctrl+Alt+Del для памяти

— Хорошо. Тогда откуда история про тета-волны и мантры? Это уже начинает пахнуть эзотерикой.

— Понимаю скептицизм. Давайте по порядку. Факт первый: гиппокамп формирует долгосрочную память лучше всего при определённой частоте мозговых волн — от четырёх до восьми герц. Это тета-ритм. При этой частоте NMDA-рецепторы — молекулярные ворота долгосрочной потенциации — открываются с нужным временным окном для записи памяти. Это нейробиология, не эзотерика.

— Хорошо, дальше.

— Факт второй: ритм традиционной декламации вед — примерно два-четыре слога в секунду — математически соответствует частоте тета-осцилляций гиппокампа. Это наблюдение, не чья-то теория. Теперь — механизм. Когда ты долго монотонно декламируешь одно и то же, кора постепенно снижает обработку внешних сигналов и фоновой активности: всё это требует высокочастотных волн. Монотонная ритмичная стимуляция отодвигает этот шум. Мозг переходит в тета-диапазон. Гиппокамп получает информацию без конкуренции.

— Это похоже на Ctrl+Alt+Del — закрыть всё лишнее.

— Именно. Пишешь файл, пока компьютер скачивает обновления и воспроизводит видео. Файл пишется, но с ошибками. Закрыл всё лишнее — файл пишется чисто. Мантра — это протокол, который переводит кору в состояние, оптимальное для долгосрочного запоминания. А три сессии в день — утром, днём, вечером, с нарастающими промежутками — это интервальное повторение, реализованное через религиозную дисциплину. За тысячи лет до того, как Эббингауз описал кривую забывания.

— Это как Anki.

— Лучше Anki. Anki даёт правильные интервалы. Но не правильное состояние мозга в момент повторения. Ведическая традиция давала оба инструмента одновременно. Разработчики Anki переоткрыли половину системы. Жрецы знали обе половины — просто с другими объяснениями.

— Но они думали, что угождают богам. Это не случайность?

— Gravity worked before Newton named it. Жрецы не знали механизма, но система работала. И есть парадоксальная деталь: если бы дети понимали тексты, которые учат, — понимание активировало бы лобные доли, высокочастотную активность, и мозг вышел бы из тета. Непонимание текста в первые годы — буквально часть протокола. Сначала форма, потом смысл. Мозг записывает звуковую структуру без интерпретации — и только потом, когда структура стоит прочно, начинается работа со смыслом.

— Получается, религиозная система — это случайная нейроинженерия?

— Или нейроинженерия — дорогостоящий способ переоткрыть то, что уже было встроено в традицию. Смотря с какого конца смотреть. Культуры, случайно открывавшие эффективные методы запоминания, сохраняли эти традиции — они работали. Традиции с неэффективными методами постепенно уходили. Это не замысел — это отбор на уровне культурных практик.

---

Сцена 05

Почему немецкий — это черновик санскрита

— Хорошо. Всё это интересно, но вот практический вопрос: если я захочу учить санскрит — с чего начинать? Помогает ли знание других языков?

— Важен не объём языкового опыта, а порядок. Если у вас есть немецкий — вы уже прошли половину пути к санскриту, не зная об этом.

— Немецкий? Это неожиданно.

— Возьмите «mit dem Messer» — ножом, инструментом. Это инструментальный падеж по функции. В санскрите то же самое выражается окончанием на самом слове: если нож — «кхадга», то «ножом» будет «кхадгена». Функция одна и та же. Немецкий реализует её через предлог плюс дательный. Санскрит меняет окончание напрямую. Если вы когда-либо интуитивно чувствовали разницу между «mit dem Messer» и «das Messer» — вы уже думаете этой категорией. Осталось освоить другую упаковку.

— Значит, немецкие падежи — это подмножество санскритских?

— Четыре немецких — номинатив, аккузатив, датив, генитив — это четыре из восьми санскритских один в один. Оставшиеся четыре санскритских — инструментальный, аблатив, локатив, вокатив — это функции, которые немецкий выражает через предлоги: «мит», «фон», «аус», «ин», «ан», «O!». Вы уже думаете этими категориями. Просто они упакованы иначе.

— Почему именно второй язык помогает, а не первый?

— Есть явление — L2 Status Factor. Когда учишь третий язык, мозг черпает аналитические инструменты из второго — того, который учил формально, с правилами и объяснениями. Родной язык ты просто знаешь — он не аналитический, ты не разбирал его по частям осознанно. Второй язык — разобрал, понял как устроен, и эти части становятся строительными лесами для третьего. Это почему порядок важнее количества: можно знать пять языков и плохо учить санскрит, если ни один не давал работы с морфологией.

— А если только английский — совсем плохо?

— Сложнее. Исследователи, ведущие курсы санскрита, замечали разницу: студенты с немецким или латинским фоном преодолевали первые пятьдесят уроков примерно за восемнадцать месяцев. Студенты только с английским — за двадцать восемь-тридцать. Разница почти в два раза. Причина в том числе в том, что немецкий приучает держать незавершённое предложение: глагол стремится к концу, и ты учишься ждать, не интерпретировать по мере чтения. В санскрите то же самое. Человек с английским фоном пытается выстроить смысл сразу — и в санскрите это плохо работает.

— Значит, школьный немецкий, который все ненавидят из-за der/die/das — это не просто мука.

— Это скаффолдинг. Вы строили инструмент, не зная зачем. И вот оказывается — зачем есть.

---

Сцена 06

Восемь падежей против трёхсот исключений

— Ладно, допустим, немецкий помогает. Но всё равно: восемь падежей — это объективно много. Это сложно, как ни крути.

— Скажите мне, что для вас «сложный язык»? Тот, в котором много правил?

— Ну да. Больше правил — больше надо запомнить.

— Вот тут интуиция вас подводит. Когнитивная нагрузка определяется не числом правил, а числом исключений. Это принципиально разные вещи, и мозг обрабатывает их в разных режимах.

— Как это разные режимы?

— Стивен Пинкер описал это чётко: есть два механизма — «правило» и «лексикон». Правило вы применяете: взяли глагол, добавили окончание. Лексикон — вы помните конкретную запись: «went». Правило работает для любого нового слова, лексикон требует отдельной записи для каждого исключения. Санскрит эксплуатирует первый режим. Английский хранит огромный нерегулярный лексикон.

— И как это выглядит в числах?

— В Аштадхьяи 3959 правил и практически никаких исключений. В английском среди тысячи самых частотных слов — больше двухсот глаголов с нерегулярным прошедшим временем. Их невозможно вывести из правила. «Work» → «worked» — правило. «Break» → «broke» — исключение. «Think» → «thought» — другое исключение. «Buy» → «bought» — третье. Плюс орфография: почему «though», «through», «thought» и «thorough» читаются четырьмя разными способами? Нет правила. Запоминаешь каждое слово отдельно.

— А разве сандхи — это не дополнительная сложность?

— Сандхи выглядит страшно, пока не понимаешь, что оно полностью алгоритмично. Тридцать правил — предскажешь любое словосочетание без исключений. Это конечный автомат: на входе контекст, на выходе детерминированный результат. Никаких «кроме вторников». Носитель санскрита вычисляет форму в реальном времени — как программист, знающий алгоритм. На проектах по разговорному санскриту участники описывают момент, который называют «клик»: на четвёртый-пятый день перестают переводить и начинают строить фразы из правил. Система встала на место. Похожий «клик» при изучении английского занимает годы — потому что там не система, а накопление отдельных записей.

— Получается, санскрит сложнее по объёму, но проще по структуре.

— По когнитивной нагрузке — именно. Два города: в первом сорок знаков, все без исключений. Во втором десять знаков, но у каждого третьего внизу написано «кроме вторников». В первом выучил систему за неделю. Во втором будешь ошибаться годами. Санскрит — первый город.

---

Сцена 07

Язык, который думает за вас

— Вот вы всё про структуру и правила. Но влияет ли сам санскрит на то, как думаешь? На содержание мысли, а не на форму?

— Влияет. Только не так, как обычно описывают.

— А как обычно?

— «В санскрите есть особые слова для понятий, которых нет в других языках, поэтому думающие на нём видят мир иначе». Это слабый аргумент — понятие можно описать на любом языке, просто потребует больше слов. Сильный эффект в другом: в грамматических категориях, которые язык делает обязательными — о которых ты не можешь не думать, пока говоришь.

— Что значит обязательными?

— Если язык требует грамматического рода, ты обязан думать о роде каждый раз, когда говоришь о предмете. Это не выбор. Лингвист Лера Бородицки попросила носителей немецкого и испанского описать мост. По-немецки мост — женского рода. По-испански — мужского. Немцы без наводящих вопросов использовали слова «красивый», «элегантный». Испанцы — «крепкий», «массивный». Автоматически, без размышления. Не потому что немцы думают, что мосты женственные — они об этом не думают. Просто грамматика принуждает делать это различие каждый раз, и это оставляет след.

— И в санскрите то же самое — только с ролями?

— В санскрите ты обязан явно маркировать роль каждого элемента предложения прежде чем высказывание станет грамматически законченным. Не можешь написать «он сделал это» и оставить неясным — кто именно, что именно, с чем, для кого. Каждая роль проставлена падежом. Студенты, несколько лет учившие санскрит, начинают замечать синтаксические неоднозначности в родных языках — конструкции, которых раньше не видели, потому что не знали куда смотреть. Язык научил их паттерну.

— А что с Нагарджуной? Я слышал его имя в этом контексте.

— Нагарджуна, второй-третий век нашей эры. Центральная идея его философии — что всё лишено самостоятельного существования, что субъект и объект нельзя рассматривать как независимые вещи. На английском эту идею начинают формулировать — и немедленно английская грамматика вставляет «кто» делает «что» с «чем». Субъект-объектные отношения появляются автоматически, потому что без них нельзя построить грамматически полное английское предложение. Это не ошибка мышления — это структурное ограничение языка. Санскрит позволяет строить конструкции, где агент и объект грамматически неотличимы. Язык не производит автоматически именно ту структуру, которую философ намеренно убирает.

— Значит он писал на санскрите не из культурных соображений, а потому что на нём эту мысль держать легче.

— Или потому что на английском грамматика незаметно разрушает именно то, что он строит. Это не вопрос словарного запаса — это вопрос того, что язык делает автоматически, пока ты не смотришь.

— А если санскрит умирает — мы теряем что-то реальное?

— Определённые мысли становятся труднодоступными. Не невозможными — но как решать дифференциальные уравнения без нотации. Теоретически можно объяснить всё словами. Практически — никто так не делает, потому что инструмент определяет, что легко думать, а что требует непропорциональных усилий.

---

Сцена 08

Программа, которая описывает себя

— Хорошо. Вы говорите, что грамматика Панини — это буквально код. Что именно это значит?

— Начну с понятия гомоиконичности. В LISP код и данные имеют одну структуру — список. Список может быть программой, а программа — данными для другой программы. Программа может модифицировать саму себя. Граница между «тем, что исполняется» и «тем, над чем работают» отсутствует.

— И Панини смотрел на санскрит так же?

— Панини смотрел на санскрит как на объект, описываемый на том же уровне, что и сам язык. Метаязык грамматики и объект-язык разговора — одно и то же. Аштадхьяи — программа, написанная на санскрите, которая описывает санскрит. Это не метафора. Герард Хюэт из INRIA — один из создателей системы доказательств Coq — обнаружил, что правила Панини можно напрямую имплементировать как алгоритм. Без переосмысления, без интерпретации — буквально перевести в код. Heritage Dictionary of Sanskrit Grammar — это буквально программа по Панини.

— А сандхи — это тоже алгоритм в строгом смысле?

— Чистый конечный автомат. Каждое правило принимает контекст — какой звук стоит слева и справа от границы слова — и выдаёт детерминированный результат. Та же математическая структура, что в лексических анализаторах компиляторов. Все 3959 правил упорядочены, приоритеты между ними явны — это работающая программа, написанная устно, без записи.

— И тут появляется связь с Гёделем?

— Теорема Гёделя о неполноте: любая достаточно мощная формальная система содержит утверждения, которые истинны, но недоказуемы изнутри самой системы. Система не может полностью описать себя, не выйдя за собственные границы. Аштадхьяи достаточно мощная — и у неё есть правила, которые отменяют метаправила, которые отменяют правила. Рекурсия, которая не замыкается чисто. Это не баг — это свойство любой системы такой выразительной мощности. И, возможно, то же самое верно для мышления.

— Это значит, что сознание тоже неполно?

— Бхартрихари в пятом веке писал: сознание устроено как язык, а не наоборот. Мысль не существует до слова — они появляются вместе. Если это так — то формальная система, описывающая язык, описывает и то, как мышление порождает смыслы. И тогда любая достаточно мощная система мышления тоже будет содержать вопросы, на которые не может ответить изнутри себя. Это Гёдель применённый к сознанию. Панини к нему не пришёл явно. Но структура его работы это допускает.

— Получается, учить санскрит — значит загрузить другую операционную систему?

— Точнее — научиться видеть операционную систему, которая уже работает. Санскрит прозрачен в структуре: в нём трудно не замечать механизм, потому что механизм выписан явно в каждом окончании, в каждом правиле. Это как ассемблер: видишь то, что в языках высокого уровня спрятано за абстракциями. А что такое сознание в этой системе — среда выполнения или программист? Вот это открытый вопрос. Панини не ответил. Гёдель тоже.

---

Сцена 09

Почему компьютеры не заговорили на санскрите

— Давайте честно: что реально произошло с санскритом в NLP? Работает или нет?

— Не работает так, как описывает миф. И работает там, где миф его не ожидал. Оба утверждения правда.

— Начнём с «не работает».

— У сандхи есть принципиальная асимметрия. Синтез — детерминирован: берёшь два слова, применяешь правило, получаешь одну форму. Анализ — нет: берёшь готовую форму и пытаешься разложить обратно — и у тебя может быть много правомерных разборов. Короткая фраза «гардабхасьчашваш-ча» — «осёл и лошадь» — при компьютерном анализе сандхи даёт шестьсот двадцать пять фонетически корректных разбиений. Парсер должен выбрать одно. Правила не говорят какое — нужен контекст, статистика, знание о том, что в мире бывает.

— То есть там, где санскрит однозначен для говорящего, он неоднозначен для парсера?

— Именно. Говорящий использует контекст, знание мира, намерение говорящего. У машины этого нет. И вторая проблема — данные. Google Translate добавил санскрит только в 2022 году. Корпус санскрита — около шести миллионов слов. Common Crawl для немецкого языка обрабатывает больше за один день. Для нейронных сетей, которые работают через статистику на сотнях миллиардов слов, шесть миллионов — это почти ничто. Качество перевода проблематично именно там, где санскрит наиболее интересен: исследование 2024 года показало серьёзные несоответствия в философской терминологии.

— Но ведь сам Бриггс что-то другое имел в виду, да?

— Найдите мне в его статье фразу о том, что NASA должно перейти на санскрит. Любую. Там написано: индийские грамматисты придумали семантические сети за тысячу лет до Минского. Это историческое наблюдение. Из хорошо устроенных часов самолёт не строят.

— Тогда в чём «работает не там, где ожидали»?

— Санскрит оказался полезен как полигон. Когда ты делаешь архитектуру, справляющуюся с сандхи — максимально жёсткий тест морфологической сложности — она становится устойчивее для любого агглютинативного языка. Лучшая модель для санскрита в 2024 году показывала улучшенные результаты на финском и арабском. Санскрит выкручивает все ручки сложности на максимум. Пройти его — значит стать лучше на всём остальном. Только это не то, что имел в виду Бриггс, и совсем не то, о чём пишут в заголовках.

---

Сцена 10

Что исследование не доказало

— Возвращаемся к мозгу пандитов. Вы сказали — данные реальны, но вывод слабее, чем кажется. Что именно там не так методологически?

— Исследование называется «Sanskrit Effect». Находка реальная — семьдесят пять процентов прироста правого гиппокампа, плюс десять процентов серого вещества в целом. Но вывод, что именно санскрит это производит — интерпретация поверх корреляции, не причинность.

— Почему нельзя сделать этот вывод?

— Потому что контрольная группа неправильная. Двадцать один пандит против двадцати одного обычного студента. Нельзя разделить два совершенно разных эффекта: специфика санскрита как языка — и многолетняя экстремальная тренировка памяти с мультисенсорной нагрузкой. Что именно производит эффект — неизвестно. Нужна другая группа: люди, делающие то же самое по интенсивности, но на другом материале.

— Это как со скрипачами.

— Точно. Исследуешь руки скрипачей — гипертрофированы мышцы левой руки. Публикуешь: «скрипичная музыка меняет анатомию». А потом кто-то спрашивает: вы проверяли виолончелистов? Нет? Тогда вы нашли эффект интенсивных упражнений на левую руку, а не эффект скрипки. Харцелл написал это сам — в той же статье в Scientific American: «Это предварительное исследование не могло ответить на вопрос об уникальности санскрита». Дословно. Когнитивные тесты не проводились вообще.

— А чемпионы по памяти — что там?

— Вот это показательно. Чемпионы по памяти, которые тренируются методом локусов — дворец памяти, пространственное воображение, структурированные истории, никакого санскрита — показывают те же зоны активации в гиппокампе, что и пандиты. Сорок дней по тридцать минут — и обычный человек удваивает объём рабочей памяти. Мозг перестраивается. Санскрит не задействован вообще.

— Значит, дело в методе, а не в языке?

— Может быть. Именно «может быть» — и это честный ответ. Данные реальны. Увеличение гиппокампа реально. Мы не можем сказать: неправда. Мы можем сказать: не знаем, что именно это производит. Эти два утверждения очень разные. Первое — опровержение. Второе — честная неопределённость. Наука поставила правильный вопрос. Она его ещё не закрыла.

— Раздражает, когда наука ставит вопрос вместо ответа.

— Это лучше, чем уверенный ответ на вопрос, которого не задавали. Заголовок «Sanskrit Effect» прилип. Вопрос «эффект чего именно» завис.

---

Сцена 11

Вопрос стал другим

— Хорошо. Давайте итог. Что реально из всего этого? Что правда, что нет?

— Смешиваете два вопроса, которые нужно разделить. Первый: уникален ли санскрит лингвистически? Второй: уникален ли он нейронно? Разные вопросы, разные ответы.

— Хорошо, разделим. Лингвистически?

— Да. Безусловно. Грамматика Панини — формальная порождающая система, написанная за двадцать пять веков до того, как такие системы появились в математике и информатике. Это не имеет аналогов в истории лингвистики нигде в мире. Синтаксис санскрита структурно устраняет целый класс неоднозначностей, которые были проблемой для NLP 1980-х. Это факты, не интерпретации.

— А нейронно?

— Здесь честный ответ — мы не знаем. Харцелл написал: не можем ответить на вопрос об уникальности санскрита. Чемпионы по памяти без санскрита дают те же паттерны в гиппокампе. Метод локусов за сорок дней перестраивает мозг без единого слова на санскрите. Но есть кое-что, что никто пока не проверил нейронно.

— Что именно?

— Финский язык — пятнадцать падежей, больше чем в санскрите. Его учат имплицитно, как коммуникацию: ты знаешь правильную форму, потому что слышал тысячи раз, не потому что знаешь правило. Санскрит учат явно: ты знаешь, что это именно инструментальный падеж, именно этого корня, именно по этому правилу. Ты думаешь о структуре, пока используешь структуру. Это называется металингвистическое осознание. В исследованиях билингвизма именно оно коррелирует с наиболее выраженными когнитивными преимуществами — сильнее, чем просто знание двух языков. Педагогическая традиция санскрита — возможно, ценнее самого санскрита. Но никто пока не поставил чистый нейронный эксперимент.

— Стоп. Тогда я пришёл спросить про NASA и уйду с вопросом про педагогику?

— Вы пришли с вопросом: NASA выбрало санскрит — правда или миф? Оказалось, что честный ответ — «один человек написал статью с реальным наблюдением, которое газеты превратили в миф». Вы пришли с вопросом: мозг пандита другой из-за языка? Оказалось: мозг другой — это факт, из-за чего именно — неизвестно. Оба вопроса — закрытые, с ответом «да» или «нет». И оба оказались сложнее.

— И в итоге что?

— В итоге другой вопрос. Что значит изучить формальную систему явно — не просто говорить на ней, а видеть её механизм? Панини не просто описал санскрит. Он смотрел на язык снаружи и спрашивал: как это работает, каков механизм? Не «что это значит» — а «как это устроено». Это другой режим отношения к любой системе. И когда вы учите санскрит традиционным методом — вы делаете то же самое. Вы не просто говорите на языке, вы видите его механизм на каждом шаге.

— И этот режим — важнее конкретного языка?

— Для обучения — важнее. Для AI — тоже. И для собственного мышления — тем более. Но если отбросить все заголовки и вернуться к тому, с чего мы начали — там был вопрос без простого ответа: как устроен механизм? Панини задал его в четвёртом веке до нашей эры: как из минимального числа правил порождается бесконечное разнообразие слов? И ответил так точно, что через двадцать пять веков другой человек переоткрыл ту же структуру, не зная об оригинале.

— Бэкус.

— Бэкус. Два человека, разделённые двадцатью пятью столетиями, без контакта — пришли к одной форме. Это не совпадение вкусов. Значит, вопрос был правильным. А правильный вопрос, кажется, не устаревает — даже через двадцать пять веков.

Сцены

Заметки

Выделите фрагмент, чтобы добавить заметку.