Математизация автороведческой экспертизы

Пиццикато Алексея Лота

Математизация автороведческой экспертизы

В древние времена письменность была доступна только элите, имевшей значительное влияние среди остальных людей. Глиняные дощечки и папирус служили средством передачи информации. С появлением книгопечатания все больше читателей появлялось у огромного числа авторов. Сегодняшний человек не мыслит себя без средств массовой информации и книг. С ростом популярности авторов увеличивалось количество их подражателей. Стало подвергаться сомнению авторство старинных текстов. В связи с этим возникла потребность в автороведческой экспертизе, которой и посвящена эта работа. Задача установления авторства определяет необходимость построения алгоритма решения в виде последовательности действий, производимых над текстами. Этот тривиальный на первый взгляд подход требует от разработчика алгоритма глубочайшей осмысленности операций при обработке данных авторов: только качественное решение дает гарантированный результат. Интуитивно задача идентификации авторства имеет бесчисленное количество решений. Несомненно, язык автора и состояние самого автора меняются от произведения к произведению. Поэтому в алгоритм решения можно внести допущение на ошибку, которое помогло бы нивелировать вышеупомянутый эффект. По Маркову, авторским текстам присуще наличие шумов и языковых особенностей. Вместе с тем, произведение автора содержит собственно авторские компоненты, выделить которые достаточно для определения всех текстов этого автора среди неизвестных трудов. Рассматривая текст произведения на временной оси, легко отметить, что время, затрачиваемое на написание какой-либо логически завершенной части текста автором будет пропорционально его длине как оценке затраченного труда. Когда мы рассматриваем предпринимательскую способность как фактор, обуславливающий жанр, целевую аудиторию и прочие видимые невооруженным глазом любопытному ученому характеристики литературного произведения, то невольно обнаруживаем, что отчасти эта способность задает направление прочих затрат ради написания произведения: времени и писательского таланта. Таким образом, предпринимательская способность, будучи приложенной в сфере литературного авторства, во многом будет влиять на протяженность текста в единицах его длины. Не исключая из устремлений автора замысел просвещения, зафиксируем сходящие с его пера длины наименьших, логически завершенных и могущих быть в каком-то ракурсе полными смысла в конкретном произведении, единиц текста произвольного его произведения, растянутого на временной оси, чтобы приблизиться к пониманию экспериментального подсчета рассматриваемой предпринимательской способности, доля которой внесена в текст. За такую единицу текста примем одно его предложение как наиболее завершенную часть внутри самого крупного элемента исследуемого материала – текста произведения автора. Предпринимательская способность подчиняет себе писательский талант во времени, она формируется с течением жизни автора, дается с рождения и может утрачиваться. Поэтому категория завершенности должна в наибольшей мере быть присуща рассматриваемому произведению, закрывая его от дефектов – привнесений автора, обладающего сильно измененной предпринимательской способностью, а также других явлений, могущих исказить дух творчества, сопутствующий произведению. Признав счетной величиной предложение текста, необходимо избежать влияния длины всего текста произведения на научное распознавание духа творчества автора. Это связано с тем, что намеренно изменяемая длина текста могла бы легко ввести в заблуждение исследователя. Далеко не всегда автор может позволить себе облекать мысли в краткие, но ёмкие формулировки. Такое самоограничение творческой личности часто навлекается неготовностью читателя к некоторым сообщениям. Размышляя над подсчетом весомых характеристик автора, скрытых в тексте, можно разукрупнить предложение и подробнее рассмотреть его составляющие. Нам привычно мыслеформы облекать в слова, собирать из них предложения, используя связующее звено – русский язык. Слова в свою очередь язык разбивает на буквы и звуки, а среди прочих элементов текста остаются знаки пунктуации. Попробуем проследить связь предложения – единицы длины текста – с его конструктивными слагаемыми. Мы улавливаем смысл предложения, складывая и сопоставляя его слова – они могут передаваться нам как зрительный образ. Кооперативный эффект воспринимаемой последовательности букв слова, представленных кириллицей, легко понимается грамотным человеком. И такое представление очень удобно для работы со словом как объектом составным. Воспринимаемое в его звучании слово гораздо труднее поддается взятию как объект языка текста, да и современные ЭВМ гораздо легче позволяют работать с текстовой информацией, нежели звуком, полагаемым к дискретному счету. Таким образом, самым удобным способом манипуляции произведением признаем перебор букв его текста, а также знаков препинания, сохраняющих его структуру. Если бы анализ производился в речевом воспроизведении текста, то мы бы ушли от общеупотребительной формы представления художественных литературных произведений, дополнительно усложнив задачу построением системы распознавания речи. На данном этапе развития технологий и человека недопустимо пускаться в погоню за улучшением средств решения задачи в ущерб процессу ее решения. Исходя из вышесказанного можно утверждать, что на пути к построению предложения автору предстоит преодолеть сложный процесс словотворчества. Слово есть в любом предложении. Оно выступает элементом протяженности его смысла, его глубины, значимости и отнесенности к объектам повествования. Слову присуща также дискретность. Всегда удастся подсчитать точное количество слов в предложении, которое не будет зависеть от каких-либо характеристик слов, кроме их наличия. Также немаловажно заметить, что наш исследуемый объект постоянен во времени его анализа, т.е. никакие измеряемые параметры не будут показывать различные значения с каждой новой попыткой подсчета по постоянному алгоритму. Не получится отыскать меньшую слова единицу текста, способную указать дух творчества его автора. Поэтому опираясь на количество слов в его связи с предложением, которое бы не зависело от длины текста, можно охарактеризовать автора произведения как личность. Самый простой и эффективный способ получить такую величину – взять ее среднее арифметическое как непрерывную оценку. Среднее количество слов в предложении – действительная характеристика текста, указывающая связь художественного литературного произведения с духом творчества автора в его обусловленности предпринимательской способностью и писательским талантом. Предпринимательская способность здесь описывает необходимость употребления писательского таланта, в свою очередь содержащего богатство языка, меткость подстановки, словоохотливость, точность решения задач, перед которыми предпринимательская способность ставит автора и т.д. Зададимся целью установления наиболее точной единицы счета длины предложения как математической величины. Очевидно, что для лучшего понимания результата такая величина должна позволять натуральный счет и быть наименьшей относительно всего предложения из всех таких величин. Интуитивно такой мерой полагается одна буква предложения. Знаки препинания не будут существенно влиять на длину предложения, т.к. их количество намного меньше общего количества букв предложения. Буквы, в отличие от слов, которые можно принять единицей словарной, являются единицей значительно меньшего пространства – алфавитной. Мы не смогли бы отказаться от вычисления длин в словах в пользу побуквенного вычисления, т.к. несомый буквой в ее единичности смысл практически не воспринимаем. Вместе с тем, хотелось бы учесть знаки препинания предложения в их связи с его конструкцией, обусловленной вводными составляющими, оборотами, перечислениями и т.п., несущей часть смысла целого предложения. Часто конструкции языка внутри предложения обрамляются в запятые – зачастую их несколько в одном предложении. Относительной величиной, подходящей в таком качестве, является количество букв между запятыми в предложении. Причем опять берем среднее арифметическое этой величины. Наша привязанность к среднему арифметическому в математическом смысле объясняется следующим. Когда мы наблюдаем численные значения величины из анализа текста, то самой доступной к пониманию динамики составления текста является значение, которого стремится достичь эта величина. Такое значение в математической статистике называют математическое ожидание. Часто при решении задач оно бывает задано, однако в нашем случае сталкиваемся с неизвестны математическим ожиданием, т.к. параметры текста не были заданы изначально.