Для анализа были собраны и переведены в текстовый формат учебники «Воспитание» с 1-го по 11-й классы (2020-2021 года выпуска) в
электронном виде. Для анализа структуры учебников мы вручную разделили весь контент на категории: «Как должен выглядеть и вести себя ребенок»; «Личностное развитие, успех, бизнес»; «Моральные качества и этика»; «Общество (друзья, махалля, школа)»; «Общие знания»; «Родина и патриотизм»; «Семья и семейные ценности», «Другое». Для обозначения категории мы использовали название главы. Если из названия не было ясно, к какой категории она относится, мы опирались на текст главы.
Для анализа текстов был использован язык программирования Python и его библиотеки. Чтобы проанализировать частоту употребления слов, мы очистили весь текст от пунктуации, а также провели лемматизацию и убрали стоп-слова. Далее с помощью библиотеки Mystem мы выделили существительные и прилагательные, не включив слова являющиеся оглавлением рубрик: вопрос, деятельность (творческая деятельность), размышление (для размышления) и т.д.
Чтобы составить список самых упоминаемых личностей, мы использовали библиотеку Natasha, которая помогла нам посчитать все имена, имеющиеся в тексте. Далее вручную исправили неточности — библиотека плохо распознает некоторые имена и фамилии вместе (например: Амир Темур или Ибн Сина). Неполная версия имени собственного (только фамилия или только имя) засчитывалась, если из текста было ясно, о ком идет речь. Разное написание одного и того же имени (например, Авиценна и Абу Али Ибн Сино) также учитывались.
Для анализа связи слов был создан список слов («Родина», «Любовь», «Ценность», «Религия» и т.д.), при помощи кода проверили, с какими словами чаще всего встречаются в одном предложении выбранные нами слова из списка.
В работе над проектом были использованы средства автоматизации, включая методы обработки естественного языка. Практически любая библиотека, работающая с ними, не идеальна и допускает редкие ошибки.