Здесь собраны произведения различных писателей, с помощью которых я проверял точность работы модуля.
Слова, которые модуль определил как мат, в произведениях выделены красным цветом.
1. Виктор Пелевин. Чапаев и Пустота и Generation "П"
Пелевин, пожалуй, самый интересный автор в использовании мата в художественных произведениях. Его герои ругаются часто и разнообразно. Прекрасные тексты для демонстрации возможностей модуля.
2. Аркадий и Борис Стругацкие. Отель "У погибшего альпиниста" и Трудно быть богом
Используют мат крайне редко и невысокой крепости.
3. Борис Акунин. Азазель и Турецкий гамбит
Мат встречается довольно редко. В "Турецком гамбите" фраза "без сучка без задоринки" прекрасный пример ошибки, вызванной одинаковым написанием слова имющего в зависимости от контекста разный смысл.
4. Федор Михайлович Достоевский. Преступление и наказание
Огромное произведение (1.1 Mб), в основном предназначено для показа насколько неправильно работает модуль. Из всего этого большого текста ошибочно как мат было определено только два слова - Людвиговна и Пидерита, которые являются довольно редкими именами людей. По-моему, довольно хорошая работа.
5. Лев Николаевич Толстой. Хаджи-Мурат и Воскресение
Великий русский писатель здесь на высоте. "Хаджи-Мурат" единственное произведение из рассмотренных мною, в котором не обнаружено ни одного ругательства. И это при том, что действие книги происходит во время войны. Воскресение - еще одно крупное произведение (950 Kб) использовавшееся при тестировании модуля.
6. Михаил Булгаков. Мастер и Маргарита и Белая гвардия
В "Мастере и Маргарите" нецензурные выражения встречаются крайне редко, чаще ошибочно распознаются как мат сходные слова по написанию. Например "фиговый сад" и "сучья деревьев".
В "Белой гвардии", действие которой происходит во время гражданской войны, нецензурные выражения используются гораздо чаще.