Инструкция по пользованию сервисом

В основном работа идет со списком слов из которых были отброшены стопслова, или как их еще называют водные. Понятие стоп-слов у нас несколько шире чем у поисковых систем. Мы отбрасываем все слова длиной в 1-2 символа, все вводные слова, все оценочные эпитеты и прочие слова которые обычно не несут смысловой нагрузки, а лишь помогают воспринять текст или оценивают те или иные его качества.

Пример текста из одних стоп-слов:
Любимый мой! Я хочу сказать тебе, что ты у меня самый любимый! Ты самое лучшее, что было у меня. Я никогда не смогу сказать тебе об этом, однако, это на самом деле так. Ты действительно лучший из всех. На самом деле я больше не могу без тебя. Когда ты наконец поймешь это? Неужели я так и буду без тебя? Я так не смогу! Когда я думаю о тебе то я понимаю, что ты идеальный! Ты нужен мне. Я хочу чтобы ты был моим! Ведь ты же знаешь, что только я смогу быть верной тебе. Я предлагаю тебе как можно быстрее прийти ко мне и стать моим. Я вся твоя, и я не знаю как я смогу без тебя. Мне нужен ты, и больше никто мне не нужен. Лучше меня не будет, чем я буду без тебя.

Пример текста, в котором нет стоп-слов:
Дьяченко Максим Игоревич. Место жительства - город Одесса. Образование - Одесская Национальная Морская Академия. Специализация - программирование, интернет-технологии, электронная коммерция, руководство проектами. Эксцентричен, хитер, вспыльчив, коммуникабелен. Предпочитает носить одежду светлых тонов. Любвеобилен. Холост. Злоупотребляет интернетом. Знак зодиака - весы. Интеллект выше среднего. Характер тяжелый. Знание иностранных языков - английский, французский. Интересуется психологией. Чувство стиля отсутствует. Эксплуатирует чужой труд. Занудный, скучный, наглый, темпераментный.

Водность это процент отброшенных слов. Нормальное значение 30-60% помогает немного представить себе качество текста... Если водность слишком маленькая, то текст трудно читается - если большая, то он кажется слишком уж малосодержательным. Чтобы лучше понять разницу посмотрите на примеры выше. В них водность рана 100% и 0% соответственно. Лично я пользуюсь этим параметром чисто интуитивно..

Словарь текста это количество РАЗНЫХ слов в тексте.

Обезвоженный словарь это количество РАЗНЫХ слов в тексте за вычетом стоп-слов.

В списке наиболее употребляемых слов указано сколько раз это слово употребляется в тексте и процент от ОБЕЗВОЖЕННОГО СЛОВАРЯ.


www.megastock.ru