Цветен филтър
Цветният филтър
означава оцветяване на думите в различни цветове според честота
на
срещанато им. Идеята е редките думи да се
откроят визуално, за да може да проверите дали не са
потенциални грешки. За да активирате цветния филтър, щракнете
опцията "цветен филтър" и
натиснете бутона "Refresh". След
това проверете новооцветените думи за грешки
(особено оранжевите и светлосините).
На всяка една българска дума
е присвоено число от 0 до 4999, наречено "разпределение",
показващо дали думата и популярна или
рядка . Представете си библиотека, в която има 5000 романа. "Разпределението"
на една дума показва в колко от тези романа е най-вероятно да срещнем тази дума.
Най-честите 94 български думи (на,
и, да, се,
в, от, не, е, за, си ...) бихме срещнали във
всичките 5000 романа. Те имат разпределение 0. Няколко думи бихме срещнали в
4999 романа и ще липсват само в един. Те имат разпределение 1. Продължаваме така
до разпределение 4999, което означава, че думата
се среща само в един роман и липсва в
останалите 4999. Липса на
разпределение (оранжев цвят) означава, че думата не се среща в нито
един от 5000-те романа, но въпреки
това е валидна българска дума.
Думи с разпределение по-голямо от 4995,
т.е. срещащи се в по-малко от 5 романа, се считат за редки
и потенциално грешни и се оцветяват по следния начин:
цвят1 (тъмнозелен) — разпределение
4996
цвят3 (тъмносин) — разпределение 4997
цвят4 (син) — разпределение 4998
цвят5 (светлосин) — разпределение 4999
цвят8 (оранжев) — свръхредки, които не
се срещат нито веднъж в изследвания български корпус, и затова нямат
разпределение.
Цветове 2, 6 и 7 не се използват при
оцветяване на български текстове, а само на английски (виж
по-долу).
За да се определи
разпределението на всяка българска дума е изследван български текстов корпус,
съдържащ 274'696'389 думи (1.58GB). Този корпус
от десетки хиляди отделни текстове (романи,
статии и пр.) се разглежда като един непрекъснат текст,
който се разделя линейно
със специална програма на 5000 части,
съдържащи точно по 54940 думи (~330K)
или всяка част е колкото средно дебел роман.
След това се извършва броене на словоформите.
Една дума може да се срещне 10 пъти в един-единствен роман и
нито веднъж в останалите 4999. Тоест абсолютния брой на срещанията на думата в
целия корпус, в случая 10, е нещо съвсем различно от разпределението на думата,
което показва единствено в колко романа се среща думата. За нашите цели приемаме, че дума,
която се среща по един път в 3 различни романа е по-популярна от дума, която се
среща десет пъти в един-единствен роман и не се среща в нито един от другите
4999 романа. Тоест, за определяне популярността на дадена дума водещо е
разпределението й (хомогенността на срещането й в корпуса),
а не абсолютният брой на срещанията.
---------------------------------------------------------------------------
Английските словоформи имат т.н. ранг, в
основата на който също е разпределението. Колкото по-често срещана е
думата, толкова рангът е по-малък. Например пълният член
the е най-често срещаната английска дума и затова
има ранг 1. Думата smile има ранг 1353, означаващо,
че 1352 думи са по-често срещани от нея. Думата
arbitrament е с ранг 72944,
означаващо, че е доста рядка. Думата
arboriculturist е с ранг 114084,
което значи, че е изключително рядка.
Цветният филтър оцветява английските
думи в зависимост от ранга и за разлика от използването му при български текст
тук той не служи за откриване на потенциални правописни грешки, а за улесняване
на изучаващите английски език към кои думи да насочат вниманието си в зависимост
от това на какво ниво на владеене на езика са в момента. Това няма отношение към
спелчекъра, но съществува като функционалност.
Най-честите 8'000 английски думи,
с ранг от 0 до 8'000, не се оцветяват. По-редките
английските думи с ранг над 8'000 се оцветяват в следните осем цвята:
цвят1 (тъмнозелен) — ранг от 8'000 до
18'004
цвят2 (мръснозелен) — ранг от 18'005
до 28'007
цвят3 (тъмносин) — ранг от 28'008 до
40'419
цвят4 (син) — ранг от 40'420 до 57'842
цвят5 (светлосин) — ранг от 57'843 до
78'723
цвят6 (виолетов) — ранг от 78'724 до 97'242
цвят7 (бледокафяв) — ранг от 97'243 до
122'085
цвят8 (оранжев) — без ранг.
Това са останалите към 31'000 свръхредки думи
от общо 153'143, които кък момента са в
английския словоформен списък (също проект на
IDI). Те не се срещат нито веднъж в изследвания
английски корпус и затова нямат ранг.