Цветен филтър

    Цветният филтър означава оцветяване на думите в различни цветове според честота на срещанато им. Идеята е редките думи да се откроят визуално, за да може да проверите дали не са потенциални грешки. За да активирате цветния филтър, щракнете опцията "цветен филтър" и натиснете бутона "Refresh". След това проверете новооцветените думи за грешки (особено оранжевите и светлосините).

    На всяка една българска дума е присвоено число от 0 до 4999, наречено "разпределение", показващо дали думата и популярна или рядка . Представете си библиотека, в която има 5000 романа. "Разпределението" на една дума показва в колко от тези романа е най-вероятно да срещнем тази дума. Най-честите 94 български думи (на, и, да, се, в, от, не, е, за, си ...) бихме срещнали във всичките 5000 романа. Те имат разпределение 0. Няколко думи бихме срещнали в 4999 романа и ще липсват само в един. Те имат разпределение 1. Продължаваме така до разпределение 4999, което означава, че думата се среща само в един роман и липсва в останалите 4999. Липса на разпределение (оранжев цвят) означава, че думата не се среща в нито един от 5000-те романа, но въпреки това е валидна българска дума.

    Думи с разпределение по-голямо от 4995, т.е. срещащи се в по-малко от 5 романа, се считат за редки и потенциално грешни и се оцветяват по следния начин:

    цвят1 (тъмнозелен) — разпределение 4996
    цвят3 (тъмносин) — разпределение 4997
    цвят4 (син) — разпределение 4998
    цвят5 (светлосин) — разпределение 4999
    цвят8 (оранжев) — свръхредки, които не се срещат нито веднъж в изследвания български корпус, и затова нямат разпределение.

      
   
    Цветове
2, 6 и 7 не се използват при оцветяване на български текстове, а само на английски (виж по-долу).

    За да се определи разпределението на всяка българска дума е изследван български текстов корпус, съдържащ 274'696'389 думи (1.58GB). Този корпус от десетки хиляди отделни текстове (романи, статии и пр.) се разглежда като един непрекъснат текст, който се разделя линейно със специална програма на 5000 части, съдържащи точно по 54940 думи (~330K) или всяка част е колкото средно дебел роман. След това се извършва броене на словоформите.

    Една дума може да се срещне 10 пъти в един-единствен роман и нито веднъж в останалите 4999. Тоест абсолютния брой на срещанията на думата в целия корпус, в случая 10, е нещо съвсем различно от разпределението на думата, което показва единствено в колко романа се среща думата. За нашите цели приемаме, че дума, която се среща по един път в 3 различни романа е по-популярна от дума, която се среща десет пъти в един-единствен роман и не се среща в нито един от другите 4999 романа. Тоест, за определяне популярността на дадена дума водещо е разпределението й
(хомогенността на срещането й в корпуса), а не абсолютният брой на срещанията.


---------------------------------------------------------------------------

    Английските словоформи имат т.н. ранг, в основата на който също е разпределението. Колкото по-често срещана е думата, толкова рангът е по-малък. Например пълният член the е най-често срещаната английска дума и затова има ранг 1. Думата smile има ранг 1353, означаващо, че 1352 думи са по-често срещани от нея. Думата arbitrament е с ранг 72944, означаващо, че е доста рядка. Думата arboriculturist е с ранг 114084, което значи, че е изключително рядка.

    Цветният филтър оцветява английските думи в зависимост от ранга и за разлика от използването му при български текст тук той не служи за откриване на потенциални правописни грешки, а за улесняване на изучаващите английски език към кои думи да насочат вниманието си в зависимост от това на какво ниво на владеене на езика са в момента. Това няма отношение към спелчекъра, но съществува като функционалност.

    Най-честите 8'000 английски думи, с ранг от 0 до 8'000, не се оцветяват. По-редките английските думи с ранг над 8'000 се оцветяват в следните осем цвята:

    цвят1 (тъмнозелен) — ранг от 8'000 до 18'004
    цвят2 (мръснозелен) — ранг от 18'005 до 28'007
    цвят3 (тъмносин) — ранг от 28'008 до 40'419
    цвят4 (син) — ранг от 40'420 до 57'842
    цвят5 (светлосин) — ранг от 57'843 до 78'723
    цвят6 (виолетов) — ранг от 78'724 до 97'242
    цвят7 (бледокафяв) — ранг от 97'243 до 122'085
    цвят8 (оранжев) — без ранг. Това са останалите към 31'000 свръхредки думи от общо 153'143, които кък момента са в английския словоформен списък (също проект на IDI). Те не се срещат нито веднъж в изследвания английски корпус и затова нямат ранг.