Eugene Peskin (eugenegp) wrote,
Eugene Peskin
eugenegp

разнообразие картины мира

Одной из характеристик языков, очень важной для изучающего язык, является размер частотного словарного ядра. Например, считается, что самые часто употребляемые 2000 английских слов (корневых) дают в среднем 80% всех слов в английском печатном тексте ообщего назначения. Соответственно, зная эти 2000 слов, человек будет понимать 80% письменной речи. При таком словарном запасе каждое пятое напечатанное слово будет незнакомым, и для понимания остального по контексту это считается недостаточным. Вроде бы для разумного уровня понимания английского текста нужно знать 95% употребленных слов. Для понимания устного неформального разговора этих же 2000 слов оказывается достаточно; а вот для общего письменного текста, чтобы набрать 95%, понадобится, по разным данным, от 3000 до 5000; для свободного понимания научных материалов - аж до 15000 слов.

Всего в самом большом (без учета устаревших слов) английском словаре насчитали больше 53000 гнезд, т.е. корневых слов (word families). Так что вроде бы хорошая новость - можно выучить только десятую часть, и вперед.

Опять же грубо можно считать, что человек, у которого данный язык родной, вводит в свой личный словарь около 1000 корневых слов в год. В 5-6 лет, у дошкольника, словарный запас составляет 5-6 тыс. слов, а у выпускников американских университетов - 20 тыс. (Понятно, что эти цифры средние, есть довольно большой разброс).

Отсюда следуют соответствующие методики изучения иностранных языков, и т.п.

Но - есть такой язык малалаям, на котором говорят 37 млн. человек, в основном в Индии.
И кочинские (малабарские) евреи на нем говорили. Те самые евреи, которые завели у себя три "касты" (черные, белые и коричневые), и три синагоги для каждой; и которые служили в войске раджи, но не сражались по субботам. (http://www.eleven.co.il/article/12210)

Так вот - в языке малалаям, родственном тамильскому, совершенно другой частотный расклад. Для понимания 80% текста надознать 126 тысяч разных слов. У говорящих рядом на хинди - всё как обычно, 80% текста - 2800 слов.
Это, конечно, если компьютер при подсчете не напутал со словоформами :)
http://ltrc.iiit.ac.in/MachineTrans/publications/technicalReports/tr022/camera-187.pdf
Subscribe

  • электричество смотрит нам в лицо

    Чтоб второй раз не вставать - когда я убедился в грядущем массовом переходе городского личного и общественного автомобильного транспорта на…

  • шашечки

    Как дела с разработками роботизированного, самоуправляющегося такси? Наверное, прорывы в AI дали новые перспективы, ускорили этот давно ожидаемый…

  • творения

    Сказки про ЭКО и репродуктивную терапию: очень давно я собрал перечень способов, которыми пользовались бездетные родители в стародавние времена. Чтоб…

  • Post a new comment

    Error

    Anonymous comments are disabled in this journal

    default userpic

    Your reply will be screened

    Your IP address will be recorded 

  • 4 comments