Методические материалы, статьи

Поговори со мной, компьютер

Устройство, созданное на основе принципа нейронной сети, понимает
человеческую речь даже лучше, чем сами люди.

В американском университете на юге Калифорнии, в лаборатории биомедицинской инженерии разработана первая в мире автоматическая система распознавания речи, которая делает это лучше, чем человек. Добиться столь выдающихся результатов удалось благодаря кардинальному переосмысливанию структуры компьютера, занимающегося распознаванием речи. Прежде ни одному компьютерному устройству этого сделать не удавалось, хотя попытки предпринимались многократно. Систему создали профессора университета Теодор Бергер и Джим Ши Ли.

Полученный результат может довольно скоро привести к совершенно новому способу общения с компьютером, существенно помочь в таких областях человеческой деятельности, где требуется понимать сказанное на фоне мешающего шума, например, авиадиспетчерам. Не менее заинтересованы в использовании новой технологии и моряки-подводники, которые прилагают большие усилия, чтобы отличать под водой шум вражеской лодки от посторонних шумов. При определенном развитии метод может с успехом использоваться для автоматического прослушивания и контроля состояния сердца человека. Все перечисленные заинтересованные организации активно финансируют исследования, и они продолжаются все интенсивнее.

Нейронные сети — это способ построения компьютера по принципу человеческого мозга. Он был впервые предложен в сороковые годы и особенно активно начал развиваться в 80-е и 90-е. Суть его в том, что информация обрабатывается не в центральном процессоре, а при помощи целой сети простых элементов, называемых нейронами. Нейронная сеть не программируется изначально, а самообучается в процессе выполнения своих задач. «Математическая теория говорит, что подобные сети должны быть очень эффективны для определенного типа задач, особенно для распознавания образов, но на деле достичь этого не удается, — говорит Ли, глава лаборатории нейродинамики. — Мы не можем даже приблизиться к возможностям настоящих биологических систем». Система распознавания речи Ли и Бергера — один из первых примеров успешной работы искусственной нейронной сети, она построена из 11 нейронов и 30 связей между ними.

Бергер считает, что предыдущие попытки построения искусственных нейронных сетей терпели неудачу потому, что их создатели недооценивали сложность настоящих биологических систем и копировали только их внешнее устройство. «Нейроны обрабатывают информацию, распределенную во времени, — поясняет Бергер. — Они говорят друг с другом на «языке», но информация закодирована не в получаемых сигналах, а в их длительности и времени прихода. Два импульса, пришедшие через определенное время, активируют нейрон, а два других — через чуть больший или меньший интервал — оставляют его совершенно равнодушным. До сих пор при создании нейронных сетей использовались импульсы разной интенсивности, но все запускаемые с тактовой частотой компьютера и одинаковой длительности. В живых клетках важнее всего интервалы между импульсами».

Бергер и Ли создали нейроны на основе компьютерных чипов, которые по мере возможности имитируют деятельность живых клеток гиппокампа, отдела мозга, участвующего в ассоциативном мышлении. Каждый из искусственных нейронов обладает свойствами нейрона гиппокампа, все они немного отличаются друг от друга. Созданная сеть тренировалась достаточно сложным способом, максимально воссоздающим реальное обучение. На вход системы подавалось слово и, если оно распознавалось правильно, то существующая система связей получала дополнительный плюс, как работающая правильно. Если же слово распознавалось неправильно, то система связей получала отрицательную оценку. Если оценка становилась меньше какого-то критического значения, то система связей менялась и обучение продолжалось. Миллионы и миллионы слов надо подать на вход, чтобы постепенно система «затвердила» правильно работающие связи между нейронами.

Новая система распознает слова независимо от голоса, которым они говорятся. Мало того, она различает речь на фоне шума в тысячу раз более громкого, чем сказанные слова. Говоря более точно, различается 60 процентов разговора при уровне шума в 560 раз выше. Человеку это недоступно: человеческое ухо начинает путаться, если шум чуть громче прослушиваемого разговора. Компьютер способен различать слова и на фоне других разговоров – в фойе театра или на коктейль-пати, например. Все прежние системы пасовали, если к разговору добавлялся другой разговор, даже в десять раз более тихий.

По материалам Интернет-журнала ScienceDaily подготовил Александр Семенов

ПРОЕКТ
осуществляется
при поддержке