Регионы России — это не просто границы на карте. В каждом регионе есть свои культурные традиции, во многих — свои языки. Машинный перевод мог бы помочь сохранять и применять эти языки — в частности, публиковать статьи в Википедии. Но как быть, если данных для обучения машинного интеллекта недостаточно?
Сегодня мы расскажем о нашем подходе на примере чувашского языка, которому мы обучили Яндекс.Переводчик. По данным последней переписи населения, этот язык считают родным более миллиона человек. ... Чтобы создать переводчик, нужны параллельные тексты. Много текстов. Но для чувашского языка их мало, даже с учётом поиска в интернете классическими методами. К счастью, нам на помощь пришли энтузиасты, которые за год помогли собрать 250 тыс. примеров. Мало для полноценного переводчика, но уже достаточно, чтобы начать эксперименты и сделать первый шаг. ...