Проблемът с пола на Google Translate (И на Bing Translate, и на Systran ...)

Google Translate и други популярни платформи за превод често предоставят неволно сексистки преводи, където, наред с други неща, лекари са мъже и учители са жени. Причината защо е свързана със сложна комбинация от алгоритми, лингвистика и изходни материали.

Проблемът с пола на Google Translate (И на Bing Translate, и на Systran ...)

Google Translate е най -популярната в света платформа за уеб преводи, но един изследовател от Станфордския университет казва, че всъщност не разбира пола и пола. Лонда Шибингер, която управлява Станфорд Джендър иновации проект, казва, че изборът на изходните бази данни на Google причинява статистически пристрастия към съществителните имена и глаголите от мъжки пол в превода. В документ на обработка на пол и естествен език , Schiebinger предлага убедителни доказателства, че изходните текстове, използвани с алгоритмите за превод на Google, водят до неволен сексизъм.

Машинен превод и пол



В рецензиран казус, публикуван през 2013 г., Шибингер илюстрира, че Google Translate има тенденция да превръща неутрални по пол английски думи (като напр. , или професионални наименования като напр професор и лекар ) в мъжка форма на други езици, след като думата бъде преведена. Въпреки това, някои неутрални по пол английски думи се превеждат в женска форма. . . но само когато отговарят на определени полови стереотипи. Например, неутралните по пол английски термини подсъдим и медицинска сестра преведете на немски като подсъдим и медицинска сестра. Ответник се превежда като мъж, но медицинска сестра автоматично се превежда като жена.

Там, където Google Преводач наистина се спъва, твърди Шибингер, е в липсата на контекст за неутрални по пол думи на други езици, когато са преведени на английски. Шибингер публикува статия за нейната работа във вестника на испански език Страната на английски език чрез Google Translate и конкурентната платформа Systran. Google Translate и Systran преведоха неутралните по пол испански думи suyo и dice като негови и той каза, въпреки факта, че Schiebinger е жена.



Тези видове думи повдигат конкретни проблеми в Bing Translate, Google Translate, Systran и други популярни платформи за машинен превод. Инженерите на Google, работещи по Translate, казаха на Co.Labs, че преводът на всички думи, включително тези от пол, се претегля главно от статистическите модели в преведените двойки документи, намерени онлайн. Тъй като заровете могат да се преведат както той е казал, така и тя, алгоритмите на Translate разглеждат комбинации от зарове във връзка със съседни думи, за да видят кои са най -честите преводи на тези комбинации. Ако заровете се изобразяват по -често в преводите, които Google получава, както той казва, тогава Translate обикновено ще го направи мъжки, а не женски. Освен това екипът на Google Translate добави, че тяхната платформа използва само отделни изречения за контекст. Половите съществителни имена или глаголи в съседни изречения не се претеглят от гледна точка на установяване на контекст.

Изходен материал, културен контекст и пол



Шибингер каза пред Co.Labs, че проектът е еволюирал от хартия, написана от студент, който работи по въпросите на обработката на естествен език. През юли 2012 г. в Станфордския университет се проведе уъркшоп с външни изследователи, който беше превърнат, след рецензия, в хартиен превод.

Google Translate, който е изправен пред почти невъзможната цел за точно превеждане на световните езици в реално време, от години се сблъсква с проблемите на пола. Към честта на Google, Mountain View редовно променя алгоритмите на Google Translate, за да коригира неточностите в превода. Алгоритмите за превод на език са скандално сложни. Инженерите в Google, Bing, Systran и други фирми не трябва само да вземат предвид граматиката - те трябва да вземат предвид контекста, подтекста, подразбиращите се значения, културните странности и милион други субективни фактори. . . и след това ги превърнете в код.

Но въпреки това тези неточности съществуват - особено по отношение на пола. В един случай миналата година потребителите откриха, че превеждащите мъже са мъже и мъжете трябва да почистват кухнята на немски станали мъже са мъже и жените трябва да почистват кухнята - което означава, че мъжете са мъже и Жени трябва да почистите кухнята. Намерен е друг потребител на Google Преводач на немски език пристрастие към работата на различни езици –Естествените термини на английския език, свързани с пола Учител по френски език, учител в детска градина, и учител по готварство всички те се появиха във френските и немските издания на Google Translate в женска форма, докато инженер, лекар, журналист и президент бяха преведени в мъжка форма.



Натали Кели, автор на Намерено в превод: Как езиците оформят живота ни и трансформират света, чиято фирма предлага продукти с езикова технология, каза на Co.Labs, че мъжките пристрастия в машинния превод са изключително често срещани. Ако използвате статистически подход за създаване на превода, системата ще копае всички минали преводи и ще обслужва най -вероятния кандидат за правилен превод въз основа на честотата. Като се има предвид, че местоименията на мъжете са били свръхпредставени през историята в повечето езици и култури, машинният превод има тенденция да отразява това историческо пристрастие към пола, каза Кели.

Резултатите могат да бъдат силно объркващи, дори неточни. Например в Google Translate, ако превеждате инженер на испански той излиза като мъжки инженер, но ако сложиш жена инженер, ти получаваш женски секс инженер, което означава нещо като инженер от женски пол. Това на испански звучи доста меко казано! Ако пишете жена инженер в Bing Translate, получавате инженер, което е технически правилно. Но все пак трябва да уточните женски пол за да се постигне женски резултат. Не е нужно да посочвате инженер -мъж да получите инженер. Трябва само да въведете инженер. [Има] присъщо пристрастие към пола в повечето системи за машинен превод.

Статистическата същност на корпуса

Причината, поради която това се случва, е статистическа. На всеки език, на който работи Google Translate, алгоритмите обработват значение, граматика и контекст чрез огромен брой предварително качени документи. Тези документи, които варират от език на език, определят как всъщност работи Google Translate. Ако изходният материал, използван за преводи, има обобщено отклонение по отношение на предпочитане на един пол пред друг, това ще бъде отразено в преводите, получени от потребителите.



Когато потребител в Google Групи разпита пристрастие към мъжки пол в преводи на иврит през 2010 г. Xi Cheng на Google отбеляза, че Google Translate е напълно автоматизиран машинно; никой не налага изрично никакви правила; преводът се генерира според статистическата природа на корпуса, който имаме.

Според Шибингер системите за машинен превод като Google Translate използват два отделни вида корпуси. Паралелен корпус с текст на един език, който се използва за сравняване на превод на друг език, докато голям едноезичен корпус на целевия език, на който се превежда, се използва за определяне на граматиката и разположението на думите. Ако мъжките или женските форми на думи са систематично предпочитани в използвания корпус, това води до алгоритъма за превод в полза на този конкретен пол.

Машинният превод в крайна сметка зависи от преводачите и лингвистите, които дават контекст както на алгоритмите, така и на изходния материал, който използват. Google Translate, Bing Translate и Systran вършат зашеметяваща работа, като осигуряват незабавни преводи на зашеметяващ набор от езици. Предизвикателството за разработчиците на платформи за преводи е как да подобрят допълнително своя продукт и да увеличат точността - нещо, което ще видим повече в бъдеще.

[ Изображение на учителя: Колекция Еверет чрез Shutterstock ]