як нармалізаваць матрыцу


адказ 1:

Гэты адказ датычыцца найбольш часта выкарыстоўванай нармалізацыі - робячы дадзеныя нулявым сярэднім і дысперсіяй адзінкі ўздоўж кожнай прыкметы. Гэта значыць, улічваючы матрыцу дадзеных X, дзе радкі ўяўляюць экзэмпляры навучання, а слупкі - функцыі, вы вылічыце нармалізаваную матрыцу X_ {norm} з элементам (i, j), зададзеным

X_ {норма, (i, j)} = \ dfrac {X _ {(i, j)} - \ mbox {азначае} (X_ {j})} {\ mbox {std} (X_j)}

дзе X_j - j ^ {th} слупок матрыцы X.

У гэтага ёсць некалькі пераваг, многія з якіх узаемазвязаны:

  1. Зрабляе навучанне менш адчувальным да маштабу функцый: разгледзім праблему рэгрэсу, калі вам улічваюць асаблівасці кватэры і патрабуецца прагназаваць кошт кватэры. Скажам, ёсць 2 асаблівасці - не. спальняў і плошча кватэры. Зараз, не. спальняў звычайна знаходзіцца ў межах 1–4, а плошча - 100–200 м ^ 2. Калі вы мадэлюеце задачу як лінейную рэгрэсію, вы хочаце вырашыць каэфіцыенты w_1 і w_2, адпаведныя нулю. спальняў і плошчы. Зараз, з-за маштабу функцый, невялікае змяненне w_2 значна зменіць прагноз у параўнанні з тым жа змяненнем w_1, да таго, што правільны параметр w_2 можа дамінаваць у працэсе аптымізацыі.
  2. Рэгулярызацыя паводзіць сябе па-рознаму для рознага маштабавання: Выкажам здагадку, у вас ёсць \ ell_2 рэгулярызацыя праблемы вышэй. Лёгка заўважыць, што \ ell_2 рэгулярызацыя штурхае вялікія вагі да нуля мацней, чым меншыя. Такім чынам, улічыце, што вы атрымліваеце некаторыя аптымальныя значэнні w_1 і w_2, выкарыстоўваючы дадзеную ненармалізаваную матрыцу дадзеных X. Цяпер замест таго, каб выкарыстоўваць m ^ 2 як адзінку плошчы, калі я змяню дадзеныя, каб прадставіць плошчу ў ft ^ 2, адпаведны слупок Х памнажаецца на каэфіцыент ~ 10. Такім чынам, вы маглі б чакаць, што адпаведны аптымальны каэфіцыент w_2 панізіцца ў 10 разоў, каб захаваць значэнне у. Але, як было сказана раней, рэгулярызацыя \ ell_2 цяпер мае меншы эфект з-за меншага значэння каэфіцыента. Такім чынам, вы атрымаеце большае значэнне w_2, чым можна было чакаць. Гэта не мае сэнсу - вы не змянілі інфармацыйны змест дадзеных, а значыць, вашы аптымальныя каэфіцыенты не павінны змяняцца.
  3. Паслядоўнасць параўнання вынікаў паміж мадэлямі: Як разглядаецца ў пункце 2, маштабаванне функцый уплывае на прадукцыйнасць. Такім чынам, калі ёсць навукоўцы, якія распрацоўваюць новыя метады і параўноўваюць папярэднія сучасныя метады з іх новымі метадамі, якія выкарыстоўваюць больш старанна падабранае маштабаванне, вынікі не будуць надзейнымі.
  4. Робіць аптымізацыю добра абумоўленай: большасць аптымізацый машыннага навучання вырашаецца з выкарыстаннем градыентнага спуску альбо яго варыянта. І хуткасць збліжэння залежыць ад маштабавання прыкмет (а дакладней, уласных значэнняў X ^ TX). Нармалізацыя робіць праблему лепш абумоўленай, паляпшаючы хуткасць збліжэння градыентнага спуску. Я даю інтуіцыю гэтага, выкарыстоўваючы просты прыклад ніжэй.

Разгледзім найпросты выпадак, калі A - матрыца дыяганалі 2 x 2, скажам, A = diag ([a_1, a_2]). Затым контуры мэтавай функцыі \ | Ax - b \ | ^ 2 будуць выраўнаваны па восі эліпсамі, як паказана на малюнку ніжэй:

Дапусцім, вы пачынаеце з кропкі, пазначанай чырвоным. Заўважым, што для дасягнення аптымальнай кропкі трэба зрабіць вельмі вялікі крок у гарызантальным кірунку, але невялікі ў вертыкальным. Напрамак спуска задае зялёная стрэлка. Калі вы ідзяце па гэтым кірунку, вы будзеце рухацца большай адлегласцю ў вертыкальным кірунку і меншай адлегласцю ў гарызантальным, што супрацьлеглае таму, што вы хочаце зрабіць!

Калі вы зробіце невялікі крок па градыенце, пераадоленне вялікай гарызантальнай адлегласці да аптымальнага зробіць вялікую колькасць крокаў. Калі вы зробіце вялікі крок па градыенце, вы перавысіце аптымальны па вертыкалі.

Такое паводзіны звязана з формай контураў. Чым круглявей контуры, тым хутчэй вы зблізіцеся да аптымальнага. Падаўжэнне эліпсаў задаецца суадносінамі найбольшага і найменшага ўласных значэнняў матрыцы А. У цэлым збежнасць задачы аптымізацыі вымяраецца яе нумарам умовы, які ў дадзеным выпадку з'яўляецца суадносінамі двух крайніх уласных значэнняў .

(Адказ Прасуна Гояла на пытанне "Чаму хуткасць збліжэння градыентнага спуску залежыць ад максімальнага і мінімальнага ўласных значэнняў A пры вырашэнні AX = b праз найменшыя квадраты.)


Нарэшце, я павінен згадаць, што нармалізацыя не заўсёды дапамагае, што тычыцца прадукцыйнасці. Вось просты прыклад: разгледзім праблему толькі з адной асаблівасцю з дысперсіяй 1. Дапусцім, я дадам фіктыўную функцыю з дысперсіяй 0,01. Калі вы правільна рэгулюеце мадэль, рашэнне не зменіцца асабліва з-за гэтага фіктыўнага вымярэння. Але калі вы зараз нармалізуеце яго, каб мець дысперсію адзінкі, гэта можа пашкодзіць прадукцыйнасці.


адказ 2:

Каб правільна адказаць на гэтае пытанне, неабходна высветліць розныя значэнні і мэты "нармалізацыі".


[1] Z-балы і t-балы: супастаўнасць і зручнасць

  • Мэта: зрабіць балы па зменных параўнальнымі; каб палегчыць ацэнку.
  • Захоўвае форму першапачатковага размеркавання: так.

Прыклад: стандартызаваныя балы для павелічэння супастаўнасці

Дапусцім, у нас ёсць два (розныя) псіхаметрычныя тэсты, тэст A і тэст B, якія, як вядома, вымяраюць пэўную рысу, здольнасць, стаўленне і г. д. Мы ведаем з папярэдняга досведу, што балы ў тэсце A і тэсце B маюць аналагічную размеркаванасць ; але мы таксама ведаем, што сродкі і стандартныя адхіленні адрозніваюцца ў залежнасці ад выпрабаванняў.

Выкажам здагадку, што чалавек, які я прайшоў тэст A, а j - тэст B. Калі мы хочам параўнаць іх балы, мы маглі б выкарыстоўваць "стандартызаваныя" балы ("z-балы") або "вывучаныя балы" (т-балы). Мяркуючы, што сродкі і sd для абодвух тэстаў вядомыя. Цяпер мы можам вылічыць:

\ quad z_i ^ {a} = \ frac {x_i ^ {a} - {\ text {mean} ({x} ^ {a})}} {{\ text {sd} ({x} ^ {a}) }} \ quad \ quad \ text {і:} \ quad \ quad z_i ^ {b} = \ frac {x_j ^ {b} - {\ text {mean} ({x} ^ {b})}} {{ \ тэкст {sd} ({x} ^ {b})}}

Цяпер, калі мы выявім, што z_i ^ {a}

Засцярога: гэта распаўсюджаная памылка, калі стандартызаваныя балы, такія як z-балы, змяняюць форму размеркавання; у прыватнасці, майце на ўвазе, што z-балы не могуць магічна зрабіць ненармальную зменную нармальнай.

Заўвага: акрамя таго, што робяць балы параўнальнымі, часам стандартызацыя дазваляе зрабіць больш простым ацэнку каэфіцыентаў у складаных мадэлях з па-рознаму маштабаванымі зменнымі.


[2] Табліцы нарматываў: супастаўнасць і агульная метрыка

  • Мэта: зрабіць балы па зменных зручнымі для інтэрпрэтацыі па значнай метрыцы.
  • Захоўвае форму зыходнага размеркавання: гэта залежыць ад трансфармацыі.

Дапусцім, мы правяраем чалавека па пэўнай рысе і набываем тэст-бал. Калі мы хочам ведаць, набраў чалавек адзнаку "нізка" ці "высока", нам патрэбныя знешнія дадзеныя, такія як табліцы нормаў.

Для псіхаметрычных тэстаў (напрыклад, тэстаў на здольнасць альбо на асобу) такія табліцы часта ствараюцца з дапамогай шырокіх працэдур праверкі на (рэпрэзентатыўных) узорах папуляцыі, якую трэба праверыць.

Прыклад: Інтэрпрэтацыя балаў дэпрэсіі HAM-D.

Выкажам здагадку, што ў пацыента адзнака па дэпрэсіі па HAM-D складае 23. Мы хочам ведаць ступень цяжару яе дэпрэсіі, але мы не можам сказаць гэта адразу па гэтым бале. Для гэтага нам трэба параўнаць яе ацэнку з вядомымі ацэнкамі іншых. У гэтым выпадку вынікі праверкі паказалі, што адзнака ад 19 да 27 з'яўляецца прыкметай цяжкай дэпрэсіі.

Увага: табліцы нарматываў сапраўды павінны разлічвацца на групу, для якой будзе выкарыстоўвацца тэст.


[3] Зрабіць дадзеныя (больш) "нармальна размеркаванымі".

  • Мэта: атрымаць (трансфармаваныя) дадзеныя, якія вынікаюць нармальнаму размеркаванню; звычайна выкарыстоўваецца для задавальнення параметрычных здагадак, агульных для многіх статыстычных тэстаў.
  • Захоўвае форму арыгінальнага размеркавання: не, звычайна не.

Прыклад: "нармалізацыя" правільнага размеркавання

Няхай x - зменная, якая "наўмысна" знаходзіцца ў правым напрамку. Мы хочам выкарыстаць х у наступным аналізе, але, як вядома, гэты аналіз патрабуе нармальнага размеркавання. Адным (магчымым) рашэннем было б выкарыстанне часопіснага пераўтварэння для навядзення нармальнасці.

Перад:

Пасля пераўтварэння часопіса:

Заўвага 1. Магчыма, гэта не спрацуе. Няма гарантыі, што дадзенае пераўтварэнне аўтаматычна вырабіць неабходнае (нармальнае) размеркаванне. Тое, што пераўтварэнне часопіса часта працуе дастаткова добра пры навядзенні нармальнасці ў правільна перакосных зменных, не будзе азначаць, што гэта заўсёды будзе адбывацца.

Заўвага 2. Інтэрпрэтацыі прымяняюцца да трансфармаванай зменнай. Звычайна мы рэгіструем пераўтварэнне, каб выкарыстоўваць зменныя ў наступных аналізах. Звярніце ўвагу, што ўсе вынікі адносяцца да трансфармаванай зменнай, і не абавязкова да першапачатковай зменнай. Таму будзьце вельмі асцярожныя з інтэрпрэтацыяй вашых вынікаў.

R-код для прыведзеных сюжэтаў:

# Мы можам зрабіць "перакошаную ўправа" зменную наступным чынам:# [a] малюнак з (стандартнага) -нармальнага размеркавання, а потым: # [b] узмацненне вынікаўx <- exp (rnorm (100,0,1)) # Камбінаваны [a] і [b]hist (x) # Пабудуйце арыгінальную зменную ўправа пераменную;hist (log (x)) # пабудуйце рэгістраваную версію зменнай.

адказ 3:

Нармалізацыя часта праводзіцца для дадзеных, каб выдаліць змену амплітуды і засяродзіцца толькі на асноўнай форме размеркавання.

Такім чынам, гэта карысна пры параўнанні двух набораў дадзеных (статыстычнае параўнанне).

Гэта таксама неабходна пры працы з некаторымі алгарытмамі машыннага навучання (напрыклад, PCA).

Зразумела, некаторыя алгарытмы выдатна працуюць без нармалізацыі, напрыклад, дрэвы рашэнняў.

У гэтых выпадках карысна выконваць нармалізацыю, каб паскорыць збліжэнне.

Каб атрымаць больш падрабязную інфармацыю пра тое, калі выкарыстоўваць нармалізацыю для алгарытмаў ML, прапаную прачытаць наступны адказ: Машыннае навучанне: Калі мне прымяняць нармалізацыю / стандартызацыю дадзеных?

Я спадзяюся, што гэта дапаможа!


адказ 4:

Цяпер я думаю пра гэта інакш, чым некалькі дзесяцігоддзяў таму.

Цяпер я разумею, што выкарыстоўваў знешнюю семантыку - разуменне - каб зрабіць выкарыстанне любога метаду, якім я карыстаўся, менш складаным, бо я нармалізаваў свае дадзеныя.

Інакш кажучы, пры дастатковай колькасці дадзеных і магутным метадзе нармалізацыя не спатрэбіцца.

Акрамя таго, аглядаючыся назад, нармалізацыя была адным са спосабаў, як я прыняў свае дадзеныя, павялічыўшы сваё разуменне і зрабіўшы наступныя крокі прасцейшымі. Зразумела, калі нармалізацыя не дапамагла, я ведаў, што ўвогуле быў у іншай гульні з мячом, як тлумачаць іншыя адказы.


адказ 5:

Просты нетэхнічны адказ заключаецца ў тым, што ён дазваляе параўнаць вынікі з іншымі наборамі дадзеных, засяродзіўшы ўвагу на форме аналізу, не трапляючы ў месца зводных дадзеных (азначае і SD) кожнага падзення. Таму два наборы дадзеных з вельмі рознымі ненармаванымі размеркаваннямі можна "накласці" і параўнаць.


адказ 6:

Мы нармалізуем дадзеныя для ліквідацыі непажаданых эфектаў у сюжэце і атрымання плыўнага ўзору, дзе мы можам убачыць правільныя змены.

У рэдказямельных элементах альбо на ўчастку Масуда-карыэла (як я з геалагічнага фону) нармалізацыя РЗЭ да ўзроўню хондрычных метэарытаў ліквідуе эфекты, звязаныя з ядзернай стабільнасцю і нуклеасінтэзам, і ствараецца гладкая мадэль.

PS- Мой адказ спецыяльна для ўчастка REE.


адказ 7:

Проста, гэта папярэдняя апрацоўка. Мэта складаецца ў тым, каб зрабіць аналіз больш зразумелым. Акрамя таго, падыход да нармалізацыі адрозніваецца і залежыць ад асноўнай праблемы даследавання, якую мы спрабуем вырашыць. Існуе таксама мноства падыходаў да розных праблем, якія не патрабуюць нармалізацыі. Некаторыя іншыя падыходы могуць нармалізаваць ...