关注杭州教育微信 拿嘟嘟城、海底世界门票
Частина з циклу |
Машинне навчання та добування даних |
---|
![]() |
У машинному навчанн? вар?ац?йний автокодувальник (англ. variational autoencoder),[1] в?домий також як ВАК (англ. VAE), — це арх?тектура штучно? нейронно? мереж?, запроваджена Д?дер?ком П. К?нгмою та Максом Велл?нгом[en], що належить до с?мейств ?мов?рн?сних графових моделей та вар?ац?йних ба?сових метод?в[en].
?? часто асоц?юють ?з моделлю автокодувальника[2][3] через ?? арх?тектурну спор?днен?сть, але м?ж ними ? значн? в?дм?нност? як у ц?л?, так ? в математичному формулюванн?. Вар?ац?йн? автокодувальники призначено для стискання ?нформац?? входу до обмеженого багатовим?рного латентного розпод?лу (кодування), щоби в?дбудовувати ?? якомога точн?ше (декодування). Хоча первинно цей тип модел? було розроблено для некерованого навчання,[4][5] його д??в?сть було доведено й в ?нших областях машинного навчання, таких як нап?вкероване[6][7] та кероване навчання.[8]
Вар?ац?йн? автокодувальники ? вар?ац?йними ба?совими методами з багатовим?рним розпод?лом як апр?орне, й апостер?орним, наближуваним штучною нейронною мережею, що утворюють так звану структуру вар?ац?йного кодувальника-декодувальника.[9][10][11]
Стандартний кодувальник ? штучною нейронною мережею, здатною зводити свою вх?дну ?нформац?ю до найвужчого подання, що називають латентним простором. В?н явля? собою першу половину арх?тектури як автокодувальника, так ? вар?ац?йного автокодувальника: для першого виходом ? ф?ксований вектор штучних нейрон?в, а в другому ?нформац?я виходу стиска?ться до ймов?рн?сного латентного простору, що все ще склада?ться з? штучних нейрон?в. Проте в арх?тектур? вар?ац?йного автокодувальника вони представляють ? ?х розглядають як два р?зн? вектори однаково? вим?рност?, що подають вектор середн?х значень та вектор стандартних в?дхилень в?дпов?дно.
Стандартний декодувальник все ще ? штучною нейронною мережею, призначеною в?ддзеркалювати арх?тектуру кодувальника. В?н бере на вход? стиснену ?нформац?ю, що надходить ?з латентного простору, а пот?м розгорта? ??, виробляючи вих?д, якомога ближчий до входу кодувальника. ? хоча для автокодувальника вх?д декодувальника ? просто вектором д?йсних значень ф?ксовано? довжини, для вар?ац?йного автокодувальника необх?дно ввести пром?жний етап: враховуючи ймов?рн?сну природу латентного простору, можливо розглядати його як багатовим?рний гаусс?в вектор. За цього припущення й за допомогою методики, в?домо? як перепараметрувальний трюк (англ. reparametrization trick), можливо вибирати сукупност? з цього латентного простору й розглядати ?х точно як вектор д?йсних значень ф?ксовано? довжини.
З системно? точки зору модел? як стандартного, так ? вар?ац?йного автокодувальник?в отримують як вх?д наб?р даних велико? розм?рност?. Пот?м вони адаптивно стискають його до латентного простору (кодування) ?, нарешт?, намагаються якомога точн?ше його в?дбудувати (декодування). Враховуючи природу його латентного простору, вар?ац?йний автокодувальник характеризу?ться дещо ?ншою ц?льовою функц??ю: в?н ма? м?н?м?зувати функц?ю втрат в?дбудови, як ? стандартний автокодувальник. Проте в?н також врахову? розходження Кульбака — Лейблера м?ж латентним простором та вектором нормальних гаусс?ан.

З формально? точки зору, за заданого набору даних входу , описуваного нев?домою функц??ю ймов?рност? , та багатовим?рного вектора латентного кодування , мета поляга? в моделюванн? цих даних як розпод?лу , де визначено як наб?р параметр?в мереж?.
Цей розпод?л можливо формал?зувати як
де ? св?дченням даних ц??? модел? з в?дособленням, виконаним над неспостережуваними зм?нними, й в?дтак пода? сп?льний розпод?л даних входу та ?хнього латентного подання в?дпов?дно до параметр?в мереж? .
В?дпов?дно до теореми Ба?са, це р?вняння можливо переписати як
У стандартному вар?ац?йному автокодувальнику ми вважа?мо, що ма? ск?нченну розм?рн?сть, ? що ? гауссовим розпод?лом, тод? ? сум?шшю гауссових розпод?л?в.
Тепер можливо визначити наб?р вза?мозв'язк?в м?ж даними входу та ?х латентним поданням як
- Апр?орне
- Правдопод?бн?сть
- Апостер?орне
На жаль, обчислення ? дуже витратним, ? в б?льшост? випадк?в нав?ть неп?ддатливим. Щоби пришвидшити це обчислення й зробити його зд?йсненним, необх?дно ввести додаткову функц?ю для наближення апостер?орного розпод?лу:
де визначено як наб?р д?йсних значень, що параметру? .
Таким чином загальну задачу можливо легко перевести до област? визначення автокодувальника, в якому розпод?л умовно? правдопод?бност? провадиться ?мов?рн?сним кодувальником (англ. probabilistic encoder), а наближений апостер?орний розпод?л обчислю?ться ?мов?рн?сним декодувальником (англ. probabilistic decoder).
Як ? в будь-як?й задач? глибокого навчання, щоб уточнювати ваги мереж? шляхом зворотного поширення, необх?дно визначити диференц?йовну функц?ю втрат.
Для вар?ац?йних автокодувальник?в ?дея поляга? в сп?льному м?н?м?зуванн? параметр?в породжувально? модел? , щоби зменшувати похибку в?дбудови м?ж входом ? виходом мереж?, та , щоби мати якомога ближчою до .
Як втрати в?дбудови, добрими вар?антами ? середньоквадратична похибка та перехресна ентроп?я.
Як втрати в?дстан? м?ж цими двома розпод?лами, добрим вибором, щоби втискувати п?д , ? обернене розходження Кульбака — Лейблера .[1][12]
Щойно визначен? втрати в?дстан? розкриваються як
На цьому етап? можливо переписати це р?вняння як
Метою ? максим?зувати логарифм?чну правдопод?бн?сть л?во? частини цього р?вняння для пол?пшення якост? породжуваних даних та м?н?м?зування в?дстаней м?ж розпод?лами справжнього та оц?нюваного апостер?орних.
Це ? р?внозначним м?н?м?зуванню в?д'?мно? логарифм?чно? правдопод?бност?, що ? типовою практикою в задачах оптим?зац??.
Отриману таким чином функц?ю втрат, яку також називають функц??ю втрат нижньо? меж? св?дчення[en] (англ. evidence lower bound), скорочено НМЕС (англ. ELBO), можливо записати як
Враховуючи властив?сть нев?д'?мност? розходження Кульбака — Лейблера, буде правильним стверджувати, що
Оптимальними параметрами ? т?, як? м?н?м?зують цю функц?ю втрат. Цю задачу можливо узагальнити як
Основна перевага цього формулювання поляга? в можливост? сп?льного оптим?зування за параметрами та .
Перш н?ж застосовувати функц?ю втрат НМЕС до задач? оптим?зування для зворотного поширення град??нта, необх?дно зробити ?? диференц?йовною, застосувавши так званий трюк перепараметрування (англ. reparameterization trick), щоб усунути стохастичне вибирання з цього формування, й таким чином зробити ?? диференц?йовною.

Щоб зробити формулювання НМЕС придатним для ц?лей тренування, необх?дно ввести подальшу незначну зм?ну до формулювання задач?, а також до структури вар?ац?йного автокодувальника.[1][13][14]
Стохастичне вибирання ? недиференц?йовною операц??ю, через яку можливо вибирати з латентного простору й подавати на ймов?рн?сний декодувальник.
Щоб уможливити застосування процес?в зворотного поширення, таких як стохастичний град??нтний спуск, запроваджують трюк перепараметрування.
Основним припущенням про латентний прост?р ? те, що його можливо розглядати як сукупн?сть багатовим?рних гауссових розпод?л?в ?, отже, можливо описати як

Якщо , а визначено як поелементний добуток, то трюк перепараметрування зм?ню? наведене вище р?вняння до
.
Завдяки цьому перетворенню, яке можливо поширити й на ?нш? розпод?ли, в?дм?нн? в?д гауссового, вар?ац?йний автокодувальник п?дда?ться тренуванню, а ймов?рн?сний кодувальник ма? навчатися в?дображувати стиснене подання вх?дних даних у два латентн? вектори та , тод? як стохастичн?сть залиша?ться виключеною з процесу уточнювання, й вводиться до латентного простору як зовн?шн?й вх?д через випадковий вектор .
?сну? багато застосувань ? розширень вар?ац?йних автокодувальник?в для пристосовування ц??? арх?тектури до р?зних областей та пол?пшення ?? продуктивност?.
β-ВАК (англ. β-VAE) ? вт?ленням з? зваженим членом розходження Кульбака — Лейблера для автоматичного виявляння та ?нтерпретування розкладених латентних подань. За допомогою цього вт?лення можливо нав'язувати розплутування многовиду для значень , б?льших за одиницю. Автори показали здатн?сть ц??? арх?тектури породжувати високояк?сн? синтетичн? зразки.[15][16]
Ще одне вт?лення, назване умовним вар?ац?йним автокодувальником (англ. conditional variational autoencoder), скорочено УВАК (англ. CVAE), як вважають, вставля? м?ткову ?нформац?ю до латентного простору, нав'язуючи детерм?новане обмежене подання навчених даних.[17]
Деяк? структури безпосередньо займаються як?стю породжуваних зразк?в[18][19] або вт?люють понад одного латентного простору для подальшого пол?пшення навчання подань.[20][21]
Деяк? арх?тектури по?днують структури вар?ац?йних автокодувальник?в та породжувальних змагальних мереж, щоб отримувати г?бридн? модел? з високими породжувальними спроможностями.[22][23][24]
- ↑ а б в Kingma, Diederik P.; Welling, Max (1 травня 2014). Auto-Encoding Variational Bayes. arXiv:1312.6114 [stat.ML]. (англ.)
- ↑ Kramer, Mark A. (1991). Nonlinear principal component analysis using autoassociative neural networks. AIChE Journal (англ.). 37 (2): 233—243. doi:10.1002/aic.690370209. Арх?в ориг?налу за 8 червня 2021. Процитовано 3 липня 2021. (англ.)
- ↑ Hinton, G. E.; Salakhutdinov, R. R. (28 липня 2006). Reducing the Dimensionality of Data with Neural Networks. Science (англ.). 313 (5786): 504—507. Bibcode:2006Sci...313..504H. doi:10.1126/science.1127647. PMID 16873662. S2CID 1658773. Арх?в ориг?налу за 28 червня 2021. Процитовано 3 липня 2021. (англ.)
- ↑ Dilokthanakul, Nat; Mediano, Pedro A. M.; Garnelo, Marta; Lee, Matthew C. H.; Salimbeni, Hugh; Arulkumaran, Kai; Shanahan, Murray (13 с?чня 2017). Deep Unsupervised Clustering with Gaussian Mixture Variational Autoencoders. arXiv:1611.02648 [cs.LG]. (англ.)
- ↑ Hsu, Wei-Ning; Zhang, Yu; Glass, James (December 2017). Unsupervised domain adaptation for robust speech recognition via variational autoencoder-based data augmentation. 2017 IEEE Automatic Speech Recognition and Understanding Workshop (ASRU). с. 16—23. arXiv:1707.06265. doi:10.1109/ASRU.2017.8268911. ISBN 978-1-5090-4788-8. S2CID 22681625. Арх?в ориг?налу за 28 серпня 2021. Процитовано 3 липня 2021. (англ.)
- ↑ Ehsan Abbasnejad, M.; Dick, Anthony; van den Hengel, Anton (2017). Infinite Variational Autoencoder for Semi-Supervised Learning. с. 5888—5897. Арх?в ориг?налу за 24 червня 2021. Процитовано 3 липня 2021. (англ.)
- ↑ Xu, Weidi; Sun, Haoze; Deng, Chao; Tan, Ying (12 лютого 2017). Variational Autoencoder for Semi-Supervised Text Classification. Proceedings of the AAAI Conference on Artificial Intelligence (англ.). 31 (1). Арх?в ориг?налу за 16 червня 2021. Процитовано 3 липня 2021. (англ.)
- ↑ Kameoka, Hirokazu; Li, Li; Inoue, Shota; Makino, Shoji (1 вересня 2019). Supervised Determined Source Separation with Multichannel Variational Autoencoder. Neural Computation. 31 (9): 1891—1914. doi:10.1162/neco_a_01217. PMID 31335290. S2CID 198168155. Арх?в ориг?налу за 16 червня 2021. Процитовано 3 липня 2021. (англ.)
- ↑ An, J., & Cho, S. (2015). Variational autoencoder based anomaly detection using reconstruction probability. Special Lecture on IE, 2(1). (англ.)
- ↑ Заповн?ть пропущен? параметри: назву ?/або автор?в. arXiv:1911.12410. (англ.)
- ↑ Kingma, Diederik P.; Welling, Max (2019). An Introduction to Variational Autoencoders. Foundations and Trends in Machine Learning. 12 (4): 307—392. arXiv:1906.02691. doi:10.1561/2200000056. ISSN 1935-8237. S2CID 174802445. (англ.)
- ↑ From Autoencoder to Beta-VAE. Lil'Log (англ.). 12 серпня 2018. Арх?в ориг?налу за 14 травня 2021. Процитовано 3 липня 2021.
- ↑ Bengio, Yoshua; Courville, Aaron; Vincent, Pascal (2013). Representation Learning: A Review and New Perspectives. IEEE Transactions on Pattern Analysis and Machine Intelligence. 35 (8): 1798—1828. arXiv:1206.5538. doi:10.1109/TPAMI.2013.50. ISSN 1939-3539. PMID 23787338. S2CID 393948. Арх?в ориг?налу за 27 червня 2021. Процитовано 3 липня 2021. (англ.)
- ↑ Kingma, Diederik P.; Rezende, Danilo J.; Mohamed, Shakir; Welling, Max (31 жовтня 2014). Semi-Supervised Learning with Deep Generative Models. arXiv:1406.5298 [cs.LG]. (англ.)
- ↑ >Higgins, Irina; Matthey, Loic; Pal, Arka; Burgess, Christopher; Glorot, Xavier; Botvinick, Matthew; Mohamed, Shakir; Lerchner, Alexander (4 листопада 2016). beta-VAE: Learning Basic Visual Concepts with a Constrained Variational Framework (англ.). Арх?в ориг?налу за 20 липня 2021. Процитовано 3 липня 2021. (англ.)
- ↑ >Burgess, Christopher P.; Higgins, Irina; Pal, Arka; Matthey, Loic; Watters, Nick; Desjardins, Guillaume; Lerchner, Alexander (10 кв?тня 2018). Understanding disentangling in β-VAE. arXiv:1804.03599 [stat.ML]. (англ.)
- ↑ Sohn, Kihyuk; Lee, Honglak; Yan, Xinchen (1 с?чня 2015). Learning Structured Output Representation using Deep Conditional Generative Models (PDF) (англ.). Арх?в ориг?налу (PDF) за 9 липня 2021. Процитовано 3 липня 2021. (англ.)
- ↑ Dai, Bin; Wipf, David (30 жовтня 2019). Diagnosing and Enhancing VAE Models. arXiv:1903.05789 [cs.LG]. (англ.)
- ↑ Dorta, Garoe; Vicente, Sara; Agapito, Lourdes; Campbell, Neill D. F.; Simpson, Ivor (31 липня 2018). Training VAEs Under Structured Residuals. arXiv:1804.01050 [stat.ML]. (англ.)
- ↑ Tomczak, Jakub; Welling, Max (31 березня 2018). VAE with a VampPrior. International Conference on Artificial Intelligence and Statistics (англ.). PMLR: 1214—1223. arXiv:1705.07120. Арх?в ориг?налу за 24 червня 2021. Процитовано 3 липня 2021. (англ.)
- ↑ Razavi, Ali; Oord, Aaron van den; Vinyals, Oriol (2 червня 2019). Generating Diverse High-Fidelity Images with VQ-VAE-2. arXiv:1906.00446 [cs.LG]. (англ.)
- ↑ Larsen, Anders Boesen Lindbo; S?nderby, S?ren Kaae; Larochelle, Hugo; Winther, Ole (11 червня 2016). Autoencoding beyond pixels using a learned similarity metric. International Conference on Machine Learning (англ.). PMLR: 1558—1566. arXiv:1512.09300. Арх?в ориг?налу за 17 травня 2021. Процитовано 3 липня 2021. (англ.)
- ↑ Bao, Jianmin; Chen, Dong; Wen, Fang; Li, Houqiang; Hua, Gang (2017). CVAE-GAN: Fine-Grained Image Generation Through Asymmetric Training. с. 2745—2754. arXiv:1703.10155 [cs.CV]. (англ.)
- ↑ >Gao, Rui; Hou, Xingsong; Qin, Jie; Chen, Jiaxin; Liu, Li; Zhu, Fan; Zhang, Zhao; Shao, Ling (2020). Zero-VAE-GAN: Generating Unseen Features for Generalized and Transductive Zero-Shot Learning. IEEE Transactions on Image Processing. 29: 3665—3680. Bibcode:2020ITIP...29.3665G. doi:10.1109/TIP.2020.2964429. ISSN 1941-0042. PMID 31940538. S2CID 210334032. Арх?в ориг?налу за 28 червня 2021. Процитовано 3 липня 2021. (англ.)