Методы Transfer Learning для задачи семантического анализа

Исследование методов Transfer Learning для семантического анализа и их сравнение на данных, содержащих упоминания компании Тинькофф Банк на различных Интернет-ресурсах. Реализация моделей для классификации текстов с использованием различных метрик.

Рубрика Программирование, компьютеры и кибернетика
Вид дипломная работа
Язык русский
Дата добавления 01.12.2019
Размер файла 2,9 M

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

В результате экспериментов было выявлено, что обучение модели Bi-LSTM + Attention с нуля ожидаемо показывает плохие результаты в 44% точности, поскольку количество данных недостаточно для обучения. Предобученные модели, такие как fastText + SVM, показали неплохие результаты, однако недостаточные для того, чтобы использовать их в качестве законченного решения.

Наиболее хорошие результаты показали модели, которые строят контекстно-зависимые эмбеддинги - BERT и ELMo в совокупности с различными классификаторами. Лучшие результаты показывают BERT + Classification Layer, а также ELMo + SVM, которые соответственно равны 75% и 73%. Вероятно, это связанно с тем, что в используемых данных часто встречаются грамматические ошибки, а также нецензурная лексика - слова, относящиеся к этим категориям, как правило, отсутствуют в предобученных фиксированных эмбеддингах, поэтому модели с использованием таких представлений работают недостаточно эффективно.

Помимо прочего, в работе было показано, что при отсутствии большого количества данных, модели с применением Transfer Learning, тем не менее, показывают хорошие результаты - стартовая и итоговая точность подобных моделей выше, а скорость обучения несравнимо больше - максимальная точность достигается в пределах 10 итераций. Более того, судя по кривым обучения, увеличив размер обучающей выборки можно также увеличить и точность классификатора.

СПИСОК ЛИТЕРАТУРЫ

[1] E. Olivas, J. Guerrero, M. Sober, J. Benedito, A. Lopez. Handbook Of Research On Machine Learning Applications and Trends: Algorithms, Methods and Techniques (2 Volumes) 1st Edition, 1 edition, Hershey: Information Science Reference, 2009, p. 834.

[2] «Keras: The Python Deep Learning library» Keras, [В Интернете]. Available: https://keras.io/. [Дата обращения: 17 04 2019].

[3] Wikimedia. «API» Wikimedia Foundation, Inc., 19 03 2019. [В Интернете]. Available: https://ru.wikipedia.org/wiki/API. [Дата обращения: 20 04 2019].

[4] S. Nayak, «Understanding AlexNet» 13 06 2018. [В Интернете]. Available: https://www.learnopencv.com/understanding-alexnet/. [Дата обращения: 28 04 2019].

[5] J. Pennington, R. Socher, C. D. Manning. «GloVe: Global Vectors for Word Representation. Empirical Methods in Natural Language Processing (EMNLP)» 2014. [В Интернете]. Available: https://nlp.stanford.edu/pubs/glove.pdf. [Дата обращения: 12 02 2019].

[6] «ImageNet» Stanford Vision Lab, 2016. [В Интернете]. Available: http://www.image-net.org/. [Дата обращения: 24 04 2019].

[7] D. Mahajan, R. Girshick, V. Ramanathan, K. He, M. Paluri, Y. Li, A. Bharambe, L. Maaten. «Exploring the Limits of Weakly Supervised Pretraining» 02 05 2018. [В Интернете]. Available: https://arxiv.org/abs/1805.00932. [Дата обращения: 10 02 2019].

[8] A. Vaswani, N. Shazeer, N. Parmar, J. Uszkoreit, L. Jones, A. N. Gomez, L. Kaiser, I. Polosukhin. «Attention Is All You Need» 5 12 2017. [В Интернете]. Available: https://arxiv.org/pdf/1706.03762.pdf. [Дата обращения: 12 02 2019].

[9] A. Radford, K. Narasimhan, T. Salimans, I. Sutskever. «Improving Language Understanding by Generative Pre-Training» [В Интернете]. Available: https://s3-us-west-2.amazonaws.com/openai-assets/research-covers/language-unsupervised/language_understanding_paper.pdf. [Дата обращения: 01 03 2019].

[10] A. Radford, R. Jozefowicz, I. Sutskever. «Learning to Generate Reviews and Discovering Sentiment» 06 04 2017. [В Интернете]. Available: https://arxiv.org/pdf/1704.01444.pdf. [Дата обращения: 01 03 2019].

[11] J. Devlin, M.-W. Chang, K. Lee, K. Toutanova. «BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding,» 11 10 2018. [В Интернете]. Available: https://arxiv.org/pdf/1810.04805.pdf. [Дата обращения: 10 02 2019].

[12] Y. Wu, M. Schuster, Z. Chen, Q. V. Le, M. Norouzi. «Google's Neural Machine Translation System: Bridging the Gap between Human and Machine Translation» 8 10 2018. [В Интернете]. Available: https://arxiv.org/pdf/1609.08144.pdf. [Дата обращения: 01 03 2019].

[13] A. Radford, J. Wu, R. Child, D. Luan и D. Amodei, «Language Models are Unsupervised Multitask Learners,» 2017. [В Интернете]. Available: https://d4mucfpksywv.cloudfront.net/better-language-models/language_models_are_unsupervised_multitask_learners.pdf. [Дата обращения: 30 02 2019].

[14] Wikipedia, «Tensor processing unit,» Wikimedia Foundation, Inc., 14 05 2019. [В Интернете]. Available: https://en.wikipedia.org/wiki/Tensor_processing_unit. [Дата обращения: 15 05 2019].

[15] OpenAI, «MuseNet,» OpenAI, 12 04 2019. [В Интернете]. Available: https://openai.com/blog/musenet/. [Дата обращения: 20 04 2019].

[16] M. E. Peters, M. Neumann, M. Iyyer, M. Gardner, C. Clark, K. Lee и L. Zettlemoyer, «Deep contextualized word representations,» 22 03 2018. [В Интернете]. Available: https://arxiv.org/pdf/1802.05365.pdf. [Дата обращения: 30 02 2019].

[17] S. Hochreiter, "LONG SHORT-TERM MEMORY," Neural Computation, vol. 9, no. 8, pp. 1735-1780, 1997.

[18] Y. Kim, Y. Jernite, D. Sontag и A. M. Rush, «Character-Aware Neural Language Models,» 01 12 2015. [В Интернете]. Available: https://arxiv.org/pdf/1508.06615.pdf. [Дата обращения: 30 02 2019].

[19] R. K. Srivastava, K. Greff and J. Schmidhuber, "Highway Networks," The Swiss AI Lab IDSIA, 3 10 2015.

[20] K. He, X. Zhang, S. Ren и J. Sun, «Deep Residual Learning for Image Recognition,» 10 12 2015. [В Интернете]. Available: https://arxiv.org/pdf/1512.03385.pdf. [Дата обращения: 11 03 2019].

[21] M. E. Peters, M. Neumann, M. Iyyer, M. Gardner, C. Clark, K. Lee и L. Zettlemoyer, «ELMo: Deep contextualized word representations,» NAACL, 2018. [В Интернете]. Available: https://allennlp.org/elmo. [Дата обращения: 10 04 2019].

[22] N. N. a. D. L. lab, «Pre-trained embeddings,» Neural Networks and Deep Learning lab, 2018. [В Интернете]. Available: http://docs.deeppavlov.ai/en/master/intro/pretrained_vectors.html. [Дата обращения: 12 04 2019].

[23] A. L. Maas, R. E. Daly, P. T. Pham, D. Huang, A. Y. Ng and C. Potts, "Learning Word Vectors for Sentiment Analysis," Stanford University, CA 94305, 2018.

[24] J. Howard и S. Ruder, «Universal Language Model Fine-tuning for Text Classification,» 23 05 2018. [В Интернете]. Available: https://arxiv.org/pdf/1801.06146.pdf. [Дата обращения: 15 04 2019].

[25] R. Socher, A. Perelygin, J. Wu, J. Chuang, C. Manning, A. Ng и C. Potts, «Deeply Moving: Deep Learning for Sentiment Analysis,» в Conference on Empirical Methods in Natural Language Processing (EMNLP 2013), Stanford, 2013.

[26] X. Liu, P. He, W. Chen и J. Gao, «Multi-Task Deep Neural Networks for Natural Language Understanding,» 31 01 2019. [В Интернете]. Available: https://arxiv.org/pdf/1901.11504.pdf. [Дата обращения: 14 03 2019].

[27] «Тинькофф,» АО «Тинькофф Банк», 2006-2019. [В Интернете]. Available: https://www.tinkoff.ru/. [Дата обращения: 30 04 2019].

[28] И. «Банки.ру», ИА «Банки.ру», 2005--2019. [В Интернете]. Available: https://www.banki.ru/. [Дата обращения: 12 02 2019].

[29] YouScan, «YouScan,» 2019. [В Интернете]. Available: https://youscan.io/. [Дата обращения: 15 04 2019].

[30] Scikit-learn, «scikit-learn: Machine Learning in Python,» INRIA, 2019. [В Интернете]. Available: https://scikit-learn.org/stable/. [Дата обращения: 20 04 2019].

[31] P. Zhou, W. Shi, J. Tian and Z. Qi, "Attention-Based Bidirectional Long Short-Term Memory Networks for Relation Classification," Institute of Automation, Chinese Academy of Sciences.

[32] «PyTorch - Bi-LSTM + Attention,» 2019. [В Интернете]. Available: https://www.kaggle.com/robertke94/pytorch-bi-lstm-attention/log. [Дата обращения: 02 04 2019].

[33] «Bidirectional LSTM and Attention,» 2018. [В Интернете]. Available: https://www.kaggle.com/takuok/bidirectional-lstm-and-attention-lb-0-043. [Дата обращения: 02 04 2019].

[34] P. Bojanowski, E. Grave, A. Joulin и T. Mikolov, «Enriching Word Vectors with Subword Information,» 2017.

[35] Networks, «Pre-trained embeddings,» Neural Networks and Deep Learning lab, 2018. [В Интернете]. Available: http://docs.deeppavlov.ai/en/master/intro/pretrained_vectors.html. [Дата обращения: 15 02 2019].

[36] PyTorch, «FROM RESEARCH TO PRODUCTION,» PyTorch, 2019. [В Интернете]. Available: https://pytorch.org/. [Дата обращения: 01 03 2019].

[37] TensorFlow, «An end-to-end open source machine learning platform,» TensorFlow, 2019. [В Интернете]. Available: https://www.tensorflow.org/. [Дата обращения: 23 02 2019].

[38] «TensorFlow code and pre-trained models for BERT,» GitHub, [В Интернете]. Available: https://github.com/google-research/bert. [Дата обращения: 10 03 2019].

[39] «The Big-&-Extending-Repository-of-Transformers: Pretrained PyTorch models for Google's BERT, OpenAI GPT & GPT-2, Google/CMU Transformer-XL,» GitHub, [В Интернете]. Available: https://github.com/huggingface/pytorch-pretrained-BERT. [Дата обращения: 13 02 2019].

[40] Deeppavlov, «Pre-trained embeddings,» ELMo, 2019. [В Интернете]. Available: http://docs.deeppavlov.ai/en/master/intro/pretrained_vectors.html. [Дата обращения: 10 02 2019].

Размещено на Allbest.ru


Подобные документы

  • Понятие семантики; обзор и анализ существующих средств семантического разбора естественно-языковых текстов. Разработка алгоритма работы системы на основе семантического анализа, его реализация на языке программирования; проектирование интерфейса системы.

    дипломная работа [1,7 M], добавлен 18.03.2012

  • Морфологические анализаторы (морфологизаторы) на различных языках программирования. Анализ методов и технологий автоматической обработки ЕЯ-текстов. Разработка модуля графематического анализа и создания таблицы лексем. Программная реализация классов.

    дипломная работа [3,0 M], добавлен 06.03.2012

  • Asynchronous Transfer Mode как сетевая высокопроизводительная технология коммутации и мультиплексирования, основанная на передаче данных в виде ячеек фиксированного размера. Транспортные протоколы для локальных и глобальных сетей. Иерархия скоростей.

    лекция [186,3 K], добавлен 15.04.2014

  • Рассмотрение и анализ моделей и алгоритмов семантического поиска в мультиагентной системе поддержки пользователей. Ознакомление с интерфейсом чата с ботом. Изучение и характеристика экспериментальных оценок релевантности и пертинентности запросов.

    дипломная работа [3,0 M], добавлен 13.10.2017

  • Управление электронным обучением. Технологии электронного обучения e-Learning. Программное обеспечение для создания e-Learning решений. Компоненты LMS на примере IBM Lotus Learning Management System и Moodle. Разработка учебных курсов в системе Moodle.

    курсовая работа [146,6 K], добавлен 11.06.2009

  • Обзор разнообразных методов теории линейных систем: методов корреляционного и регрессионного анализа, косинор-анализа. Особенности применения факторного анализа. Программная реализация метода главных компонент. Разработка нелинейных регрессионных моделей.

    дипломная работа [390,2 K], добавлен 03.09.2016

  • Сущность и развитие систем электронных платежей. Платежные системы Яндекс.Деньги и WebMoney Transfer, их возможности, сравнение по ряду критериев, особенности регистрации, преимущества, недостатки и процедуры обеспечения безопасности от мошенников.

    реферат [121,4 K], добавлен 14.11.2009

  • Общие понятия об e-learning. Области применения продукта. Модели и технологии. Исследование и анализ программных инструментов. Создание учебного курса для преподавателей инженерно-экономического факультета. Оценка эффективности внедрения такого обучения.

    дипломная работа [4,7 M], добавлен 03.05.2018

  • Основные цели создания Интернет-магазина по продаже спортивного питания. Исследование свойств и характеристик информационного ресурса. Разработка дизайна сайта. Структуризация семантического ядра. Автоматизация процесса оплаты товаров покупателем.

    курсовая работа [2,1 M], добавлен 22.05.2015

  • Обзор Интернет-ресурсов по футбольной тематике в России, Англии, Дублине. Порядок и основные принципы создания сайтов по данной тематике, сравнение их проработанности на различных примерах. Интернет-ресурсы по футбольной тематике различных организаций.

    курсовая работа [1,5 M], добавлен 25.03.2011

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.