ЕФЕКТИВНІСТЬ РОЗПІЗНАВАННЯ ІМЕНОВАНИХ СУТНОСТЕЙ ЗА ДОПОМОГОЮ КЛАСУ МОДЕЛЕЙ OPENAI GPT

Bohdan Pavlyshenko, Ihor Drozdov

Анотація


Обсяг інформації дуже швидко зростає в усіх доступних джерелах, причому головною складовою в усьому обсягу інформації є текстові дані, тому обробка природної мови є однією з найбільш важливих галузей дослідження. Зростаючі обсяги інформації вимагають більш складних та ефективних моделей та підходів для ефективної обробки інформації. В той самий час, розпізнавання іменованих сутностей є однією з ключових складових в обробці тексту та відіграє важливу роль для розпізнавання тексту, автоматичної сумарізації тексту, перекладу та інших. На теперішній час є багато різних підходів до розпізнавання іменованих сутностей, однак запровадження так званої архітектури на основі трансформерів з механізмом уваги сприяло суттєвій зміні основних напрямків дослідження в сфері обробки природної мови, про що свідчить застосування трансформерів для досягнення найкращих результатів для більшості задач обробки природної мови. Тим часом, відносна простота, у порівнянні з іншими, архітектури тнасформерів  дала можливість будувати великі мовні моделі з мільярдами параметрів, як, наприклад GPT-3.

Головна мета цієї статті – дослідити ефективність застосування декількох GPT моделей, створених компанією OpenAI, для розпізнавання іменованих сутностей в англомовному та україномовному текстах. Для дослідження використано один з найбільш популярних датасетів для такого типу досліджень CoNLL 2003 та датасет організації lang-uk, яка розмітила частину браунівського корпусу для задачі розпізнавання іменованих сутностей. Базуючись на відомих можливостях моделей GPT генерувати кращі результати у випадку наведених прикладів у вхідному запиті, експерименти були побудовані з використанням нуля, одного та трьох прикладів на кожен запит. Крім того, експеримети окремо проводилися як для всієї статті в одному запиті так і для кожного речення в цій статті окремими запитами для порівняння результатів за різним обсягом тексту в запиті. Для проведення експериментів, різні формати запитів були досліджені та один був обраний для всього експерименту. Оцінка результатів базується на F1 та специфіці результатів, які повертають моделі. Результати продемонстрували, в цілому, високу продуктивність найбільш нових моделей та збільшення продуктивності від старших до більш нових моделей. Більш того, результати демонструють, що є напрямки для подальшого покращення та дослідження.

Ключові слова: розпізнавання іменованих сутностей, обробка природної мови, GPT, OpenAI


Повний текст:

PDF (English)

Посилання


  1. Li Jing, Aixin Sun, Jianglei Han, and Chenliang Li. "A survey on deep learning for named entity recognition." IEEE Transactions on Knowledge and Data Engineering 34, no. 1 (2020): 50-70.
  2. Roy Arya. "Recent trends in named entity recognition (NER)." arXiv preprint arXiv:2101.11420 (2021).
  3. Grishman Ralph, and Beth M. Sundheim. "Message understanding conference-6: A brief history." In COLING 1996 Volume 1: The 16th International Conference on Computational Linguistics. 1996.
  4. LeCun Yann, Yoshua Bengio, and Geoffrey Hinton. "Deep learning." nature 521, no. 7553 (2015): 436-444.
  5. Yadav Vikas, and Steven Bethard. "A survey on recent advances in named entity recognition from deep learning models." arXiv preprint arXiv:1910.11470 (2019).
  6. Shen Yanyao, Hyokun Yun, Zachary C. Lipton, Yakov Kronrod, and Animashree Anandkumar. "Deep active learning for named entity recognition." arXiv preprint arXiv:1707.05928 (2017).
  7. Vaswani Ashish, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Łukasz Kaiser, and Illia Polosukhin. "Attention is all you need." Advances in neural information processing systems 30 (2017).
  8. Devlin Jacob, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. "Bert: Pre-training of deep bidirectional transformers for language understanding." arXiv preprint arXiv:1810.04805 (2018).
  9. Baevski Alexei, Sergey Edunov, Yinhan Liu, Luke Zettlemoyer, and Michael Auli. "Cloze-driven pretraining of self-attention networks." arXiv preprint arXiv:1903.07785 (2019).
  10. Li Xiaoya, Xiaofei Sun, Yuxian Meng, Junjun Liang, Fei Wu, and Jiwei Li. "Dice loss for data-imbalanced NLP tasks." arXiv preprint arXiv:1911.02855 (2019).
  11. Brown Tom, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared D. Kaplan, Prafulla Dhariwal, Arvind Neelakantan et al. "Language models are few-shot learners." Advances in neural information processing systems 33 (2020): 1877-1901.
  12. Wang Shuhe, Xiaofei Sun, Xiaoya Li, Rongbin Ouyang, Fei Wu, Tianwei Zhang, Jiwei Li, and Guoyin Wang. "GPT-NER: Named Entity Recognition via Large Language Models." arXiv preprint arXiv:2304.10428 (2023).
  13. Ye Junjie, Xuanting Chen, Nuo Xu, Can Zu, Zekai Shao, Shichun Liu, Yuhan Cui et al. "A comprehensive capability analysis of gpt-3 and gpt-3.5 series models." arXiv preprint arXiv:2303.10420 (2023).
  14. Sang, Erik F., and Fien De Meulder. "Introduction to the CoNLL-2003 shared task: Language-independent named entity recognition." arXiv preprint cs/0306050 (2003).
  15. Lang-uk team dataset for NER repository. URL: https://github.com/lang-uk/ner-uk (accessed on April 10, 2023)
  16. OpenAI homepage, access to UI prompt and API. URL: https://openai.com (accessed on April 25, 2023)
  17. Promptify library repository. URL: https://github.com/promptslab/Promptify (accessed on April 25, 2023)
  18. SpaCy, NLP framework homepage. URL: https://spacy.io/ (accessed on April 25, 2023)




DOI: http://dx.doi.org/10.30970/eli.23.5

Посилання

  • Поки немає зовнішніх посилань.