Текстовый анализ новостей в применении к прогнозированию банкротства компаний

Описание основных моделей прогнозирования банкротства компаний: логистическая регрессия, многослойный персептрон, метод опорных векторов и случайный лес. Значение текстового анализа новостей в повышении точности моделей предсказания банкротства фирм.

Рубрика Экономика и экономическая теория
Вид дипломная работа
Язык русский
Дата добавления 01.12.2019
Размер файла 3,0 M

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

На основной выборке была достигнута точность предсказания до 97% класса банкротов и 94% класса стабильных компаний. Улучшение вследствие введения текстовых переменных различных метрик качества составило до 2,5% в случае многослойного персептрона, колебалось возле нуля для случайного леса и было отрицательным для более простых моделей - логит-регрессии и метода опорных векторов, для которых тональности, скорее всего, оказались не более чем шумом. Почти на всех выборках многослойный персептрон и случайный лес показали схожие результаты; поPR-AUCвпереди оказался второй метод, по большинству других метрик - первый. Только словарь Loughran&McDonaldоказался способен произвести экономически осмысленные переменные тональности.

Таким образом, если и существует иначе необъяснимая взаимосвязь между переменными тональности и вероятностью банкротства, то, по всей видимости, она обладает сложным нелинейным характером и может быть обнаружена только специальными методами, такими как глубокие нейронные сети и ансамбли решающих деревьев. Полученные результаты могут быть использованы для углубления понимания феномена корпоративного дефолта и его взаимосвязи с эмоциональным наполнением медиапространства; сам факт их достижения на на столь скудных данных оправдывает дальнейшие исследования, которые должны сосредоточиться на следующих направлениях:

(1) Более всего - анализ текстов новостей вместо заголовков;

(2) Исследование более крупных выборок фирм, в особенности таких, что включают в себя непубличные и малые компании, охватывают более длинный временной период и рассматривают иные страны;

(3) Включение текстового анализа в более продвинутые методы предсказания банкротства, в том числе гибридные методы машинного обучения;

(4) Нахождение или конструирование словаря тональностей, оптимального для анализа именно новостей;

(5) Применение других, более сложных методов текстового анализа, учитывающих синтаксис и семантику текста.

Существуют и иные ограничения. Из-за сложностей в сборе данных исследованная выборка оказалась составлена лишь из тех компаний, которые обладают достаточным медиапокрытием, что может вносить некоторую смещенность. Кроме того, извлечение переменных тональности из текстов полагалось на существующие словари тональности, которые могут быть субоптимальными для анализа новостей. Выбор моделей предсказания банкротства и других факторов, использованных при их обучении - финансовых, рыночных и макроэкономических - основан на их популярности в существующей литературе, а не согласно каким-либо объективным критериям, и потому также может являться не самым лучшим. Кроме того, следует подчеркнуть, что большинство гипотез не тестировалось статистически и было проверено лишь посредством сравнения предсказательной силы разных моделей и их спецификаций.

8. Список литературы

[1] Adnan Aziz, M., & Dar, H. A. (2006). Predicting Corporate Bankruptcy: Where We Stand? Corporate Governance: The International Journal of Business in Society, 6, 18-33.

[2] Altman, E. I. (1968). Financial Ratios, Discriminant Analysis and the Prediction of Corporate Bankruptcy. The Journal of Finance (Vol. 23).

[3] Altman, E. I. (1993). Corporate Financial Distress and Bankruptcy: a Complete Guide. J. Wiley & Sons, Cop.

[4] Altman, E. I., Haldeman, R. G., & Narayanan, P. (1977). ZETA Analysis: a New Model to Identify Bankruptcy Risk of Corporations. Journal of Banking & Finance, 1, 29-54.

[5] Altman, E. I., & Sabato, G. (2007). Modelling credit risk for SMEs: Evidence from the U.S. market. Abacus.

[6] Altman, E. I., Sabato, G., & Wilson, N. (2010). The Value of Non-Financial Information in SME Risk Management. Journal of Credit Risk.

[7] Antweiler, W., & Frank, M. Z. (2004). Is All That Talk Just Noise? The Journal of Finance, 59(3), 1259-1294.

[8] Aziz, A., & Lawson, G. H. (1989). Cash Flow Reporting and Financial Distress Models: Testing of Hypotheses. Financial Management, 18(1), 55.

[9] Back, B., Laitinen, T., Sere, K., & Wezel, van M. (1996). Choosing Bankruptcy Predictors Using Discriminant Analysis , Logit Analysis , and Genetic Algorithms. Proceedings of the Ist International Meeting on Artificial Intelligence in Accounting, Finance and Tax, 40.

[10] Beaver, W. H. (1966). Financial Ratios As Predictors of Failure. Journal of Accounting Research, 4, 71.

[11] Beaver, W. H. (1968). Market Prices, Financial Ratios, and the Prediction of Failure. Journal of Accounting Research, 6, 179.

[12] Bellovary, J. L., Giacomino, D. E., & Akers, M. D. (2007). A Review of Going Concern Prediction Studies: 1976 to Present. Journal of Business & Economics Research, 5.

[13] Bird, S., Klein, E., & Loper, E. (2009). Natural language processing with Python: analyzing text with the natural language toolkit. O'Reilly Media.

[14] Campbell, J. Y., Hilscher, J., & Szilagyu, J. (2008). In Search of Distress Risk. The Journal of Finance, 63, 2899-2939.

[15] Chandra, D. K., Ravi, V., & Bose, I. (2009). Failure prediction of dotcom companies using hybrid intelligent techniques. Expert Systems with Applications.

[16] Charnes, A., Cooper, W., Lewin, A. Y., & Seiford, L. M. (1997). Data Envelopment Analysis Theory, Methodology and Applications. The Journal of the Operational Research Society, 48(3), 332.

[17] Chawla, N. V, Bowyer, K. W., Hall, L. O., & Kegelmeyer, P. W. (2002). SMOTE: Synthetic Minority Over-sampling Technique.Journal of Artificial Intelligence Research, 16.

[18] Chen, L., Wang, J., Deng, X., Xie, H., & Li, X. (2014). News impact on stock price return via sentiment analysis. Knowledge-Based Systems, 69, 14-23.

[19] Chen, M. Y. (2011). Predicting corporate financial distress based on integration of decision tree classification and logistic regression. Expert Systems with Applications, 38(9).

[20] Ciampi, F., & Gordini, N. (2012). Small Enterprise Default Prediction Modeling through Artificial Neural Networks: an Empirical Analysis of Italian Small Enterprises. Journal of Small Business Management, 51, 23-45.

[21] Coats, P. K., & Fant, L. F. (1993). Recognizing Financial Distress Patterns Using a Neural Network Tool. Financial Management, 22(3), 142.

[22] Cortes, C., & Vapnik, V. (1995). Support-vector networks. Machine Learning, 20(3), 273-297.

[23] Das, S. R., & Chen, M. Y. (2007). Yahoo! for Amazon: Sentiment Extraction from Small Talk on the Web. Management Science, 53(9), 1375-1388.

[24] Demers, E. A., & Vega, C. (2010). Soft Information in Earnings Announcements: News or Noise? International Finance Discussion Papers.

[25] Dimitras, A. I., Zanakis, S. H., & Zopounidis, C. (1996). A survey of business failures with an emphasis on prediction methods and industrial applications. European Journal of Operational Research, 90(3), 487-513.

[26] Dong, Y. X., Xiao, Z., & Xiao, X. (2014). Default prediction for real estate companies with imbalanced dataset. Journal of Information Processing Systems.

[27] Duan, J.-C., Sun, J., & Wang, T. (2012). Multiperiod Corporate Default Prediction: A Forward Intensity Approach. Journal of Econometrics.

[28] Duffie, D., Leandro, S., & Wang, K. (2007). Multi-Period Corporate Failure Prediction with Stochastic Covariates. Journal of Financial Economics.

[29] Fedorova, E. A., Gilenko, E. V., & Dovzhenko, S. E. (2013). Models for bankruptcy forecasting: Case study of Russian enterprises. Studies on Russian Economic Development, 24(2), 159-164.

[30] Feldman, R. (1998). Text Mining at the Term Level. Communications Session 3. Association Rules and Text Mining (pp. 65-73).

[31] Feller, W. (1970). An Introduction to Probability Theory and Its Applications (Vol. 14).

[32] Fisher, R. A. (1936). The Use of Multiple Measurements in Taxonomic Problems. Annals of Eugenics, 7, 179-188.

[33] Fitzpatrick, P. J. (1932). A Comparison of the Ratios of Successful Industrial Enterprises With Those of Failed Companies. The Certified Public Accountant.

[34] Foreman, R. D. (2003). A logistic analysis of bankruptcy within the US local telecommunications industry. Journal of Economics and Business, 55(2), 135-166.

[35] Fulmer, J. G. (1984). A Bankruptcy Classification Model For Small Firms. Journal of Commercial Bank Lending.

[36] Gissel, J. L., Giacomino, D., & Akers, M. D. (2007). A Review of Bankruptcy Prediction Studies: 1930-Present. Journal of Financial Education (Vol. 33). Publisher Link.

[37] Guo, L., Shi, F., & Tu, J. (2017). Textual analysis and machine leaning: Crack unstructured data in finance and accounting. The Journal of Finance and Data Science, 2(3), 153-170.

[38] Hajek, P., Olej, V., & Myskova, R. (2014). Forecasting Corporate Financial Performance Using Sentiment in Annual Reports for Stakeholders' Decision-Making. Technological and Economic Development of Economy, 20, 721-738.

[39] Hдrdle, W., Lee, Y.-J., Schдfer, D., & Yeh, Y.-R. (2009). Variable Selection and Oversampling in the Use of Smooth-support Vector Machines for Predicting the Default Risk of Companies. Journal of Forecasting, 28, 512-534.

[40] Heaton, J. (2008). Introduction to Neural Networks for Java. Heaton Research, Inc.

[41] Henry, E. (2008). Are investors influenced by how earnings press releases are written? Journal of Business Communication, 45(4), 363-407.

[42] Heston, S. L., & Sinha, N. R. (2016). News versus Sentiment: Predicting Stock Returns from News Stories. Finance and Economics Discussion Series, 2016, 1-35.

[43] Huang, A. H., Zang, A., & Zheng, R. (2014). Evidence on the information content of text in analyst reports. Accounting Review, 89(6), 2151-2180.

[44] Kearney, C., & Liu, S. (2014). Textual Sentiment Analysis in Finance: A Survey of Methods and Models. International Review of Financial Analysis.

[45] Kolari, J. W., Caputo, M., & Wagner, D. (1996). Trait Recognition: An Alternative Approach to Early Warning Systems in Commercial Banking. Journal of Business Finance & Accounting, 23(November 1995).

[46] Li, F. (2008). Annual report readability, current earnings, and earnings persistence. Journal of Accounting and Economics, 45(2-3), 221-247.

[47] Li, F. (2011). Textual Analysis of Corporate Disclosures: A Survey of the Literature. Journal of Accounting Literature, 1-60.

[48] Li, Z., Crook, J., & Andreeva, G. (2014). Chinese Companies Distress Prediction: an Application of Data Envelopment Analysis. Journal of the Operational Research Society, 65, 466-479.

[49] Loughran, T., & McDonald, B. (2011). When Is a Liability Not a Liability? Textual Analysis, Dictionaries, and 10-Ks. The Journal of Finance, 66, 35-65.

[50] Loughran, T., & McDonald, B. (2016). Textual Analysis in Accounting and Finance: A Survey. Journal of Accounting Research, 54, 1187-1230.

[51] Lugovskaya, L. (2010). Predicting Default of Russian SMEs on the Basis of Financial and Non-Financial Variables. Journal of Financial Services Marketing, 14, 301-313.

[52] Mai, F., Tian, S., Lee, C., & Ma, L. (2018). Deep Learning Models for Bankruptcy Prediction Using Textual Disclosures. European Journal of Operational Research, 274, 743-758.

[53] Martin, D. (1977). Early warning of bank failure. Journal of Banking & Finance, 1(3).

[54] McNelis, P. D. (2005). Neural Networks in Finance: Gaining Predictive Edge in the Market. Elsevier.

[55] Merton, R. C. (1974). On the Pricing of Corporate Debt: the Risk Structure of Interest Rates. The Journal of Finance, 29, 449-470.

[56] Mohammad, S., & Turney, P. (2010). Emotions Evoked by Common Words and Phrases: Using Mechanical Turk to Create an Emotion Lexicon.

[57] Mselmi, N., Lahiani, A., & Hamza, T. (2017). Financial Distress Prediction: The Case of French Small and Medium-Sized Firms. International Review of Financial Analysis, 50, 67-80.

[58] Nielsen, F. Е. (2011). A new ANEW: Evaluation of a word list for sentiment analysis in microblogs.

[59] Odom, M. D., & Sharda, R. (1990). A neural network model for bankruptcy prediction (pp. 163-168 vol.2).

[60] Ohlson, J. A. (1980). Financial Ratios and the Probabilistic Prediction of Bankruptcy. Journal of Accounting Research, 18, 109.

[61] Pedregosa, F., Varoquaux, G., Gramfort, A., Michel, V., Thirion, B., Grisel, O., … Duchesnay, Й. (2011). Scikit-learn: Machine Learning in Python. JMLR, 12, 2825-2830.

[62] Porter, M. F. (1980). An algorithm for suffix stripping. Program, 14(3).

[63] Ravi Kumar, P., & Ravi, V. (2007). Bankruptcy Prediction in Banks and Firms via Statistical and Intelligent Techniques. European Journal of Operational Research, 180.

[64] Rees, H., & Maddala, G. S. (1985). Limited-Dependent and Qualitative Variables in Econometrics. The Economic Journal, 95, 493.

[65] Rossum, G. van. (1995). Python tutorial. Technical Report CS-R9526, Centrum voor Wiskunde en Informatica (CWI), Amsterdam.

[66] Salchenberger, L. M., Cinar, E. M., & Lash, N. A. (1992). Neural Networks: a New Tool for Predicting Thrift Failures. Decision Sciences, 23, 899-916.

[67] Sanchez, J. S., Barandela, R., Rangel, E., & Garcia, V. (2003). Strategies for learning in class imbalance problems. Pattern Recognition, 36(3), 849-851.

[68] Scott, J. H. (1976). A Theory of Optimal Capital Structure. The Bell Journal of Economics, 7(1), 33-54.

[69] Scott, J. H. (1981). The probability of bankruptcy. A comparison of empirical predictions and theoretical models. Journal of Banking and Finance, 5(3), 317-344.

[70] Shin, K.-S., Lee, T. S., & Kim, H. (2005). Application of Support Vector Machines in Bankruptcy Prediction Model. Expert Systems with Applications, 28(1), 127-135.

[71] Shin, K. S., & Lee, Y. J. (2002). A genetic algorithm application in bankruptcy prediction modeling. Expert Systems with Applications.

[72] Shumway, T. (2001). Forecasting Bankruptcy More Accurately: A Simple Hazard Model. Journal of Business.

[73] Springate, G. L. (1978). Predicting the possibility of failure in a Canadian ?rm. Unpublished MBA project. Simon Fraser University.

[74] Taffler, R. J., & Tisshaw, H. (1977). Going, Going, Gone: Four Factors Which Predict. Accountancy, 88, 50-54.

[75] Tetlock, P. C., Tsechansky, S. T., & Macskassy, S. (2007). More than words: Quantifying language to measure firms' fundamentals. The Journal of Finance, 63(3), 1437-1467.

[76] Tian, S., & Yu, Y. (2017). Financial ratios and bankruptcy predictions: An international evidence. International Review of Economics and Finance.

[77] Tobback, E., Bellotti, T., Moeyersoms, J., Stankova, M., & Martens, D. (2017). Bankruptcy Prediction for SMEs Using Relational Data. Decision Support Systems, 102, 69-81.

[78] Walter, J. E. (1959). A Discriminant Function for Earnings-Price Ratios of Large Industrial Corporations. The Review of Economics and Statistics, 41, 44.

[79] Wilson, N., & Altanlar, A. (2014). Company failure prediction with limited information: Newly incorporated companies. Journal of the Operational Research Society, 65(2).

[80] Wilson, N., & Hernandez, M. (2013). Financial Distress and Bankruptcy Prediction among Listed Companies Using Accounting, Market and Macroeconomic Variables. International Review of Financial Analysis, 30, 394-419.

[81] Wilson, R. L., & Sharda, R. (1994). Bankruptcy Prediction Using Neural Networks. Decision Support Systems, 11, 545-557.

[82] Wu, D., Liang, L., & Yang, Z. (2008). Analyzing the financial distress of Chinese public companies using probabilistic neural networks and multivariate discriminate analysis, Socio-Economic Planning. Socio-Economic Planning Sciences, 42, 206-220.

[83] You, H., & Zhang, X. jun. (2009). Financial reporting complexity and investor underreaction to 10-k information.

[84] Youn, H., & Gu, Z. (2010). Predict US Restaurant Firm Failures: the Artificial Neural Network Model versus Logistic Regression Model. Tourism and Hospitality Research, 10, 171-187.

[85] Zhou, L., Lai, K. K., & Yen, J. (2012). Bankruptcy Prediction Using SVM Models with a New Approach to Combine Features Selection and Parameter Optimisation. International Journal of Systems Science, 45, 241-253.

[86] Zmijewski, M. E. (1984). Methodological Issues Related to the Estimation of Financial Distress Prediction Models. Journal of Accounting Research, 22, 59.

[87] Богданова, Т. К. (2008). Инструментальные средства прогнозирования вероятности банкротства авиапредприятий. Инжиниринг бизнеса, 45-61.

[88] Богданова, Т. К. (2011). Прогнозирование вероятности банкротства предприятий с учетом изменения финансовых показателей в динамике. Моделирование и анализ бизнес-процессов, 1(15), 50-60.

[89] Воронина, В. М. (2007). Прогнозирование банкротства с помощью количественных и качественных методов анализа. Методика прогнозирования банкротства, 18(99).

[90] Давыдова, Г. В. (1999). Методика количественной оценки риска банкротства предприятий. Управление риском, 1999.

[91] Демешев, Б. Б., & Тихонова, А. С. (2014a). Динамика прогнозной силы моделей банкротства для средних и малых российских компаний оптовой и розничной торговли. Корпоративные финансы.

[92] Демешев, Б. Б., & Тихонова, А. С. (2014b). Прогнозирование банкротства российских компаний: межотраслевое сравнение. Корпоративные финансы, 359-386.

[93] Жданов, В. Ю., & Афанасьева, О. А. (2011). Модель диагностики риска банкротства предприятий авиационно-промышленного комплекса. Корпоративные финансы, 4(20), 77-89.

[94] Зайцева, О. П. (1998). Антикризисный менеджмент в российской фирме. Антикризисное управление.

[95] Макеева, Е. Ю., & Бакурова, А. О. (2012). Прогнозирование банкротства компаний нефтегазового сектора с использованием нейросетей. Корпоративные финансы, 3(23), 22-30.

[96] Макушина, Е. Ю., & Шихлярова, И. А. (2018). Моделирование вероятности банкротства российских нефинансовых компаний. Финансы и кредит, 24, 95-110.

[97] Федорова, Е. А., Демин, И. С., & Рогов, О. Ю. (2019). Применение словарей тональности для текстового анализа. Прикладная информатика, 14(1), 5-15.

[98] Федорова, Е. А., Лазарев, М. П., & Федин, А. В. (2016). Прогнозирование банкротства предприятия с учетом факторов внешней среды. Финансовая аналитика: проблемы и решения, 8768, 2-12.

[99] Федорова, Е. А., & Тимофеев, Я. В. (2015a). Нормативы финансовой устойчивости российских предприятий: отраслевые особенности. Корпоративные финансы.

[100] Федорова, Е. А., & Тимофеев, Я. В. (2015b). Разработка моделей прогнозирования банкротства российских предприятий для отраслей строительства и сельского хозяйства. Финансы и кредит, 8709, 2-10.

Приложение А. Данные по нетекстовым факторам

Таблица 16. Список нетекстовых факторов

#

Категория

Фактор

Код

ИСТОЧНИК

1

Рычаг

Debt/Assets

D/A

(Beaver, 1966)

2

Debt/Equity

D/E

(Fulmer, 1984)

3

Liabilities/Assets

L/A

(Altman & Sabato, 2007)

4

Покрытие

Cash flow from operations/Debt

CFFO/D

(Bellovary et al., 2007)

5

Cash flow/Debt

FCF/D

(Beaver, 1966)

6

EBITDA/Interest expenses

EBITDA/IE

(Altman & Sabato, 2007)

7

EBT/Current liabilities

EBT/CL

(Springate, 1978)

8

Gross profit/Debt

GP/D

(Taffler & Tisshaw, 1977)

9

Current liabilities/Equity

CL/E

(Altman & Sabato, 2007)

10

Ликвидность

Cash/Assets

C/A

(Altman & Sabato, 2007)

11

Cash/Gross profit

C/GP

(Altman & Sabato, 2007)

12

Current assets/Assets

CA/A

(Bellovary et al., 2007)

13

Current assets/Current liabilities

CA/CL

(Beaver, 1966)

14

Current assets/Debt

CA/D

(Taffler & Tisshaw, 1977)

15

Current liabilities/Assets

CL/A

(Fulmer, 1984)

16

Intangible assets/Assets

IA/A

(Altman & Sabato, 2007)

17

Quick assets/Current liabilities

QA/CL

(Bellovary et al., 2007)

18

Quick assets/Assets

QA/A

(Campbell et al., 2008)

19

Working capital/Assets

WC/A

(Altman & Sabato, 2007)

20

Working capital/Debt

WC/D

(Fulmer, 1984)

21

Прибыльность

Cash flow from operations/Assets

CFFO/A

(Bellovary et al., 2007)

22

Current assets/Revenue

CA/REV

(Bellovary et al., 2007)

23

EBIT/Equity

EBIT/E

1984

24

EBIT/Revenue

EBIT/R

(Altman & Sabato, 2007)

25

EBITDA/Assets

EBITDA/A

(Altman & Sabato, 2007)

26

Net income/Assets

NI/A

(Altman & Sabato, 2007)

27

Net income/Equity

NI/E

(Bellovary et al., 2007)

28

Net income/Revenue

NI/R

(Altman & Sabato, 2007)

29

Retained earnings/Assets

RE/A

(Altman & Sabato, 2007)

30

Equity/Market

E/M

(Campbell et al., 2008)

31

Активность

Accounts payable/Revenue

AP/R

(Altman & Sabato, 2007)

32

Accounts receivable/Liabilities

AR/L

(Altman & Sabato, 2007)

33

Inventory/Revenue

INV/R

(Bellovary et al., 2007)

34

Revenue/Assets

R/A

(Altman & Sabato, 2007)

35

Макро

Assets/GNP deflator

A/GNP

(Ohlson, 1980)

36

Real 3-month treasury bill rate

RF

(Nick Wilson & Hernandez, 2013)

37

CPI

CPI

(Nick Wilson & Hernandez, 2013)

38

Рынок

Price/Book value

P/B

(Campbell et al., 2008)

39

Price/Earnings per share

P/E

(Campbell et al., 2008)

40

Excess return/Index return

ER

(Campbell et al., 2008)

41

Размер

Common equity/Assets

CE/A

(Altman et al., 1977)

42

Assets

A

(Altman & Sabato, 2007)

Таблица 17. Описательные статистики нетекстовых факторов на (1) 20

Минимум

Максимум

Среднее

Медиана

Отклонение

D/A

0.000

2.976

0.376

0.299

0.315

D/E

-72.836

65.893

0.743

0.545

7.495

L/A

0.035

3.887

0.698

0.622

0.410

CFFO/D

-76.614

134.409

0.461

0.198

7.799

FCF/D

-199.859

54.664

-0.772

0.088

10.933

EBITDA/IE

-104.530

919.477

14.026

4.795

46.856

EBT/CL

-21.613

86.562

0.181

0.157

3.968

GP/D

-4.828

553.782

4.165

0.635

28.913

CL/E

-96.505

52.077

0.338

0.379

5.427

C/A

0.000

1.000

0.103

0.059

0.129

C/GP

-14.310

19.496

0.602

0.248

2.100

CA/A

0.023

1.000

0.371

0.326

0.223

CA/CL

0.058

27.955

1.980

1.689

1.762

CA/D

0.038

393.620

5.736

1.018

31.284

CL/A

0.018

1.763

0.253

0.196

0.224

IA/A

0.000

1.000

0.175

0.096

0.203

QA/CL

0.000

26.955

1.505

1.216

1.584

QA/A

0.000

0.964

0.266

0.223

0.176

WC/A

0.043

2.112

0.623

0.565

0.352

WC/D

0.071

715.389

9.538

1.675

53.381

CFFO/A

-0.802

1.127

0.074

0.076

0.127

CA/REV

0.031

15.790

0.678

0.384

1.221

EBIT/E

-56.624

18.304

0.018

0.136

2.798

EBIT/R

-7.546

0.756

-0.050

0.060

0.552

EBITDA/A

-1.816

1.489

0.065

0.092

0.213

NI/A

-2.808

3.597

-0.006

0.026

0.306

NI/E

-28.795

17.701

0.063

0.097

2.079

NI/R

-7.769

5.814

-0.077

0.036

0.720

RE/A

-9.773

2.102

-0.086

0.103

1.119

E/M

-0.001

0.001

0.000

0.000

0.000

AP/R

0.001

4.438

0.145

0.065

0.320

AR/L

0.000

7.620

0.159

0.095

0.332

INV/R

0.000

13.510

0.174

0.080

0.655

R/A

0.014

12.126

1.037

0.799

0.998

A/GNP

-0.090

10.805

7.106

7.101

1.416

RF

0.000

0.020

0.005

0.003

0.006

CPI

0.002

0.033

0.017

0.015

0.007

P/B

-95.004

28.714

0.368

0.422

6.133

P/E

-178.996

1352.605

9.707

1.677

85.045

ER

-9.483

7.678

-1.151

-1.173

2.221

CE/A

-2.887

1.000

0.283

0.365

0.426

A

0.000

10.895

7.152

7.138

1.418

Таблица 18. Корреляция нетекстовых факторов (1/3)

Bankrupt

AP/R

AR/L

INV/R

R/A

CE/A

CFFO/D

FCF/D

EBITDA/IE

EBT/CL

GP/D

CL/E

D/A

D/E

L/A

C/A

C/GP

CA/A

CA/CL

Bankrupt

1.00

AP/R

0.02

1.00

AR/L

-0.06

0.01

1.00

INV/R

0.06

0.74

-0.01

1.00

R/A

-0.05

-0.26

0.49

-0.15

1.00

CE/A

-0.23

-0.15

0.29

-0.09

0.09

1.00

CFFO/D

-0.01

-0.01

0.02

-0.01

0.02

0.03

1.00

FCF/D

-0.09

-0.03

-0.01

-0.01

0.04

0.08

0.30

1.00

EBITDA/IE

-0.01

-0.16

0.01

-0.06

0.04

0.01

0.05

0.11

1.00

EBT/CL

-0.08

-0.04

0.48

-0.02

0.11

0.22

0.03

0.08

0.06

1.00

GP/D

0.02

-0.02

0.05

-0.01

0.08

0.03

0.33

0.55

0.05

0.00

1.00

CL/E

-0.03

0.00

0.01

-0.06

0.03

0.01

0.00

0.00

0.00

0.00

0.00

1.00

D/A

0.14

-0.04

-0.32

-0.07

-0.17

-0.79

-0.04

0.01

-0.02

-0.17

-0.07

-0.01

1.00

D/E

-0.01

0.00

-0.02

-0.01

-0.02

0.00

0.00

0.00

0.00

0.00

0.00

0.78

0.01

1.00

L/A

0.23

0.17

-0.28

0.10

-0.08

-0.97

-0.03

-0.08

-0.01

-0.22

-0.03

-0.01

0.80

0.01

1.00

C/A

-0.03

-0.11

0.24

-0.06

0.13

0.19

0.04

0.02

-0.05

0.13

0.02

-0.02

-0.19

-0.01

-0.17

1.00

C/GP

0.00

0.16

0.01

0.05

-0.02

0.03

0.00

-0.03

-0.97

-0.03

0.00

0.00

-0.02

0.00

-0.03

0.08

1.00

CA/A

-0.06

-0.11

0.45

0.02

0.53

0.20

0.01

0.03

0.00

0.08

0.05

0.01

-0.29

-0.02

-0.18

0.50

0.02

1.00

CA/CL

-0.06

-0.13

0.21

-0.02

0.00

0.32

0.02

-0.01

-0.06

0.24

0.01

-0.01

-0.19

0.01

-0.33

0.29

0.08

0.35

1.00

Таблица 19. Корреляция нетекстовых факторов (2/3)

Bankrupt

AP/R

AR/L

INV/R

R/A

CE/A

CFFO/D

FCF/D

EBITDA/IE

EBT/CL

GP/D

CL/E

D/A

D/E

L/A

C/A

C/GP

CA/A

CA/CL

CA/D

0.03

-0.01

0.05

0.00

0.05

0.03

0.31

0.48

0.01

-0.01

0.96

0.00

-0.07

0.00

-0.03

0.02

0.01

0.04

0.04

CL/A

0.16

0.06

0.16

0.04

0.31

-0.37

-0.01

0.01

0.01

-0.05

0.02

-0.01

0.21

-0.02

0.40

0.12

-0.01

0.35

-0.30

IA/A

-0.01

-0.18

-0.09

-0.14

-0.04

-0.02

-0.01

0.05

0.00

0.02

0.00

-0.01

0.12

-0.04

0.04

-0.10

-0.01

-0.14

-0.08

QA/CL

-0.05

-0.11

0.13

-0.08

-0.08

0.27

0.02

0.00

-0.07

0.23

0.00

-0.01

-0.14

0.01

-0.27

0.31

0.09

0.24

0.94

QA/A

-0.07

-0.11

0.28

-0.12

0.34

0.17

0.01

0.04

-0.01

0.08

0.02

0.02

-0.25

-0.01

-0.15

0.56

0.03

0.80

0.32

WC/A

0.05

-0.04

0.39

0.04

0.52

-0.07

0.00

0.02

0.01

0.03

0.04

0.00

-0.08

-0.02

0.10

0.40

0.01

0.86

0.07

WC/D

0.03

-0.01

0.04

0.00

0.04

0.02

0.30

0.47

0.02

-0.01

0.96

0.00

-0.07

0.00

-0.02

0.02

0.01

0.03

0.02

A

-0.03

0.21

-0.23

0.10

-0.29

-0.19

-0.02

0.02

0.01

-0.05

-0.04

0.00

0.11

0.01

0.18

-0.32

-0.03

-0.36

-0.17

CFFO/A

-0.02

-0.02

0.02

-0.02

0.01

0.04

0.90

0.01

0.01

0.06

0.00

0.00

-0.03

0.00

-0.04

0.04

0.00

-0.01

0.02

CA/REV

0.01

0.56

-0.06

0.41

-0.20

-0.06

-0.01

-0.05

-0.68

-0.06

-0.01

-0.01

-0.01

0.00

0.07

0.05

0.69

0.06

0.20

EBIT/E

-0.03

-0.01

0.00

-0.01

0.03

-0.02

0.00

0.01

0.01

0.05

0.00

0.48

0.02

0.60

0.02

-0.05

0.00

0.01

0.00

EBIT/R

-0.10

-0.14

0.02

-0.05

0.05

0.11

0.01

0.09

0.80

0.28

0.00

0.01

-0.10

0.00

-0.11

-0.08

-0.80

-0.01

-0.04

EBITDA/A

-0.19

-0.14

0.10

-0.09

0.21

0.28

0.03

0.13

0.08

0.45

0.01

0.02

-0.21

0.01

-0.28

0.07

-0.03

0.08

0.05

NI/A

-0.14

-0.04

0.22

-0.01

0.14

0.39

0.01

0.13

0.06

0.62

0.00

0.02

-0.33

0.02

-0.38

0.07

-0.02

0.09

0.11

NI/E

0.00

0.00

0.01

0.01

0.02

-0.05

0.00

0.01

0.01

0.07

0.00

0.09

0.04

0.26

0.04

-0.02

0.00

0.00

-0.01

NI/R

-0.09

-0.10

0.04

-0.04

0.06

0.16

0.00

0.10

0.76

0.33

0.00

0.02

-0.15

0.01

-0.15

-0.07

-0.77

0.01

-0.04

RE/A

-0.14

-0.03

0.03

0.00

0.08

0.41

0.00

0.07

0.04

0.09

0.01

0.01

-0.37

0.00

-0.42

-0.08

-0.02

0.01

0.03

E/M

-0.08

0.02

-0.03

-0.02

-0.10

0.13

-0.01

0.01

0.01

0.03

-0.01

0.01

-0.14

0.00

-0.14

-0.09

-0.01

-0.15

-0.06

A/GNP

-0.03

0.21

-0.23

0.10

-0.29

-0.19

-0.02

0.02

0.01

-0.05

-0.04

0.00

0.10

0.01

0.18

-0.32

-0.03

-0.36

-0.17

Таблица 20. Корреляция нетекстовых факторов (3/3)

CA/D

CL/A

IA/A

QA/CL

QA/A

WC/A

WC/D

A

CFFO/A

CA/REV

EBIT/E

EBIT/R

EBITDA/A

NI/A

NI/E

NI/R

RE/A

E/M

A/GNP

CA/D

1.00

CL/A

0.01

1.00

IA/A

0.00

-0.03

1.00

QA/CL

0.03

-0.28

-0.05

1.00

QA/A

0.03

0.30

-0.07

0.38

1.00

WC/A

0.03

0.78

-0.11

0.00

0.70

1.00

WC/D

0.99

0.02

0.00

0.01

0.02

0.03

1.00

A

-0.05

-0.11

-0.01

-0.12

-0.28

-0.30

-0.04

1.00

CFFO/A

0.00

-0.02

0.00

0.01

-0.01

-0.02

0.00

-0.02

1.00

CA/REV

0.01

0.00

-0.12

0.24

0.11

0.04

0.00

0.08

-0.02

1.00

EBIT/E

0.00

0.02

0.01

-0.01

0.01

0.02

0.00

0.01

0.01

-0.01

1.00

EBIT/R

-0.02

-0.08

0.07

-0.06

-0.03

-0.05

-0.01

0.07

0.03

-0.62

0.03

1.00

EBITDA/A

-0.02

-0.16

0.06

0.02

0.05

-0.04

-0.02

-0.03

0.09

-0.13

0.07

0.45

1.00

NI/A

-0.01

-0.23

0.05

0.09

0.07

-0.07

-0.02

0.01

0.06

-0.04

0.04

0.39

0.77

1.00

NI/E

0.00

0.03

0.03

-0.01

-0.01

0.02

0.00

0.01

0.01

-0.01

0.80

0.04

0.06

0.06

1.00

NI/R

-0.01

-0.10

0.05

-0.06

-0.02

-0.05

-0.01

0.05

0.03

-0.55

0.03

0.94

0.40

0.50

0.05

1.00

RE/A

0.00

-0.19

0.03

-0.02

-0.06

-0.10

0.00

0.18

0.04

-0.06

0.03

0.22

0.41

0.40

0.02

0.23

1.00

E/M

-0.02

-0.11

-0.02

-0.04

-0.10

-0.16

-0.01

0.50

0.00

-0.01

0.00

0.05

0.05

0.07

-0.01

0.05

0.13

1.00

A/GNP

-0.05

-0.11

-0.01

-0.12

-0.28

-0.30

-0.04

1.00

-0.02

0.09

0.01

0.07

-0.03

0.01

0.01

0.05

0.18

0.51

1.00

Приложение Б. Данные по текстовым факторам

Таблица 21. Количество новостей на каждую компанию

2011

2012

2013

2014

2015

2016

2017

2018

Максимум

45.00

41.00

44.00

110.00

42.00

18.00

23.00

129.00

Медиана

2.00

2.00

2.00

2.00

1.00

1.00

2.00

7.00

Среднее

10.13

6.96

5.56

7.00

5.29

3.53

2.83

11.74

Минимум

1.00

1.00

1.00

1.00

1.00

1.00

1.00

1.00

Отклонение

13.51

9.66

7.55

15.69

8.64

4.81

3.35

15.50

Таблица 22. Количество слов на каждую новость

2011

2012

2013

2014

2015

2016

2017

2018

Максимум

19.00

23.00

17.00

16.00

15.67

14.00

18.00

16.00

Медиана

9.73

9.00

8.80

10.00

10.50

9.75

10.17

10.11

Среднее

9.80

9.59

8.81

10.16

10.65

10.06

11.07

10.48

Минимум

6.71

5.00

6.00

5.33

6.71

6.50

6.00

6.00

Отклонение

2.51

3.37

1.67

1.96

2.06

2.00

2.98

2.01

Таблица 23. Количество значимых слов на каждую новость

2011

2012

2013

2014

2015

2016

2017

2018

Максимум

8.00

8.00

7.00

6.00

4.33

6.00

7.00

8.00

Медиана

2.00

2.00

1.67

1.50

1.50

2.00

2.00

1.81

Среднее

2.57

2.37

1.86

1.87

1.74

2.33

2.44

2.00

Минимум

0.00

0.00

0.25

0.00

0.50

0.67

0.00

0.33

Отклонение

1.66

1.46

1.21

1.25

0.93

1.13

1.30

1.02

Таблица 24. Корреляция текстовых факторов, L&M

Bankrupt

Отрицательная

Положительная

Неопределенная

Спорная

Ограничивающая

Избыточная

Bankrupt

1.00

Отрицательная

0.20

1.00

Положительная

-0.06

-0.30

1.00

Неопределенная

0.05

-0.03

-0.07

1.00

Спорная

-0.06

-0.20

-0.03

0.00

1.00

Ограничивающая

0.01

-0.01

-0.01

0.03

0.12

1.00

Избыточная

-0.04

-0.10

-0.05

-0.07

-0.10

-0.03

1.00

Таблица 25. Корреляция текстовых факторов, NRC

Bankrupt

Bankrupt

Злость

Симпатия

Отвращение

Страх

Радость

Пессимизм

Оптимизм

Грусть

Неожиданность

Bankrupt

1.00

Злость

0.12

1.00

Симпатия

0.06

0.27

1.00

Отвращение

0.12

0.54

0.13

1.00

Страх

0.09

0.66

0.40

0.47

1.00

Радость

-0.01

0.16

0.43

0.06

0.06

1.00

Пессимизм

0.17

0.57

0.24

0.49

0.56

0.04

1.00

Оптимизм

-0.03

0.18

0.60

0.03

0.13

0.58

0.05

1.00

Грусть

0.13

0.71

0.30

0.52

0.62

0.14

0.62

0.17

1.00

Неожиданность

0.01

0.21

0.40

0.26

0.39

0.26

0.15

0.24

0.25

1.00

Доверие

-0.02

0.22

0.51

0.05

0.07

0.56

0.09

0.71

0.20

0.16

1.00

Таблица 26. Корреляция тональностей и зависимой переменной, GI

Bankrupt

Положительная

Отрицательная

Сильная

Слабая

Активная

Пассивная

Bankrupt

1.00

Положительная

0.02

1.00

Отрицательная

0.17

0.11

1.00

Сильная

0.02

0.46

0.31

1.00

Слабая

0.15

0.18

0.62

0.23

1.00

Активная

0.05

0.27

0.37

0.53

0.23

1.00

Пассивная

0.13

0.27

0.37

0.26

0.53

0.26

1.00

Приложение В.Значимость и выбор факторов

Таблица 27. Результаты тестирования словарей

L&M

NRC

GI

(1) 20

(2) 20

(3) 20

(1) 20

(2) 20

(3) 20

(1) 20

(2) 20

(3) 20

Accuracy

0.544

0.525

0.529

0.554

0.549

0.566

0.565

0.586

0.583

Recall

0.115

0.122

0.107

0.144

0.179

0.195

0.171

0.259

0.237

Specifity

0.970

0.924

0.947

0.965

0.918

0.938

0.959

0.912

0.929

Precision

0.789

0.615

0.667

0.804

0.687

0.758

0.805

0.746

0.768

PR-AUC

0.531

0.544

0.552

0.512

0.533

0.563

0.516

0.550

0.563

Таблица 28. Результаты отбора факторов

Категория

Фактор

r

Взаим. инф.

F-стат.

p-value

Ранг RFE

Рычаг

CL/E

-0.031

0.094

8.851

0.003

1

D/A

0.140

0.077

51.313

0.000

1

D/E

-0.014

0.139

4.348

0.037

1

Покрытие

CFFO/D

-0.006

0.118

0.086

0.769

1

FCF/D

-0.093

0.113

22.985

0.000

1

EBITDA/IE

-0.007

0.159

17.688

0.000

1

EBT/CL

-0.082

0.175

8.006

0.005

2

Ликвидность

C/A

-0.031

0.000

5.921

0.015

3

CA/A

-0.060

0.077

12.930

0.000

1

CA/D

0.028

0.059

27.198

0.000

5

CL/A

0.165

0.040

81.456

0.000

1

IA/A

-0.006

0.035

0.062

0.803

7

QA/CL

-0.051

0.048

9.278

0.002

6

QA/A

-0.068

0.039

17.496

0.000

1

WC/A

0.051

0.021

10.094

0.002

2

Прибыльность

CA/REV

0.007

0.021

4.505

0.034

5

EBIT/E

-0.034

0.104

4.636

0.032

2

EBITDA/A

-0.194

0.103

101.820

0.000

1

NI/A

-0.144

0.185

34.366

0.000

1

NI/E

0.002

0.133

0.390

0.532

3

NI/R

-0.086

0.189

31.961

0.000

6

RE/A

-0.142

0.155

37.880

0.000

4

Активность

AP/R

0.023

0.034

4.401

0.036

1

AR/L

-0.063

0.013

8.500

0.004

1

INV/R

0.061

0.017

10.689

0.001

1

R/A

-0.045

0.017

8.166

0.004

2

Таблица 29. Значимость переменных тональности

L&M

Тональность

Взаим. инф.

F-стат.

p-value

Отрицательная

0.009

32.634

0.000

Положительная

0.000

0.007

0.933

Неопределенная

0.022

23.635

0.000

Спорная

0.017

0.019

0.889

Ограничивающая

0.003

0.695

0.405

Избыточная

0.000

2.959

0.086

NRC

Тональность

Взаим. инф.

F-стат.

p-value

Злость

0.023

18.155

0.000

Симпатия

0.006

8.324

0.004

Отвращение

0.008

16.700

0.000

Страх

0.004

13.230

0.000

Радость

0.018

1.119

0.290

Пессимизм

0.005

17.264

0.000

Оптимизм

0.000

0.541

0.462

Грусть

0.000

16.089

0.000

Неожиданность

0.021

1.988

0.159

Доверие

0.007

1.023

0.312

GI

Тональность

Взаим. инф.

F-стат.

p-value

Положительная

0.000

0.037

0.847

Отрицательная

0.000

19.639

0.000

Сильная

0.005

1.668

0.197

Слабая

0.023

24.802

0.000

Активная

0.000

4.531

0.034

Пассивная

0.007

6.607

0.010

Рисунок 15. PR-AUC логит-моделив зависимости от числа финансовых факторов

Таблица 30. Коэффициенты переменных полной логит-модели

LR (1) 20

LR (3) 20

LR (1) 50

LR (3) 50

Альфа

-1.371

-1.008

0.599

0.060

CL/E

0.045

-0.319

-0.048

-0.036

D/A

-0.117

0.218

-0.195

0.230

D/E

-0.236

0.150

0.101

-0.023

CFFO/D

-2.297

0.066

0.030

-0.047

FCF/D

-3.448

-1.112

-0.832

-0.135

EBITDA/IE

-0.621

-0.377

-0.786

-0.125

CA/A

-0.271

-0.575

-0.555

-0.197

CL/A

0.915

0.645

1.453

0.227

QA/A

-0.727

-0.272

-1.554

-0.219

EBIT/E

-0.049

-0.242

0.041

-0.069

EBITDA/A

-1.373

-1.058

-0.990

-0.206

NI/A

0.486

0.188

0.215

-0.096

AP/R

0.257

0.018

1.739

0.117

AR/L

-0.497

-0.047

-0.232

-0.158

INV/R

0.370

0.243

0.299

0.063

CE/A

-0.077

-0.775

-0.844

-0.364

A/GNP

0.465

0.471

-0.881

-0.094

E/M

-4.251

-2.583

-1.449

-0.278

P/B

-0.361

-0.082

-0.549

-0.016

P/E

0.164

0.208

0.491

-0.006

ER

-0.007

-0.065

-0.078

0.033

Случайный лес

-0.387

-0.356

-0.252

-0.024

CPI

-0.155

0.164

-0.261

0.014

Потреб. товары

0.110

0.081

0.184

0.000

Финансы

-0.290

-0.420

-0.800

-0.032

Здравоохранение

0.383

0.016

0.161

-0.046

Пром. товары

0.015

0.027

0.195

0.015

Услуги

0.377

0.217

0.444

0.071

Технологии

0.158

0.160

-0.047

0.022

Инфраструктура

0.155

0.220

0.838

0.034

Отрицательная

0.448

0.554

0.405

0.196

Положительная

0.107

0.041

0.321

0.096

Неопределенная

0.376

0.053

0.977

0.102

Спорная

-0.706

-0.042

-0.396

0.063

Ограничивающая

-0.080

-0.130

-0.005

-0.028

Избыточная

-0.305

-0.158

-0.022

0.034

Таблица 31. Значимость переменных полной модели случайного леса

RF (1) 20

RF (3) 20

RF (1) 50

RF (3) 50

CL/E

0.0595

0.0248

0.0222

0.0722

D/A

0.0096

0.0372

0.0022

0.0316

D/E

0.0320

0.0388

0.0427

0.0405

CFFO/D

0.0185

0.0703

0.0622

0.0544

FCF/D

0.0429

0.0969

0.0421

0.0285

EBITDA/IE

0.1009

0.0825

0.1538

0.0544

CA/A

0.0316

0.0304

0.0730

0.0233

CL/A

0.0328

0.0200

0.0214

0.0190

QA/A

0.0184

0.0235

0.0565

0.0266

EBIT/E

0.0186

0.0387

0.0455

0.0380

EBITDA/A

0.1153

0.0458

0.0503

0.0268

NI/A

0.1376

0.1304

0.0831

0.1115

AP/R

0.0191

0.0163

0.0044

0.0157

AR/L

0.0159

0.0280

0.0163

0.0253

INV/R

0.0209

0.0186

0.0140

0.0221

CE/A

0.0653

0.0945

0.0968

0.0626

A/GNP

0.0281

0.0285

0.0201

0.0197

E/M

0.0740

0.0389

0.0430

0.0561

P/B

0.0840

0.0669

0.1061

0.1795

P/E

0.0396

0.0347

0.0197

0.0589

ER

0.0126

0.0078

0.0053

0.0097

Случайный лес

0.0130

0.0099

0.0025

0.0061

CPI

0.0048

0.0084

0.0078

0.0074

Потреб. товары

0.0101

0.0184

0.0175

0.0298

Финансы

0.0114

0.0599

0.0244

0.0156

Здравоохранение

0.0359

0.0632

0.0854

0.1075

Пром. товары

0.0411

0.0408

0.0155

0.0134

Услуги

0.0444

0.0327

0.0524

0.0160

Технологии

0.1152

0.1187

0.1222

0.0695

Инфраструктура

0.0214

0.0289

0.0388

0.0465

Отрицательная

0.0004

0.0034

0.0040

0.0050

Положительная

0.0014

0.0021

0.0000

0.0022

Неопределенная

0.0004

0.0009

0.0000

0.0000

Спорная

0.0024

0.0018

0.0051

0.0027

Ограничивающая

0.0004

0.0000

0.0000

0.0000

Избыточная

0.0000

0.0000

0.0000

0.0000

Приложение Г. Результаты обучения моделей

Таблица 32. Метрики качества длинных моделей на (1) 20 на обучающей и тестовой выборках

Логит

Персептрон

Опорные вектора

Случайный лес

Обуч.

Тест.

Обуч.

Тест.

Обуч.

Тест.

Обуч.

Тест.

Accuracy

0.859

0.856

1.000

0.962

0.921

0.894

0.989

0.935

Recall

0.863

0.855

1.000

0.977

0.965

0.947

0.990

0.939

Specifity

0.855

0.856

1.000

0.947

0.878

0.841

0.987

0.932

Precision

0.857

0.855

1.000

0.948

0.888

0.855

0.987

0.932

PR-AUC

0.924

0.924

0.957

0.957

0.936

0.936

0.972

0.972

Таблица 33. Метрики качества длинных моделей на однолетних выборках

Логит

Персептрон

(1) 20

(1) 25

(1) 33

(1) 50

(1) 20

(1) 25

(1) 33

(1) 50

Accuracy

0.856

0.863

0.824

0.849

0.962

0.926

0.926

0.995

Recall

0.855

0.873

0.838

0.864

0.977

0.951

0.971

0.990

Specifity

0.856

0.853

0.809

0.833

0.947

0.902

0.882

1.000

Precision

0.855

0.856

0.814

0.840

0.948

0.907

0.892

1.000

PR-AUC

0.924

0.910

0.885

0.912

0.957

0.927

0.958

0.899

Опорные вектора

Случайный лес

(1) 20

(1) 25

(1) 33

(1) 50

(1) 20

(1) 25

(1) 33

(1) 50

Accuracy

0.894

0.877

0.882

0.849

0.935

0.922

0.897

0.884

Recall

0.947

0.912

0.926

0.864

0.939

0.951

0.956

0.912

Specifity

0.841

0.843

0.838

0.833

0.932

0.892

0.838

0.857

Precision

0.855

0.853

0.851

0.840

0.932

0.898

0.855

0.861

PR-AUC

0.936

0.949

0.912

0.921

0.972

0.990

0.966

0.978

Таблица 34. Метрики качества длинных моделей на двухлетних выборках

Логит

Персептрон

(2) 20

(2) 25

(2) 33

(2) 50

(2) 20

(2) 25

(2) 33

(2) 50

Accuracy

0.863

0.854

0.830

0.806

0.926

0.919

0.905

0.890

Recall

0.873

0.879

0.833

0.768

0.941

0.929

0.939

0.863

Specifity

0.853

0.828

0.826

0.844

0.912

0.909

0.871

0.917

Precision

0.856

0.837

0.827

0.830

0.914

0.911

0.879

0.911

PR-AUC

0.910

0.914

0.930

0.921

0.927

0.939

0.949

0.970

Опорные вектора

Случайный лес

(2) 20

(2) 25

(2) 33

(2) 50

(2) 20

(2) 25

(2) 33

(2) 50

Accuracy

0.877

0.891

0.886

0.853

0.922

0.947

0.932

0.942

Recall

0.912

0.924

0.909

0.821

0.951

0.975

0.970

0.947

Specifity

0.843

0.859

0.864

0.885

0.892

0.919

0.894

0.938

Опорные вектора

Случайный лес

(2) 20

(2) 25

(2) 33

(2) 50

(2) 20

(2) 25

(2) 33

(2) 50

Precision

0.853

0.867

0.870

0.876

0.898

0.923

0.901

0.938

PR-AUC

0.949

0.741

0.956

0.943

0.990

0.986

0.991

0.991

Таблица 35. Метрики качества длинных моделей на трехлетних выборках

Логит

Персептрон

(3) 20

(3) 25

(3) 33

(3) 50

(3) 20

(3) 25

(3) 33

(3) 50

Accuracy

0.824

0.836

0.883

0.949

0.926

0.939

0.887

0.953

Recall

0.838

0.835

0.890

0.981

0.971

0.972

0.864

0.968

Specifity

0.809

0.838

0.876

0.918

0.882

0.907

0.910

0.939

Precision

0.814

0.837

0.878

0.922

0.892

0.912

0.906

0.941

PR-AUC

0.885

0.917

0.932

0.989

0.958

0.978

0.946

0.985

Опорные вектора

Случайный лес

(3) 20

(3) 25

(3) 33

(3) 50

(3) 20

(3) 25

(3) 33

(3) 50

Accuracy

0.882

0.883

0.890

0.933

0.897

0.949

0.853

0.942

Recall

0.926

0.890

0.876

0.941

0.956

0.981

0.821

0.947

Specifity

0.838

0.876

0.903

0.925

0.838

0.918

0.885

0.938

Precision

0.851

0.878

0.901

0.926

0.855

0.922

0.876

0.938

PR-AUC

0.912

0.932

0.954

0.983

0.966

0.989

0.943

0.991

Рисунок16. Precision-Recallкривыеразличных длинных моделей

Рисунок 17. Precision-Recallкривыедлиннойлогит-модели

Рисунок18. Precision-Recallкривыедлинноймодели случайного леса

Рисунок19. PR-AUCдлинноймоделислучайного леса в зависимости от числа деревьев

Рисунок 20. Accuracyразличных длинных моделей в разрезе по пропорциям

Рисунок 21. Accuracyразличных длинных моделей в разрезе по горизонтам

Рисунок 22. Specifityразличных длинных моделей в разрезе по пропорциям

Логит

(1) 20

(1) 25

(1) 33

(1) 50

(2) 20

(2) 25

(2) 33

(2) 50

(3) 20

(3) 25

(3) 33

(3) 50

C

1.76

0.76

1.76

1.76

1.76

1.01

0.01

0.01

1.51

0.26

1.51

0.01

tol

0.101

0.001

0.001

0.301

0.401

0.701

0.801

0.001

0.901

0.901

0.501

0.001

Персептрон

(1) 20

(1) 25

(1) 33

(1) 50

(2) 20

(2) 25

(2) 33

(2) 50

(3) 20

(3) 25

(3) 33

(3) 50

alpha

0.26

0.26

0.51

1.51

1.51

0.51

0.51

1.26

1.01

1.01

1.01

1.51

neurons (1)

14

16

12

16

16

12

16

10

16

12

14

10

neurons (2)

7

8

3

8

8

6

5

5

5

6

7

5

tol

1.0E-04

1.0E-04

1.0E-04

1.0E-04

1.0E-04

1.0E-04

1.0E-04

1.0E-04

1.0E-04

1.0E-04

1.0E-04

1.0E-04

Опорные вектора

(1) 20

(1) 25

(1) 33

(1) 50

(2) 20

(2) 25

(2) 33

(2) 50

(3) 20

(3) 25

(3) 33

(3) 50

C

1.76

1.76

1.76

1.76

1.76

1.76

1.76

0.51

1.76

1.76

1.76

1.76

tol

1.0E-04

1.0E-01

2.0E-01

3.0E-01

8.0E-01

1.0E-04

1.0E-04

2.0E-01

1.0E-04

1.0E-01

1.0E-04

5.0E-01

Случайный лес

(1) 20

(1) 25

(1) 33

(1) 50

(2) 20

(2) 25

(2) 33

(2) 50

(3) 20

(3) 25

(3) 33

(3) 50

max depth

8

10

10

8

10

8

10

8

10

10

10

10

min samples

6

10

10

6

8

10

10

6

6

6

10

6

trees

10

14

14

14

14

14

13

12

14

14

14

13

Таблица 36. Параметризация длинных моделей

Рисунок 23. Одно из 13 решающих деревьев, построенных при обучении длинной модели на (1) 20 с помощью случайного леса

ПриложениеД. Листинг

Отрывок 1. Работа с текстом

Отрывок 2. Работа с нетекстовыми факторами

Отрывок 3. Обучениемоделей

Приложение Е. Состав выборок

Таблица 37. Список компаний-банкротов

#

Название

Дата

Отрасль

Величинаактивов

1

21st Century Oncology Holdings, Inc.

25.05.2017

Здравоохранение

От 500 тыс. до 1 млн.

2

A. M. Castle & Co.

18.06.2017

Услуги

От 500 тыс. до 1 млн.

3

A123 Systems, Inc.

16.10.2012

Технологии

От 500 тыс. до 1 млн.

4

Adeptus Health Inc.

19.04.2017

Здравоохранение

От 100 тыс. до 500 тыс.

5

Aeropostale, Inc.

04.05.2016

Услуги

От 500 тыс. до 1 млн.

6

Alpha Natural Resources, Inc.

03.08.2015

Добыча

От 10 млн. до 100 млн.

7

American Apparel, Inc.

05.10.2015

Финансы

От 100 тыс. до 500 тыс.

8

Ampal-American Israel Corporation

29.08.2012

Финансы

От 500 тыс. до 1 млн.

9

AMR Corporation

29.11.2011

Услуги

От 100 тыс. до 500 тыс.

10

Arch Coal, Inc.

11.01.2016

Добыча

От 10 млн. до 100 млн.

11

Armstrong Energy, Inc.

01.11.2017

Добыча

От 500 тыс. до 1 млн.

12

Aspect Software Parent Inc.

09.03.2016

Услуги

От 500 тыс. до 1 млн.

13

Atlas Resource Partners, L.P.

27.07.2016

Добыча

От 500 тыс. до 1 млн.

14

ATP Oil & Gas Corporation

17.08.2012

Добыча

От 1 млн. до 10 млн.

15

Avaya Inc.

19.01.2017

Технологии

От 1 млн. до 10 млн.

16

Basic Energy Services, Inc.

25.10.2016

Добыча

От 1 млн. до 10 млн.

17

Black Elk Energy Offshore Operations, LLC

11.08.2015

Добыча

От 500 тыс. до 1 млн.

18

Bon Ton Stores, Inc.

04.02.2018

Услуги

От 1 млн. до 10 млн.

19

Bonanza Creek Energy, Inc.

04.01.2017

Добыча

От 500 тыс. до 1 млн.

20

Borders Group, Inc.

16.02.2011

Услуги

От 500 тыс. до 1 млн.

21

Breitburn Energy Partners LP

15.05.2016

Добыча

От 1 млн. до 10 млн.

22

Broadview Networks Holdings, Inc.

22.08.2012

Инфраструктура

От 100 тыс. до 500 тыс.

23

Caesars Entertainment Operating Company, Inc.

12.01.2015

Услуги

От 10 млн. до 100 млн.

24

Cal Dive International, Inc.

03.03.2015

Добыча

От 500 тыс. до 1 млн.

25

Capitol Bancorp Ltd.

09.08.2012

Финансы

От 1 млн. до 10 млн.

26

Central European Distribution Corporation

07.04.2013

Услуги

От 1 млн. до 10 млн.

27

Cenveo, Inc.

02.02.2018

Потреб. товары

От 1 млн. до 10 млн.

28

Chaparral Energy, Inc.

09.05.2016

Добыча

От 1 млн. до 10 млн.

29

China Natural Gas, Inc.

08.02.2013

Услуги

От 100 тыс. до 500 тыс.

30

Ciber, Inc.

09.04.2017

Услуги

От 500 тыс. до 1 млн.

31

Claires Stores, Inc.

19.03.2018

Услуги

От 1 млн. до 10 млн.

32

Coldwater Creek Inc.

11.04.2014

Услуги

От 500 тыс. до 1 млн.

33

Corinthian Colleges, Inc.

04.05.2015

Услуги

От 1 млн. до 10 млн.

34

Cumulus Media Inc.

29.11.2017

Инфраструктура

От 1 млн. до 10 млн.

35

Delta Petroleum Corporation

15.12.2011

Добыча

От 100 тыс. до 500 тыс.

36

Dendreon Corporation

10.11.2014

Пром. товары

От 1 млн. до 10 млн.

37

Dex Media, Inc.

16.05.2016

Услуги

От 1 млн. до 10 млн.

38

Dolan Company

23.03.2014

Услуги

От 500 тыс. до 1 млн.

39

Eastman Kodak Company

19.01.2012

Пром. товары

От 1 млн. до 10 млн.

40

Edison Mission Energy

17.12.2012

Услуги

От 1 млн. до 10 млн.

41

Emerald Oil, Inc.

22.03.2016

Добыча

От 100 тыс. до 500 тыс.

42

Endeavour International Corporation

10.10.2014

Добыча

От 500 тыс. до 1 млн.

43

Energy Conversion Devices, Inc.

14.02.2012

Технологии

От 100 тыс. до 500 тыс.

44

Energy Future Holdings Corp.

29.04.2014

Услуги

От 10 млн. до 100 млн.

45

Erickson Incorporated

08.11.2016

Пром. товары

От 100 тыс. до 500 тыс.

46

EV Energy Partners, L.P.

02.04.2018

Добыча

От 1 млн. до 10 млн.

47

EXCO Resources, Inc.

15.01.2018

Добыча

От 1 млн. до 10 млн.

48

Exide Technologies

10.06.2013

Технологии

От 1 млн. до 10 млн.

49

Fairway Group Holdings Corp.

02.05.2016

Услуги

От 100 тыс. до 500 тыс.

50

First Mariner Bancorp

10.02.2014

Финансы

От 1 млн. до 10 млн.

51

First NBC Bank Holding Company

11.05.2017

Финансы

От 1 млн. до 10 млн.

52

FirstEnergy Solutions Corp.

31.03.2018

Услуги

От 10 млн. до 100 млн.

53

Forbes Energy Services Ltd.

22.01.2017

Добыча

От 500 тыс. до 1 млн.

54

FriendFinder Networks Inc.

17.09.2013

Услуги

От 100 тыс. до 500 тыс.

55

GateHouse Media, Inc.

27.09.2013

Услуги

От 500 тыс. до 1 млн.

56

GenOn Energy, Inc.

14.06.2017

Добыча

От 10 млн. до 100 млн.

57

Geokinetics Inc.

10.03.2013

Финансы

От 500 тыс. до 1 млн.

58

Global Brokerage, Inc.

11.12.2017

Добыча

От 1 млн. до 10 млн.

59

Global Geophysical Services, Inc.

25.03.2014

Добыча

От 500 тыс. до 1 млн.

60

GMX Resources Inc.

01.04.2013

Технологии

От 500 тыс. до 1 млн.

61

GT Advanced Technologies Inc.

06.10.2014

Пром. товары

От 1 млн. до 10 млн.

62

GulfMark Offshore, Inc.

17.05.2017

Потреб. товары

От 1 млн. до 10 млн.

63

Gymboree Corporation

11.06.2017

Добыча

От 1 млн. до 10 млн.

64

Halcon Resources Corporation

27.07.2016

Пром. товары

От 100 тыс. до 500 тыс.

65

Hawker Beechcraft Acquisition Company, LLC

03.05.2012

Добыча

От 1 млн. до 10 млн.

66

Hercules Offshore, Inc.

13.08.2015

Добыча

От 1 млн. до 10 млн.

67

hhgregg, Inc.

06.03.2017

Услуги

От 500 тыс. до 1 млн.

68

Horsehead Holding Corp.

02.02.2016

Пром. товары

От 500 тыс. до 1 млн.

69

iHeartMedia, Inc.

14.03.2018

Инфраструктура

От 10 млн. до 100 млн.

70

Illinois Power Generating Company

09.12.2016

Услуги

От 1 млн. до 10 млн.

71

International Shipholding Corporation

01.08.2016

Услуги

От 500 тыс. до 1 млн.

72

ITT Educational Services, Inc.

16.09.2016

Услуги

От 500 тыс. до 1 млн.

73

J.G. Wentworth Company

12.12.2017

Финансы

От 1 млн. до 10 млн.

74

James River Coal Company

07.04.2014

Добыча

От 1 млн. до 10 млн.

75

Key Energy Services, Inc.

24.10.2016

Добыча

От 1 млн. до 10 млн.

76

KIT digital, Inc.

25.04.2013

Услуги

От 100 тыс. до 500 тыс.

77

Lee Enterprises, Incorporated

12.12.2011

Услуги

От 1 млн. до 10 млн.

78

LifeCare Holdings, Inc.

11.12.2012

Здравоохранение

От 500 тыс. до 1 млн.

79

Linn Energy, LLC

11.05.2016

Добыча

От 1 млн. до 10 млн.

80

LodgeNet Interactive Corporation

27.01.2013

Инфраструктура

От 100 тыс. до 500 тыс.

81

LRI Holdings, Inc.

08.08.2016

Услуги

От 500 тыс. до 1 млн.

82

Mattress Firm Holding Corp.

05.10.2018

Услуги

От 500 тыс. до 1 млн.

83

Memorial Production Partners LP

16.01.2017

Добыча

От 500 тыс. до 1 млн.

84

MF Global Holdings Ltd.

31.10.2011

Финансы

От 10 млн. до 100 млн.

85

Midstates Petroleum Company, Inc.

30.04.2016

Добыча

От 500 тыс. до 1 млн.

86

Milagro Oil & Gas, Inc.

15.07.2015

Добыча

От 500 тыс. до 1 млн.

87

MModal Inc.

20.03.2014

Услуги

От 500 тыс. до 1 млн.


Подобные документы

  • Модели дискриминантного анализа. Эффективность классических западных и российских моделей предсказания банкротства. Отраслевая специфика. Описание статей, включающее характеристики выборки, метод, список факторов и прогнозную силу метода анализа.

    реферат [68,6 K], добавлен 24.07.2016

  • Определение возможности банкротства субъектов хозяйствования. Характеристика моделей экспресс-прогнозирования вероятности наступления банкротства Давыдовой-Беликова и Сайфулина-Кадыкова. Юридические аспекты и акты регулирования процедуры банкротства.

    курсовая работа [84,1 K], добавлен 30.09.2009

  • Два подхода к прогнозированию банкротства. Три модели Альтмана. Методика О.П. Зайцевой. Методика ФСФО РФ. Методика определения класса кредитоспособности. Методика балльных оценок. Критерии А.И. Ковалева, В.П. Привалова. Методика А.О. Недосекина.

    реферат [19,8 K], добавлен 10.05.2007

  • Институт банкротства как механизм обеспечения социальной ответственности предпринимателей. Сущность и виды банкротства, количественные и качественные факторы его предсказания. Диагностика, контроль и предупреждение неплатежеспособности предприятий.

    презентация [1,5 M], добавлен 21.05.2015

  • Понятие банкротства, его основные причины и необходимость прогнозирования. Отечественные и зарубежные модели экспресс-прогнозирования возможности наступления банкротства. Сущность модели О.П. Зайцевой и расчет вероятности наступления банкротства.

    курсовая работа [98,7 K], добавлен 30.09.2009

  • Понятие и признаки банкротства, его причины и виды. Факторы возникновения кризисных ситуаций на предприятиях. Методы диагностики вероятности банкротства многокритериальным способом, при помощи дискриминантных факторных моделей на примере ОАО "АКВА".

    курсовая работа [51,7 K], добавлен 09.12.2013

  • Экономическая сущность банкротства предприятия, его основные критерии в мировой хозяйственной практике. Методы диагностики финансовой несостоятельности хозяйствующих субъектов. Разработка мероприятий по прогнозированию банкротства конкретного предприятия.

    курсовая работа [69,8 K], добавлен 12.04.2012

  • Понятие банкротства и его предпосылки. Социально экономические последствия банкротства. Развитие института банкротства в России и за рубежом. Банкротство физического лица и его особенности в РФ. Правовое регулирование порядка банкротства юридических лиц.

    курсовая работа [57,3 K], добавлен 26.05.2015

  • Проблема прогнозирования банкротства предприятий в Российской Федерации. Организационно-экономическая характеристика ООО "Мана", анализ его финансовой устойчивости, платежеспособности и кредитоспособности. Диагностика банкротства по модели Альтмана.

    реферат [101,5 K], добавлен 08.06.2013

  • Рассмотрение теоретических основ диагностики банкротства. Исследование методик прогнозирования несостоятельности. Анализ финансового состояния ООО "Отчизна". Изучение мероприятий по повышению финансовой устойчивости для уменьшения риска банкротства.

    курсовая работа [302,1 K], добавлен 12.10.2010

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.