The Use of BEXA Family Algorithms in Bioinformatics Data Classification

Open access

Abstract

This article studies the possibilities of BEXA family classification algorithms - BEXA, FuzzyBexa and FuzzyBexa II in data, especially bioinformatics data, classification. Three different types of data sets have been used in the study - data sets often used in the literature, UCI data repository real life data sets and real bioinformatics data sets that have the specific character - a large number of attributes and a small number of records. For the comparison of classification results experiments have been carried out using all data sets and other classification algorithms. As a result, conclusions have been drawn and recommendations given about the use of each algorithm of BEXA family for classification of various real data, as well as an answer has been given to the question, whether the use of these algorithms is recommended for bioinformatics data.

Šajā rakstā pētītas Bexa saimes algoritmu iespējas reālu bioinformātikas datu klasifikācijā. Bexa saime sastāv no trim algoritmiem: Bexa - kas darbojas ar stingriem datiem, kā arī FuzzyBexa un FuzzyBexa II, kas darbojas ar izplūdušiem datiem. FuzzyBexa no FuzzyBexaII atšķiras ar to, ka pēdējā katra klase netiek apskatīta individuāli, bet gan tiek ģenerēti likumi visām klasēm. Bexa saimes algoritmi nosacīti sastāv no trim daļām -pārklājuma procedūras, labākā likuma meklēšanas, izmantojot novērtējuma funkciju, kā arī specializāciju veidošanas. Praktiskie eksperimenti tika veikti ar sešpadsmit reālām datu kopām, kuras nosacīti var iedalīt trīs daļās: literatūrā bieži izmantotās datu kopas (Iris data set, Auto MPG and Ionosphere Data Set ), UCI datu repozitorija reālas bioinformātikas datu kopas (Nursery Data Set, Breast cancer Wisconsin, Parkinsons, SPECT heart, Molecular biology (Splice-junction gene sequences), Yeast data set) un reālas bioinformātikas datu kopas, kam ir liels atribūtu un mazs ierakstu skaits (GSE3726 (Breast & colon cancer), GSE2535 (CML treatment), GSE2685 (Gastric cancer), GSE1577 (Lymphoma & Leukaemia), GSE2191 (AML prognosis), GSE89 (Bladder cancer) and GSE1987 (Lung cancer)). Lai salīdzinātu Bexa saimes algoritmu klasifikācijas rezultātus, tika veikti papildus eksperimenti ar visām izmantotajām datu kopām ar citiem algoritmiem: Bexa klasifikācijas rezultāts kategoriskiem datiem salīdzināts ar JRIP, Part un PRISMA algoritmiem, kā arī ar skaitliskiem datiem ar Jrip un Part. FuzzyBexa un FuzzyBexaII klasifikācijas rezultāti salīdzināti ar FURIA, FLR un Slave C algoritmiem. Pēc klasifikācijas rezultātiem izdarīti secinājumi par atsevišķu kritēriju ietekmi uz iegūto klasifikācijas rezultātu. Pēc rezultātiem redzams, ka šīs saimes algoritmu izmantošana bioinformātikā ir perspektīva un nepieciešami tālāki pētījumi par iespējām uzlabot algoritmu vājās puses, lai paaugstinātu to klasifikācijas precizitāti un iegūto likumu kvalitāti.

В данной статье исследуются возможности алгоритмов семейства Bexa для классификации реальных данных биоинформатики. Семейство Bexa состоит из трёх алгоритмов: Bexa - который работает с чёткими данными, а также FuzzyBexa и FuzzyBexa II, которые работают с нечёткими данными. FuzzyBexa отличается от FuzzyBexa II тем, что в последнем каждый класс не рассматривается индивидуально, но генерируются законы для всех классов. Алгоритмы семейства Bexa условно состоят из трёх частей: процедуры перекрытия, поиска лучшего закона, используя оценочную функцию, а также образования специализаций. Практические эксперименты проводились на шестнадцати реальных множествах данных, которые условно можно разделить на три части: часто используемые в литературе множества данных (Iris data set, Auto MPG и Ionosphere Data Set), реальные множества данных биоинформатики из репозитория данных UCI (Nursery Data Set, Breast cancer Wisconsin, Parkinsons, SPECT heart, Molecular biology (Splice-junction gene sequences), Yeast data set) и реальные множества данных биоинформатики, у которых большое количество атрибутов и маленькое количество записей (GSE3726 (Breast & colon cancer), GSE2535 (CML treatment), GSE2685 (Gastric cancer), GSE1577 (Lymphoma & Leukaemia), GSE2191 (AML prognosis), GSE89 (Bladder cancer) и GSE1987 (Lung cancer)). Чтобы сравнить результаты классификации алгоритмов семейства Bexa, были проведены дополнительные эксперименты на всех использованных множествах данных с другими алгоритмами: результат классификации Bexa для категорийных данных сравнён с алгоритмами JRIP, Part и PRISMA, а также для численных данных - с Jrip и Part. FuzzyBexa и FuzzyBexaII сравнены с алгоритмами FURIA, FLR и Slave C. По результатам классификации были сделаны выводы о влиянии отдельных критериев на полученный результат классификации. Исходя из полученных результатов классификации видно, что использование данного семейства алгоритмов в биоинформатике является перспективным, и необходимы дальнейшие исследования в контексте возможностей улучшить слабые стороны этих алгоритмов с целью повысить их точность классификации и качество полученных законов.

References
  • [1] H. Theron, I. Cloete, BEXA: A Covering Algorithm for Learning Propositional Concept Descriptions, in Machine Learning, Vol. 24, Boston: Kluwer Academic Publishers, 1996, pp.5-40.

  • [2] J. van Zyl, I.Cloete, FuzzConRi - A Fuzzy Conjunctive Rule Inducer, in Proc. Workshop on Advances in Inductive Rule Learning, ECML, 2004, pp.194-203.

  • [3] J. van Zyl, I.Cloete, Simultaneous Concept Learning of Fuzzy Rules, in Proc. Workshop on Advances in Inductive Rule Learning, CCML, 2004, pp.194-203.

  • [4] P. Clark. The CN2 Induction Algorithm / Clark P. and Niblett T. // Machine Learning. Vol. 3, 1989, pp. 261-283.

  • [5] J. Hong. AQ15: Incremental Learning of Attribute-Based Descriptions from Examples the Method and User Guide. Report of the Intelligent Systems Group, UIUCDCS-F-86-949 Department of Computer Science, University of Illinois at Urbana-Champaign, Urbana, IL, 1986.

  • [6] J. Zyl. Fuzzy set covering as a new paradigm for the induction of fuzzy classification rules. - Mannheim: PhD thesis, 2007. p 263.

  • [7] A. Frank, A. Asuncion, UCI Machine Learning Repository Irvine, CA: University of California, School of Information and Computer Science. 2010. [Online] Available: http://archive.ics.uci.edu/ml]. [Accessed: June 3, 2012]

  • [8] M. Gasparoviča M., L. Aleksejeva. Feature Selection for Bioinformatics Data Sets - Is It Recommended? // Proceedings of the 5th International Conference on Applied Information and Communication Technologies (AICT2012), Latvia, Jelgava, 26.-27. April, 2012. - pp 325-335.

  • [9] M. Hall, E. Frank, G. Holmes, B. Pfahringer, P. Reutemann, I.H.Witten.: The WEKA Data Mining Software: An Update. SIGKDD Explorations. 11:1, 2009, pp. 10-18.

  • [10] J. Alcalá-Fdez,, A. Fernandez, J. Luengo, J. Derrac, S. García, L. Sánchez,, F. Herrera: KEEL Data-Mining Software Tool: Data Set Repository, Integration of Algorithms and Experimental Analysis Framework. Journal of Multiple-Valued Logic and Soft Computing. 17:2-3, 2011, pp.55-287.

Information Technology and Management Science

The Journal of Riga Technical University

Journal Information

Metrics

All Time Past Year Past 30 Days
Abstract Views 0 0 0
Full Text Views 12 12 12
PDF Downloads 6 6 6