Pembandingan Arsitektur Transformer dan CNN untuk Pengolahan Data Non-Visual
DOI:
https://doi.org/10.64803/juikti.v2i1.80Keywords:
Convolutional Neural Network, Transformer, Data Non-Visual, Pembelajaran Mendalam, Analisis KomparatifAbstract
Perkembangan pesat kecerdasan buatan dan pembelajaran mendalam telah mendorong eksplorasi berbagai arsitektur jaringan saraf untuk pengolahan data non-visual, seperti data numerik, sekuensial, dan tekstual. Dua arsitektur yang paling banyak digunakan dan berkembang adalah Convolutional Neural Network (CNN) dan Transformer. Meskipun CNN telah lama digunakan secara luas karena efisiensinya dalam mengekstraksi fitur lokal, arsitektur Transformer dengan mekanisme self-attention menawarkan kemampuan unggul dalam menangkap hubungan global dan dependensi kompleks antar elemen data. Penelitian ini bertujuan untuk membandingkan kinerja dan efisiensi arsitektur CNN dan Transformer dalam pengolahan data non-visual melalui pendekatan eksperimental kuantitatif. Dataset non-visual digunakan dan melalui tahapan pra-pemrosesan sebelum dilakukan pelatihan dan pengujian model. Evaluasi performa dilakukan menggunakan metrik akurasi, precision, recall, dan F1-score, serta analisis efisiensi komputasi berdasarkan waktu pelatihan dan kompleksitas model. Hasil penelitian menunjukkan bahwa Transformer secara konsisten mencapai performa yang lebih tinggi dibandingkan CNN pada seluruh metrik evaluasi, khususnya dalam menangani pola kompleks dan hubungan jangka panjang pada data non-visual. Namun, CNN menunjukkan keunggulan dalam efisiensi komputasi dan kestabilan pelatihan dengan kebutuhan sumber daya yang lebih rendah. Temuan ini mengindikasikan bahwa tidak terdapat satu arsitektur yang sepenuhnya unggul dalam semua aspek, melainkan pemilihan model harus disesuaikan dengan karakteristik data dan kebutuhan aplikasi. Selain itu, penelitian ini menyoroti potensi pendekatan hibrida yang mengombinasikan CNN dan Transformer untuk meningkatkan performa dan generalisasi model. Penelitian ini diharapkan dapat menjadi referensi empiris bagi pengembangan sistem cerdas berbasis pembelajaran mendalam dalam pengolahan data non-visual.
References
[1] R. Sato et al., “Vendor-Agnostic Vision Transformer-Based Artificial Intelligence for Peroral Cholangioscopy: Diagnostic Performance in Biliary Strictures Compared With Convolutional Neural Networks and Endoscopists,” Dig. Endosc., vol. 37, no. 12, pp. 1315–1322, 2025, doi: 10.1111/den.70028.
[2] J. Maurício, I. Domingues, and J. Bernardino, “Comparing Vision Transformers and Convolutional Neural Networks for Image Classification: A Literature Review,” Appl. Sci., vol. 13, no. 9, p. 5521, 2023, doi: 10.3390/app13095521.
[3] C. C. Atabansi, J. Nie, H. Liu, Q. Song, L. Yan, and X. Zhou, “A survey of Transformer applications for histopathological image analysis: New developments and future directions,” Biomed. Eng. Online, vol. 22, no. 1, 2023, doi: 10.1186/s12938-023-01157-0.
[4] W. Yang, X. Zhang, Y. Tian, W. Wang, J. H. Xue, and Q. Liao, “Deep Learning for Single Image Super-Resolution: A Brief Review,” IEEE Trans. Multimed., vol. 21, no. 12, pp. 3106–3121, 2019, doi: 10.1109/TMM.2019.2919431.
[5] M. Chen, K. Wang, M. Dohopolski, H. Morgan, D. Sher, and J. Wang, “TransAnaNet: Transformer-based anatomy change prediction network for head and neck cancer radiotherapy,” Med. Phys., vol. 52, no. 5, pp. 3015–3029, 2025, doi: 10.1002/mp.17655.
[6] I. T. Andika et al., “Streamlined lensed quasar identification in multiband images via ensemble networks,” Astron. Astrophys., vol. 678, p. A103, 2023, doi: 10.1051/0004-6361/202347332.
[7] A. Aktas, G. Serbes, and H. O. Ilhan, “Unveiling the capabilities of vision transformers in sperm morphology analysis: a comparative evaluation,” PeerJ Comput. Sci., vol. 11, p. e3173, 2025, doi: 10.7717/peerj-cs.3173.
[8] A. A. Akinyelu, F. Zaccagna, J. T. Grist, M. Castelli, and L. Rundo, “Brain Tumor Diagnosis Using Machine Learning, Convolutional Neural Networks, Capsule Neural Networks and Vision Transformers, Applied to MRI: A Survey,” J. Imaging, vol. 8, no. 8, p. 205, 2022, doi: 10.3390/jimaging8080205.
[9] M. K. Sain, R. Laskar, J. Singha, and S. Saini, “Enhancing real-time patient activity recognition for consistent performance in varying illumination and complex indoor environment,” Robotica, vol. 43, no. 9, pp. 3277–3315, 2025, doi: 10.1017/S0263574725102312.
[10] O. A. Caliman Sturdza, F. Filip, M. Terteliu Baitan, and M. Dimian, “Deep Learning Network Selection and Optimized Information Fusion for Enhanced COVID-19 Detection: A Literature Review,” Diagnostics, vol. 15, no. 14, p. 1830, 2025, doi: 10.3390/diagnostics15141830.
[11] L. Scabini, A. Sacilotti, K. M. Zielinski, L. C. Ribas, B. De Baets, and O. M. Bruno, “A Comparative Survey of Vision Transformers for Feature Extraction in Texture Analysis,” J. Imaging, vol. 11, no. 9, p. 304, 2025, doi: 10.3390/jimaging11090304.
[12] S. A. Khan and D. T. Dang-Nguyen, “Deepfake Detection: Analyzing Model Generalization Across Architectures, Datasets, and Pre-Training Paradigms,” IEEE Access, vol. 12, pp. 1880–1908, 2024, doi: 10.1109/ACCESS.2023.3348450.
[13] Z. Zhang, T. Li, X. Tang, X. Hu, and Y. Peng, “CAEVT: Convolutional Autoencoder Meets Lightweight Vision Transformer for Hyperspectral Image Classification,” Sensors, vol. 22, no. 10, p. 3902, 2022, doi: 10.3390/s22103902.
[14] Supiyandi, R. Chairul, A. Deni, N. Muhammad, and I. Muhammad, “Kajian Teoritis Simulatif Mengenai Algoritma Huffman dalam Kompresi Data Teks,” J. Ilmu Komput. Dan Tek. Infromatika, vol. 1, no. 1, pp. 14–20, 2025.
[15] J. Prayoga, B. S. Hasugian, and A. Yasir, “Analisis Efektivitas Penerapan Metode Waterfall dan Agile dalam Pengembangan Perangkat Lunak,” J. Ilmu Komput. dan Tek. Inform., vol. 1, no. 1, pp. 8–13, 2025, [Online]. Available: https://journals.raskhamedia.or.id/index.php/juikti/article/view/42
Downloads
Published
Issue
Section
License
Copyright (c) 2026 Lailia Rahmawati, Wahyu Tisno Atmojo, Eka Pandu Cynthia, Maulidania Mediawati Cynthia, Dessy Nia Cynthia (Author)

This work is licensed under a Creative Commons Attribution-ShareAlike 4.0 International License.






