DayOne
Journal
Today I Learned

Day 38 - Grinding algorithm udah Ketinggalan Jaman

...khususnya di bidang AI

Sebelum kita berdebat, mari gue jelasin dulu landasan dari judul yang gue buat

Introduction

Lo sadar gak si klo beberapa tahun ini, inovasi di bidang AI itu udah gak lagi dari inovasi algoritma baru, melainkan dari inovasi model struktur AI. Klo lo perhatiin nih ya, language models yang sekarang itu performance-nya improve karena ditambah datanya dan komputasinya, bukan dari menciptakan algoritma baru. Dengan kata lain, building bigger, better-structured networks, and feeding them more data has outpaced any modest tweaks to "the algorithm".

Beberapa faktor yang menyebabkan itu adalah karena foundational operations AI seperti matrix multiplication dan nonlinear activations udah di-provide sama library kayak NVIDIA's cuBLAS dan cuDNN dan juga deep learning frameworks, dan itu semua udah optimized. Itu artinya, keseluruhan pekerjaan algoritma udah menjadi bagian dari engineering, customizing existing pieces, daripada menciptakan metode fundamental yang baru.

From Classic Algorithm to Structural Innovation

Di ranah computer science, udah banyak classic algorithms yang kita tau seperti sorting routines, FFTs, gradient descent, etc. Algoritma tersebut udah mature, ga banyak lagi penemuan-penemuan di algoritma tersebut. Sebaliknya, di ranah machine learning, algoritma di ML tuh sederhana: we mostly apply variants of stochastic gradient descent on pre-defined network graphs, that's it. Terus inovasinya dimana? Inovasinya ada di struktur model machine learning-nya. Contoh, Convolutional Neural Network (CNNs) itu mengenalkan konsep local receptive fields dan weight sharing, yang membuat model ini bisa belajar fitur-fitur seperti edges dan texture dengan sangat sedikit parameter dibandingkan fully-connected networks. Kemampuan ini disebut inductive bias, mengaitkan weight terhadap lokasi spasial. Inductive bias sangat penting untuk model vision, khususnya di tahun 2010 ketika resource komputasi masih terbatas.

Selanjutnya ada Transformer. Transformer ini menggantikan metode fixed-sequence recurrences dengan self-attention, membuatnya bisa mengalirkan informasi ke seluruh input secara paralel. Arsitektur ini meruntuhkan bottleneck dari sequential processing (namanya sequential berarti dikerjain satu-satu wkwk) dan bisa diproses paralel di GPU/TPU secara natural tanpa perlu custom configuration. Kemudian adanya Mixture-of-Experts (MoE) membuat model ini semakin baik. Berdasarkan papernya:

MoEs instantiate hundreds of “expert” subnetworks but route each input through only a few, effectively scaling model capacity without a proportional increase in per-token compute.

Nah, lo bisa liat kan klo inovasi di atas itu bukan fokus di algoritma, tapi di struktur. CNN dan Transformer gak bikin algoritma matematika baru. Mereka tetep pake matrix multiplication dan persamaan nonlinear. Mereka cuma nge-gunain algoritma tersebut dengan cara yang unik dan baru.

Structurally-driven design ini sangat berkaitan erat dengan kemampuan dari komputasi yang ada. CNN lahir ketika GPU masih terbatas. Local filter and pooling-nya si CNN berguna untuk nge-running model dengan kapasitas memory yang terbatas. Dengan semakin berkembangnya hardware komputasi, model bisa diperluas dan ditambah layer yang lebih dalam. Arsitektur Transformer mengutamakan massive parallelism, dimana attention layers melakukan komputasi dot products antara pasangan token secara simultan, yang mana cukup efisien dilakukan pada hardware modern. Contoh-contoh yang gue kasih menunjukkan bahwa arsitektur dan hardware lah yang berevolusi, bukan algoritma. Algoritmah mah ya segitu-gitu aja, at least untuk saat ini.

Breakthrough in Industry

Sekarang kita lihat di industri AI saat ini. Gak usah jauh-jauh, mari kita lihat GPT-nya si OpenAI. Dari GPT-2 ke GPT-4, lompatan inovasi bukan terjadi gara-gara mereka menemukan algoritma baru atau learning rules yang baru, melainkan dengan scaling up and tweaking the architecture. Kita ambil GPT-3 deh sebagai contoh. GPT-3 itu pada dasarnya pake decoder Transformernya dari arsitektur GPT-2. Bedanya, di GPT-3 layernya ditambah, diperluas, dan dikasih clever sparse attention pattern, pengganti dari alternating dense and locally banded sparse attention. Nge-tweak struktur modelnya ditambah dengan data training yang lebih banyak dan komputasi yang lebih oke menghasilkan model dengan kapabilitas yang jauh berbeda dengan pendahulunya. GPT-4 dibangun dengan penambahan lebih banyak parameter dan data yang lebih diverse seperti nambahin data images untuk multimodality dan penambahan specialied attention patterns lebih banyak lagi, tapi lagi-lagi dasarnya sama, a fuc*ing Transformer. Dengan kata lain, GPT muncul hasil dari structural refinement dan scale up ketimbang new algorithmic paradigm.

Contoh lagi, AlphaFold2-nya DeepMind, model yang bisa nge-prediksi 3D struktur protein dari amino-acid sequences hanya dengan struktur network yang disebut Evoformer. Evoformer menggunakan graph untuk merepresentasikan protein dan secara iteratif nge-refine representasi sequence (MSA) dan pasangan residu melalui specialized attention dan update blocks. Ga ada algoritma sorting yang baru atau algoritma graph yang baru. Semuanya terbosan terhadap bagaimana neural network direstruktursasi. Sampe sini udah paham kan kenapa leetcode tidak guna?

Masih kurang nangkep? Okee gue kasih contoh terakhir. Lo tau berita soal Deepseek kan? Nah berarti gak asing sama istilah knowledge distillation dan student-teacher networks dong? Yup, Deepseek itu yang katanya outperformed ChatGPT bukan dikarenakan menemukan algoritma baru. Simply, dia cuma nge-train model baru ("student") dari model yang udah ada yang lebih gede dan kompleks ("teacher") sehingga bisa mendapatkan hasil yang sama dengan struktur yang lebih efisien. Lagi-lagi, mereka berinovasi dengan struktur, bukan algoritma atau rumus matematika baru.

Why Structure Matters: A Theoretical Perspective

Gimana? Setelah lihat contoh-contoh real di depan mata, lo pasti bertanya-tanya apakah emang struktur itu lebih penting dari algoritma? Nah sekarang mari kita lihat dari sisi teori.

Kalo lo mengamati, model-model gede yang ada sekarang seperti ChatGPT, DeepSeek, dan Large-Model lainnya itu semua bisa kita lihat dari dua aspek, data dan komputasi. Model dapat memiliki performa yang berbeda hanya karena data dan komputasi. Kemampuan seperti chain-of-thought reasoning atau menyelesaikan masalah matematika hanya terjadi di skala besar. Nge-prompting model GPT dan turunannya untuk think step by step bisa nge-improve perfoma dari reasoning si model tanpa harus mengubah fundamental code-nya. Ini mengisyaratkan bahwa struktur dan skala telah meng-unlock kapabilitas tersembunyi dari model yang ada.

Hal ini selaras dengan otak manusia. Otak manusia tidak diprogram secara eksplisit dengan algoritma step-by-step, melainkan dari hierarki jaringan neuron (cortical layers, modular circuits) yang mempelajari input dari panca indera. Sama dengan deep learning, kita tidak mengajarkan deep learning algoritma baru melainkan kita kasih data dan biarkan "struktur otak" mereka yang belajar.

Rethinking the Pillars: Toward a Structure-Centered AI

Dengan pergeseran ini, sudah saatnya kita nge-redefine pondasi pilar dari AI.

The classic triad of algorithms, compute, data should become structure, compute, data.

Last but not least, tulisan ini tidak bertujuan untuk membuang "algorithm" dari kepala kita apalagi membuat kita tidak belajar. Tulisan ini lebih mengajak kita semua untuk mengetahui kemana kreativitas sebenernya berjalan. Membangun AI di masa depan akan bergantung pada compute, data, dan structure sehingga progress pengembangan AI harus menggunakan mindset: bigger, richer, better-organized networks.

If we want the next decade of AI to be as transformative as the last, we must focus on architecting brilliance, not just refining old algorithms.

Reference

Beyond Algorithms: Embracing Architecture + Data + Compute