Red Hat AI Inference Server Demokratisasi AI Generatif di Semua Hybrid Cloud

Jakarta – Red Hat memperkenalkan Red Hat AI Inference Server guna menuju demokratisasi AI generatif (gen AI) di semua hybrid cloud. Penawaran ini ditujukan bagi kelas enterprise yang lahir dari proyek komunitas vLLM yang kuat.

“Beban kerja AI membutuhkan kecepatan, konsistensi dan fleksibilitas, yang merupakan target yang ingin dipenuhi Red Hat AI Inference Server. Inovasi ini memberikan peluang kepada Cisco dan Red Hat untuk terus berkolaborasi dalam cara baru untuk menjadikan penerapan AI menjadi lebih mudah diakses, efisien, dan scalable – membantu organisasi bersiap menghadapi apa yang akan datang,” kata Senior Vice President (SVP) dan General Manager (GM) Cisco, Jeremy Foster.

Kinerjanya ditingkatkan berkat integrasi teknologi Neural Magic Red Hat, yang menawarkan kecepatan yang lebih tinggi, efisiensi akselerator, dan penghematan biaya di berbagai lingkungan cloud

Red Hat Enterprise Linux AI (RHEL AI) dan Red Hat OpenShift AI akan memberdayakan organisasi untuk menjalankan dan meningkatkan gen AI dalam produksi dengan lebih percaya diri.

Inferensi adalah mesin eksekusi AI berisi model-model yang sudah dilatih sebelumnya akan menerjemahkan data menjadi kenyataan. Inferensi adalah titik interaksi pengguna, yang menuntut respons cepat dan akurat.

“Inferensi adalah tempat di mana janji-janji gen AI diwujudkan, di mana interaksi pengguna dipenuhi dengan respons yang cepat dan akurat oleh model yang tersedia, namun ini harus disampaikan dengan cara yang efektif dan hemat biaya,” kata Vice President (VP) dan General Manager (GM) AI Business Unit Red Hat, Joe Fernandes

“Red Hat AI Inference Server ditujukan untuk memenuhi permintaan inferensi yang berkinerja tinggi dan responsif dalam skala besar sambil menjaga permintaan sumber daya tetap rendah, menyediakan lapisan inferensi umum yang mendukung model apa pun, berjalan di akselerator apa pun, di lingkungan apa pun.”

Ketika kompleksitas model AI semakin tinggi dan skala penerapannya dalam produksi makin besar, inferensi bisa menjadi hambatan yang signifikan, menghabiskan sumber daya hardware dan terancam melumpuhkan daya tanggap dan meningkatkan biaya operasional.

Server inferensi yang kuat bukan lagi sebuah kemewahan, tapi sebuah kebutuhan untuk membuka potensi AI pada skala besar, menavigasi berbagai kompleksitas yang ada dengan lebih mudah.

Red Hat AI Inference Server sebagai solusi inferensi terbuka yang dirancang untuk kinerja tinggi dan dilengkapi dengan kompresi model dan tools pengoptimalan terkemuka.

Inovasi ini memberdayakan organisasi untuk sepenuhnya memanfaatkan kekuatan transformatif gen AI dengan memberikan pengalaman pengguna yang jauh lebih responsif dan kebebasan yang tak tertandingi dalam memilih akselerator AI, model dan lingkungan TI.

Red Hat AI Inference Server dibangun dari proyek vLLM di industri yang dimulai oleh University of California, Berkeley pada pertengahan 2023.

Proyek komunitas ini menghadirkan inferensi gen AI dengan throughput tinggi, dukungan untuk konteks input yang besar, akselerasi model multi GPU dan dukungan untuk batching berkelanjutan.

Dukungan luas vLLM untuk model yang tersedia secara umum ditambah dengan day zero integration dari model-model tercanggih dan terkemuka seperti DeepSeek, Gemma, Llama, Llama Nemotron, Mistral, dan Phi.

Selain itu model-model penalaran (reasoning model) kelas enterprise seperti Llama Nemotron yang menempatkannya sebagai standar de facto untuk inovasi inferensi AI pada masa depan. Penyedia model tercanggih semakin menggunakan vLLM dan memperkuat peran

Red Hat AI Inference Server mengemas inovasi terdepan dari vLLM terdepan dan memadukannya ke dalam kemampuan kelas enterprise dari Red Hat AI Inference Server.

Red Hat AI Inference Server tersedia sebagai penawaran terkontainerisasi secara mandiri atau sebagai bagian dari RHEL AI dan Red Hat OpenShift AI.

Red Hat AI Inference Server memberikan pengguna distribusi vLLM yang diperkuat dan didukung sepenuhnya yakni

1.Tool kompresi LLM yang cerdas untuk mengurangi ukuran model AI yang dasar (foundational) dan sudah fine-tuned, meminimalkan penggunaan daya komputasi sekaligus menjaga dan berpotensi meningkatkan akurasi model.

2.Repositori model yang dioptimalkan dan dihosting dalam organisasi Red Hat AI di Hugging Face, menawarkan akses cepat ke kumpulan model AI yang telah divalidasi dan dioptimalkan serta siap untuk langsung dijalankan dan mempercepat efisiensi hingga 2-4 x lipat tanpa mengorbankan akurasi model.

3.Dukungan enterprise dan puluhan tahun keahlian Red Hat dalam mewujudkan proyek-proyek komunitas ke lingkungan produksi.

4.Dukungan Pihak Ketiga untuk fleksibilitas yang lebih besar dalam penerapan, sehingga Red Hat AI Inference Server dapat dijalankan di platform yang bukan Red-Hat Linux dan Kubernetes sesuai kebijakan dukungan pihak ketiga Red Hat.

Masa depan AI harus ditentukan oleh peluang yang tak terbatas dan tidak dibatasi oleh infrastruktur yang mengalami silo.

Red Hat melihat pada waktu dekat organisasi dapat menggunakan model apapun, di akselerator apapun, di cloud apapun, memberikan pengalaman pengguna yang luar biasa dan lebih konsisten tanpa biaya yang terlalu tinggi.

Untuk membuka potensi sesungguhnya dari investasi gen AI, perusahaan membutuhkan platform inferensi yang universal, sebuah standar untuk inovasi AI yang lebih mulus dan memiliki kinerja tinggi, baik saat ini maupun di tahun yang akan datang.

Red Hat memelopori perusahaan terbuka dengan mengubah Linux menjadi landasan TI modern, perusahaan sekarang siap merancang masa depan inferensi AI. vLLM memiliki potensi sebagai landasan untuk inferensi gen AI standar.

Red Hat berkomitmen membangun ekosistem yang berkembang di sekitar komunitas vLLM, namun juga llm-d untuk inferensi terdistribusi dalam skala besar. Visinya jelas terlepas dari model AI, akselerator yang mendasarinya, atau lingkungan penerapannya.

Red Hat bermaksud menjadikan vLLM sebagai standar terbuka yang definitif untuk inferensi di seluruh hybrid cloud yang baru. (adm)