Claude 3.5 Sonnet Mengungguli Pesaing ChatGPT4o dan Gemini 1.5 Pro dalam Evaluasi Model AI Terkini

by ;picngadmin
August 26, 2024

Halo sobat data! Artikel kali ini kita akan mengupas topik yang sedang menjadi perbincangan hangat di dunia teknologi yaitu inovasi terbaru dalam kecerdasan buatan (AI).

Kompetisi di ranah AI kian memanas. Anthropic baru-baru ini (20 Juni 2024) meluncurkan versi terbaru dari model AI mereka, Claude 3.5 Sonnet. Mereka mengklaim bahwa model ini mampu melampaui performa ChatGPT 4o dan Gemini 1.5 Pro dalam berbagai aspek. Mari kita telaah klaim ini dengan membandingkan kapabilitas ketiga model tersebut dalam beragam bidang, termasuk penalaran, pemrosesan multimodal, dan kemampuan coding.

Tes Pencarian dalam Teks Panjang

Dalam ujian pertama ini, sebuah “jarum” diselipkan di tengah-tengah teks yang sangat panjang (25.000 karakter, sekitar 6.000 token). Hanya Claude 3.5 Sonnet yang berhasil menemukan pernyataan yang tidak sesuai konteks, sementara ChatGPT 4o dan Gemini 1.5 Pro gagal menemukannya. Ini menunjukkan keunggulan Claude 3.5 Sonnet dalam memproses dan menganalisis teks panjang.

Pemenang: Claude 3.5 Sonnet

Tes Pembuatan Game

Tes selanjutnya adalah membuat game Tetris menggunakan Python berdasarkan gambar yang diberikan. Meskipun ketiga model berhasil mengidentifikasi game tersebut, hanya kode dari Claude 3.5 Sonnet yang berjalan tanpa error. Hal ini menegaskan keunggulan Claude 3.5 Sonnet dalam hal pemrograman.

Pemenang: Claude 3.5 Sonnet

Tes Mengikuti Instruksi

Tugas: Generate 10 sentences that end with the word “AI”

Claude 3.5 Sonnet dan ChatGPT 4o sama-sama berhasil menghasilkan 10 kalimat yang semuanya diakhiri dengan “AI”. Namun, Gemini 1.5 Pro hanya mampu menghasilkan 5 dari 10 kalimat yang diminta.

Pemenang: Claude 3.5 Sonnet dan ChatGPT 4o

Tes Logika Pengeringan

Tugas: If it takes 1 hour to dry 15 towels under the Sun, how long will it take to dry 20 towels?

Meskipun terlihat sederhana, pertanyaan ini sering menjebak model AI. Claude 3.5 Sonnet terjebak dalam pendekatan matematis yang keliru, menjawab 1 jam 20 menit. Di sisi lain, ChatGPT 4o dan Gemini 1.5 Pro berhasil menjawab dengan benar bahwa waktu pengeringan tetap 1 jam.

Pemenang: ChatGPT 4o dan Gemini 1.5 Pro

Perbandingan Berat

Tugas: What’s heavier, a kilo of feathers or a pound of steel?

Dalam tes logika klasik ini, ketiga model berhasil menjawab dengan benar. Mereka semua menjelaskan bahwa satu kilogram bulu lebih berat daripada satu pon baja.

Hasil: Seri antara Claude 3.5 Sonnet, ChatGPT 4o, dan Gemini 1.5 Pro

Teka-Teki Keluarga

Tugas: David has three sisters. Each of them have one brother. How many brothers does David have?

Ketiga model berhasil menjawab dengan benar bahwa David tidak memiliki saudara laki-laki lain, dan dia adalah satu-satunya saudara laki-laki di keluarganya.

Hasil: Seri antara Claude 3.5 Sonnet, ChatGPT 4o, dan Gemini 1.5 Pro

Tes Pengenalan Tulis Tangan

Terakhir, ketiga model diminta untuk membaca tulisan tangan yang sulit. Hasilnya mengejutkan, semua model berhasil mengidentifikasi teks dengan akurat. Terbukti, dalam hal OCR, ketiga model ini sangat mumpuni.

Hasil: Seri antara Claude 3.5 Sonnet, ChatGPT 4o, dan Gemini 1.5 Pro

Kesimpulan

Berdasarkan serangkaian tes ini, Claude 3.5 Sonnet membuktikan diri setara atau bahkan lebih unggul dibandingkan ChatGPT 4o, terutama dalam hal pemrograman dan pemrosesan teks panjang. Menariknya, model Sonnet bahkan bukan yang terbesar dari Anthropic, dengan Claude 3.5 Opus yang dijadwalkan rilis akhir tahun ini. Sementara itu, Gemini 1.5 Pro dari Google juga menunjukkan peningkatan signifikan dibandingkan versi sebelumnya. Hasil ini mengindikasikan bahwa persaingan di bidang AI semakin ketat, dengan Anthropic dan Google muncul sebagai pesaing tangguh bagi OpenAI dalam pengembangan model bahasa besar (LLM).

Claude 3.5 Sonnet Mengungguli Pesaing ChatGPT4o dan Gemini 1.5 Pro dalam Evaluasi Model AI Terkini

Related Post

Claude 3.5 Sonnet Mengungguli Pesaing ChatGPT4o dan Gemini 1.5 Pro dalam Evaluasi Model AI Terkini

Business Intelligence: Mengubah Data Menjadi Keputusan yang Tepat

Data Scientist Merupakan Pekerjaan yang Mudah?

Pengenalan Budidaya Maggot Dan Pengelolaan Food Waste di Desa Kedungrandu, Patikraja, Banyumas

INOVASI SIRUP ANTI DIABETES KARYA TIM PKM-K MAHASISWA SAINS DATA INSTITUT TEKNOLOGI TELKOM PURWOKERTO

Literasi Data Untuk Anak SMA

Apa Perbedaan Real Count dan Quick Count

Tips Melakukan Parafrase

Mengenal Gaya Sitasi IEEE dan Contohnya