Halo sobat data! Artikel kali ini kita akan mengupas topik yang sedang menjadi perbincangan hangat di dunia teknologi yaitu inovasi terbaru dalam kecerdasan buatan (AI).
Kompetisi di ranah AI kian memanas. Anthropic baru-baru ini (20 Juni 2024) meluncurkan versi terbaru dari model AI mereka, Claude 3.5 Sonnet. Mereka mengklaim bahwa model ini mampu melampaui performa ChatGPT 4o dan Gemini 1.5 Pro dalam berbagai aspek. Mari kita telaah klaim ini dengan membandingkan kapabilitas ketiga model tersebut dalam beragam bidang, termasuk penalaran, pemrosesan multimodal, dan kemampuan coding.
- Tes Pencarian dalam Teks Panjang
Dalam ujian pertama ini, sebuah “jarum” diselipkan di tengah-tengah teks yang sangat panjang (25.000 karakter, sekitar 6.000 token). Hanya Claude 3.5 Sonnet yang berhasil menemukan pernyataan yang tidak sesuai konteks, sementara ChatGPT 4o dan Gemini 1.5 Pro gagal menemukannya. Ini menunjukkan keunggulan Claude 3.5 Sonnet dalam memproses dan menganalisis teks panjang.
Pemenang: Claude 3.5 Sonnet
- Tes Pembuatan Game
Tes selanjutnya adalah membuat game Tetris menggunakan Python berdasarkan gambar yang diberikan. Meskipun ketiga model berhasil mengidentifikasi game tersebut, hanya kode dari Claude 3.5 Sonnet yang berjalan tanpa error. Hal ini menegaskan keunggulan Claude 3.5 Sonnet dalam hal pemrograman.
Pemenang: Claude 3.5 Sonnet
- Tes Mengikuti Instruksi
Tugas: Generate 10 sentences that end with the word “AI”
Claude 3.5 Sonnet dan ChatGPT 4o sama-sama berhasil menghasilkan 10 kalimat yang semuanya diakhiri dengan “AI”. Namun, Gemini 1.5 Pro hanya mampu menghasilkan 5 dari 10 kalimat yang diminta.
Pemenang: Claude 3.5 Sonnet dan ChatGPT 4o
- Tes Logika Pengeringan
Tugas: If it takes 1 hour to dry 15 towels under the Sun, how long will it take to dry 20 towels?
Meskipun terlihat sederhana, pertanyaan ini sering menjebak model AI. Claude 3.5 Sonnet terjebak dalam pendekatan matematis yang keliru, menjawab 1 jam 20 menit. Di sisi lain, ChatGPT 4o dan Gemini 1.5 Pro berhasil menjawab dengan benar bahwa waktu pengeringan tetap 1 jam.
Pemenang: ChatGPT 4o dan Gemini 1.5 Pro
- Perbandingan Berat
Tugas: What’s heavier, a kilo of feathers or a pound of steel?
Dalam tes logika klasik ini, ketiga model berhasil menjawab dengan benar. Mereka semua menjelaskan bahwa satu kilogram bulu lebih berat daripada satu pon baja.
Hasil: Seri antara Claude 3.5 Sonnet, ChatGPT 4o, dan Gemini 1.5 Pro
- Teka-Teki Keluarga
Tugas: David has three sisters. Each of them have one brother. How many brothers does David have?
Ketiga model berhasil menjawab dengan benar bahwa David tidak memiliki saudara laki-laki lain, dan dia adalah satu-satunya saudara laki-laki di keluarganya.
Hasil: Seri antara Claude 3.5 Sonnet, ChatGPT 4o, dan Gemini 1.5 Pro
- Tes Pengenalan Tulis Tangan
Terakhir, ketiga model diminta untuk membaca tulisan tangan yang sulit. Hasilnya mengejutkan, semua model berhasil mengidentifikasi teks dengan akurat. Terbukti, dalam hal OCR, ketiga model ini sangat mumpuni.
Hasil: Seri antara Claude 3.5 Sonnet, ChatGPT 4o, dan Gemini 1.5 Pro
Kesimpulan
Berdasarkan serangkaian tes ini, Claude 3.5 Sonnet membuktikan diri setara atau bahkan lebih unggul dibandingkan ChatGPT 4o, terutama dalam hal pemrograman dan pemrosesan teks panjang. Menariknya, model Sonnet bahkan bukan yang terbesar dari Anthropic, dengan Claude 3.5 Opus yang dijadwalkan rilis akhir tahun ini. Sementara itu, Gemini 1.5 Pro dari Google juga menunjukkan peningkatan signifikan dibandingkan versi sebelumnya. Hasil ini mengindikasikan bahwa persaingan di bidang AI semakin ketat, dengan Anthropic dan Google muncul sebagai pesaing tangguh bagi OpenAI dalam pengembangan model bahasa besar (LLM).