Claude 3.5 Sonnet Mengungguli Pesaing ChatGPT4o dan Gemini 1.5 Pro dalam Evaluasi Model AI Terkini

Halo sobat data! Artikel kali ini kita akan mengupas topik yang sedang menjadi perbincangan hangat di dunia teknologi yaitu inovasi terbaru dalam kecerdasan buatan (AI).

Kompetisi di ranah AI kian memanas. Anthropic baru-baru ini (20 Juni 2024) meluncurkan versi terbaru dari model AI mereka, Claude 3.5 Sonnet. Mereka mengklaim bahwa model ini mampu melampaui performa ChatGPT 4o dan Gemini 1.5 Pro dalam berbagai aspek. Mari kita telaah klaim ini dengan membandingkan kapabilitas ketiga model tersebut dalam beragam bidang, termasuk penalaran, pemrosesan multimodal, dan kemampuan coding. 

  1. Tes Pencarian dalam Teks Panjang

Dalam ujian pertama ini, sebuah “jarum” diselipkan di tengah-tengah teks yang sangat panjang (25.000 karakter, sekitar 6.000 token). Hanya Claude 3.5 Sonnet yang berhasil menemukan pernyataan yang tidak sesuai konteks, sementara ChatGPT 4o dan Gemini 1.5 Pro gagal menemukannya. Ini menunjukkan keunggulan Claude 3.5 Sonnet dalam memproses dan menganalisis teks panjang.
find the needle test on claude 3.5 sonnet

Pemenang: Claude 3.5 Sonnet

  1. Tes Pembuatan Game

Tes selanjutnya adalah membuat game Tetris menggunakan Python berdasarkan gambar yang diberikan. Meskipun ketiga model berhasil mengidentifikasi game tersebut, hanya kode dari Claude 3.5 Sonnet yang berjalan tanpa error. Hal ini menegaskan keunggulan Claude 3.5 Sonnet dalam hal pemrograman.game made by claude 3.5 sonnet

Pemenang: Claude 3.5 Sonnet

  1. Tes Mengikuti Instruksi

Tugas: Generate 10 sentences that end with the word “AI”

Claude 3.5 Sonnet dan ChatGPT 4o sama-sama berhasil menghasilkan 10 kalimat yang semuanya diakhiri dengan “AI”. Namun, Gemini 1.5 Pro hanya mampu menghasilkan 5 dari 10 kalimat yang diminta.
instruction following test

Pemenang: Claude 3.5 Sonnet dan ChatGPT 4o

  1. Tes Logika Pengeringan

Tugas: If it takes 1 hour to dry 15 towels under the Sun, how long will it take to dry 20 towels?

Meskipun terlihat sederhana, pertanyaan ini sering menjebak model AI. Claude 3.5 Sonnet terjebak dalam pendekatan matematis yang keliru, menjawab 1 jam 20 menit. Di sisi lain, ChatGPT 4o dan Gemini 1.5 Pro berhasil menjawab dengan benar bahwa waktu pengeringan tetap 1 jam.
reasoning test on claude 3.5 sonnet

Pemenang: ChatGPT 4o dan Gemini 1.5 Pro

  1. Perbandingan Berat

Tugas: What’s heavier, a kilo of feathers or a pound of steel?

Dalam tes logika klasik ini, ketiga model berhasil menjawab dengan benar. Mereka semua menjelaskan bahwa satu kilogram bulu lebih berat daripada satu pon baja.
find the weight using claude 3.5 sonnet

Hasil: Seri antara Claude 3.5 Sonnet, ChatGPT 4o, dan Gemini 1.5 Pro

  1. Teka-Teki Keluarga

Tugas: David has three sisters. Each of them have one brother. How many brothers does David have?

Ketiga model berhasil menjawab dengan benar bahwa David tidak memiliki saudara laki-laki lain, dan dia adalah satu-satunya saudara laki-laki di keluarganya.
tricky commonsense test on claude 3.5 sonnet

Hasil: Seri antara Claude 3.5 Sonnet, ChatGPT 4o, dan Gemini 1.5 Pro

  1. Tes Pengenalan Tulis Tangan

Terakhir, ketiga model diminta untuk membaca tulisan tangan yang sulit. Hasilnya mengejutkan, semua model berhasil mengidentifikasi teks dengan akurat. Terbukti, dalam hal OCR, ketiga model ini sangat mumpuni.
extract text from illegile handwriting

Hasil: Seri antara Claude 3.5 Sonnet, ChatGPT 4o, dan Gemini 1.5 Pro

Kesimpulan

Berdasarkan serangkaian tes ini, Claude 3.5 Sonnet membuktikan diri setara atau bahkan lebih unggul dibandingkan ChatGPT 4o, terutama dalam hal pemrograman dan pemrosesan teks panjang. Menariknya, model Sonnet bahkan bukan yang terbesar dari Anthropic, dengan Claude 3.5 Opus yang dijadwalkan rilis akhir tahun ini. Sementara itu, Gemini 1.5 Pro dari Google juga menunjukkan peningkatan signifikan dibandingkan versi sebelumnya. Hasil ini mengindikasikan bahwa persaingan di bidang AI semakin ketat, dengan Anthropic dan Google muncul sebagai pesaing tangguh bagi OpenAI dalam pengembangan model bahasa besar (LLM).

Related Post

Bridging Technology for Humanity
Jl. D.I Panjaitan No. 128 Purwokerto 53147, Jawa Tengah – Indonesia

Telp : 0281-641629

WA  : 0812-2831-9222

Email : [email protected]

Website Official : ittelkom-pwt.ac.id

Website PMB : pmb.ittelkom-pwt.ac.id

Negara : Indonesia

Telp

WA

Email

Website Official

Website PMB

Negara

Fakultas Teknik Telekomunikasi dan Elektro (FTTE)

Fakultas Informatika (FIF)

Fakultas Rekayasa Industri dan Desain (FRID)

Bridging Technology for Humanity
Jl. D.I Panjaitan No. 128 Purwokerto 53147, Jawa Tengah – Indonesia

Telp

WA

Email

Website Official

Website PMB

Negara

Fakultas Teknik Telekomunikasi dan Elektro (FTTE)

Fakultas Informatika (FIF)

Fakultas Rekayasa Industri dan Desain (FRID)

Copyright ©2024 All Rights Reserved By PMB Institut Teknologi Telkom Purwokerto