Pendahuluan

Apakah benar AI menghitung biaya berdasarkan Token?
- Penggunaan yang intensif memerlukan banyak Token
- Komputer tidak dimatikan semalaman, menghabiskan banyak Token, seperti kehilangan satu rumah?
Kenapa harus menggunakan Token untuk penghitungan biaya?
- Mendengar tentang sistem biaya dua arah untuk Token
- Mengajukan pertanyaan kepada AI juga dikenakan biaya, apakah itu tidak berlebihan?
- Apakah AI akan berbicara banyak tanpa makna?
Apakah Token itu kata atau huruf?
- Bagaimana cara menghitung token untuk karakter Cina?
- Bagaimana dengan bahasa Arab?
Apa makna Token dalam konteks digitalisasi perusahaan?
- Digitalisasi tradisional berkaitan dengan infrastruktur dan basis data
- Mengapa aplikasi AI menghasilkan masalah terkait Token?

Artikel ini mencoba menjawab, apa sebenarnya Token yang sering kita dengar? Stay tuned, artikel ini mungkin cukup panjang.

Dalam sejarah perkembangan komputer, banyak istilah yang tampaknya mengesankan dan lambat laun menjadi bagian dari kehidupan sehari-hari, seperti “Prompt”. Token juga demikian, sekarang terlihat semakin meluas. Apakah ini karena OpenAI mengusulkan metode penagihan yang terbukti bagus dan disepakati oleh banyak perusahaan? Atau ada alasan lain?
Mari kita mulai dengan asal-usulnya.

Dalam lingkungan perusahaan, pemanfaatan teknologi AI untuk efisiensi dan penghematan biaya, memahami Token akan membantu kita lebih baik dalam mengimplementasikan AI di perusahaan. Secara sederhana, kita bisa memikirkan Token sebagai blok bangunan, dengan membangunnya kita bisa menyelesaikan aplikasi yang kita butuhkan, meningkatkan efisiensi.

Dasar Token

Konsep Dasar Token

Mari kita lihat deskripsi resmi dari OpenAI tentang Token:

1 token ~= 4 karakter bahasa Inggris
1 token ~= ¾ kata
100 token ~= 75 kata
atau
1-2 kalimat ~= 30 Token
1 paragraf ~= 100 token
1.500 kata ~= 2048 token

Mendengar itu, bingung tidak? Apa bedanya dengan berapa banyak cara menulis “回” yang diketahui oleh孔乙己? Mari kita coba merasakannya:

Learning AI Meticulously, Sharing Knowledge Joyfully

Tebak ada berapa Token di kalimat itu? 6 kata, berarti 6 Token, bukan? Sayangnya, itu tidak benar!

Dalam ChatGPT 4, kalimat itu menjadi 10 Token; dari blok warna, tanda baca dihitung sendiri, dan Joyfully dipisahkan menjadi Joy dan fully.

Dari Kode ke Percakapan: Pentingnya Memperkenalkan Token

Bahasa inti komputer terdiri dari kode biner yang terdiri dari 0 dan 1, yang merupakan bentuk paling dasar dari semua program dan data. Baik itu bahasa pemrograman tingkat tinggi seperti Python, Java, atau berbagai file multimedia seperti gambar dan video, semuanya akan diubah ke dalam bahasa mesin semacam ini. Dalam ilmu komputer tradisional, para ahli berusaha sekuat tenaga untuk mengabstraksikan kompleksitas dunia nyata dengan mendefinisikan tipe data yang jelas seperti string (serangkaian teks) dan integer (angka) untuk memproses informasi, metode ini sangat efektif dalam menangani data terstruktur seperti perhitungan matematika atau kueri basis data.

Namun seiring dengan perkembangan teknologi dan meningkatnya permintaan, kita berharap komputer tidak hanya dapat memproses angka dan kode, tetapi juga dapat memahami dan memproses bahasa alami, yang merupakan bahasa sehari-hari manusia. Di sinilah muncul bidang pemrosesan bahasa alami (NLP, Natural Language Processing), yang bertujuan agar komputer dapat memahami, menafsirkan, dan menghasilkan bahasa manusia.

Mengingat karakteristik bahasa alami yang beragam, bergantung pada konteks, dan ambigu, tantangan yang dihadapi tidak lagi hanya sekadar masalah sederhana seperti 1+1=2. Sekarang kita harus menyelesaikan bagaimana membuat komputer memahami kalimat seperti, “Hari ini hari Jumat, ke mana kita pergi di akhir pekan? Berarti tetap belajar AI di rumah, ya?” dan lebih jauh lagi menganalisis emosinya atau menerjemahkannya ke bahasa lain. Dalam konteks seperti ini, tipe data tradisional sudah tidak cukup.

Inilah sebabnya kita perlu memperkenalkan konsep Token. Tokenisasi adalah proses memecah data teks yang kompleks menjadi unit yang lebih kecil dan lebih mudah diproses oleh komputer, seperti kata, frasa, atau tanda baca. Dengan cara ini, komputer dapat lebih efisien dalam memproses bahasa, mengekstrak makna dari teks, bukan hanya menghitung jumlah karakter.

Dari Kepastian ke Ambiguitas: Pemrograman tradisional memproses data yang jelas dan dapat diprediksi, sedangkan NLP melibatkan penafsiran kata-kata dengan banyak arti dan bahasa yang tergantung pada konteks.

Dari Terstruktur ke Tak Terstruktur: Berbeda dengan basis data atau algoritma terstruktur, NLP menangani teks bahasa alami yang mengalir dan fleksibel.

Apa itu Token? Mengapa perlu mengubah teks menjadi Token?

Bayangkan dalam AI generatif, salah satu aplikasi yang sangat umum adalah ringkasan cepat, kita tidak perlu membaca kata demi kata untuk memahami informasi penting. Token berperan penting dalam proses ini dengan membantu komputer “memahami” dan memproses banyak teks.

Apa itu Token?

Dalam pemrosesan bahasa alami, Token biasanya merujuk pada bagian teks yang memiliki makna. Bagian-bagian ini bisa berupa kata, frasa atau tanda baca. Seperti pada contoh di atas.

Mengapa mengubah menjadi Token?

Mengubah teks menjadi Token mirip dengan memecah laporan bisnis yang kompleks menjadi bagian-bagian kunci atau merangkum isi email. Proses pemecahan ini memungkinkan komputer untuk lebih efisien dalam memproses dan menganalisis bahasa, sehingga dapat melakukan tugas seperti mencari informasi kunci, menerjemahkan secara otomatis, atau menganalisis sentimen.

Misalnya, seorang pemilik restoran di Meituan ingin menganalisis ulasan pelanggan untuk meningkatkan produk (meningkatkan? Ayo anggap saja), memecah ulasan menjadi Token dapat membantu mengidentifikasi masalah umum atau titik ulasan negatif.

Tampaknya Token adalah kata, tetapi apa kenyataannya?

Perbedaan Dan Keterkaitan Antara Token, Karakter, dan Kata.

	Definisi	Ciri-ciri	Contoh
Karakter	Elemen dasar yang membentuk teks	Belum tentu mengungkapkan makna lengkap secara mandiri; dapat membentuk kosakata dengan karakter lain.	happy
Kata	Dibentuk oleh karakter, dapat menyampaikan informasi tertentu	Merupakan unit dasar dalam menyampaikan informasi, lebih kaya daripada karakter solo.	I’m happy
Token	Biasanya terkait dengan kata, namun lebih fleksibel, bisa berupa frasa, tanda baca, atau akar kata, awalan, dll.	Definisi Token tergantung pada penggunaanya, misalnya untuk analisis teks, terjemahan mesin, dll.	`I`, `'m`, `happy`

Setelah membaca ini, kita cukup merasakan bahwa hal ini sangat tergantung pada pemahaman orang tentang bahasa itu sendiri.

Meskipun karakter, kata, dan Token secara teknis mungkin berbeda, mereka saling terkait dalam pemrosesan teks. Karakter adalah dasar pembentukan kata, dan kata merupakan elemen yang membentuk Token. Dalam aplikasi praktis, identifikasi dan penggunaan Token tergantung pada pemahaman tentang karakter dan kata.

Misalnya, jika kita ingin menganalisis laporan tentang tren pasar, melalui tokenisasi, kita bisa dengan cepat mengenali kata kunci (seperti “pertumbuhan”, “risiko”, “peluang”, dll.), membantu eksekutif menangkap inti laporan dengan cepat.

Secara keseluruhan, Token adalah metode yang membantu komputer memproses dan “memahami” teks, memungkinkan pengolahan otomatis teks, sehingga mendukung perusahaan menggunakan informasi bahasa secara lebih efektif dalam pengambilan keputusan berbasis data.

Namun bagaimana Token dihasilkan dan diproses? Kita perlu melihatnya dari sudut pandang pemrograman tradisional.

Pembuatan dan Pemrosesan Token

Bagaimana Token Dihasilkan? Proses konversi teks menjadi Token.

  graph LR
  A[Proses Pengolahan Teks]
  A1[Pemrosesan Awal]
  A2[Pemisahan Kata]
  A3[Tokenisasi]
  A4[Pemrosesan Akhir]

  A --> A1
  A --> A2
  A --> A3
  A --> A4

  A1 --> B1[Menghilangkan Karakter Tidak Terkait]
  B1 --> B1a[Seperti Kode Halaman Web]
  
  A1 --> B2[Menyamakan Format Teks]
  B2 --> B2a[Menyamakan Huruf Besar/Kecil]
  B2 --> B2b[Kombinasi Tradisional dan Sederhana]

  A1 --> B3[Menghilangkan Kata Penghubung]
  B3 --> B3a[Seperti "nya", "dari", dll]

  A2 --> C1[Pemisahan Kata dalam Bahasa Inggris]
  C1 --> C1a[Menggunakan Ruang dan Tanda Baca]

  A2 --> C2[Pemisahan Kata dalam Bahasa Mandarin]
  C2 --> C2a[Bergantung pada algoritme untuk mengenali batas kosakata]

  A3 --> D1[Menggabungkan Kosakata]
  D1 --> D1a[Seperti nama-nama seperti "New York"]
  D1 --> D2[Mengenali frasa atau idiom tetap]
  D1 --> D3[Memperlakukan tanda baca sebagai Token independen]

  A4 --> E1[Penandaan Jenis Kata]
  A4 --> E2[Penandaan Peran Semantik]

Meskipun berbagai model memiliki langkah yang berbeda dalam pemrosesan ini, untuk mempermudah pemahaman, kita dapat menggambarkan beberapa langkah ini. Dalam konteks eksploitasi nilai data yang terakumulasi di sistem informasi perusahaan, kita perlu mempertimbangkan prioritas nilai data, menggabungkan dengan biaya pemrosesan data untuk membuat penilaian yang tepat.

Contohnya,

Pembuatan Token

Pemrosesan Awal

Mari kita lihat contoh teks di bawah ini, yang mencampur karakter yang berbeda, termasuk Mandarin, Inggris, dan angka, dan juga berisi elemen yang perlu diproses sebelumnya:

Pada tahun 2024, teknologi AI berkembang pesat. Misalnya, OpenAI merilis model GPT-4o, yang tidak hanya berkinerja tinggi tetapi juga memiliki kemajuan yang signifikan dalam menangani <code>bahasa alami</code>. Namun, kita perlu menghilangkan beberapa kata penghubung umum yang tidak membawa informasi, seperti "nya", "dari", dan seterusnya. Untuk detail teknis ini, silakan kunjungi situs web resmi kami.

Menghilangkan Karakter Berlebihan:
- Menghapus tag HTML seperti <code> dan </code>, yang biasanya tidak berisi informasi berguna dalam teks.
Menyamakan Format Teks:
- Mengubah semua karakter bahasa Inggris menjadi huruf kecil, untuk menghilangkan perbedaan antara huruf besar dan kecil, misalnya mengubah “OpenAI” menjadi “openai”.
- Mengubah karakter dari tradisional ke sederhana, jika teks mengandung karakter tradisional, seperti mengubah “發展” menjadi “发展”.
Menghilangkan Kata Penghubung:
- Mengidentifikasi dan menghapus kata-kata umum yang biasanya tidak membawa informasi penting, seperti “nya”, “dari”, dan lainnya.

Setelah langkah-langkah pemrosesan awal ini, teks akan menjadi lebih terformat, siap untuk pemisahan kata dan proses tokenisasi selanjutnya, meningkatkan akurasi dan efisiensi tugas analisis berikutnya.

Pada tahun 2024, teknologi AI berkembang pesat. Misalnya, OpenAI merilis model GPT-4o, yang tidak hanya berkinerja tinggi tetapi juga memiliki kemajuan yang signifikan dalam menangani bahasa alami. Namun, kita perlu menghilangkan beberapa kata penghubung umum yang tidak membawa informasi seperti "", "", dan seterusnya. Untuk detail teknis, silakan kunjungi situs resmi kami.

Pemisahan Kata

Pemisahan Kata adalah, seperti namanya, memisahkan kata dalam kalimat untuk memungkinkan pemrosesan lebih lanjut. Sekarang kita sudah memiliki rangkaian butir,
kita perlu menemukan titik yang tepat untuk memotongnya.

Bagaimana kita melakukan pemisahan kata? Salah satu cara yang mudah kita pikirkan adalah menggunakan kamus untuk mencocokkan. Hal ini merupakan metode yang pernah dipakai di masa lalu. Hasil akhirnya kira-kira seperti ini:

Pada / tahun / 2024 / , / teknologi / AI / berkembang / pesat / . / Misalnya / , / OpenAI / merilis / model / GPT-4o / , / yang / tidak / hanya / berkinerja / tinggi / , / tetapi / juga / memiliki / kemajuan / yang / signifikan / dalam / menangani / bahasa / alami / . / Namun / , / kita / perlu / menghilangkan / beberapa / kata / penghubung / umum / yang / tidak / membawa / informasi / , / seperti / " " / , / " " / dan seterusnya / . / Untuk / detail / teknis ini / , / silakan / kunjungi / situs / resmi / kami.

Tentu saja, dalam proses sebenarnya, pemisahan kata melibatkan banyak aspek. Secara umum, ada beberapa pendekatan utama:

Menentukan Batas Kata:
- Untuk bahasa Inggris atau bahasa lain yang menggunakan spasi, ini relatif sederhana; saat membaca bahasa Inggris, kita dapat dengan mudah melihat kata mana yang diakhiri dan yang mana diawali dengan spasi.
- Untuk bahasa seperti Mandarin, ini menjadi lebih rumit, karena tulisan Mandarin bersambung tanpa pemisahan yang jelas. Kita perlu menggunakan metode lain untuk menentukan huruf apa yang harus digabungkan menjadi frasa yang artinya relevan.
Menggunakan Kamus dan Aturan:
- Pendekatan berdasarkan Kamus: Menggunakan daftar besar (kamus) untuk mencari dan mencocokkan kosakata yang ada dalam teks. Metode ini sederhana, tetapi terbatas karena kata baru atau kata yang jarang mungkin tidak ada dalam kamus.
- Pendekatan berdasarkan Aturan: Menggunakan aturan tertentu untuk menentukan hubungan antar huruf berdasarkan informasi tata bahasa dan konteks, untuk menentukan apakah huruf-huruf tersebut harus membentuk sebuah kata.
Metode Statistik dan Pembelajaran:
- Menggunakan data statistik untuk mempelajari karakter mana yang sering muncul bersama. Metode ini melalui analisis data teks dalam jumlah besar, untuk belajar dan memprediksi batas kata.
Metode Kombinasi:
- Dalam praktik nyata, umumnya menggabungkan beberapa metode di atas untuk meningkatkan akurasi dan kebermanfaatan pemisahan kata.

Secara sederhana:

Bahasa Inggris: Pemisahan berdasarkan spasi dan tanda baca.
Bahasa Mandarin: Menggunakan algoritme untuk mengenali batas kosakata.

Pemisahan kata yang baik—Jieba, meskipun sudah 4 tahun tanpa pembaruan.

Logika pemisahan kata tradisional tidak banyak mempertimbangkan arti kata dalam konteks tertentu dan situasi. Mari kita lihat contohnya.

1 2	Kamu / kenapa / selalu / call Kamu / mengapa / selalu / call

Kamu adalah nama orang, sedangkan kenapa adalah satu kata. Ambiguitas ini sungguh menakjubkan!

Setelah pemisahan kata, kita akan mulai melakukan pekerjaan tokenisasi.

Tokenisasi

Tokenisasi adalah langkah kunci dalam pemrosesan data teks, yang lebih memperhalus dan mengelola unit teks untuk lebih cocok dengan kebutuhan analisis dan pemrosesan selanjutnya. Berikut akan kami jelaskan proses tokenisasi dengan menggunakan teks yang Anda sediakan.

Menggabungkan Nama Khusus dan Frasa Tertentu:
- Anggaplah “OpenAI” dan “GPT-4o” sebagai Token tersendiri karena ini adalah nama spesifik yang memiliki arti terpisah.
- “Bahasa alami” sebagai istilah tetap dan istilah teknis juga harus dianggap sebagai satu Token.
Tanda baca sebagai Token Independensi:
- Tanda baca seperti koma (，), titik (。), dan kutipan (“ ”) sebaiknya dianggap sebagai Token tersendiri karena memainkan peran dalam sintaksis dan struktur kalimat.
Mengatasi Tanda Kutip:
- Mengiras ruang di dalam kutipan (space in “ ”) sebagai Token yang salah atau tidak bermakna dan harus dihilangkan.

Hasil Setelah Tokenisasi

Pada / tahun / 2024 / , / teknologi / AI / berkembang / pesat / . / Misalnya / , / OpenAI / merilis / model / GPT-4o / , / yang / tidak / hanya / berkinerja / tinggi / , / tetapi / juga / memiliki / kemajuan / yang / signifikan / dalam / menangani / bahasa / alami / . / Namun / , / kita / perlu / menghilangkan / beberapa / kata / penghubung / umum / yang / tidak / membawa / informasi / , / seperti / , / dan seterusnya / . / Untuk / detail / teknis ini / , / silakan / kunjungi / situs / resmi / kami.

Hasil pengolahan ini lebih ringkas dan bermakna, serta lebih cocok untuk tugas NLP selanjutnya seperti analisis teks, analisis sentimen, dan lainnya. Melalui tokenisasi yang baik, kita dapat lebih efektif menangkap semantik dan karakteristik tekstual, memberikan dasar untuk pemahaman dan analisis teks yang lebih dalam.

Perlu dicatat bahwa tokenisasi dan vektorisasi terkait erat tetapi berbeda; vektorisasi adalah mengubah konten ini menjadi angka, yang akan dibahas nanti.

Peran Kosakata dalam Pembuatan Token.

Dari analisis sebelumnya, kita tahu bahwa kosakata memiliki peran besar dalam proses pembuatan Token.

Pengidentifikasian Batas, Memastikan Konsistensi, Kompresi Informasi, Meningkatkan Kecepatan Pemrosesan, Memelihara Semantik.

Dengan memelihara dan memperbarui kosakata, kita dapat terus mengoptimalkan proses pembuatan Token, beradaptasi dengan perubahan bahasa dan kemunculan kata baru, sehingga meningkatkan adaptabilitas dan akurasi seluruh sistem.

Penanganan Karakter Khusus (seperti Tanda Baca, Spasi).

Dalam proses pembuatan Token, penanganan karakter khusus adalah aspek yang perlu diperhatikan. Karakter khusus seperti tanda baca dan spasi sering membawa fungsi penting dalam struktur dan makna teks:

Tanda Baca: Tanda baca biasanya digunakan untuk menunjukkan struktur kalimat, seperti titik (.) di akhir kalimat, koma (,) untuk memisahkan item dalam daftar, atau kutipan (“”) untuk menandai kutipan langsung. Dalam tokenisasi, tanda baca biasanya dianggap sebagai Token bebas karena dapat mempengaruhi nada dan struktur kalimat, dan terkadang bahkan dapat mengubah arti kalimat.
Spasi: Dalam bahasa Inggris dan bahasa lainnya yang menggunakan huruf Latin, spasi adalah cara utama untuk memisahkan kata. Dalam proses tokenisasi, spasi biasanya tidak disimpan sebagai Token, tetapi keberadaannya sangat penting untuk menentukan batas kata. Namun, dalam beberapa teks terformat, spasi mungkin juga digunakan untuk estetika visual; dalam hal ini, perlu diputuskan berdasarkan konteks.
Karakter Format Khusus: Seperti tab (Tab), atau tanda baru (perintah \n) juga berperan dalam kontrol format teks. Karakter-karakter ini dalam beberapa situasi mungkin perlu diabaikan atau diproses secara khusus, misalnya saat mengolah file teks biasa.

Penanganan karakter-karakter khusus ini adalah bagian kunci yang memastikan bahwa teks berhasil di-tokenisasi. Strategi penanganan mereka langsung memengaruhi efek analisis teks berikutnya dan aplikasi yang digunakan.

Dari seluruh konten di atas, kita juga bisa melihat bahwa berbagai bahasa dalam penanganan Token dapat memiliki perbedaan, perbedaan ini membantu kita memahami lebih baik.

Keragaman dan Adaptabilitas Token

Metode Tokenisasi Dalam Bahasa yang Berbeda

Struktur dan perbedaan tata bahasa berbagai bahasa mengharuskan metode tokenisasi untuk memiliki tingkat adaptabilitas dan fleksibilitas yang tinggi. Sebagai contoh:

Bahasa Inggris dan bahasa Eropa Barat lainnya: Bahasa-bahasa ini biasanya menggunakan spasi sebagai pemisah antar kata, menjadikannya lebih langsung untuk tokenisasi. Sebagai contoh, kalimat “The quick brown fox” dapat dengan mudah dipisahkan menjadi “The”, “quick”, “brown”, “fox”.
Bahasa Mandarin, Jepang, dan Korea: Bahasa-bahasa ini tidak memiliki pemisah yang jelas antar kata, sehingga tokenisasi menjadi lebih kompleks. Dalam bahasa Mandarin, mungkin perlu bergantung pada kamus atau model berbasis statistik untuk mengenali karakter mana yang harus digabungkan untuk membentuk kosakata yang bermakna. Misalnya, “perkembangan cepat” harus dikenali secara utuh sebagai satu Token dan bukan dipisahkan menjadi “cepat” dan “perkembangan”.
Bahasa Arab dan Ibrani: Bahasa-bahasa yang ditulis dari kanan ke kiri ini juga menghadapi tantangan khusus dalam tokenisasi, tidak hanya mempertimbangkan arah tulisan tetapi juga masalah penulisan huruf yang bergabung, yang menuntut algoritma tokenisasi yang khusus.

Memahami perbedaan ini membantu pemrosesan data multibahasa dalam bisnis global, mengoptimalkan antarmuka pengguna multibahasa dan pembuatan konten, meningkatkan pengalaman pengguna dan pengembangan pasar.

Bagaimana Ukuran dan Butir Token ditentukan?

Ukuran dan butir Token tergantung pada kebutuhan spesifik aplikasi dan tingkat proses yang diinginkan:

Token Butir Halus: Biasanya digunakan dalam skenario yang memerlukan pemahaman bahasa yang mendalam, seperti analisis sentimen atau pencarian semantik. Misalnya, membagi kata majemuk lebih lanjut dapat membantu model menangkap nuansa makna dalam bahasa.
Token Butir Kasar: Cocok untuk skenario yang memerlukan pemrosesan cepat dari banyak data teks, seperti klasifikasi dokumen atau pengambilan kata kunci awal. Tokenisasi butir kasar mengurangi kompleksitas pemrosesan dan kebutuhan komputasi.

Menentukan butir Token biasanya melibatkan keseimbangan antara kecepatan pemrosesan dan akurasi semantik. Pemahaman ini akan membantu eksekutif saat menjalankan proyek AI, sehingga memilih teknologi dan alat yang tepat sesuai dengan kebutuhan bisnis.

Memahami metode tokenisasi dalam berbagai bahasa dan prinsip penentuan ukuran dan butir Token dapat membantu Anda:

Lebih Baik Mengevaluasi Proyek AI: Memahami kompleksitas dan tantangan tokenisasi membantu saat membeli atau mengembangkan solusi AI terkait untuk membuat keputusan yang lebih berbasis informasi.

Meningkatkan Operasi Global: Kemampuan tokenisasi yang sesuai untuk lingkungan multibahasa adalah kunci kesuksesan bisnis yang bersifat global, membantu meningkatkan komunikasi lintas budaya dan interaksi pengguna.

Meningkatkan Efisiensi Pemrosesan Data: Memilih ukuran Token yang tepat dapat mengoptimalkan efisiensi pemrosesan data dan biaya sambil memenuhi kebutuhan bisnis.

Lalu, bagaimana Token memengaruhi kinerja model?

Token dan Kinerja Model AI

Strategi Token dapat memengaruhi ruang konteks dari model besar. Dalam berinteraksi dengan AI, ada beberapa kali pertukaran; jika konten terlalu banyak, AI bisa lupa isi sebelumnya. Ini bisa kita pahami sebagai batas atas dan bawah. Berikut adalah batas konteks dari model bahasa besar tahun lalu.

src: https://s10251.pcdn.co/pdf/2023-Alan-D-Thompson-2023-Context-Windows-Rev-0.pdf

Ini adalah data tahun lalu, berikut adalah gambar Gemini.

src： https://beebom.com/gemini-1-5-pro-announced/

Kimi di dalam negeri mampu menangani file PDF hingga 100M, ukuran ruang konteks telah menjadi titik jual yang penting. Lantas, apa pengaruhnya?

Dalam konteks hukum skala saat ini, berbagai strategi Token sebenarnya termasuk dalam kategori algoritme dasar, dengan kata lain, penyesuaian dan optimisasi strategi Token tidak akan memberikan hasil yang sebanding dengan hanya membeli lebih banyak GPU.

Pengaruh Token terhadap Kinerja Model

  sequenceDiagram

participant U as Pengguna

participant I as Pengolahan Input

participant M as Perhitungan Model

participant S as Sistem Penyimpanan

  

U->>+I: Riwayat Percakapan Input (Jumlah Token)

I->>+M: Menganalisis Token dan Menyiapkan Data

M->>+M: Menghitung Self-Attention

Note over M: Menghitung hubungan setiap Token dengan Token lainnya

M->>+S: Meminta tambahan memori

Note over S: Meningkatkan alokasi memori berdasarkan jumlah Token

S-->>-M: Memastikan alokasi memori

M->>M: Melanjutkan perhitungan respons

M-->>-I: Mengembalikan respons yang dihasilkan

Bagaimana jumlah Token memengaruhi kompleksitas perhitungan dan penggunaan memori model?

Dalam model AI generatif, seperti GPT-4 atau model berbasis Transformer lainnya, jumlah Token berhubungan langsung dengan kompleksitas perhitungan model dan penggunaan memori. Setiap kali satu Token ditambahkan, model harus mengolah lebih banyak titik data, yang tidak hanya meningkatkan beban perhitungan saat pelatihan dan inferensi tetapi juga meningkatkan kebutuhan memori. Misalnya, saat melatih model bahasa, setiap Token harus disimpan dan dihitung untuk hubungan antara Token dan semua Token lainnya, yang sangat jelas dalam mekanisme self-attention model.

Contoh Penjelasan: Pertimbangkan proyek chatbot generatif; jika riwayat percakapan yang dimasukkan terlalu panjang (yakni, jumlah Token banyak), maka model dalam menghasilkan respons dapat menjadi lambat dan menghabiskan lebih banyak sumber daya komputasi. Misalnya, riwayat percakapan yang mencakup ribuan Token dapat secara signifikan memperlambat kecepatan pemrosesan, terutama pada perangkat dengan sumber daya terbatas.

Salah satu pemahaman intuitif mengapa perusahaan model besar tidak memperluas kapasitas mereka adalah karena alasan praktis; lebih besar tidak selalu berarti lebih baik, bukan?

Apakah lebih banyak Token selalu berarti kinerja model yang lebih baik?

Tidak berarti lebih banyak Token selalu menandakan kinerja model yang lebih baik. Dalam AI generatif, jumlah Token yang tepat dapat membantu model menangkap dan memahami konteks dengan lebih akurat, meningkatkan relevansi dan akurasi konten yang dihasilkan. Namun, terlalu banyak Token bisa memperkenalkan informasi yang tidak relevan, mengurangi efisiensi model dan kualitas keluaran.

Contoh Penjelasan: Dalam sistem AI yang menghasilkan laporan pasar, pemisahan Token yang cermat dapat memastikan bahwa informasi penting lebih ditekankan, alih-alih tenggelam dalam detail-detail yang tidak perlu. Misalnya, sistem perlu menghasilkan ringkasan dari banyak berita keuangan; terlalu banyak Token bisa menghasilkan laporan yang berantakan, sulit menangkap informasi inti.

Saat ini, pengolahan file besar oleh perusahaan model besar kemungkinan telah menerapkan strategi serupa dengan penyimpanan cloud; A mengunggah file, sementara B ketika mengunggah, ia tidak perlu memproses ulang, melainkan menggunakan hasil pemrosesan A saat itu. Seiring semakin banyak konten, itu juga membentuk keunggulan produk masing-masing.

Mengoptimalkan Penggunaan Token

Bagaimana menemukan titik keseimbangan antara jumlah Token dan kinerja model?

Di sini strategi Token utamanya berfokus pada strategi penggunaan Prompt oleh pengguna umum, untuk menghasilkan hasil yang lebih sesuai dengan harapan kita.

Menemukan titik keseimbangan terbaik antara jumlah Token dan kinerja model sangat penting untuk memastikan model AI generatif yang efisien dan akurat. Ini biasanya memerlukan percobaan dan kesalahan, serta penggunaan teknologi penyesuaian model yang canggih.

Contoh Penjelasan: Dalam sistem otomatisasi pembuatan konten, bagaimana mengoptimalkan penggunaan Token adalah tantangan klasik. Sistem mungkin perlu mengekstrak informasi kunci dari teks panjang untuk menghasilkan ringkasan. Dalam konteks ini, memilih jumlah Token yang tepat untuk mempertahankan cukup banyak informasi, sembari menghindari struktur model yang terlalu kompleks adalah hal yang sangat penting.

Hubungan antara Token dan Jendela Konteks serta dampaknya pada kualitas teks yang dihasilkan.

Dalam AI generatif, pengaturan Token dan jendela konteks secara langsung memengaruhi keterpaduan dan logika teks yang dihasilkan. Semakin besar jendela konteks, semakin banyak informasi sejarah yang dapat dipertimbangkan model saat menghasilkan teks, sehingga dapat menghasilkan teks yang lebih terhubung dan alami.

Contoh Penjelasan: Misalkan kita menggunakan model AI untuk menghasilkan artikel blog teknis. Jika pengaturan jendela konteks terlalu kecil, model mungkin tidak akan dapat menghubungkan berbagai bagian artikel dengan baik, menyebabkan munculnya kesenjangan logika dalam konten yang dihasilkan. Dengan mengoptimalkan penggunaan Token dan menyesuaikan ukuran jendela konteks, kita dapat secara signifikan meningkatkan kualitas dan keterbacaan artikel.

Selanjutnya, kita kembali pada topik sebelumnya; bagi sistem aplikasi, kita ingin pengguna memiliki pengalaman yang baik, tetapi juga harus mempertimbangkan biaya.

Aplikasi Komersial Token dan Model Penagihan

Mari kita lihat tabel berikut, mengenai biaya model besar saat ini

Secara umum, penggunaan model bahasa besar dapat dibedakan menjadi percakapan di web dan melalui pemanggilan API; menggunakan OpenAI di web dapat dianggap standar, sekitar 20 dolar per bulan. Namun, pemanggilan melalui API dapat bervariasi.

Permainan kucing mengejar tikus; meski sudah menggunakan ChatGPT Plus, masih ada batasan jumlah interaksi dalam 3 jam. Banyak orang mencoba menggunakan cara mirip crawler untuk menggunakan ChatGPT di web tanpa API, tetapi sebagian besar kode open-source telah dihapus!

Dulu, logika penagihan telekomunikasi berdasarkan durasi, dan ini adalah fase profit tinggi; kemudian mekanisme berlangganan bulanan dibentuk, saat ini cara penagihan Token tampak mirip.

Logika Penagihan Token

Mengapa menggunakan penagihan Token? Rasionalitas dan model bisnisnya.

Model penagihan Token sangat umum dalam layanan AI, terutama saat menggunakan layanan model bahasa seperti OpenAI. Model penagihan ini berdasarkan pada penggunaan nyata oleh pengguna, yaitu jumlah Token yang diproses dalam setiap permintaan.

Rasionalitas:
Rasionalitas model biaya Token terletak pada kemampuannya untuk mencerminkan dengan tepat konsumsi sumber daya pengguna. Setiap Token mewakili unit informasi yang perlu diproses oleh model; semakin banyak Token, semakin banyak sumber daya komputasi yang dihabiskan. Dengan cara ini, model penagihan ini dapat memastikan bahwa pengguna membayar sesuai dengan penggunaan mereka, sekaligus mendorong pengguna untuk mengoptimalkan input mereka dan menghindari pemborosan yang tidak perlu.

Model Bisnis:
Dari sudut pandang bisnis, model penagihan Token memberikan kerangka penagihan yang fleksibel dan adil bagi penyedia layanan AI. Dengan model ini, penyedia layanan dapat mengatur tingkat harga yang berbeda berdasarkan beban sistem dan biaya operasional, yang dapat menarik berbagai jenis pengguna, mulai dari pengembang kecil hingga perusahaan besar.

Perbandingan penagihan Token dengan metode penagihan lain (seperti berdasarkan jumlah kata, karakter, atau waktu)

Dibandingkan dengan metode penagihan umum lainnya, penagihan Token memiliki keunggulan dan keterbatasannya sendiri:

Penagihan berdasarkan jumlah kata dan karakter: Metode ini sederhana dan mudah dipahami dan dianggarkan. Namun, umumnya tidak mempertimbangkan kompleksitas pemrosesan dan penggunaan sumber daya komputasi yang sebenarnya; misalnya, memproses kalimat panjang dengan kosakata sederhana mungkin lebih mudah dibandingkan dengan proses kata teknis tetapi dapat dikenakan biaya lebih tinggi berdasarkan jumlah kata.
Penagihan berbasis waktu: Model biaya berbasis waktu (seperti penagihan per menit atau jam) cocok untuk layanan berkelanjutan, seperti pemrosesan aliran data atau pembelajaran online. Namun untuk tugas singkat berbasis permintaan, model ini bisa menyebabkan penagihan yang tidak adil atau tidak akurat.

  graph TD;
    A[Penagihan Token] -->|Mencerminkan Pemborosan Sumber Daya yang Nyata| B[Distribusi Sumber Daya yang Adil];
    A -->|Mendorong Efisiensi Input| C[Mendorong Penyederhanaan Input];
    D[Penagihan berdasarkan jumlah kata/karakter] -->|Sederhana dan jelas| E[Mudah dipahami dan dianggarkan];
    D -->|Tidak Mencerminkan Kompleksitas| F[Mungkin Mengarah pada Ketidakakuratan Biaya];
    G[Penagihan berbasis waktu] -->|Cocok untuk Layanan Berkelanjutan| H[Pemrosesan Data Aliran/Pembelajaran Online];
    G -->|Tidak Sesuai untuk Tugas Pendek| I[Mungkin Mengarah pada Ketidakadilan dalam Penagihan];

Penagihan Token menyediakan pengukuran yang lebih terperinci yang dapat mencerminkan penggunaan sumber daya dengan lebih adil.

Biaya perusahaan model besar yang kita lihat secara kasar mencakup

Biaya pengembangan (SDM + eksperimen)

Biaya pelatihan (sumber daya komputasi + pemrosesan data)

Biaya peluncuran (infrastruktur + biaya penyimpanan)

Biaya pemeliharaan dan pembaruan

Biaya etika dan kepatuhan (keamanan data, kepatuhan)
Biaya-biaya ini tidak mungkin sepenuhnya ditanggung oleh Token, dan situasi riil hanya bisa dinilai oleh orang dalam industri; saat ini mungkin merupakan metode evaluasi yang paling tepat.

Dampak Artikel Token yang Nyata

Dampak berbagai metode biaya terhadap pengguna dan pengembang.

Model biaya Token berarti bagi pengguna perlu mengelola permintaan API dengan lebih hati-hati untuk mengontrol biaya. Para pengembang perlu merancang kueri yang efisien, mengurangi penggunaan Token yang tidak perlu, sehingga memaksimalkan nilai dari setiap permintaan. Dengan metode biaya ini, pengembang didorong untuk mengoptimalkan input data dan proses yang lebih efektif tetapi mungkin juga meningkatkan kompleksitas pengembangan dan pekerjaan optimisasi sebelumnya.

Bagi penyedia, penagihan Token dapat membantu menyeimbangkan beban server, memprediksi pendapatan, dan mengoptimalkan pengaturan sumber daya. Ia juga dapat berfungsi sebagai umpan balik untuk optimisasi produk dan penyesuaian strategi penetapan harga, membantu penyedia lebih baik memenuhi permintaan pasar.

Bagaimana mengoptimalkan penggunaan Token untuk menurunkan biaya?

Mengoptimalkan penggunaan Token adalah kunci untuk mengontrol biaya. Ini dapat dicapai melalui langkah-langkah berikut:

Menyerahkan data input yang jelas: Sebelum mengirim permintaan, hapus teks yang tidak perlu dan data redundan, menyisakan hanya informasi kunci.
Menggunakan desain kueri yang efisien: Rancang kueri yang direncanakan dengan baik, hindari permintaan rantai yang terlalu kompleks atau mendalam.
Memanfaatkan strategi caching: Gunakan hasil cached untuk permintaan yang umum atau berulang, mengurangi query ke layanan backend.
Memantau dan menganalisis: Secara teratur analisis data penggunaan Token untuk menemukan titik optimasi, menyesuaikan strategi untuk mengurangi pemborosan.

Melalui metode-metode ini, tidak hanya dapat mengurangi biaya, tetapi juga meningkatkan kecepatan respons sistem dan kepuasan pengguna, sehingga mendapatkan keuntungan dalam pasar yang kompetitif.

Nilai Komersial dan Kasus Penggunaan Token

Penerapan Token dalam Bisnis

Dalam operasional perusahaan, penerapan teknologi tokenisasi dapat secara signifikan meningkatkan efisiensi pengolahan data dan kualitas pengambilan keputusan. Bagi eksekutif bisnis non-teknis, memahami aplikasi Token dapat membantu mereka lebih baik mengevaluasi investasi teknis dan mendorong inovasi bisnis.

  graph LR;
    A[Perspektif Teknologi: Peran Token dalam Pemrosesan Bahasa Alami] 
    B[Perspektif Bisnis: Peran Token dalam Meningkatkan Nilai Perusahaan]
    
    A --> A1[Ekstraksi Informasi\nEkstrak informasi penting dengan cepat]
    A --> A2[Analisis Sentimen\nIdentifikasi emosi pelanggan]
    A --> A3[Rangkuman Otomatis\nMenghasilkan ringkasan dokumen]
    
    B --> B1[Meningkatkan Interaksi Pelanggan\nLayanan pelanggan 24X7]
    B --> B2[Analisis Pasar\nMendapatkan informasi tren]
    B --> B3[Rekomendasi Personalisasi\nMeningkatkan volume transaksi]
    
    style A fill:#8ecae6,stroke:#333,stroke-width:4px
    style B fill:#90be6d,stroke:#333,stroke-width:4px
    style A1 fill:#219ebc,stroke:#333,stroke-width:2px
    style A2 fill:#219ebc,stroke:#333,stroke-width:2px
    style A3 fill:#219ebc,stroke:#333,stroke-width:2px
    style B1 fill:#ffb703,stroke:#333,stroke-width:2px
    style B2 fill:#ffb703,stroke:#333,stroke-width:2px
    style B3 fill:#ffb703,stroke:#333,stroke-width:2px

Perspektif Teknologi: Peran Token dalam Pemrosesan Bahasa Alami

Tokenisasi adalah proses teknis yang memecah data teks yang rumit menjadi unit-unit yang mudah dikelola, memungkinkan sistem AI untuk melakukan analisis dan pemrosesan data secara efektif. Proses ini sangat penting dalam pemrosesan bahasa alami (NLP), membuat mesin mampu “memahami” bahasa manusia dan melakukan tugas seperti:

Ekstraksi Informasi: Tokenisasi membantu dalam mengekstrak informasi penting dengan cepat dari kumpulan teks besar, misalnya mengeluarkan klausal yang relevan dari dokumen hukum.
Analisis Sentimen: Melalui analisis Token dari umpan balik pelanggan, perusahaan dapat menangkap pemikiran emosi pelanggan, yang dapat membantu dalam menyesuaikan produk atau layanan.
Rangkuman Otomatis: Teknologi tokenisasi yang dapat secara otomatis menghasilkan ringkasan dokumen, meningkatkan efisiensi pekerja pengetahuan.

Perspektif Bisnis: Peran Token dalam Meningkatkan Nilai Perusahaan

Dari pandangan bisnis, Token tidak hanya meningkatkan efisiensi operasional, tetapi juga membuka pintu untuk model bisnis dan saluran pendapatan baru:

Meningkatkan Interaksi Pelanggan: Menggunakan chatbot yang berbasis Token dapat memberikan layanan pelanggan 24X7, meningkatkan kepuasan pelanggan dan menurunkan biaya layanan.
Analisis Pasar: Proses yang didukung oleh tokenisasi dapat membantu perusahaan untuk dengan cepat mendapatkan informasi trend dari laporan pasar, membantu keputusan strategis.
Rekomendasi Personalisasi: Di platform e-commerce, teknologi tokenisasi dapat menganalisis perilaku dan preferensi pembelian pengguna, memberikan rekomendasi produk yang sangat personal, sehingga meningkatkan volume transaksi.

Analisis Kasus Nyata

Robot Layanan Pelanggan

Aplikasi umum adalah robot layanan pelanggan. Misalnya, sebuah perusahaan telekomunikasi besar menerapkan chatbot berbasis Token untuk menangani pertanyaan pengguna, seperti masalah tagihan, gangguan layanan, dll. Robot dapat melakukan analisis pertanyaan pengguna (yang sudah ditokenisasi) dengan cepat dan memberikan jawaban yang tepat atau meneruskan ke departemen layanan yang sesuai.

Sistem Rekomendasi Konten

Di bidang media dan hiburan, sistem rekomendasi konten menggunakan teknologi tokenisasi untuk menganalisis kebiasaan menonton atau membaca pengguna, untuk merekomendasikan film baru, buku, atau artikel yang mungkin mereka minati. Misalnya, sistem rekomendasi Netflix menganalisis deskripsi Token dari program yang ditonton sebelumnya untuk memprediksi program lain yang mungkin disukai pengguna.

Nilai Komersial Token dan Prospek Aplikasi

Dalam aplikasi perusahaan, memahami dan menggunakan Token secara efektif adalah kunci untuk keberhasilan proyek AI. Memahami nilai komersial Token serta tantangannya sangat penting dalam merumuskan strategi dan mengelola inovasi teknologi.

Aplikasi Komersial Token

Perspektif Teknologi: Peran Token

Token dalam pemrosesan bahasa alami (NLP) membantu agar informasi teks dapat dikelola oleh sistem AI secara efektif. Singkatnya, tokenisasi adalah proses memecah teks panjang menjadi unit-unit kecil yang bisa diproses. Unit-unit ini (Token) menyediakan dasar untuk model pembelajaran mesin:

Pengolahan Data: Saat mengolah pertanyaan pelanggan, analisis umpan balik pasar, atau mengelola banyak dokumen, tokenisasi membuat data teks yang kompleks dapat dikelola dengan mudah dan dianalisis.
Meningkatkan Efisiensi: Melalui tokenisasi, model AI dapat dengan cepat mengenali informasi inti untuk mempercepat proses pengambilan keputusan dan respons bisnis.

Perspektif Bisnis: Nilai Ekonomi Token

Dari sudut pandang bisnis, Token bukan sekadar bagian teknis dari implementasi, tetapi secara langsung terkait dengan peningkatan efisiensi operasi, pengalaman pelanggan yang lebih baik, dan membuka model bisnis baru.

Optimisasi Layanan Pelanggan: Tokenisasi memungkinkan otomatisasi layanan pelanggan, dengan sistem respons otomatis yang cepat dan akurat, secara signifikan meningkatkan kepuasan pelanggan dan loyalitas merek.
Pemasaran Personalisasi: Melalui analisis yang didukung oleh tokenisasi, perusahaan dapat menawarkan konten pemasaran yang sangat dipersonalisasi, meningkatkan rasio konversi penjualan.

Prospek dan Tantangan Masa Depan Token

Arah Perkembangan Masa Depan

Dengan kemajuan teknologi AI, diharapkan aplikasi Token menjadi semakin cerdas dan beragam:

Aplikasi Multimodal: Teknologi Token tidak akan terbatas pada pemrosesan teks, di masa depan juga akan diperluas untuk analisis konten multimedia seperti video dan audio, mendukung lebih banyak ruang aplikasi.
Optimasi Cerdas: Metode pembuatan dan pengolahan Token akan menjadi lebih pintar, misalnya, dengan AI secara otomatis menyesuaikan butir dan jumlah Token sesuai dengan kebutuhan bisnis yang berbeda.

Tantangan dan Peluang Bisnis

Keamanan Data dan Privasi: Memastikan keamanan data dan privasi pengguna dalam pemrosesan tokenisasi akan menjadi tantangan utama di masa depan, terutama dalam menangani data sensitif.
Integrasi Teknologi: Cara mengintegrasikan teknologi Token ke dalam sistem IT yang ada dan proses bisnis dengan mulus adalah kunci untuk peralihan teknologi yang sukses.
Keadilan dan Keterjelasan: Memastikan keputusan AI yang diperoleh melalui Tokenisasi adil dan transparan akan meningkatkan kepercayaan semua pemangku kepentingan.

Penutup

Menulis artikel ini, Lin Miao memberikan arah baru saat ini (terima kasih), https://arxiv.org/abs/2104.12369, dari praktik model Pangu Huawei, perkembangan Token di bidang bahasa Cina akan bersifat lebih rekayasa, dan ini masih perlu diamati lebih lanjut.

Sebelum menulis artikel ini, pemahaman saya tentang Token hanya terbatas pada pengetahuan samar bahwa satu karakter Cina setara dengan satu Token, dan akan mengartikan Token dan vektorisasi sebagai hal yang sama. Sebelum vektorisasi, ada pekerjaan Token. Mari kita lebih siap menghadapi AI dan lebih menerima perubahan, bagaimana cara menggunakan data dalam sistem aplikasi perusahaan yang sudah ada dengan lebih baik? Mungkin dapat dimulai di sini!