Cara menggunakan mysql command line utf8
Pada MySQL, sering kita jumpai istilah collation, yang mau tidak mau harus berinteraksi dengan nya, terutama ketika membuat database, tabel, dan field/kolom, terkadang hal ini membingungkan bagi sebagian orang, untuk itu pada kesempatan kali ini kita akan membahas lengkap apa itu character set dan collation pada MySQL. Table of Contents Daftar Isi:
1. Apa itu collation pada MySQL?Collation dapat diartikan sebagai:
Pada MySQL, Collation dapat dipahami sebagai cara (rule) yang digunakan untuk:
Untuk lebih detailnya akan dibahas di bagian bawah. 2. Kenapa perlu ada collation?Kenapa untuk mengurutkan dan membandingkan saja perlu ada rule tertentu yang bermacam-macam? sebenarnya hal ini tidak perlu jika karakter hanya terdiri dari a-z dan 0-9, mengurutkannya tinggal diurutkan sesuai abjad: a, b, c, dst, atau sesuai nomor urut: 1, 2, 3, dst Masalah timbul ketika kita dihadapkan pada kebutuhan untuk menampung  karakter khusus, seperti karakter latin (accented character) yang digunakan oleh negara-negara eropa, contoh: ä, ã, á, å. Bagaimana mengurutkan karakter tersebut? atau bagaimana posisinya terhadap karakter normal? Untuk itu perlu digunakan rule agar pembandingan antar karakter sesuai dengan standar yang ditetapkan. 3. Apakah kita perlu peduli dengan collation?Jika kita hanya menggunakan karakter umum, seperti yang ada pada keyboard, dan kebanyakan dari kita memang tidak perlu karakter khusus seperti diatas, jika demikian maka kita tidak perlu dipusingkan dengan collation dan character set, kita tinggal gunakan collation default MySQL ( Namun jika aplikasi/web yang kita kelola atau kita berencana membangun website yang mengandung content karakter khusus tidak hanya karakter latin, misal: Huruf Arab, China, Kanji (Jepang), latin (Perancis, Belanda, dan Negara Eropa lain), maka collation akan menjadi sangat penting. Terlepas dari semua itu, mempelajari collation tetap akan memiliki nilai tambah, setidaknya kita tahu apa yang kita lakukan, salah satu nya ketika memilih collation setiap kali membuat kolom, tabel, atau database pada phpMyAdmin. 4. Collation dan Character Set Pada MySQLJenis Collation pada MySQLMySQL memiliki banyak collation, setidaknya ada 219 jenis, daftar collation dapat dilihat ketika kita membuat database atau tabel pada phpMyAdmin: atau dapat ditampilkan menggunakan perintah SQL berikut:
jika ingin menampilkan collation khusus untuk character set
contoh output yang dihasilkan adalah (hanya sebagian kecil): +--------------------------+----------+-----+---------+----------+---------+ | Collation | Charset | Id | Default | Compiled | Sortlen | +--------------------------+----------+-----+---------+----------+---------+ | utf8_general_ci | utf8 | 33 | Yes | Yes | 1 | | utf8_bin | utf8 | 83 | | Yes | 1 | | utf8_unicode_ci | utf8 | 192 | | Yes | 8 | | utf8_icelandic_ci | utf8 | 193 | | Yes | 8 | | utf8_latvian_ci | utf8 | 194 | | Yes | 8 | | utf8_romanian_ci | utf8 | 195 | | Yes | 8 | | utf8_slovenian_ci | utf8 | 196 | | Yes | 8 | | utf8_polish_ci | utf8 | 197 | | Yes | 8 | | utf8_estonian_ci | utf8 | 198 | | Yes | 8 | | utf8_spanish_ci | utf8 | 199 | | Yes | 8 | | utf8_swedish_ci | utf8 | 200 | | Yes | 8 | +--------------------------+----------+-----+---------+----------+---------+ Perhatikan bahwa dua karakter terakhir pada kolom collation adalah
Sedangkan nama di depannya (seperti: general, unicode, latvian) merupakan “rule” yang digunakan untuk melakukan pembandingan. Sehingga Nilai “Yes” pada kolom Default (pada contoh diatas Pendefinisian Character set dan Collation pada MySQLPada MySQL, Collation dan Character set pertama kali didefinisikan ketika kita membuat Filed, Tabel, atau Database, berikut ini contoh pilihan collation ketika membuat tabel pada pada phpMyAdmin: pada phpMyAdmin, pilihan collation akan otomatis menentukan character set yang
digunakan, misal: collation phpMyAdmin melakukan demikian karena kita tidak bisa menggunakan collation pada character set yang berbeda, misal collation
Bagaimana jika character set dan collation tidak didefinisikan?Penentuan character set pada MySQL dilakukan secara berjenjang (inherit) mulai dari Field -> Tabel -> Database -> Server. Sehingga ketika kita membuat Database/Tabel/Field dan tidak menentukan jenis character set nya, maka jenis character set tersebut akan diambilkan dari jenjang atasnya. Contoh: kita memilki database universitas dengan character set Dengan phpMyAdmin: Dengan query:
Ketika query dijalankan, secara otomatis character set yang digunakan baik pada tabel maupun field adalah Ketika menjalankan query, bagaimana MySQL tahu Collation yang digunakan?Ketika menjalankan query, MySQL akan mencari collation secara berjenjang dan urut mulai dari:
5. Lebih jauh tentang latin1_swedish_ciUntuk lebih memahami Character set dan Collation pada MySQL, mari kita bahas salah satu collation yang sering kita jumpai yaitu Character set pada latin1_sedish_ci Pada collation Karakter yang dapat ditampung oleh character set ini sebanyak 256 yang terdiri dari karakter ANSI, seperti pada keyboard kita + karakter latin (accented character – West European) yang biasanya digunakan oleh negara Eropa, adapun karakter tersebut adalah: Sumber: Terena Seperti contoh pada gambar diatas, character set latin1 dapat menampung karakter khusus seperti copyright ©, registered ®, kurang lebih ±, tanda bagi ÷, dll. Jika aplikasi kita bersifat webbased, maka karakter khusus ini dapat di ganti dengan entitas HTML, misal: © untuk copyright, ® untuk registered, dll, selengkapnya dapat dilihat di: HTML 4.0 Latin-1 Entities Collation pada latin1_sedish_ci Dalam mengurutkan/membandingkan karakter, khususnya karakter tertentu seperti latin (accented character), masing-masing negara memiliki rule sendiri, sehingga hasil pengurutannya bisa jadi tidak sama, Untuk collation Sebagai contoh, misalkan kita memiliki nama berikut: Muffler Müller MX Systems MySQL Maka ketika diurutkan, collation
Sumber: Dev MySQL Keterangan: 6. Lebih Jauh Tentang utf8 dan utf8mb4Jika bicara tentang character set, maka tidak akan terlepas dari Utf8, character set terpopuler saat ini. Untuk itu, pada kesempatan ini, tidak ada salahnya kita juga membahas utf8 pada MySQL. Character set utf8 Pada standar umum yang berlaku, character set utf8 mampu menampung semua jenis karakter yang ada di dunia ini, mulai dari karakter 1 byte, seperti pada latin1, hingga 4 byte seperti pada huruf Arab, China, dll Pada MySQL, character set Untuk penggunaan space, utf8 pada MySQL menggunakan ruang secara dinamis, untuk karakter dengan ukuran 1 byte, maka ruang yang diperlukan juga 1byte, tidak seperti utf32 yang menggunakan ruang penyimpanan 2 byte. Character set utf8mb4
Ruang penyimpanan yang diperlukan sama dengan utf8 yaitu sesuai dengan ukuran karakter, karakter 1 byte akan membutuhkan ruang penyimpanan 1 byte. Mana yang sebaiknya dipilih? utf8 atau utf8mb4 Dari penjelasan diatas, maka dapat disimpulkan bahwa 7. Jadi Character set mana yang harus dipilih?Setelah mempelajari character set dan collation, character set mana yang harus dipilih? Untuk menentukan Character Set dan Collation pada MySQL, beberapa hal yang harus dipertimbangkan: PerfomanceFixed – length encoding (Character set dengan ukuran byte tetap, seperti ASCII atau latin)  akan lebih efisien dan cepat dalam pengolahan data dibanding variable – length encoding (seperti: utf8 , utf8mb4, utf32, dst…). Hal ini terjadi pada kondisi:
Disamping itu, ketika melakukan join table dan character set yang digunakan berbeda, misal latin1 dan utf8, maka MySQL akan mengkonversi salah satunya, yang akibatnya index dari tabel tersebut TIDAK dapat digunakan. Artinya, tanpa index, proses sorting tabel akan memakan waktu lebih lama. SpaceBaik Fixed-length encoding maupun variable-length encoding (dalam hal ini latin dan utf8) menggunakan space yang sama, misal untuk karakter a-z, A-Z, 0-9 sama-sama membutuhkan ruang 1 byte per karakter. Namun, ketika Ketika MySQL membuat temporary tabel, misal: ketika melakukan subquery atau join, maka pada Memory (RAM), MySQL akan mengalokasikan space sebesar byte maksimal yang dapat ditampung oleh character set. Sehingga misal: untuk kolom CHAR(10), MySQL akan mengalokasikan 10 byte untuk character set latin1 dan 30 byte untuk utf8, hal tersebut karena jumlah maksimal byte yang dapat ditampung oleh utf8 adalah 3 byte. Sehingga…Sehingga, hanya gunakan character set seminimal mungkin sesuai kebutuhan, Misal: ketika membuat aplikasi / web berbahasa tertentu, maka gunakan character set untuk bahasa tersebut yang sifatnya fixed-length. Misal untuk web berbahasa Indonesia, cukup menggunakan character set latin1 atau ASCII, sedangkan untuk khusus berbahasa arab maka cukup menggunakan CP1256. Namun, jika sobat membuat web berbahasa Inggris dan memungkinkan pengunjung dari berbagai negara, misal: Arab, China, Jerman, dll untuk mendaftar, atau jika kita ingin aplikasi kita dapat menyimpan icon emoji seperti: maka UTF8mb4 cocok untuk digunakan. List lengkap emoji dapat dilihat di: Full Emoji List, V11.0 Jika aplikasi kita bersifat web based, emoji tersebut dapat diganti dengan hexadecima atau decimal character seperti: 😀 untuk smiling face, list lengkapnya dapat dilihat di &what: Discover Unicode & HTML Character Entities, sehingga masih bisa menggunakan character set Latin1 ClosingTerdapat banyak sekali pilihan character set dan collation pada MySQL, semua itu dibuat bukan tanpa tujuan, untuk itu, selalu gunakan character set dan collation yang sesuai dengan kondisi dan kebutuhan, sehingga dapat meningkatkan perfomance database. Penting untuk mempelajari character set, karena akan selalu dan selalu bermanfaat untuk pengembangan aplikasi, jika sobat ingin mempelajari lebih lanjut tentang character set, sobat dapat membaca artikel: Memahami Character Set dan Character Encoding Demikian tutorial mengenai character set dan collation pada MySQL, semoga bermanfaat. Subscibe NowSuka dengan artikel di Jagowebdev.com? jangan sampai ketinggalan, segera join ke milis kami untuk update informasi terbaru dari Jagowebdev.com |