انتخاب و استفاده از کدگذاری نویسه
محتوا شامل یکسری کاراکتر است. کاراکترها حروف، الفبا، نقطه گذاری و غیره هستند که در کامپیوتر به شکل بایت ها که مقادیر عددی هستند ذخیره میشوند. بعضی وقتها، برای نشان دادن یک کاراکتر به بیش از یک بایت نیاز داریم. برای تبدیل بایت ها به کاراکتر لازم است بدانیم که کدام کلید برای کدگذاری متن استفاده شده است. در این مقاله ما به آن کلید کدگذاری نویسه میگوییم.
چگونه کدگذاری نویسه را تعریف کنیم
شما باید نوع کدگذاری صفحات HTML و XML خود را تعریف کنید. اگر اینکار را نکنید این خطر وجود دارد که محتوای صفحه شما بصورت اشتباه تعبیر شود. این سوء تعبیر تنها مربوط به انسان ها نمیباشند، بلکه ماشین ها هم باید دیتا را بفهمند. باید مطمئن شوید که محتوای صفحه شما در همه جا به یک صورت تعبیر خواهد شد.
مطالعه بیشتر: اسکی (ASCII) چیست؟
BOM (The Byte-order Mark)
زمانی که از کدگذاری نویسه یونیکد استفاده میکنید میتوانید از BOM همانند UTF-8 یا UTF-16 استفاده کنید. در برخی موارد لازم است BOM را حذف کنید، و در برخی موارد لازم است از آن استفاده کنید.
مطالعه بیشتر: کاراکتر bom چیست ؟
فرم های نورمال سازی یونیکد
زمانی که شما بصورت UTF-8 مینویسید باید از نرمال سازی مطلع باشید.
مطالعه بیشتر: Normalization in HTML and CSS
استفاده از CHARACTER ESCAPE
character escape کاراکترهایی هستند که کاراکترهای دیگر را فراخوانی میکنند. برای مثال کاراکتر € به جای علامت " €" می آید. با کمک character escape شما میتوانید با استفاده از کاراکترهای ASCII هر کاراکتری را از مجموعه کاراکترهای یونیکد در HTML، XML، یا CSS بنویسید.
مطالعه بیشتر: HTML Escape Characters: Complete List
کاراکترها یا مارک آپ (نشانی گذاری)؟
درنهایت کاراکترهای یونیکد زیادی وجود دارد که کار آنها شبیه به مارک آپ هستند. سوال این است که کدام یکی را باید استفاده کنیم؟
شما میتوانید جواب این سوال را که w3 داده است از اینجا مشاهده نمایید:
مطالعه بیشتر: Characters or markup?
به نقل از: W3C