การเข้ารหัส KOI8-R KOI8-R เป็นโค้ดประเภทใด และให้อะไร? ตารางการเข้ารหัสตัวอักษรรัสเซีย 8 ตัว

โกลอฟนา / ข้อมูลคอริสนา

- ซัมโปลิท (@ComradZampolit) 17 กันยายน 2017

KOI8-R ทำงานอย่างไร?

KOI8-R เป็นโค้ดเพจขนาด 8 บิต ซึ่งแบ่งออกเป็นการเข้ารหัสตัวอักษรของอักษรซีริลลิก นักพัฒนาได้จัดเรียงสัญลักษณ์ของตัวอักษรรัสเซียในลักษณะที่ตำแหน่งของสัญลักษณ์ซีริลลิกสอดคล้องกับการออกเสียงในตัวอักษรภาษาอังกฤษที่ด้านล่างของตาราง และหากลบสัญลักษณ์สกินบิตที่แปดในข้อความที่เขียนด้วยโค้ดนี้ คุณจะได้ข้อความที่คล้ายกับการแปลด้วยตัวอักษรละติน

รหัสแลกเปลี่ยนข้อมูลนี้ติดอยู่ในยุคเจ็ดสิบบนคอมพิวเตอร์ของซีรีส์ EC EOM และในช่วงกลางทศวรรษที่แปดสิบก็เริ่มใช้ในเวอร์ชัน Russified แรก ระบบปฏิบัติการยูนิกซ์

รหัสประกอบด้วยข้อเท็จจริงที่ว่ารหัสเฉพาะถูกกำหนดให้กับสัญลักษณ์สกิน: จาก 00000000 ถึง 11111111 ด้วยวิธีนี้ ผู้คนจึงแยกสัญลักษณ์ที่อยู่ด้านหลังเก้าอี้ และคอมพิวเตอร์ - อยู่ด้านหลังรหัสของพวกเขา

คุณต้องการเข้าสู่รหัสของ Chernov ในเวลาเดียวกันหรือไม่?

เลขที่

สิ่งนี้เกี่ยวข้องกับคอมพิวเตอร์แปดบิตรุ่นเก่า แต่สิ่งสำคัญคือต้องเข้าใจ Unicode ในรูปแบบที่แตกต่างกัน

สวัสดีเพื่อนผู้อ่านบล็อกไซต์ วันนี้เราจะพูดคุยกับคุณเกี่ยวกับข้อเท็จจริงที่พบในไซต์และโปรแกรม วิธีเขียนโค้ดข้อความ และวิธีปฏิบัติตาม เรามาดูประวัติความเป็นมาของการพัฒนากัน โดยเริ่มจาก ASCII พื้นฐาน ไปจนถึงเวอร์ชันขยายของ CP866, KOI8-R, Windows 1251 และลงท้ายด้วยการเข้ารหัสปัจจุบันของ Unicode consortium UTF 16 และ 8

ข้อมูลนี้อาจน่าสนใจสำหรับใครถ้าเพียงคุณเท่านั้นที่รู้ว่าต้องใช้เวลานานแค่ไหนในการมาให้อาหาร krakozyabrs ที่ยืนอยู่รอบ ๆ (ชุดอักขระไม่สามารถอ่านได้) ตอนนี้ฉันมีโอกาสที่จะนำทุกคนมาสู่เนื้อหาของบทความนี้และแก้ไขปัญหาของฉันอย่างอิสระ ก็เตรียมรวบรวมข้อมูลและพยายามตามบทสนทนาให้ทัน

ASCII - การเข้ารหัสข้อความพื้นฐานสำหรับภาษาละติน

การพัฒนาข้อความที่เข้ารหัสเกิดขึ้นพร้อมกันกับการก่อตัวของกาแล็กซีไอที และในช่วงเวลานี้พวกเขาก็ตระหนักถึงการเปลี่ยนแปลงเล็กน้อย ในอดีตทุกอย่างเริ่มค่อนข้างไม่มั่นคงในภาษารัสเซีย EBCDIC ซึ่งอนุญาตให้มีการเข้ารหัสตัวอักษรของตัวอักษรละติน เลขอารบิค และเครื่องหมายวรรคตอนพร้อมสัญลักษณ์ที่ต้องจัดการ อย่างไรก็ตาม จุดเริ่มต้นสำหรับการพัฒนาข้อความการเข้ารหัสในปัจจุบันคือการเคารพผู้มีชื่อเสียง(รหัส American Standard สำหรับการแลกเปลี่ยนข้อมูล เป็นภาษารัสเซียเรียกว่า "aski") วอห์นอธิบายอักขระ 128 ตัวแรกที่ชาวแองโกล-อเมริกันใช้บ่อยที่สุด - เลขอารบิกและเครื่องหมายหาร

นอกจากนี้ยังมีอักขระ 128 ตัวที่อธิบายไว้ใน ASCII รวมถึงสัญลักษณ์บริการบนสัญลักษณ์คันธนู เครื่องหมาย ดาว ฯลฯ Vlasna คุณเองสามารถช่วยพวกเขาได้:

อักขระ 128 ตัวจาก ASCII เวอร์ชันแรกได้กลายเป็นมาตรฐาน และไม่ว่าจะด้วยวิธีอื่นใดที่พวกมันถูกเข้ารหัส คุณจะต้องใช้พวกมันและยืนหยัดในลำดับนั้นอย่างแน่นอน

สิ่งทางด้านขวาคือด้วยความช่วยเหลือของข้อมูลหนึ่งไบต์จึงเป็นไปได้ที่จะเข้ารหัสไม่ใช่ 128 แต่มีค่าต่างกันมากถึง 256 ค่า (สองในระดับทั้งหมดเท่ากับ 256) ดังนั้น รุ่นพื้นฐานอัสกี้ปรากฏตัวเต็มแถว ส่วนขยายรหัส ASCIIซึ่งอาจมีอักขระหลักได้ 128 ตัวที่เข้ารหัสสัญลักษณ์ของรหัสประจำชาติ (เช่น ภาษารัสเซีย)

ในลักษณะที่ไพเราะ เป็นการดีที่จะพูดเพิ่มเติมอีกเล็กน้อยเกี่ยวกับระบบตัวเลข ซึ่งฉันจะอธิบายในอีกสักครู่ ก่อนอื่น อย่างที่คุณทราบกันดีว่าคอมพิวเตอร์ใช้งานได้กับตัวเลขในระบบสองหลักเท่านั้น และกับศูนย์และหนึ่ง (“พีชคณิตแบบบูล” ซึ่งโดยปกติจะสอนที่สถาบันหรือที่โรงเรียน) ซึ่งแต่ละขั้นตอนแสดงถึงสองขั้นตอน โดยเริ่มจากศูนย์ และถึงสองใน somy:

สิ่งสำคัญคือต้องตระหนักว่าการรวมศูนย์และค่าที่เป็นไปได้ทั้งหมดสำหรับการก่อสร้างดังกล่าวสามารถมีได้มากกว่า 256 การแปลงตัวเลขจากระบบสองหลักเป็นระบบที่สิบนั้นเป็นเรื่องง่าย คุณเพียงแค่ต้องเพิ่มขั้นตอนทั้งหมดของสองขั้นตอนข้างต้นซึ่งมีอยู่ด้านบน

ในแอปพลิเคชันของเรา ผลลัพธ์จะเป็น 1 (2 ในขั้นตอนที่ 0) บวก 8 (สองในขั้นตอนที่ 3) บวก 32 (สองในขั้นตอนที่ห้า) บวก 64 (ในขั้นตอนที่หก) บวก 128 (ในขั้นตอนที่เจ็ด) ขั้นตอน) ฉันจะรับ 233 V ทันที ระบบที่สิบการคำนวณ คุณเห็นไหมว่าทุกอย่างง่ายมาก

หากคุณประหลาดใจกับตารางที่มีอักขระ ASCII คุณจะเห็นสิ่งที่แสดงในรหัสฐานสิบหก ตัวอย่างเช่น "ดาว" ตรงกับเลข 2A ที่สิบหกในอะซึกะ ดังที่คุณทราบ ในระบบเลขฐานสิบหก มีการใช้ตัวเลขนอกเหนือจากเลขอารบิคและตัวอักษรละตินตั้งแต่ A (หมายถึงสิบ) ถึง F (หมายถึงสิบห้า)

แกนสำหรับ การแปล จำนวนสองเท่าที่ shestnadtyatkovoเข้าสู่แนวทางที่ง่ายและเป็นวิทยาศาสตร์ ข้อมูลแต่ละไบต์จะถูกแบ่งออกเป็นส่วนต่างๆ ตามบิต ดังที่แสดงในภาพหน้าจอด้านบน ที่. ที่สกินครึ่งหนึ่งของไบต์ รหัสคู่คุณสามารถเข้ารหัสค่าได้มากถึงสิบหกค่า (สองค่าในขั้นตอนที่สี่) ซึ่งสามารถระบุได้อย่างง่ายดายด้วยตัวเลขที่สิบหก

ยิ่งไปกว่านั้น ในครึ่งซ้ายของไบต์ จะต้องป้อนสเตจอีกครั้งโดยเริ่มจากศูนย์ และไม่เป็นไปตามที่แสดงในภาพหน้าจอ จากการคำนวณง่ายๆ เราจะเห็นว่าหมายเลข E9 ถูกเข้ารหัสไว้ในภาพหน้าจอ ฉันมั่นใจว่าคุณจะเข้าใจวิธีแก้ปัญหาของ rebus นี้โดยข้ามคำพูดของฉันและวิธีแก้ปัญหาของ rebus นี้ ทีนี้มาพูดถึงการเข้ารหัสข้อความกันดีกว่า

Aska เวอร์ชันขยาย - การเข้ารหัส CP866 และ KOI8-R พร้อม pseudographics

เราเริ่มพูดถึง ASCII ซึ่งเป็นจุดเริ่มต้นสำหรับการพัฒนาโค้ดสมัยใหม่ทั้งหมด (Windows 1251, Unicode, UTF 8)

เริ่มแรกมีตัวอักษรละตินตัวเลขอารบิกและสิ่งอื่น ๆ เพียง 128 ตัว แต่ในเวอร์ชันขยายสามารถแยกค่าทั้งหมด 256 ค่าที่สามารถเข้ารหัสได้ในข้อมูลหนึ่งไบต์ โตโต้ คุณสามารถเพิ่มอักขระจากภาษาของคุณไปยัง Asuka ได้

ที่นี่เราต้องย้อนกลับไปอธิบายอีกครั้ง ตอนนี้เราได้เผารหัสที่จำเป็นออกไปแล้วข้อความและเหตุใดจึงสำคัญมาก อักขระบนหน้าจอคอมพิวเตอร์ของคุณถูกสร้างขึ้นบนพื้นฐานของสองคำ - ชุดของรูปแบบเวกเตอร์ (การแสดง) ของอักขระที่แข็งแกร่ง (พบในไฟล์) และโค้ดที่ช่วยให้ชุดของรูปแบบเวกเตอร์ (ไฟล์ฟอนต์) สามารถเขียนได้ ชุดของรูปแบบเวกเตอร์ (ไฟล์ฟอนต์) ซึ่งเป็นสัญลักษณ์ที่จะต้องแทรกเมื่อจำเป็น

เป็นที่ชัดเจนว่ารูปแบบเวกเตอร์แสดงด้วยแบบอักษร และแกนการเข้ารหัสถูกกำหนดโดยระบบปฏิบัติการและโปรแกรมที่ทำงานอยู่ในนั้น โตโต้ ไม่ว่าข้อความใดๆ ในคอมพิวเตอร์ของคุณจะเป็นชุดไบต์ก็ตาม การเข้ารหัสแต่ละรายการจะมีอักขระตัวเดียวสำหรับข้อความนั้น

โปรแกรมที่แสดงข้อความนี้บนหน้าจอ (โปรแกรมแก้ไขข้อความ เบราว์เซอร์ ฯลฯ) เมื่อแยกวิเคราะห์โค้ด อ่านการเข้ารหัสของอักขระแบบร่าง และค้นหารูปแบบเวกเตอร์ที่เหมาะสมในไฟล์ฟอนต์ที่ต้องการซึ่งใช้สำหรับการแสดงสิ่งนี้ เอกสารข้อความ ทุกสิ่งทุกอย่างเป็นเพียงเรื่องธรรมดา

ดังนั้น ในการเข้ารหัสอักขระใดๆ ที่เราต้องการ (เช่น จากตัวอักษรประจำชาติ) จะต้องสร้างจิตใจสองแบบ - รูปแบบเวกเตอร์ของอักขระนั้นเนื่องมาจากแบบอักษรที่ใช้อยู่ และอักขระนี้สามารถเข้ารหัสแบบขยายได้ รหัส ASCII ในหนึ่งไบต์ มีตัวเลือกดังกล่าวมากมาย สำหรับการเข้ารหัสสัญลักษณ์รัสเซียเท่านั้นคือ Asuka แบบขยายจำนวนหนึ่ง

เช่น เธอปรากฏตัวขึ้นทันที ซีพี866ซึ่งสามารถใช้อักขระที่แตกต่างจากตัวอักษรรัสเซียและ ASCII เวอร์ชันขยายได้

โตโต้ ส่วนบนถูกใช้อย่างสมบูรณ์กับ Asuka เวอร์ชันพื้นฐาน (อักขระละติน 128 ตัว ตัวเลขและอึอื่น ๆ ) ซึ่งนำเสนอในภาพหน้าจอที่สั้นที่สุด และแกนของส่วนล่างของตารางที่มีรหัส CP866 มีข้อบ่งชี้เล็กน้อยบนหน้าจอ รูปลักษณ์ลดลงไม่กี่นาทีและอนุญาตให้เข้ารหัสสัญญาณ (ตัวอักษรรัสเซียและนามแฝงทุกประเภท):

กรุณาตัวเลขทางด้านขวาเริ่มต้นที่ 8 เพราะ... ตัวเลขตั้งแต่ 0 ถึง 7 จะถูกโอนไปยังส่วน ASCII พื้นฐาน (ภาพหน้าจอแรกของ div.) ที่. ตัวอักษรรัสเซีย "M" ใน CP866 มีรหัส 9C (อยู่ที่ด้านหลังของแถวของแถว 9 และตรงกับหมายเลข C ในระบบตัวเลขที่สิบหก) ซึ่งสามารถเขียนได้ในข้อมูลหนึ่งไบต์ และด้วยเหตุผลที่ชัดเจน เช่นเดียวกับแบบอักษรที่มีตัวอักษรรัสเซีย ตัวอักษรนี้จึงไม่มีปัญหาปรากฏในข้อความ

ดาวก็ใหญ่มาก ภาพเทียมใน CP866-

ที่นี่เรากำลังพูดถึงความจริงที่ว่าการเข้ารหัสสำหรับข้อความภาษารัสเซียนั้นยากยิ่งขึ้นหากมีการขยายระบบปฏิบัติการแบบกราฟิกเช่นที่เป็นอยู่ในปัจจุบัน และใน Dosia และระบบปฏิบัติการข้อความที่คล้ายกันก่อนหน้านี้ ภาพเทียมทำให้สามารถเข้าใจการออกแบบข้อความได้ และสิ่งนี้จะอธิบาย CP866 และผู้ร่วมสมัยอื่น ๆ ทั้งหมดจากอันดับของ Asuka เวอร์ชันขยาย IBM เผยแพร่ CP866 อย่างกว้างขวาง แต่นอกจากนี้สำหรับอักขระในภาษารัสเซียนั้น โค้ดอีกจำนวนหนึ่งก็ถูกแบ่งออกไป เช่น สามารถเพิ่มเป็นประเภทเดียวกัน (ส่วนขยาย ASCII) ได้:

KOI8-R

หลักการของงานนี้หายไปจากหลักการเดียวกับที่อธิบายไว้ก่อนหน้า CP866 - อักขระทุกตัวในข้อความจะถูกเข้ารหัสในหนึ่งไบต์เดียว ภาพหน้าจอแสดงเพื่อนครึ่งหนึ่งของตาราง KOI8-R เพราะ ครึ่งแรกคล้ายกับฐาน Asuka อย่างใกล้ชิด ดังที่แสดงในภาพหน้าจอแรกของบทความนี้

ในบรรดาลักษณะเฉพาะของการเข้ารหัส KOI8-R อาจสังเกตได้ว่าตัวอักษรรัสเซียในตารางไม่ได้เรียงตามตัวอักษรเช่นสร้างขึ้นใน CP866

หากคุณดูภาพหน้าจอแรก (ของส่วนพื้นฐานซึ่งรวมอยู่ในส่วนขยายการเข้ารหัสทั้งหมด) คุณจะสังเกตเห็นว่าใน KOI8-R ตัวอักษรรัสเซียอยู่ในตำแหน่งเดียวกันในตาราง เช่นเดียวกับตัวอักษรที่คล้ายกันของ ตัวอักษรละติน ซึ่งมาจากส่วนแรกของตาราง สิ่งนี้ทำขึ้นเพื่ออำนวยความสะดวกในการเปลี่ยนจากสัญลักษณ์รัสเซียเป็นภาษาละตินโดยทิ้งเพียงหนึ่งบิต (สองในขั้นตอนเดียวกันหรือ 128)

การพัฒนาการเข้ารหัสข้อความเพิ่มเติมนั้นเกิดจากการที่ระบบปฏิบัติการแบบกราฟิกกำลังได้รับความนิยมและความจำเป็นในการใช้เทียมในนั้นก็ค่อยๆเพิ่มขึ้น เป็นผลให้ทั้งกลุ่มถูกทำลายซึ่งในแกนกลางของมันเหมือนเมื่อก่อนเป็นเวอร์ชันขยายของ Asuka (อักขระตัวหนึ่งของข้อความถูกเข้ารหัสด้วยข้อมูลเพียงไบต์เดียว) แต่ไม่มีสัญลักษณ์เพิ่มเติมของนามแฝง

กลิ่นนั้นจัดอยู่ในรหัส ANSI ซึ่งแบ่งโดย American Institute of Standardization ในสำนวนทั่วไป ชื่อของอักษรซีริลลิกยังใช้สำหรับรูปแบบที่มีอิทธิพลทางภาษารัสเซีย นี่อาจเป็นก้น

มันแตกต่างอย่างชัดเจนจาก CP866 และ KOI8-R ที่ได้รับชัยชนะก่อนหน้านี้ตรงที่สถานที่ของสัญลักษณ์ปลอมนั้นถูกยึดครองโดยสัญลักษณ์ของ drukarniya ของรัสเซีย (ยกเว้นสัญลักษณ์ในสายตาธรรมดา) เช่นเดียวกับสัญลักษณ์ที่ได้รับชัยชนะใน ภาษาสโลเวเนียใกล้กับรัสเซีย (ยูเครน, เบลารุส ฯลฯ ) d.) -

ด้วยการเข้ารหัสภาษารัสเซียจำนวนมากจากผู้จัดพิมพ์แบบอักษรและแบบอักษร ความปลอดภัยของซอฟต์แวร์อาการปวดหัวก็เกิดขึ้นตลอด และคุณและฉัน นักอ่านเงาก็มักจะทุกข์ทรมานเหมือนกัน คราโคซาบรีหากมีความสับสนกับเวอร์ชันที่ได้รับการแก้ไขในข้อความ

มักจะมีกลิ่นเหม็นออกมาเมื่อกดและนำออก อีเมลสิ่งที่ทำให้เกิดการสร้างตารางการแปลงรหัสแบบพับได้ซึ่งล้มเหลวโดยสิ้นเชิงในการแก้ปัญหานี้และบ่อยครั้งที่ koristuvach สำหรับการใบไม้ vikorystovat เพื่อกำจัด kokobyabrs ที่ขมขื่นในรหัสรัสเซียที่ได้รับชัยชนะของ CP866, KOI8-R หรือ Windows 1251 ที่คล้ายกัน .

ในความเป็นจริงรอยแตกที่ปรากฏแทนที่ข้อความภาษารัสเซียเป็นผลมาจากการเข้ารหัสวิกิที่ไม่ถูกต้องของภาษานี้ซึ่งไม่ตรงกับที่เข้ารหัสไว้ ข้อความซัง

ได้รับอนุญาตหากอักขระที่เข้ารหัสโดยใช้ CP866 ให้ลองแสดงตารางรหัส Windows 1251 โดยใช้ krakozyabry (ชุดอักขระธรรมดา) แล้วลบออกโดยแทนที่ข้อความแจ้งเตือนโดยสมบูรณ์

สถานการณ์ที่คล้ายกันมักเกิดขึ้นในฟอรัมและบล็อกเมื่อข้อความที่มีตัวอักษรรัสเซียถูกบันทึกในรหัสที่ไม่ถูกต้องเช่นเดียวกับกรณีบนเว็บไซต์ด้วยเหตุผลหรือไม่ถูกต้อง โปรแกรมแก้ไขข้อความซึ่งให้รหัสแก่ตนเองไม่สามารถมองเห็นได้ด้วยตาเปล่า

หลังจากแก้ไขสถานการณ์นี้ด้วยการเข้ารหัสแบบคนตาบอดและ kokobrams ที่คลานไปมาอยู่ตลอดเวลา เราได้ค้นพบแนวคิดมากมายเพื่อสร้างรูปแบบสากลใหม่ที่จะแทนที่แบบเดิมทั้งหมดที่ฉันจะพบสาเหตุของปัญหาด้วย การปรากฏตัวของข้อความที่อ่านไม่ได้ ขึ้นอยู่กับปัญหาภาษาที่คล้ายกับภาษาจีนซึ่งมีสัญลักษณ์ของภาษามากกว่า ต่ำกว่า 256

Unicode - การเข้ารหัสสากล UTF 8, 16 และ 32

เป็นไปไม่ได้ที่จะอธิบายอักขระหลายพันตัวของกลุ่มเอเชียพื้นเมืองทั่วไปในข้อมูลหนึ่งไบต์ซึ่งมีให้สำหรับการเข้ารหัสอักขระใน ASCII เวอร์ชันขยาย เป็นผลให้มีการจัดตั้งสมาคมขึ้นภายใต้ชื่อ ยูนิโค้ด(Unicode - Unicode Consortium) ด้วยความร่วมมือของผู้นำในอุตสาหกรรมไอทีหลายคน (ผู้พัฒนาซอฟต์แวร์, ใครเขียนโค้ด, สร้างฟอนต์) ซึ่งมุ่งมั่นที่จะเกิดการเข้ารหัสข้อความสากล

รูปแบบแรกที่ออกมาภายใต้กลุ่ม Unicode คือ UTF32-

ตัวเลขในชื่อการเข้ารหัสระบุจำนวนบิตที่ต้องใช้ในการเข้ารหัสหนึ่งอักขระ 32 บิตจะเพิ่มข้อมูลสูงสุด 4 ไบต์ที่จำเป็นสำหรับการเข้ารหัสอักขระตัวเดียวในการเข้ารหัส UTF สากลใหม่ ด้วยเหตุนี้ไฟล์เดียวกันที่มีข้อความเข้ารหัสใน ASCII เวอร์ชันขยายและ UTF-32 ในกรณีที่เหลือจึงมีขนาด (ความสำคัญ) ที่ใหญ่กว่ามาก สิ่งนี้ไม่ดี แต่ตอนนี้เรามีโอกาสที่จะเข้ารหัสสำหรับ YTF เพิ่มเติมจำนวนสัญญาณที่เท่ากับสองในระดับอื่นสามสิบ (สัญลักษณ์นับพันล้าน

, วิธีครอบคลุมค่าที่จำเป็นจริงๆ ด้วยการสำรองจำนวนมหาศาล) หากประเทศที่ร่ำรวยในกลุ่มยุโรปมีสัญลักษณ์จำนวนมาก ก็ไม่จำเป็นต้องเข้ารหัส irirazove เพิ่มในช่องคลอดเอกสารข้อความ

และเป็นผลให้ปริมาณการใช้อินเทอร์เน็ตเพิ่มขึ้นและปริมาณข้อมูลที่บันทึกไว้ นี่มันรวยมาก และไม่มีใครสามารถเสียเงินขนาดนั้นได้ ผู้สืบทอดต่อการพัฒนา Unicode คือ UTF-16

เมื่อโต๊ะออกมาแต่ไกลก็เป็นที่ยอมรับของจิตใจว่าเป็นพื้นที่พื้นฐานสำหรับสัญลักษณ์ทั้งหมดที่เราใช้ วอห์นใช้สองไบต์ในการเข้ารหัสอักขระหนึ่งตัว มาดูกันว่าสิ่งนี้มีลักษณะอย่างไร สำหรับระบบปฏิบัติการ Windows คุณสามารถไปตามเส้นทาง "เริ่ม" - "โปรแกรม" - "มาตรฐาน" - "บริการ" - "ตารางอักขระ" เป็นผลให้ตารางที่มีรูปแบบเวกเตอร์ของระบบฟอนต์ที่ติดตั้งทั้งหมดในระบบของคุณจะเปิดขึ้น คุณจะห่อมันยังไง”» ชุดอักขระ Unicode จากนั้นคุณสามารถเลือกช่วงอักขระทั้งหมดที่มีอยู่ก่อนหน้าสำหรับแต่ละแบบอักษรได้

ก่อนที่จะพูดคุณสามารถดาวน์โหลดไบต์คู่นี้ได้โดยการคลิกที่รายการใดรายการหนึ่ง รหัสรูปแบบ UTF-16ผลรวมของสี่สิบหกหลักคืออะไร:

สามารถเข้ารหัสอักขระ UTF-16 ได้กี่ตัวและเพิ่มอีก 16 บิต 65536 (สองยกกำลังสิบหก) และตัวเลขนี้เองถูกใช้เป็นช่องว่างฐานใน Unicode นอกจากนี้ ยังมีวิธีเข้ารหัสอักขระเกือบสองล้านตัวที่อยู่ด้านหลัง แต่ยังอนุญาตให้มีการขยายพื้นที่อักขระหลายล้านตัวในข้อความอีกด้วย

อย่างไรก็ตาม การเข้ารหัส Unicode เวอร์ชันนี้ไม่ได้สร้างความพึงพอใจให้กับผู้ที่เขียนโปรแกรมเฉพาะบนเท่านั้น ภาษาอังกฤษน่าเสียดายที่หลังจากการเปลี่ยนจาก ASCII เวอร์ชันขยายเป็น UTF-16 เอกสารของคุณมีขนาดเพิ่มขึ้น (หนึ่งไบต์สำหรับอักขระหนึ่งตัวใน Aski และสองไบต์สำหรับอักขระเดียวกันใน UTF-16)

เพื่อให้ทุกคนและทุกสิ่งใน Unicode consortium พอใจ จึงมีการตัดสินใจเกิดขึ้น การประมวลนกพิราบแลกเปลี่ยน-

พวกเขาเรียกมันว่า UTF-8 แม้ว่าชื่อจะมีความหมาย แต่ก็เป็นวันสุดท้ายของการเปลี่ยนแปลงจริงๆ อักขระทุกตัวในข้อความสามารถเข้ารหัสด้วยลำดับตั้งแต่หนึ่งถึงหกไบต์

ในทางปฏิบัติ UTF-8 มีช่วงตั้งแต่ 1 ถึงหลายไบต์ ดังนั้นในทางทฤษฎีจึงเป็นไปไม่ได้ที่โค้ดจะตรวจจับสิ่งใดๆ ที่เกินจำนวนไบต์ได้ อักขระละตินทั้งหมดในนั้นจะถูกเข้ารหัสเป็นหนึ่งไบต์ เช่นเดียวกับใน ASCII รุ่นเก่าที่ดี

สิ่งที่น่าสังเกตก็คือเนื่องจากมีเพียงตัวอักษรละตินเท่านั้นที่ถูกเข้ารหัส โปรแกรมที่ไม่เข้าใจ Unicode จึงยังสามารถอ่านตัวอักษรที่เข้ารหัสใน UTF-8 ได้ โตโต้ ส่วนพื้นฐานของ Aska ก็ส่งต่อไปยังการสร้าง Unicode consortium อักขระซีริลลิกใน UTF-8 จะถูกเข้ารหัสเป็นสองไบต์ และตัวอย่างเช่น อักขระจอร์เจีย - เป็นสามไบต์ Unicode Consortium หลังจากการสร้าง UTF 16 และ 8 ได้ระบุปัญหาหลักแล้ว - ตอนนี้เรามีแล้วแบบอักษรมีพื้นที่รหัสเดียว

-

และตอนนี้นักเขียนของพวกเขาขาดความแข็งแกร่งและความสามารถในการจดจำสัญลักษณ์รูปแบบเวกเตอร์ในข้อความ ถึงเวลาออกข่าว..

ตอนนี้ให้เราประหลาดใจว่าข้อความถูกแทนที่ด้วย krakozyabry อย่างไรหรือเลือกการเข้ารหัสที่ถูกต้องสำหรับข้อความภาษารัสเซียได้อย่างไร แน่นอนว่ามันถูกตั้งค่าไว้ในโปรแกรมที่คุณสร้างหรือแก้ไขข้อความนี้หรือโค้ดจากส่วนของข้อความต่างๆ

เพื่อแก้ไขประตูนั้น ไฟล์ข้อความฉันเก่งเรื่อง vikorism เป็นพิเศษในความคิดของฉัน นอกจากนี้ คุณยังสามารถจับคู่ไวยากรณ์ของการเขียนโปรแกรมและโปรแกรมมาร์กอัปอื่นๆ ได้หลายร้อยรายการ และยังสามารถขยายได้ด้วยความช่วยเหลือของปลั๊กอินเพิ่มเติม อ่าน รายงานการตรวจสอบสิ่งเหล่านี้เป็นโปรแกรมอัศจรรย์สำหรับการนำทาง

ที่เมนูด้านบนของ Notepad++ จะมีรายการ "การเข้ารหัส" ซึ่งคุณจะสามารถเปลี่ยนตัวเลือกที่มีอยู่เป็นตัวเลือกที่ใช้ในไซต์ของคุณสำหรับการเข้ารหัสได้:

สำหรับไซต์ที่ทำงานบน Joomla 1.5 ขึ้นไป รวมถึงบล็อกที่ทำงานบน WordPress อย่าลืมเลือกตัวเลือกเมื่อปรากฏขึ้น UTF 8 โดยไม่มี BOM-

คำนำหน้า BOM คืออะไร ทางด้านขวา หากแยกย่อยการเข้ารหัส YTF-16 พวกเขาต้องการเพิ่มบางอย่าง เช่น ความสามารถในการเขียนโค้ดลงในสัญลักษณ์ทั้งในลำดับโดยตรง (เช่น 0A15) และในลำดับย้อนกลับ (150A) และเพื่อให้โปรแกรมเข้าใจว่าต้องอ่านโค้ดและตัดสินใจตามลำดับอะไรบอม

(Byte Order Mark หรืออีกนัยหนึ่งคือลายเซ็น) ซึ่งสะท้อนให้เห็นในการเพิ่มสามไบต์เพิ่มเติมที่ส่วนหัวของเอกสาร การเข้ารหัส UTF-8 ไม่มี BOM ใด ๆ ที่ส่งไปยังกลุ่ม Unicode ดังนั้นจึงมีการเพิ่มลายเซ็น (ซึ่งเป็นไบต์เพิ่มเติมที่สำคัญที่สุดสามไบต์ต่อเอกสาร) เพื่อให้บางโปรแกรมจำเป็นต้องอ่านโค้ด ดังนั้นจากนี้ไปเมื่อบันทึกไฟล์จาก UTF เราสามารถเลือกตัวเลือกที่ไม่มี BOM (ไม่มีลายเซ็น) ด้วยวิธีนี้คุณจะอยู่ห่างไกล.

ยึดแจกันของคนใจแคบไว้

เป็นที่น่าสังเกตว่าบางโปรแกรมใน Windows ไม่สามารถทำงานได้ (คุณไม่สามารถบันทึกข้อความจาก UTF-8 โดยไม่มี BOM) ตัวอย่างเช่น Windows Notepad ที่โชคร้ายตัวเดียวกัน จะบันทึกเอกสารในรูปแบบ UTF-8 แต่ยังคงเพิ่มลายเซ็นลงไป (เพิ่มอีกสามไบต์) ยิ่งไปกว่านั้น ไบต์เหล่านี้จะเหมือนกันเสมอ - อ่านโค้ดตามลำดับโดยตรง อย่างไรก็ตามบนเซิร์ฟเวอร์อาจเกิดปัญหาด้วยวิธีนี้ - krakozyabry จะปรากฏขึ้น ดังนั้นทันเวลาพอดีอย่าใช้ Windows Notepad เพื่อแก้ไขเอกสารบนไซต์ของคุณ เพื่อไม่ให้เกิดข้อผิดพลาดใด ๆ เกิดขึ้น ที่ดีที่สุดและยิ่งใหญ่ที่สุดสมมติว่ามันเป็นทางเลือก

ใน Notepad ++ เมื่อคุณเลือกการเข้ารหัส คุณจะสามารถแปลงข้อความเป็นการเข้ารหัส UCS-2 ซึ่งใกล้เคียงกับมาตรฐาน Unicode มาก คุณยังสามารถใช้ Notepad เพื่อเข้ารหัสข้อความใน ANSI อีกไม่นานเราจะอธิบายภาษารัสเซียเพิ่มเติมอีกเล็กน้อยสำหรับ Windows 1251 คุณนำข้อมูลนี้มาจากดวงดาวหรือไม่?

มีการลงทะเบียนในทะเบียนธุรกรรมของคุณ ระบบวินโดวส์- หากคุณเลือกประเภท ANSI หรือหากคุณเลือกประเภท OEM (สำหรับภาษารัสเซียจะเป็น CP866) หากคุณติดตั้งภาษาอื่นบนคอมพิวเตอร์ของคุณหลังการผลิต โค้ดนี้จะถูกแทนที่ด้วยรหัส ANSI หรือ OEM ที่คล้ายกันสำหรับภาษาเดียวกัน

หลังจากที่คุณบันทึกเอกสารใน Notepad++ ด้วยรหัสที่คุณต้องการหรือเปิดเอกสารจากไซต์เพื่อแก้ไข จากนั้นคุณสามารถเพิ่มชื่อได้ที่มุมขวาล่างของตัวแก้ไข:

เพื่อผ่อนคลาย Krakozyabrivนอกเหนือจากคำอธิบายข้างต้นแล้ว ทางที่ดีควรเขียนไว้ที่ส่วนหัวของโค้ดเอาต์พุตของทุกหน้าของข้อมูลไซต์เกี่ยวกับกระบวนการเข้ารหัส เพื่อไม่ให้เซิร์ฟเวอร์หรือโฮสต์ในระบบเกิดความสับสน

โดยทั่วไป เค้าโครงไฮเปอร์เท็กซ์ทั้งหมด รวมถึง HTML จะมีรูปแบบ xml พิเศษ ซึ่งระบุถึงการเข้ารหัสของข้อความ

ครั้งแรกที่คุณแยกวิเคราะห์โค้ด เบราเซอร์จะจดจำเวอร์ชันของโปรแกรมที่กำลังทำงานอยู่ และต้องตีความโค้ดอักขระของภาพยนตร์อย่างไร เป็นที่น่าสังเกตว่าหากคุณบันทึกเอกสารในรูปแบบ Unicode ที่ยอมรับ คุณสามารถละเว้นรูปแบบ xml ได้ (การเข้ารหัสจะใช้ UTF-8 ซึ่งไม่มี BOM หรือ UTF-16 ซึ่งไม่มี BOM ).

ขณะทำเอกสาร ภาพยนตร์ Htmlสำหรับการแทรกโค้ดจะเป็น vikoriated องค์ประกอบเมตาซึ่งเขียนไว้ระหว่างแท็ก Head ซึ่งเปิดและปิด:

... ...

รายการนี้แตกต่างอย่างมากจากที่ได้รับการยอมรับใน แต่จริงๆ แล้วสอดคล้องกับ HTML 5 มาตรฐานใหม่ ซึ่งได้รับการค่อยๆ ส่งเสริม และจะเป็นการถูกต้องที่จะเข้าใจว่าเบราว์เซอร์ใดก็ตามที่กำลังได้รับชัยชนะในขณะนี้

ตามแนวคิดแล้ว องค์ประกอบ Meta ที่มีการเข้ารหัสแบบกล่องของเอกสาร Html จะถูกวางให้เรียบง่ายยิ่งขึ้น Yakomoga vishche ที่ส่วนหัวของเอกสารเพื่อให้ในขณะที่เขียนข้อความของอักขระตัวแรกไม่ใช่ ANSI พื้นฐาน (ซึ่งอ่านอย่างถูกต้องเสมอและในรูปแบบใด ๆ ) เบราว์เซอร์จึงรับผิดชอบต่อข้อมูลนี้เกี่ยวกับวิธีตีความรหัสของอักขระเหล่านี้แล้ว

ขอให้โชคดี! พบกันเร็ว ๆ นี้ที่บล็อกไซต์

คุณอาจจะเดือดร้อน

ที่อยู่ URL ใดที่ประกอบเป็นข้อความที่สำคัญที่สุดสำหรับไซต์คืออะไร
OpenServer - ปัจจุบัน เซิร์ฟเวอร์ท้องถิ่นนั่นก็คือ yogo wiki สำหรับการติดตั้ง WordPress บนคอมพิวเตอร์ของคุณ
Chmod ทำอะไรเพื่อกำหนดสิทธิ์การเข้าถึงไฟล์และโฟลเดอร์ (777, 755, 666) และวิธีดำเนินการผ่าน PHP
ค้นหา Yandex บนเว็บไซต์และร้านค้าออนไลน์

การเข้ารหัส KOI8-R

รหัส ISO 8859-5

ISO 8859-5

ทางเลือกในการเข้ารหัส

"ทางเลือกอื่นในการเข้ารหัส"- ด้านรหัสจะขึ้นอยู่กับ CP437 โดยที่อักขระยุโรปเฉพาะทั้งหมดในอีกครึ่งหนึ่งจะถูกแทนที่ด้วยซีริลลิก ปล่อยให้อักขระเทียมว่างเปล่า อย่างไรก็ตาม ดูเหมือนว่าจะไม่ใช่โปรแกรมที่สามารถใช้สร้างหน้าต่างข้อความสำหรับการทำงานได้ และยังจะมีอักขระซีริลลิกเวอร์ชันที่ถูกต้องอีกด้วย

ในอดีตมีตัวเลือกการเข้ารหัสทางเลือกมากมาย แต่ค่าทั้งหมดจะจำกัดอยู่ที่พื้นที่ 0xF0 – 0xFF (240-255) มาตรฐานที่เหลือคือการเข้ารหัส IBM CP866 ซึ่งเพิ่มเข้ามาใน MS-DOS เวอร์ชัน 6.22 (ก่อนหน้านี้มีการใช้ Russifiers "แบบโฮมเมด" ทุกประเภท การเข้ารหัสทางเลือกยังมีชีวิตอยู่และได้รับความนิยมอย่างมากในหมู่ DOS และ OS/2 นอกจากนี้ในที่ ชื่อรหัสคือ ระบบไฟล์อ้วน.

.0 .1 .2 .3 .4 .5 .6 .7 .8 .9 CP866 ยังคงใช้ในคอนโซลของระบบ Russified ของตระกูล Windows NT .ก .บี .ค .ดี .จ
8. .ฟ เอ 410 บี 411 ยู 412 ก 413 ง 414 อี 415 จจ 416 ซี 417 ฉัน 418 เจ 419 สูงถึง 41A แอล 41บี เอ็ม 41ซี เอช 41ดี ประมาณ 41E
9. ป 41เอฟ อาร์ 420 ซี 421 ที 422 ยู 423 เอฟ 424 เอ็กซ์ 425 ทีเอส 426 ตอนที่ 427 Ш428 ชช 429 บี 42เอ เอส 42บี บี 42ซี อี 42ดี ยู 42อี
ฉันอายุ 42F ก. 430 432 บี 431 ก. 433 วัน 434 อี 435 ฉ 436 ซี 437 ตา 438 439 สูงถึง 43A ลิตร 43B ม. 43C n43D ประมาณ 43E
น 43เอฟ ░ 2591 ▒ 2592 ▓ 2593 │ 2502 ┤ 2524 ╡ 2561 ╢ 2562 ╖ 2556 ╕ 2555 ╣ 2563 ║ 2551 ╗ 2557 บี. ╝ 255D ╜ 255C ┐ 2510
╛ 255B └ 2514 ค. ┴2534 ┬ 252C ─ 2500 ├ 251C ┼ 253C ╞255E ╟ 255F ╔ 2554 ╩ 2569 ╦ 2566 ╠ 2560 ═ 2550 ╚255A ╧ 2567
╬ 256C ╨ 2568 ╤ 2564 ╥ 2565 ╙ 2559 ╘ 2558 ╒ 2552 ╓ 2553 ดี. ╫ 256B ┘ 2518 ╪ 256A █ 2588 ▄ 2584 ┌250C ▐ 2590 ▀ 2580
▌ 258C อี. ฿ 440 ซี 441 ที 442 ที่ 443 ฉ 444 x445 ค 446 ปี 447 ว 448 sch449 ก.44A 44B บี 44ซี อี 44D ยู 44อี
ฉันอายุ 44F เอฟ จ 401 อี 451 Є404 454 Ї407 457 ยู 40อี ที่ 45E ∙ 2219 °B0 B7 № 2116 √ 221A ¤A4 ■ 25A0

A0ดังนั้น 8859-5



.0 .1 .2 .3 .4 .5 .6 .7 .8 .9 CP866 ยังคงใช้ในคอนโซลของระบบ Russified ของตระกูล Windows NT .ก .บี .ค .ดี .จ
8. 80 81 82 83 84 85 86 87 88 89 - การเข้ารหัส 8 บิตจากซีรี่ส์ ISO-8859 สำหรับการเขียนซีริลลิก รัสเซียอาจจะไม่ชินกับมัน โดยทั่วไป ISO 8859-5 ไม่ใช่การเข้ารหัสที่ง่ายมาก โดยทิ้งสัญลักษณ์ที่จำเป็นไว้มากมายในวันใหม่ เช่น ขีดกลาง (-) แก้ม (“”) องศา (°) ฯลฯ 8เอ 8B 8ซี 8D 8E
9. 90 91 92 93 94 95 96 97 98 99 8F 9เอ 9B 9ซี 9D 9E
ฉันอายุ 42F ■ 25A0 เอฟ 9F 403 อี 451 เอ 402 405 ปอนด์ 454 ฉัน 406 408 ปอนด์ มากถึง 409 เอ็ม 40เอ ประมาณ 40B เอ็น 40ซี 457 ค.ศ
น 43เอฟ .ฟ เอ 410 บี 411 ยู 412 ก 413 ง 414 อี 415 จจ 416 ซี 417 ฉัน 418 เจ 419 สูงถึง 41A แอล 41บี เอ็ม 41ซี เอช 41ดี ประมาณ 41E
╛ 255B ป 41เอฟ อาร์ 420 ซี 421 ที 422 ยู 423 เอฟ 424 เอ็กซ์ 425 ทีเอส 426 ตอนที่ 427 Ш428 ชช 429 บี 42เอ เอส 42บี บี 42ซี อี 42ดี ยู 42อี
╬ 256C ก. 430 432 บี 431 ก. 433 วัน 434 อี 435 ฉ 436 ซี 437 ตา 438 439 สูงถึง 43A ลิตร 43B ม. 43C n43D ประมาณ 43E
▌ 258C อี. ฿ 440 ซี 441 ที 442 ที่ 443 ฉ 444 x445 ค 446 ปี 447 ว 448 sch449 ก.44A 44B บี 44ซี อี 44D ยู 44อี
ฉันอายุ 44F № 2116 จ 401 พี 40เอฟ อาร์ 452 Є404 - 453 $455 Ї407 ฉัน 456 $458 ก.459 ก.45A ћ 45B ќ 45C ยู 40อี § ก7

ฉันอายุ 45F KOI-8 (รหัสแลกเปลี่ยนข้อมูล 8 บิต), KOI8

ผู้พัฒนา KOI-8 วางสัญลักษณ์ของตัวอักษรรัสเซียไว้ที่ด้านบนของตาราง ASCII ที่ขยายออกไปในลักษณะที่ตำแหน่งของสัญลักษณ์ซีริลลิกสอดคล้องกับการออกเสียงในตัวอักษรภาษาอังกฤษในส่วนล่างและตาราง ซึ่งหมายความว่าหากในข้อความที่เขียนด้วย KOI-8 คุณเพิ่มสัญลักษณ์สกินบิตที่แปด คุณจะได้รับข้อความที่ "อ่านได้" แม้ว่าจะไม่ได้เขียนด้วยตัวอักษรละตินก็ตาม ตัวอย่างเช่น คำว่า "ข้อความภาษารัสเซีย" จะถูกแปลงเป็น "rUSSKIJ tEKST" เนื่องจากเป็นผลพลอยได้ สัญลักษณ์ซีริลลิกจึงไม่เรียงตามตัวอักษร

.0 .1 .2 .3 .4 .5 .6 .7 .8 .9 CP866 ยังคงใช้ในคอนโซลของระบบ Russified ของตระกูล Windows NT .ก .บี .ค .ดี .จ
8. ─ 2500 │ 2502 ╪ 256A ┐ 2510 └ 2514 ┘ 2518 ┬ 252C ┤ 2524 ┴2534 ค. ├ 251C ▀ 2580 ▄ 2584 █ 2588 ┌250C ▐ 2590
9. ░ 2591 ▒ 2592 ▓ 2593 ⌠ 2320 ¤A4 ∙ 2219 B7 ≈ 2248 ≤ 2264 ≥ 2265 ■ 25A0 ⌡ 2321 ที่ 45E ² บี2 °B0 ۞F7
ฉันอายุ 42F ═ 2550 ║ 2551 ╒ 2552 จ 401 ╓ 2553 ╔ 2554 ╕ 2555 ╖ 2556 ╗ 2557 ╘ 2558 ╙ 2559 ╟ 255F ╜ 255C ╝ 255D บี. ┼ 253C
น 43เอฟ ╞255E ╠ 2560 ╡ 2561 เอฟ ╢ 2562 ╣ 2563 ╤ 2564 ╥ 2565 ╦ 2566 ╧ 2567 ╨ 2568 ╩ 2569 ╫ 256B ดี. ╚255A © A9
╛ 255B อี 44D ก. 430 x445 ก. 433 วัน 434 ที่ 443 บี 431 ฉ 444 ซี 437 ตา 438 439 สูงถึง 43A ลิตร 43B ม. 43C n43D
╬ 256C ประมาณ 43E ยู 44อี อี. ฿ 440 ซี 441 ที 442 อี 435 432 44B ก.44A ฉ 436 ปี 447 บี 44ซี ว 448 ค 446 sch449
▌ 258C อี 42ดี .ฟ เอ 410 เอ็กซ์ 425 ก 413 ง 414 ยู 423 ยู 412 เอฟ 424 ซี 417 ฉัน 418 เจ 419 สูงถึง 41A แอล 41บี เอ็ม 41ซี เอช 41ดี
ฉันอายุ 44F ประมาณ 41E ยู 42อี ป 41เอฟ อาร์ 420 ซี 421 ที 422 อี 415 บี 411 เอส 42บี บี 42เอ จจ 416 ตอนที่ 427 บี 42ซี Ш428 ทีเอส 426 ชช 429

การเข้ารหัส KOI8-U (ภาษายูเครน)

KOI-8 กลายเป็นการเข้ารหัสมาตรฐานรัสเซียตัวแรกบนอินเทอร์เน็ต

IETF ได้ตรวจสอบ RFC สำหรับตัวเลือกการเข้ารหัส KOI-8:

  • RFC 1489 – KOI8-R (ตัวอักษรรัสเซีย);
  • RFC 2319 – KOI8-U (ตัวอักษรของอักษรยูเครน);
  • RFC 1345 – ISO-IR-111 (พร้อมการปรับเปลี่ยนสำหรับช่วงหลักที่กำหนด)

ในตารางเหล่านี้ ตัวเลขใต้ตัวอักษรจะระบุรหัสเลขฐานสิบหกของตัวอักษรในรูปแบบ Unicode

โคดูวานเนีย KOI8-R (รัสเซีย)

.0 .1 .2 .3 .4 .5 .6 .7 .8 .9 CP866 ยังคงใช้ในคอนโซลของระบบ Russified ของตระกูล Windows NT .ก .บี .ค .ดี .จ

8.

2500

2502

250C

2510

2514

2518

251C

2524

252C

2534

253C

2580

2584

2588

258ซี

2590

9.

2591

2592

2593

2320

25A0

2219

221เอ

2248

2264

2265

■ 25A0

2321
°
B0
²
บี2
·
B7
÷
F7

ก.

2550

2551

2552

451

2553

2554

2555

2556

2557

2558

2559

255เอ

255B

255C

255D

255E

บี.

255F

2560

2561
โย่
401

2562

2563

2564

2565

2566

2567

2568

2569

256เอ

256B

256ซี
©
A9

ค.
ยู
44E

430

431
ทีเอส
446

434

435

444

433
เอ็กซ์
445
і
438
ไทย
439
ก่อน
43เอ

43B

43ค
n
43D
เกี่ยวกับ
43E

ดี.

43ฟ
ฉัน
44ฟ

440
ชม.
441

442
ที่
443
และ
436
วี
432

44ค

ก.44A
ชม.
437

448

44D

449
ปี
447

44ก

อี.
ยุ
42E

410
บี
411

426
ดี
414
อี
415
เอฟ
424

413
เอ็กซ์
425
І
418

419
ก่อน
41ก

41B

41ค
เอ็น
41D
เกี่ยวกับ
41E

เอฟ

41เอฟ
ฉัน
42เอฟ

420
ซี
421

422
ยู
423
และ
416
ยู
412

42ซ

42B
ซี
417

428
อี
42D
สช
429
ชม
427
คอมเมอร์สันต์
42เอ

ตัวเลือกอื่น

แสดงเฉพาะแถวในตารางที่ไม่ถูกบันทึก แต่แถวอื่นๆ ยังคงถูกบันทึก

การเข้ารหัส KOI8-U (รัสเซีย - ยูเครน)

.0 .1 .2 .3 .4 .5 .6 .7 .8 .9 CP866 ยังคงใช้ในคอนโซลของระบบ Russified ของตระกูล Windows NT .ก .บี .ค .ดี .จ

ก.

2550

2551

2552

451
є
454

2554
і
456
ї
457

2557

2558

2559

255เอ

255B
ґ
491

255D

255E

บี.

255F

2560

2561
โย่
401
Є
404

2563
І
406
Ї
407

2566

2567

2568

2569

256เอ
Ґ
490

256ซี
©
A9

การเข้ารหัส KOI8-RU (รัสเซีย-เบลารุส-ยูเครน)

.0 .1 .2 .3 .4 .5 .6 .7 .8 .9 CP866 ยังคงใช้ในคอนโซลของระบบ Russified ของตระกูล Windows NT .ก .บี .ค .ดี .จ

ก.

2550

2551

2552

451
є
454

2554
і
456
ї
457

2557

2558

2559

255เอ

255B
ґ
491
ў
45E

255E

บี.

255F

2560

2561
โย่
401
Є
404

2563
І
406
Ї
407

2566

2567

2568

2569

256เอ
Ґ
490
Ў
40อี
©
A9

โคดูวันย่า KOI8-C (เอเชียกลาง)

.0 .1 .2 .3 .4 .5 .6 .7 .8 .9 CP866 ยังคงใช้ในคอนโซลของระบบ Russified ของตระกูล Windows NT .ก .บี .ค .ดี .จ
8. ғ
493
җ
497
қ
49B
ҝ
49D
ң
4A3
ү
4เอเอฟ
ұ
4B1
ҳ
4B3
ҷ
4B7
ҹ
4B9
һ
4บีบี

2580
ә
4D9
ӣ
4E3
ө
4E9
ӯ
4EF
9. Ғ
492
Җ
496
Қ
49ก
Ҝ
49ซ
Ң
4A2
Ү
4เออี
Ұ
4B0
Ҳ
4B2
Ҷ
4B6
Ҹ
4B8
Һ
4BA

2321
Ә
4D8
Ӣ
4E2
Ө
4E8
Ӯ
4EE
ฉันอายุ 42F
■ 25A0
ђ
452
ѓ
453

451
є
454
ѕ
455
і
456
ї
457
ј
458
љ
459
њ
45เอ
ћ
45B
ќ
45C
ґ
491
ў
45E
џ
45F
น 43เอฟ
2116
Ђ
402
Ѓ
403
โย่
401
Є
404
Ѕ
405
І
406
Ї
407
Ј
408
Љ
409
Њ
40เอ
Ћ
40B
Ќ
40ซ
Ґ
490
Ў
40อี
Џ
40F

โคดูวานย่า KOI8-T (ทาจิกิสถาน)

.0 .1 .2 .3 .4 .5 .6 .7 .8 .9 CP866 ยังคงใช้ในคอนโซลของระบบ Russified ของตระกูล Windows NT .ก .บี .ค .ดี .จ
8. қ
49B
ғ
493

201เอ
Ғ
492

201E

2026

2020

2021

2030
ҳ
4B3

2039
Ҳ
4B2
ҷ
4B7
Ҷ
4B6
9. Қ
49ก

2018

2019

201C

201D

2022

2013
-
2014

2122

203เอ
ฉันอายุ 42F ӯ
4EF
Ӯ
4EE

451
¤
A4
ӣ
4E3
¦
A6
§
A7
«
เอบี
¬
เอ.ซี.
­
เอ็น 40ซี
®
เอ.อี.
น 43เอฟ °
B0
±
B1
²
บี2
โย่
401
Ӣ
4E2

B6
·
B7

2116
»
BB
©
A9

Koduvannya KOI8-O, KOI8-S (ภาษาสโลวีเนีย การสะกดแบบเก่า)

0407
.0 .1 .2 .3 .4 .5 .6 .7 .8 .9 CP866 ยังคงใช้ในคอนโซลของระบบ Russified ของตระกูล Windows NT .ก .บี .ค .ดี .จ

8.
Ђ
0402
Ѓ
0403
¸
00B8
ѓ
0453

201E

2026

2020
§
00A7

20เอซี
¨
00A8
Љ
0409

2039
Њ
040A
Ќ
040ซี
Ћ
040B
Џ
040F

9.
ђ
0452

2018

2019

201C

201D

2022

2013

2014
£
00A3
·
00B7
љ
0459

203เอ
њ
045เอ
ќ
045ซี
ћ
045บี
џ
045ฟ

ก.

00A0
ѵ
0475
ѣ
0463

0451
є
0454
ѕ
0455
і
0456
ї
0457
ј
0458
®
00AE

2122
«
00AB
ѳ
0473
ґ
0491
ў
045E
´
00B4

บี.
°
00B0
Ѵ
0474
Ѣ
0462
โย่
0401
Є
0404
Ѕ
0405
І
0406
Ї
0407
Ј
0408

2116
¢
00A2
»
00บีบี
Ѳ
0472
Ґ
0490
Ў
040E
©
00A9

รหัส ISO-IR-111, KOI8-E

.0 .1 .2 .3 .4 .5 .6 .7 .8 .9 CP866 ยังคงใช้ในคอนโซลของระบบ Russified ของตระกูล Windows NT .ก .บี .ค .ดี .จ

ก.

00A0
ђ
0452
ѓ
0453

0451
є
0454
ѕ
0455
і
0456
ї
0457
ј
0458
љ
0459
њ
045เอ
ћ
045บี
ќ
045ซี
­
00AD
ў
045E
џ
045ฟ

บี.

2116
Ђ
0402
Ѓ
0403
โย่
0401
Є
0404
Ѕ
0405
І
0406
Ї
0407
Ј
0408
Љ
0409
Њ
040A
Ћ
040B
Ќ
040ซี
¤
00A4
Ў
040E
Џ
040F

การเข้ารหัส KOI8-Unified, KOI8-F

รหัส KOI8-Unified (KOI8-F) ได้รับการพัฒนาโดย Fingertip Software

.0 .1 .2 .3 .4 .5 .6 .7 .8 .9 CP866 ยังคงใช้ในคอนโซลของระบบ Russified ของตระกูล Windows NT .ก .บี .ค .ดี .จ

8.

2500

2502

250C

2510

2514

2518

251C

2524

252C

2534

253C

2580

2584

2588

258ซี

2590

9.

2591

2018

2019

201C

201D

2022

2013

2014
©
00A9

2122

00A0
»
00บีบี
®
00AE
«
00AB
·
00B7
¤
00A4

ก.

00A0
ђ
0452
ѓ
0453

0451
є
0454
ѕ
0455
і
0456
ї
0457
ј
0458
љ
0459
њ
045เอ
ћ
045บี
ќ
045ซี
ґ
0491
ў
045E
џ
045ฟ

บี.

2116
Ђ
0402
Ѓ
0403
โย่
0401
Є
0404
Ѕ
0405
І
0406
Ї
0407
Ј
0408
Љ
0409
Њ
040A
Ћ
040B
Ќ
040ซี
Ґ
0490
Ў
040E
Џ
040F

ตัวแปรที่ไม่ใช่ซีริลลิกของ KOI-8

ในบางประเทศ REV ได้สร้างการดัดแปลง KOI-8 สำหรับตัวอักษรละตินแบบประจำชาติ แนวคิดพื้นฐานก็เหมือนกัน - เมื่อบิตที่แปดถูก "ตัด" ข้อความมีแนวโน้มที่จะเข้าใจน้อยลง

- เอาล่ะ เริ่มได้เลย! - Dolokhov กล่าว
“เอาล่ะ” ปิแอร์พูดเพียงหัวเราะ - มันเริ่มน่ากลัวแล้ว เห็นได้ชัดว่าทางด้านขวาซึ่งเริ่มต้นอย่างง่ายดาย ไม่มีอะไรสามารถหยุดมันได้ เพราะมันออกมาด้วยตัวเอง โดยไม่คำนึงถึงเจตจำนงของผู้คน และไม่น่าจะตื่นขึ้นมา Denisov คนแรก Viyshov เดินหน้าไปหาบาร์เทนเดอร์และโหวต:
- เนื่องจากฝ่ายตรงข้ามตัดสินใจตั้งชื่อกันแล้ว จึงไม่ใช่เวลาที่ดีที่จะเริ่ม: หยิบปืนพกแล้วพูดคุยและเริ่มมาบรรจบกัน
- ก... "az! Two! T" i! ... - เดนิซอฟตะโกนด้วยความโกรธและเห็นเขา ความขุ่นเคืองเดินไปตามเส้นทางที่เหยียบย่ำอย่างใกล้ชิดมากขึ้นเรื่อย ๆ โดยจดจำกันและกันในสายหมอก ฝ่ายตรงข้ามพูดถูก ไปที่บาร์ ยิงได้ทุกเมื่อที่ต้องการ Dolokhov ishov อย่างสมบูรณ์โดยไม่ต้องยกปืนพกประหลาดใจกับดวงตาที่สดใสเป็นประกายและเป็นประกายในหน้ากากของคู่ต่อสู้ ปากของเขาก็มีเสียงหัวเราะเหมือนกันเหมือนเมื่อก่อน
- ถ้าฉันต้องการฉันก็ยิงได้! - ปิแอร์กล่าวพร้อมคำว่าสามก้าวข้างหน้าอย่างรวดเร็วเคาะบนเส้นทางที่ถูกเหยียบย่ำและหิมะตกลงมาทั้งหมด เขายื่นปืนพกออกมา เหยียดมือขวาไปข้างหน้า บางทีอาจกลัวว่าเขาจะโดนปืนพกฟาดตัวเอง เขาวางมือซ้ายกลับอย่างระมัดระวัง เพราะเขาต้องการสัมผัสมือขวา และเขารู้ว่ามันเป็นไปไม่ได้ เมื่อเดินไปได้หกไมล์และหลงทางในหิมะ ปิแอร์มองที่เท้าของเขา และจ้องมองที่โดโลคอฟอีกครั้งสั้น ๆ แล้วเหยียดนิ้วราวกับว่าเขาถูกพาเข้าไปแล้วยิงออกไป ปิแอร์ไม่รู้ตัวถึงเสียงที่ดังขนาดนี้ เมื่อเห็นกระสุนของเขาตัวสั่นก็ตัวสั่น จากนั้นก็ยิ้มจนรู้สึกรังเกียจและทรุดตัวลง ควันหนาทึบเป็นพิเศษในหมอก กระตุ้นให้โยมะมีความเพียรพยายาม ไม่มีการยิงอื่นใดเท่าที่เรารู้ เศษขนมปังของ Dolokhov เพิ่งเริ่มมีน้ำและ Dima ก็ปรากฏตัวขึ้นเพื่อยืนหยัดเพื่อเขา เธอใช้มือข้างหนึ่งเอื้อมไปที่สะโพกซ้าย และอีกมือบีบส่วนล่างของปืน การเปิดเผยของเขาใกล้เข้ามามากขึ้น รอสตอฟเข้ามาและพูดอะไรบางอย่างกับคุณ
“ไม่...ไม่...ไม่” โดโลคิฟบ้วนฟัน “ไม่ ยังไม่เสร็จ” และทำเอาเศษขนมปังร่วงหล่นลงมาจนสุดปลายตกลงไปในหิมะสีขาว มือซ้ายของเขาเต็มไปด้วยเลือด เขาเช็ดมันบนซูร์ดุตแล้วเอามันมาปิดไว้ รูปร่างหน้าตาของเขาซีดเซียวขมวดคิ้วและสั่นเทา
“บางที...” โดโลคอฟพูด แต่เขาไม่เข้าใจในทันที... ท่าเรือที่รักในตอนเช้าหนีไปที่ Dolokhov และต้องการข้ามพื้นที่ที่เสริมกำลังบาร์ในขณะที่ Dolokhov ดัง: - ไปที่บาร์! - และเปอร์เมื่อรู้ว่าคำพูดนั้นหมายถึงอะไรก็พูดตะกุกตะกักกับแม่แบบของเขา น้อยกว่า 10 โครกีก็แบ่งพวกเขา Dolokhov ก้มศีรษะลงสู่หิมะชิมหิมะอย่างตะกละตะกลามเงยหน้าขึ้นอีกครั้งลูบไล้ยกขาขึ้นแล้วนั่งดูจุดศูนย์ถ่วง หิมะที่หนาวเย็นตกลงมาและโยเกิร์ตก็ชุ่มฉ่ำ ริมฝีปากของเขาสั่นเทา แต่ทุกคนก็หัวเราะ ดวงตาเปล่งประกายด้วยความแข็งแกร่งและความโกรธของกองกำลังที่เหลือที่รวมตัวกัน เขายกปืนพกขึ้นและเริ่มเล็ง
“เอาปืนพกไปด้านข้าง” เนสวิตสกีกล่าว
“ ระวัง!” โดยไม่สะดุ้งตะโกนบอกเดนิซอฟใส่คู่ต่อสู้ของเขา
ฉันรู้สึกเสียใจกับปิแอร์ด้วยรอยยิ้มอันแสนหวานและเรือคายัคที่กางขาและแขนอย่างไม่มีความสุขเพียงแค่ยืนด้วยอกที่กว้างต่อหน้า Dolokhov และประหลาดใจที่เขาด้วยความประหลาดใจ เดนิซอฟ, รอสตอฟ และเนสวิตสกีกลายเป็นเพื่อนกัน ทันใดนั้นกลิ่นเหม็นได้กลิ่นกระสุนปืนของ Dolokhov และเสียงร้องไห้ด้วยความโกรธ
- อดีต!
- Dolokhov ตะโกนและล้มตัวลงนอนต่อหน้าหิมะอย่างไร้เรี่ยวแรง เขาโค้งศีรษะแล้วหันหลังกลับเดินไปใกล้ป่าหิมะตกลงมาจนหมดและพูดด้วยน้ำเสียงหมดสติ:
- โง่... โง่! ความตาย... เรื่องไร้สาระ... - เขาพูดซ้ำแล้วสะดุ้ง เนสวิทสกี้อุ้มเขาขึ้นและพาเขากลับบ้าน
Rostov และ Denisov นำ Dolokhov ที่ได้รับบาดเจ็บมา
เด็กหญิงตัวเล็ก ๆ ของ Dolokhov ที่มีดวงตาแบนนอนอยู่ข้างเลื่อนและไม่ให้อาหารแม้แต่คำเดียวเพราะพวกเขาขี้อาย แต่เมื่อไปถึงมอสโคว์พวกเขาก็เข้ามาหาคุณและที่สำคัญพวกเขาเงยหน้าขึ้นโดยจับมือ Rostov ซึ่งนั่งอยู่ตรงหน้าเขา Rostov เปลี่ยนไปอย่างสิ้นเชิงและสิ่งสำคัญที่สุดที่เผยให้เห็น Dolokhov ถูกฝังอย่างไม่สามารถควบคุมได้
- แล้วไงล่ะ? คุณรู้สึกอย่างไรกับตัวเอง? - ขับเคลื่อน Rostov
- มันเน่า! แต่ไม่ thats จุด.
“ เพื่อนของฉัน” Dolokhov พูดด้วยน้ำเสียงที่ไม่ต่อเนื่อง“ เราอยู่ที่ไหน” ฉันรู้ เราอยู่ใกล้มอสโกว ฉันไม่สนใจ แต่ถ้าฉันตีมัน ถ้าฉันตีมัน... ฉันทนไม่ไหว ฉันทนไม่ไหวแล้ว...
-WHO?

ช่วงเวลาที่เหลือ Pier ไม่ค่อยได้ออกไปเที่ยวกับทีมของเขาทุกคืน ทั้งในเซนต์ปีเตอร์สเบิร์กและมอสโก บูธของพวกเขาจะเป็นแขกเสมอ คืนถัดมา หลังจากการดวล ทหารมักจะขี้อายไม่ยอมไปที่ห้องนอน แต่ออกจากห้องทำงานของบิดาผู้สง่างาม ในสถานที่เดียวกับที่เคานต์เบซูฮีเสียชีวิต
เขานอนลงบนโซฟาและอยากจะหลับไปเพื่อลืมทุกสิ่งที่เกิดขึ้นกับเขา ไม่เช่นนั้นเขาจะทำอะไรไม่ได้เลย พายุแห่งความรู้สึก ความคิด และความสงสัยเกิดขึ้นในจิตวิญญาณของเขาจนเขาไม่เพียงแต่นอนไม่หลับเท่านั้น แต่ยังไม่สามารถนั่งนิ่งลงจากโซฟาแล้วเดินไปรอบ ๆ ห้องอย่างรวดเร็ว จากนั้นเธอก็ปรากฏตัวทันทีเป็นมิตรไหล่มีขนดกและท่าทางเหนื่อยล้าและหลงใหลและในทันทีเธอก็ดูเหมือน Garne หยาบคายและเยาะเย้ยอย่างหนักแน่นการบอกเลิก Dolokhov ซึ่งอยู่ในที่ประชุมและเช่นเดียวกันกับที่ประณาม Dolokhov ohova, blede, tremtyacheache . และเขาก็ทนทุกข์ทรมานเช่นเดียวกับที่เขาหันหลังกลับและตกลงไปบนหิมะ
"เกิดอะไรขึ้น?
- ลองถามตัวเองดู - ฉันฆ่าโคคาน และฆ่าโคคานในทีมของฉัน ใช่แล้วนั่นแหละ เช่นอะไร?
ฉันควรทำอย่างไรดี? “เพราะคุณเป็นเพื่อนกับเธอ” เสียงภายในพูด
“อนาโทลขับรถไปหาเธอและจ่ายเงินเพนนีให้เธอ และจูบไหล่เปลือยของเธอ โวนาไม่ได้ให้เงินคุณ แต่อนุญาตให้คุณจูบเธอเท่านั้น พ่อที่รัก ปลุกเร้าความอิจฉาของพวกเขา เธอพูดด้วยรอยยิ้มสงบว่าเธอไม่ได้แย่จนอิจฉาหรอก อย่าลังเลที่จะพูดอะไรเธอก็พูดถึงฉันด้วย ฉันถามเธอว่าเธอไม่รู้สึกถึงความโน้มถ่วง โวนาหัวเราะอย่างไม่เคารพและบอกว่าเธอไม่เลวพอที่จะมีลูก และเธอคงไม่มีลูกเหมือนฉัน”
จากนั้นเขาก็รับรู้ถึงความหยาบคาย ความชัดเจนในความคิดของเธอ และการแสดงออกที่หยาบคายที่ครอบงำเธอ โดยไม่คำนึงถึงอิทธิพลของเธอในแวดวงชนชั้นสูง “ฉันไม่ได้โง่... ไปลองด้วยตัวเอง... allez vous promener” เธอกล่าว บ่อยครั้งด้วยความประหลาดใจกับความสำเร็จของเธอในสายตาของชายหนุ่มและหญิงสาว ปิแอร์ไม่เข้าใจว่าทำไมพวกเขาถึงไม่รักเธอ แต่ฉันไม่ได้รักเธอเลยบอกตัวเองว่าพี่เอ๋ ฉันรู้ว่าเธอเป็นผู้หญิงเสเพล ย้ำกับตัวเอง แต่ไม่กล้ายอมรับ

วันนี้เราจะพูดคุยกับคุณเกี่ยวกับข้อเท็จจริงที่พบในไซต์และโปรแกรม วิธีเขียนโค้ดข้อความ และวิธีปฏิบัติตาม มาดูประวัติความเป็นมาของการพัฒนากัน โดยเริ่มจาก ASCII พื้นฐาน รวมถึง CP866, KOI8-R, Windows 1251 เวอร์ชันขยาย และลงท้ายด้วยการเข้ารหัสปัจจุบันของ Unicode consortium UTF 16 และ 8 สวัสดีเพื่อนผู้อ่านบล็อกไซต์ วันนี้เราจะพูดคุยกับคุณเกี่ยวกับข้อเท็จจริงที่พบในไซต์และโปรแกรม วิธีเขียนโค้ดข้อความ และวิธีปฏิบัติตาม เรามาดูประวัติความเป็นมาของการพัฒนากัน โดยเริ่มจาก ASCII พื้นฐาน ไปจนถึงเวอร์ชันขยายของ CP866, KOI8-R, Windows 1251 และลงท้ายด้วยการเข้ารหัสปัจจุบันของ Unicode consortium UTF 16 และ 8

ข้อมูลนี้อาจน่าสนใจสำหรับใครถ้าเพียงคุณเท่านั้นที่รู้ว่าต้องใช้เวลานานแค่ไหนในการมาให้อาหาร krakozyabrs ที่ยืนอยู่รอบ ๆ (ชุดอักขระไม่สามารถอ่านได้) ตอนนี้ฉันมีโอกาสที่จะนำทุกคนมาสู่เนื้อหาของบทความนี้และแก้ไขปัญหาของฉันอย่างอิสระ ก็เตรียมรวบรวมข้อมูลและพยายามตามบทสนทนาให้ทัน

การพัฒนาข้อความที่เข้ารหัสเกิดขึ้นพร้อมกันกับการก่อตัวของกาแล็กซีไอที และในช่วงเวลานี้พวกเขาก็ตระหนักถึงการเปลี่ยนแปลงเล็กน้อย ในอดีตทุกอย่างเริ่มค่อนข้างไม่มั่นคงในภาษารัสเซีย EBCDIC ซึ่งอนุญาตให้มีการเข้ารหัสตัวอักษรของตัวอักษรละติน เลขอารบิค และเครื่องหมายวรรคตอนพร้อมสัญลักษณ์ที่ต้องจัดการ อย่างไรก็ตาม จุดเริ่มต้นสำหรับการพัฒนาข้อความการเข้ารหัสในปัจจุบันคือการเคารพผู้มีชื่อเสียง อย่างไรก็ตาม จุดเริ่มต้นสำหรับการพัฒนาข้อความการเข้ารหัสในปัจจุบันคือการเคารพผู้มีชื่อเสียง(รหัส American Standard สำหรับการแลกเปลี่ยนข้อมูล เป็นภาษารัสเซียเรียกว่า "aski") วอห์นอธิบายถึงสัญลักษณ์ 128 ตัวแรกที่ใช้บ่อยที่สุดโดยชาวแองโกล-อเมริกัน ได้แก่ ตัวอักษรละติน เลขอารบิค และเครื่องหมายหาร นอกจากนี้ยังมีอักขระ 128 ตัวที่อธิบายไว้ใน ASCII รวมถึงสัญลักษณ์บริการบนสัญลักษณ์คันธนู เครื่องหมาย ดาว ฯลฯ Vlasna คุณเองสามารถช่วยพวกเขาได้:
อักขระ 128 ตัวจาก ASCII เวอร์ชันแรกได้กลายเป็นมาตรฐาน และไม่ว่าจะด้วยวิธีอื่นใดที่พวกมันถูกเข้ารหัส คุณจะต้องใช้พวกมันและยืนหยัดในลำดับนั้นอย่างแน่นอน แต่ทางด้านขวาคือด้วยความช่วยเหลือของข้อมูลหนึ่งไบต์จึงเป็นไปได้ที่จะเข้ารหัสไม่ใช่ 128 แต่มีค่าต่างกันมากถึง 256 ค่า (สองค่าในโลกทั้งโลกมีค่าเท่ากับ 256) ดังนั้นหลังจากเวอร์ชันพื้นฐานของ Asuka ปรากฏแถวอิลิ ส่วนขยายรหัส ASCIIซึ่งอาจมีอักขระหลักได้ 128 ตัวที่เข้ารหัสสัญลักษณ์ของรหัสประจำชาติ (เช่น ภาษารัสเซีย) ในลักษณะที่ไพเราะ เป็นการดีที่จะพูดเพิ่มเติมอีกเล็กน้อยเกี่ยวกับระบบตัวเลข ซึ่งฉันจะอธิบายในอีกสักครู่ ก่อนอื่น อย่างที่คุณทราบกันดีว่าคอมพิวเตอร์ใช้งานได้กับตัวเลขในระบบสองหลักเท่านั้น และกับศูนย์และหนึ่ง (“พีชคณิตแบบบูล” ซึ่งโดยปกติจะสอนที่สถาบันหรือที่โรงเรียน) หนึ่งไบต์ประกอบด้วยแปดบิต ซึ่งแบ่งออกเป็นสองขั้นตอน โดยเริ่มจากศูนย์ และมากถึงสองในขั้นตอน:
สิ่งสำคัญคือต้องตระหนักว่าการรวมศูนย์และค่าที่เป็นไปได้ทั้งหมดสำหรับการก่อสร้างดังกล่าวสามารถมีได้มากกว่า 256 การแปลงตัวเลขจากระบบสองหลักเป็นระบบที่สิบนั้นเป็นเรื่องง่าย คุณเพียงแค่ต้องเพิ่มขั้นตอนทั้งหมดของสองขั้นตอนข้างต้นซึ่งมีอยู่ด้านบน ในแอปพลิเคชันของเรา ผลลัพธ์จะเป็น 1 (2 ในขั้นตอนที่ 0) บวก 8 (สองในขั้นตอนที่ 3) บวก 32 (สองในขั้นตอนที่ห้า) บวก 64 (ในขั้นตอนที่หก) บวก 128 (ในขั้นตอนที่เจ็ด) ขั้นตอน) ทันทีที่เราลบ 233 ออกจากระบบเลขฐานสิบ คุณเห็นไหมว่าทุกอย่างง่ายมาก หากคุณประหลาดใจกับตารางที่มีอักขระ ASCII คุณจะเห็นสิ่งที่แสดงในรหัสฐานสิบหก ตัวอย่างเช่น "ดาว" ตรงกับเลข 2A ที่สิบหกในอะซึกะ ดังที่คุณทราบ ในระบบเลขฐานสิบหก มีการใช้ตัวเลขนอกเหนือจากเลขอารบิคและตัวอักษรละตินตั้งแต่ A (หมายถึงสิบ) ถึง F (หมายถึงสิบห้า) แกนสำหรับ การแปลงหมายเลขสองเป็นสิบหกเข้าสู่แนวทางที่ง่ายและเป็นวิทยาศาสตร์ ข้อมูลแต่ละไบต์จะถูกแบ่งออกเป็นส่วนต่างๆ ตามบิต ดังที่แสดงในภาพหน้าจอด้านบน ที่. แต่ละครึ่งไบต์สามารถเข้ารหัสค่าได้มากถึงสิบหกค่า (สองค่าในขั้นตอนที่สี่) ด้วยโค้ดคู่ซึ่งสามารถระบุได้อย่างง่ายดายด้วยเลขฐานสิบหก ยิ่งไปกว่านั้น ในครึ่งซ้ายของไบต์ จะต้องป้อนสเตจอีกครั้งโดยเริ่มจากศูนย์ และไม่เป็นไปตามที่แสดงในภาพหน้าจอ จากการคำนวณง่ายๆ เราจะเห็นว่าหมายเลข E9 ถูกเข้ารหัสไว้ในภาพหน้าจอ ฉันมั่นใจว่าคุณจะเข้าใจวิธีแก้ปัญหาของ rebus นี้โดยข้ามคำพูดของฉันและวิธีแก้ปัญหาของ rebus นี้ ทีนี้มาพูดถึงการเข้ารหัสข้อความกันดีกว่า

Aska เวอร์ชันขยาย - การเข้ารหัส CP866 และ KOI8-R พร้อม pseudographics

เราเริ่มพูดถึง ASCII ซึ่งเป็นจุดเริ่มต้นสำหรับการพัฒนาโค้ดสมัยใหม่ทั้งหมด (Windows 1251, Unicode, UTF 8) เริ่มแรกมีตัวอักษรละตินตัวเลขอารบิกและสิ่งอื่น ๆ เพียง 128 ตัว แต่ในเวอร์ชันขยายสามารถแยกค่าทั้งหมด 256 ค่าที่สามารถเข้ารหัสได้ในข้อมูลหนึ่งไบต์ โตโต้ คุณสามารถเพิ่มอักขระจากภาษาของคุณไปยัง Asuka ได้ ที่นี่เราต้องก้าวขึ้นมาอีกครั้งเพื่ออธิบาย ตอนนี้เรามีการเข้ารหัสข้อความที่จำเป็นแล้วและเหตุใดจึงสำคัญมาก? อักขระบนหน้าจอคอมพิวเตอร์ของคุณถูกสร้างขึ้นบนพื้นฐานของสองคำ - ชุดของรูปแบบเวกเตอร์ (การแสดง) ของอักขระที่แข็งแกร่ง (ซึ่งพบในไฟล์ที่มีแบบอักษรที่ติดตั้งบนคอมพิวเตอร์ของคุณ) และโค้ดที่อนุญาตให้ตั้งค่ารูปแบบเวกเตอร์ (ฟอนต์ของไฟล์) เป็นสัญลักษณ์ที่ต้องแทรกในตำแหน่งที่ต้องการ เป็นที่ชัดเจนว่ารูปแบบเวกเตอร์แสดงด้วยแบบอักษร และแกนการเข้ารหัสถูกกำหนดโดยระบบปฏิบัติการและโปรแกรมที่ทำงานอยู่ในนั้น โตโต้ ไม่ว่าข้อความใดๆ ในคอมพิวเตอร์ของคุณจะเป็นชุดไบต์ก็ตาม การเข้ารหัสแต่ละรายการจะมีอักขระตัวเดียวสำหรับข้อความนั้น โปรแกรมที่แสดงข้อความนี้บนหน้าจอ (โปรแกรมแก้ไขข้อความ เบราว์เซอร์ ฯลฯ) เมื่อแยกวิเคราะห์โค้ด อ่านการเข้ารหัสของอักขระแบบร่าง และค้นหารูปแบบเวกเตอร์ที่เหมาะสมในไฟล์ฟอนต์ที่ต้องการซึ่งใช้สำหรับการแสดงสิ่งนี้ เอกสารข้อความ ทุกสิ่งทุกอย่างเป็นเพียงเรื่องธรรมดา ดังนั้นในการเข้ารหัสอักขระใด ๆ ที่เราต้องการ (เช่นจากตัวอักษรประจำชาติ) จะต้องสร้างจิตใจสองประการ - รูปแบบเวกเตอร์ของอักขระนี้เกิดจากแบบอักษรที่ใช้ในแบบอักษรและอักขระนี้สามารถ เข้ารหัสในรหัส ASCII แบบขยายหนึ่งไบต์ มีตัวเลือกดังกล่าวมากมาย สำหรับการเข้ารหัสสัญลักษณ์รัสเซียเท่านั้นคือ Asuka แบบขยายจำนวนหนึ่ง เช่น เธอปรากฏตัวขึ้นทันที ซีพี866ซึ่งสามารถใช้อักขระที่แตกต่างจากตัวอักษรรัสเซียและ ASCII เวอร์ชันขยายได้ โตโต้ ส่วนบนถูกใช้อย่างสมบูรณ์กับ Asuka เวอร์ชันพื้นฐาน (อักขระละติน 128 ตัว ตัวเลขและอึอื่น ๆ ) ซึ่งนำเสนอในภาพหน้าจอที่สั้นที่สุด และแกนของส่วนล่างของตารางที่มีรหัส CP866 มีข้อบ่งชี้เล็กน้อยบนหน้าจอ รูปลักษณ์ลดลงไม่กี่นาทีและอนุญาตให้เข้ารหัสสัญญาณ (ตัวอักษรรัสเซียและนามแฝงทุกประเภท):
กรุณาตัวเลขทางด้านขวาเริ่มต้นที่ 8 เพราะ... ตัวเลขตั้งแต่ 0 ถึง 7 จะถูกโอนไปยังส่วน ASCII พื้นฐาน (ภาพหน้าจอแรกของ div.) ที่. ตัวอักษรรัสเซีย "M" ใน CP866 มีรหัส 9C (อยู่ที่ด้านหลังของแถวของแถว 9 และตรงกับหมายเลข C ในระบบตัวเลขที่สิบหก) ซึ่งสามารถเขียนได้ในข้อมูลหนึ่งไบต์ และด้วยเหตุผลที่ชัดเจน เช่นเดียวกับแบบอักษรที่มีตัวอักษรรัสเซีย ตัวอักษรนี้จึงไม่มีปัญหาปรากฏในข้อความ ดาวก็ใหญ่มาก ภาพเทียมใน CP866- IBM เผยแพร่ CP866 อย่างกว้างขวาง แต่นอกจากนี้สำหรับอักขระในภาษารัสเซียนั้น โค้ดอีกจำนวนหนึ่งก็ถูกแบ่งออกไป เช่น สามารถเพิ่มเป็นประเภทเดียวกัน (ส่วนขยาย ASCII) ได้:
ที่นี่เรากำลังพูดถึงความจริงที่ว่าการเข้ารหัสสำหรับข้อความภาษารัสเซียนั้นยากยิ่งขึ้นหากมีการขยายระบบปฏิบัติการแบบกราฟิกเช่นที่เป็นอยู่ในปัจจุบัน และใน Dosia และระบบปฏิบัติการข้อความที่คล้ายกันก่อนหน้านี้ ภาพเทียมทำให้สามารถเข้าใจการออกแบบข้อความได้ และสิ่งนี้จะอธิบาย CP866 และผู้ร่วมสมัยอื่น ๆ ทั้งหมดจากอันดับของ Asuka เวอร์ชันขยาย IBM เผยแพร่ CP866 อย่างกว้างขวาง แต่นอกจากนี้สำหรับอักขระในภาษารัสเซียนั้น โค้ดอีกจำนวนหนึ่งก็ถูกแบ่งออกไป เช่น สามารถเพิ่มเป็นประเภทเดียวกัน (ส่วนขยาย ASCII) ได้

หลักการของงานนี้หายไปเหมือนกับใน CP866 ที่อธิบายไว้ก่อนหน้านี้ - อักขระทุกตัวในข้อความจะถูกเข้ารหัสในหนึ่งไบต์เดียว ภาพหน้าจอแสดงเพื่อนครึ่งหนึ่งของตาราง KOI8-R เพราะ ครึ่งแรกคล้ายกับฐาน Asuka อย่างใกล้ชิด ดังที่แสดงในภาพหน้าจอแรกของบทความนี้ ในบรรดาลักษณะเฉพาะของการเข้ารหัส KOI8-R อาจสังเกตได้ว่าตัวอักษรรัสเซียในตารางไม่ได้เรียงตามตัวอักษรเช่นสร้างขึ้นใน CP866 หากคุณดูภาพหน้าจอแรก (ของส่วนพื้นฐานซึ่งรวมอยู่ในส่วนขยายการเข้ารหัสทั้งหมด) คุณจะสังเกตเห็นว่าใน KOI8-R ตัวอักษรรัสเซียอยู่ในตำแหน่งเดียวกันในตาราง เช่นเดียวกับตัวอักษรที่คล้ายกันของ ตัวอักษรละติน ซึ่งมาจากส่วนแรกของตาราง สิ่งนี้ทำขึ้นเพื่ออำนวยความสะดวกในการเปลี่ยนจากสัญลักษณ์รัสเซียเป็นภาษาละตินโดยทิ้งเพียงหนึ่งบิต (สองในขั้นตอนเดียวกันหรือ 128)

การพัฒนาการเข้ารหัสข้อความเพิ่มเติมนั้นเกิดจากการที่ระบบปฏิบัติการแบบกราฟิกกำลังได้รับความนิยมและความจำเป็นในการใช้เทียมในนั้นก็ค่อยๆเพิ่มขึ้น เป็นผลให้ทั้งกลุ่มถูกทำลายซึ่งในแกนกลางของมันเหมือนเมื่อก่อนเป็นเวอร์ชันขยายของ Asuka (อักขระตัวหนึ่งของข้อความถูกเข้ารหัสด้วยข้อมูลเพียงไบต์เดียว) แต่ไม่มีสัญลักษณ์เพิ่มเติมของนามแฝง กลิ่นนั้นจัดอยู่ในรหัส ANSI ซึ่งแบ่งโดย American Institute of Standardization ในสำนวนทั่วไป ชื่อของอักษรซีริลลิกยังใช้สำหรับรูปแบบที่มีอิทธิพลทางภาษารัสเซีย ก้นแบบนี้ก็ได้ วินโดว์ 1251-
มันแตกต่างอย่างชัดเจนจาก CP866 และ KOI8-R ที่ได้รับชัยชนะก่อนหน้านี้ตรงที่สถานที่ของสัญลักษณ์ปลอมนั้นถูกยึดครองโดยสัญลักษณ์ของ drukarniya ของรัสเซีย (ยกเว้นสัญลักษณ์ในสายตาธรรมดา) เช่นเดียวกับสัญลักษณ์ที่ได้รับชัยชนะใน ภาษาสโลเวเนียใกล้กับรัสเซีย (ยูเครน, เบลารุส ฯลฯ ) d.) - คราโคซาบรีด้วยรหัสภาษารัสเซียจำนวนมากนักพัฒนาแบบอักษรและนักพัฒนาซอฟต์แวร์มักปวดหัวอยู่ตลอดเวลาและคุณและฉันผู้อ่านที่รักมักจะได้รับความเดือดร้อนจากความโชคร้ายแบบเดียวกัน
สถานการณ์ที่คล้ายกันมักเกิดขึ้นเมื่อสร้างและปรับแต่งไซต์ ฟอรัม หรือบล็อก หากข้อความที่มีอักขระภาษารัสเซียถูกบันทึกในรหัสที่ไม่ถูกต้อง เช่นเดียวกับกรณีบนไซต์ตามวัตถุประสงค์ หรือในข้อความที่ไม่ถูกต้อง โอ้ ผู้แก้ไขที่เพิ่มเรื่องไร้สาระ ไปจนถึงรหัสที่มองเห็นได้ด้วยตาเปล่า หลังจากแก้ไขสถานการณ์นี้ด้วยการเข้ารหัสแบบคนตาบอดและ kokobrams ที่คลานไปมาอยู่ตลอดเวลา เราได้ค้นพบแนวคิดมากมายเพื่อสร้างรูปแบบสากลใหม่ที่จะแทนที่แบบเดิมทั้งหมดที่ฉันจะพบสาเหตุของปัญหาด้วย การปรากฏตัวของข้อความที่อ่านไม่ได้ ขึ้นอยู่กับปัญหาภาษาที่คล้ายกับภาษาจีนซึ่งมีสัญลักษณ์ของภาษามากกว่า ต่ำกว่า 256

Unicode - การเข้ารหัสสากล UTF 8, 16 และ 32

เป็นไปไม่ได้ที่จะอธิบายอักขระหลายพันตัวของกลุ่มเอเชียพื้นเมืองทั่วไปในข้อมูลหนึ่งไบต์ซึ่งมีให้สำหรับการเข้ารหัสอักขระใน ASCII เวอร์ชันขยาย เป็นผลให้มีการจัดตั้งสมาคมขึ้นภายใต้ชื่อ ยูนิโค้ด(Unicode - Unicode Consortium) สำหรับความร่วมมือของผู้นำหลายรายในอุตสาหกรรมไอที (ผู้พัฒนาซอฟต์แวร์, ใครเขียนโค้ด, ใครสร้างฟอนต์) ซึ่งมุ่งมั่นที่จะเกิดการเข้ารหัสข้อความสากล รูปแบบแรกที่ออกมาภายใต้กลุ่ม Unicode คือ UTF32- ด้วยเหตุนี้ไฟล์เดียวกันที่มีข้อความเข้ารหัสใน ASCII เวอร์ชันขยายและ UTF-32 ในกรณีที่เหลือจึงมีขนาด (ความสำคัญ) ที่ใหญ่กว่ามาก สิ่งนี้ไม่ดี แต่ตอนนี้เรามีโอกาสที่จะเข้ารหัสสำหรับ YTF เพิ่มเติมจำนวนสัญญาณที่เท่ากับสองในระดับอื่นสามสิบ (ตัวเลขในชื่อการเข้ารหัสระบุจำนวนบิตที่ต้องใช้ในการเข้ารหัสหนึ่งอักขระ 32 บิตจะเพิ่มข้อมูลสูงสุด 4 ไบต์ที่จำเป็นสำหรับการเข้ารหัสอักขระตัวเดียวในการเข้ารหัส UTF สากลใหม่ ด้วยเหตุนี้ไฟล์เดียวกันที่มีข้อความเข้ารหัสใน ASCII เวอร์ชันขยายและ UTF-32 ในกรณีที่เหลือจึงมีขนาด (ความสำคัญ) ที่ใหญ่กว่ามาก สิ่งนี้ไม่ดี แต่ตอนนี้เรามีโอกาสที่จะเข้ารหัสสำหรับ YTF เพิ่มเติมจำนวนสัญญาณที่เท่ากับสองในระดับอื่นสามสิบ ( ผู้สืบทอดต่อการพัฒนา Unicode คือเมื่อโต๊ะออกมาแต่ไกลก็เป็นที่ยอมรับของจิตใจว่าเป็นพื้นที่พื้นฐานสำหรับสัญลักษณ์ทั้งหมดที่เราใช้ วอห์นใช้สองไบต์ในการเข้ารหัสอักขระหนึ่งตัว มาดูกันว่าสิ่งนี้มีลักษณะอย่างไร ในระบบปฏิบัติการ Windows คุณสามารถไปตามเส้นทาง "เริ่ม" - "โปรแกรม" - "มาตรฐาน" - "บริการ" - "ตารางอักขระ" เป็นผลให้ตารางที่มีรูปแบบเวกเตอร์ของระบบฟอนต์ที่ติดตั้งทั้งหมดในระบบของคุณจะเปิดขึ้น หากคุณเลือกชุดอักขระ Unicode ใน "พารามิเตอร์ขั้นสูง" คุณสามารถเลือกช่วงอักขระทั้งหมดที่รวมอยู่ในแบบอักษรแต่ละตัวได้ ก่อนที่จะพูดคุณสามารถดาวน์โหลดไบต์คู่นี้ได้โดยการคลิกที่รายการใดรายการหนึ่ง รหัสรูปแบบ UTF-16ผลรวมของสี่สิบหกหลักคืออะไร:
สามารถเข้ารหัสอักขระ UTF-16 ได้กี่ตัวและเพิ่มอีก 16 บิต 65536 (สองยกกำลังสิบหก) และตัวเลขนี้เองถูกใช้เป็นช่องว่างฐานใน Unicode นอกจากนี้ ยังมีวิธีเข้ารหัสอักขระเกือบสองล้านตัวที่อยู่ด้านหลัง แต่ยังอนุญาตให้มีการขยายพื้นที่อักขระหลายล้านตัวในข้อความอีกด้วย อย่างไรก็ตาม การเข้ารหัส Unicode เวอร์ชันนี้ไม่ได้สร้างความพึงพอใจให้กับผู้ที่เขียนโปรแกรมภาษาอังกฤษเท่านั้น เพราะหลังจากเปลี่ยนจาก ASCII เวอร์ชันขยายเป็น UTF-16 จำนวนเอกสารเพิ่มขึ้นสองเท่า (หนึ่งไบต์ต่อ อักขระใน Aski และสองไบต์สำหรับสัญลักษณ์เดียวกันใน YUTF-16) เพื่อความพึงพอใจของทุกคนและทุกสิ่งในกลุ่ม Unicode จึงมีการตัดสินใจ คิดรหัสขึ้นมาเปลี่ยนนกพิราบ พวกเขาเรียกมันว่า UTF-8 แม้ว่าชื่อจะมีความหมาย แต่ก็เป็นวันสุดท้ายของการเปลี่ยนแปลงจริงๆ อักขระทุกตัวในข้อความสามารถเข้ารหัสด้วยลำดับตั้งแต่หนึ่งถึงหกไบต์ ในทางปฏิบัติ UTF-8 มีช่วงตั้งแต่ 1 ถึงหลายไบต์ ดังนั้นในทางทฤษฎีจึงเป็นไปไม่ได้ที่โค้ดจะตรวจจับสิ่งใดๆ ที่เกินจำนวนไบต์ได้ อักขระละตินทั้งหมดในนั้นจะถูกเข้ารหัสเป็นหนึ่งไบต์ เช่นเดียวกับใน ASCII รุ่นเก่าที่ดี สิ่งที่น่าสังเกตก็คือเนื่องจากมีเพียงตัวอักษรละตินเท่านั้นที่ถูกเข้ารหัส โปรแกรมที่ไม่เข้าใจ Unicode จึงยังสามารถอ่านตัวอักษรที่เข้ารหัสใน UTF-8 ได้ โตโต้ ส่วนพื้นฐานของ Aska ก็ส่งต่อไปยังการสร้าง Unicode consortium อักขระซีริลลิกใน UTF-8 จะถูกเข้ารหัสเป็นสองไบต์ และตัวอย่างเช่น อักขระจอร์เจีย - เป็นสามไบต์ Unicode Consortium หลังจากการสร้าง UTF 16 และ 8 ได้ระบุปัญหาหลักแล้ว - ตอนนี้เรามีแล้ว แบบอักษรมีพื้นที่รหัสเดียว-

และตอนนี้นักเขียนของพวกเขาขาดความแข็งแกร่งและความสามารถในการจดจำสัญลักษณ์รูปแบบเวกเตอร์ในข้อความ ถึงเวลาออกข่าว..

และตอนนี้นักเขียนของพวกเขาขาดความแข็งแกร่งและความสามารถในการจดจำสัญลักษณ์รูปแบบเวกเตอร์ในข้อความ เมื่อคุณวางเมาส์เหนือ "ตารางอักขระ" คุณจะเห็นว่าแบบอักษรที่แตกต่างกันรองรับจำนวนอักขระที่แตกต่างกัน แบบอักษรที่มีอักขระ Unicode สามารถอ่านได้ค่อนข้างดี แต่ตอนนี้กลิ่นเหม็นนั้นสังเกตเห็นได้ชัดเจนไม่ใช่เพราะกลิ่นเหม็นนั้นถูกสร้างขึ้นสำหรับโค้ดที่แตกต่างกัน แต่เป็นเพราะฟอนต์ถูกเติมหรือไม่เต็มไปด้วยโค้ดสเปซเดียวด้วยแบบฟอร์มเหล่านี้และรูปแบบเวกเตอร์อื่น ๆ จนกระทั่งสิ้นสุด
สำหรับไซต์ที่ทำงานบน Joomla 1.5 ขึ้นไป รวมถึงบล็อกที่ทำงานบน WordPress อย่าลืมเลือกตัวเลือกเมื่อปรากฏขึ้น UTF 8 โดยไม่มี BOMตอนนี้ให้เราประหลาดใจว่าข้อความถูกแทนที่ด้วย krakozyabry อย่างไรหรือเลือกการเข้ารหัสที่ถูกต้องสำหรับข้อความภาษารัสเซียได้อย่างไร แน่นอนว่ามันถูกตั้งค่าไว้ในโปรแกรมที่คุณสร้างหรือแก้ไขข้อความนี้หรือโค้ดจากส่วนของข้อความต่างๆ สำหรับการแก้ไขและสร้างไฟล์ข้อความ โปรแกรมแก้ไข Html และ PHP Notepad++ นั้นดีเป็นพิเศษ นอกจากนี้ คุณยังสามารถจับคู่ไวยากรณ์ของการเขียนโปรแกรมและโปรแกรมมาร์กอัปอื่นๆ ได้หลายร้อยรายการ และยังสามารถขยายได้ด้วยความช่วยเหลือของปลั๊กอินเพิ่มเติม อ่านการทบทวนรายงานของโปรแกรมอัศจรรย์นี้เพื่อดูคำแนะนำ ที่เมนูด้านบนของ Notepad++ จะมีรายการ "การเข้ารหัส" ซึ่งคุณจะสามารถเปลี่ยนตัวเลือกที่มีอยู่เป็นตัวเลือกที่ใช้ในไซต์ของคุณสำหรับการเข้ารหัสได้: ทางด้านขวา หากแยกย่อยการเข้ารหัส YTF-16 พวกเขาต้องการเพิ่มบางอย่าง เช่น ความสามารถในการเขียนโค้ดลงในสัญลักษณ์ทั้งในลำดับโดยตรง (เช่น 0A15) และในลำดับย้อนกลับ (150A) และเพื่อให้โปรแกรมเข้าใจว่าต้องอ่านโค้ดและตัดสินใจตามลำดับอะไร- การเข้ารหัส UTF-8 ไม่มี BOM ใด ๆ ที่ส่งไปยังกลุ่ม Unicode ดังนั้นจึงมีการเพิ่มลายเซ็น (ซึ่งเป็นไบต์เพิ่มเติมที่สำคัญที่สุดสามไบต์ต่อเอกสาร) เพื่อให้บางโปรแกรมจำเป็นต้องอ่านโค้ด ดังนั้นจากนี้ไปเมื่อบันทึกไฟล์จาก UTF เราสามารถเลือกตัวเลือกที่ไม่มี BOM (ไม่มีลายเซ็น) ด้วยวิธีนี้คุณจะอยู่ห่างไกลคำนำหน้า BOM คืออะไร ทางด้านขวา หากแยกย่อยการเข้ารหัส YTF-16 พวกเขาต้องการเพิ่มบางอย่าง เช่น ความสามารถในการเขียนโค้ดลงในสัญลักษณ์ทั้งในลำดับโดยตรง (เช่น 0A15) และในลำดับย้อนกลับ (150A) และเพื่อให้โปรแกรมเข้าใจว่าต้องอ่านโค้ดและตัดสินใจตามลำดับอะไร ดังนั้นทันเวลาพอดีเพื่อแก้ไขเอกสารบนไซต์ของคุณ เพื่อไม่ให้เกิดข้อผิดพลาดใด ๆ เกิดขึ้น ตัวเลือกที่สั้นที่สุดและง่ายที่สุดที่ฉันชอบคือโปรแกรมแก้ไข Notepad++ ซึ่งในทางปฏิบัติไม่มีข้อบกพร่องและมีเพียงข้อดีเท่านั้น ใน Notepad ++ เมื่อคุณเลือกการเข้ารหัส คุณจะสามารถแปลงข้อความเป็นการเข้ารหัส UCS-2 ซึ่งใกล้เคียงกับมาตรฐาน Unicode มาก คุณยังสามารถใช้ Notepad เพื่อเข้ารหัสข้อความใน ANSI อีกไม่นานเราจะอธิบายภาษารัสเซียเพิ่มเติมอีกเล็กน้อยสำหรับ Windows 1251 คุณนำข้อมูลนี้มาจากดวงดาวหรือไม่? มีการลงทะเบียนในรีจิสทรีของระบบปฏิบัติการ Windows ของคุณไม่ว่าคุณจะเลือกจากกล่อง ANSI หรือจากกล่อง OEM (สำหรับภาษารัสเซียจะเป็น CP866) หากคุณติดตั้งภาษาอื่นบนคอมพิวเตอร์ของคุณหลังการผลิต โค้ดนี้จะถูกแทนที่ด้วยรหัส ANSI หรือ OEM ที่คล้ายกันสำหรับภาษาเดียวกัน หลังจากที่คุณบันทึกเอกสารใน Notepad++ ด้วยรหัสที่คุณต้องการหรือเปิดเอกสารจากไซต์เพื่อแก้ไข จากนั้นคุณสามารถเพิ่มชื่อได้ที่มุมขวาล่างของตัวแก้ไข: เพื่อผ่อนคลาย Krakozyabrivนอกเหนือจากคำอธิบายข้างต้นแล้ว ทางที่ดีควรเขียนไว้ที่ส่วนหัวของโค้ดเอาต์พุตของทุกหน้าของข้อมูลไซต์เกี่ยวกับกระบวนการเข้ารหัส เพื่อไม่ให้เซิร์ฟเวอร์หรือโฮสต์ในระบบเกิดความสับสน โดยทั่วไป เค้าโครงไฮเปอร์เท็กซ์ทั้งหมด รวมถึง HTML จะมีรูปแบบ xml พิเศษ ซึ่งระบุถึงการเข้ารหัสของข้อความ< ? xml version= "1.0" encoding= "windows-1251" ? >ครั้งแรกที่คุณแยกวิเคราะห์โค้ด เบราเซอร์จะจดจำเวอร์ชันของโปรแกรมที่กำลังทำงานอยู่ และต้องตีความโค้ดอักขระของภาพยนตร์อย่างไร เป็นที่น่าสังเกตว่าหากคุณบันทึกเอกสารในรูปแบบ Unicode ที่ยอมรับ คุณสามารถละเว้นรูปแบบ xml ได้ (การเข้ารหัสจะใช้ UTF-8 ซึ่งไม่มี BOM หรือ UTF-16 ซึ่งไม่มี BOM ). เมื่อใดก็ตามที่มีการใช้เอกสาร ภาษา Html สำหรับการฝังจะถูกเข้ารหัสด้วย vikoryst องค์ประกอบเมตาซึ่งเขียนไว้ระหว่างแท็ก Head ซึ่งเปิดและปิด: < head> . . . < meta charset= "utf-8" > . . . < / head>รายการนี้แตกต่างอย่างมากจากสิ่งที่ยอมรับในมาตรฐานใน Html 4.01 แต่สอดคล้องอย่างสมบูรณ์กับมาตรฐานใหม่ Html 5 ซึ่งกำลังเปิดตัวทีละน้อย และเบราว์เซอร์ใดๆ ก็ตามที่จะเข้าใจได้อย่างถูกต้องจะคลั่งไคล้ในขณะนี้ . ตามแนวคิดแล้ว องค์ประกอบ Meta ที่มีการเข้ารหัสแบบกล่องของเอกสาร Html จะถูกวางให้เรียบง่ายยิ่งขึ้น Yakomoga vishche ที่ส่วนหัวของเอกสารเพื่อให้ในขณะที่เขียนข้อความของอักขระตัวแรกไม่ใช่ ANSI พื้นฐาน (ซึ่งอ่านอย่างถูกต้องเสมอและในรูปแบบใด ๆ ) เบราว์เซอร์จึงรับผิดชอบต่อข้อมูลนี้เกี่ยวกับวิธีตีความรหัสของอักขระเหล่านี้แล้ว โปซิลันยา นา เปอร์ชู

© 2022 androidas.ru - ทุกอย่างเกี่ยวกับ Android