การเข้ารหัส KOI8-R KOI8-R เป็นโค้ดประเภทใด และให้อะไร? ตารางการเข้ารหัสตัวอักษรรัสเซีย 8 ตัว
- ซัมโปลิท (@ComradZampolit) 17 กันยายน 2017
KOI8-R ทำงานอย่างไร?
KOI8-R เป็นโค้ดเพจขนาด 8 บิต ซึ่งแบ่งออกเป็นการเข้ารหัสตัวอักษรของอักษรซีริลลิก นักพัฒนาได้จัดเรียงสัญลักษณ์ของตัวอักษรรัสเซียในลักษณะที่ตำแหน่งของสัญลักษณ์ซีริลลิกสอดคล้องกับการออกเสียงในตัวอักษรภาษาอังกฤษที่ด้านล่างของตาราง และหากลบสัญลักษณ์สกินบิตที่แปดในข้อความที่เขียนด้วยโค้ดนี้ คุณจะได้ข้อความที่คล้ายกับการแปลด้วยตัวอักษรละติน
รหัสแลกเปลี่ยนข้อมูลนี้ติดอยู่ในยุคเจ็ดสิบบนคอมพิวเตอร์ของซีรีส์ EC EOM และในช่วงกลางทศวรรษที่แปดสิบก็เริ่มใช้ในเวอร์ชัน Russified แรก ระบบปฏิบัติการยูนิกซ์
รหัสประกอบด้วยข้อเท็จจริงที่ว่ารหัสเฉพาะถูกกำหนดให้กับสัญลักษณ์สกิน: จาก 00000000 ถึง 11111111 ด้วยวิธีนี้ ผู้คนจึงแยกสัญลักษณ์ที่อยู่ด้านหลังเก้าอี้ และคอมพิวเตอร์ - อยู่ด้านหลังรหัสของพวกเขา
คุณต้องการเข้าสู่รหัสของ Chernov ในเวลาเดียวกันหรือไม่?
เลขที่
สิ่งนี้เกี่ยวข้องกับคอมพิวเตอร์แปดบิตรุ่นเก่า แต่สิ่งสำคัญคือต้องเข้าใจ Unicode ในรูปแบบที่แตกต่างกัน
สวัสดีเพื่อนผู้อ่านบล็อกไซต์ วันนี้เราจะพูดคุยกับคุณเกี่ยวกับข้อเท็จจริงที่พบในไซต์และโปรแกรม วิธีเขียนโค้ดข้อความ และวิธีปฏิบัติตาม เรามาดูประวัติความเป็นมาของการพัฒนากัน โดยเริ่มจาก ASCII พื้นฐาน ไปจนถึงเวอร์ชันขยายของ CP866, KOI8-R, Windows 1251 และลงท้ายด้วยการเข้ารหัสปัจจุบันของ Unicode consortium UTF 16 และ 8
ข้อมูลนี้อาจน่าสนใจสำหรับใครถ้าเพียงคุณเท่านั้นที่รู้ว่าต้องใช้เวลานานแค่ไหนในการมาให้อาหาร krakozyabrs ที่ยืนอยู่รอบ ๆ (ชุดอักขระไม่สามารถอ่านได้) ตอนนี้ฉันมีโอกาสที่จะนำทุกคนมาสู่เนื้อหาของบทความนี้และแก้ไขปัญหาของฉันอย่างอิสระ ก็เตรียมรวบรวมข้อมูลและพยายามตามบทสนทนาให้ทัน
ASCII - การเข้ารหัสข้อความพื้นฐานสำหรับภาษาละติน
การพัฒนาข้อความที่เข้ารหัสเกิดขึ้นพร้อมกันกับการก่อตัวของกาแล็กซีไอที และในช่วงเวลานี้พวกเขาก็ตระหนักถึงการเปลี่ยนแปลงเล็กน้อย ในอดีตทุกอย่างเริ่มค่อนข้างไม่มั่นคงในภาษารัสเซีย EBCDIC ซึ่งอนุญาตให้มีการเข้ารหัสตัวอักษรของตัวอักษรละติน เลขอารบิค และเครื่องหมายวรรคตอนพร้อมสัญลักษณ์ที่ต้องจัดการ อย่างไรก็ตาม จุดเริ่มต้นสำหรับการพัฒนาข้อความการเข้ารหัสในปัจจุบันคือการเคารพผู้มีชื่อเสียง(รหัส American Standard สำหรับการแลกเปลี่ยนข้อมูล เป็นภาษารัสเซียเรียกว่า "aski") วอห์นอธิบายอักขระ 128 ตัวแรกที่ชาวแองโกล-อเมริกันใช้บ่อยที่สุด - เลขอารบิกและเครื่องหมายหาร
นอกจากนี้ยังมีอักขระ 128 ตัวที่อธิบายไว้ใน ASCII รวมถึงสัญลักษณ์บริการบนสัญลักษณ์คันธนู เครื่องหมาย ดาว ฯลฯ Vlasna คุณเองสามารถช่วยพวกเขาได้:
อักขระ 128 ตัวจาก ASCII เวอร์ชันแรกได้กลายเป็นมาตรฐาน และไม่ว่าจะด้วยวิธีอื่นใดที่พวกมันถูกเข้ารหัส คุณจะต้องใช้พวกมันและยืนหยัดในลำดับนั้นอย่างแน่นอน
สิ่งทางด้านขวาคือด้วยความช่วยเหลือของข้อมูลหนึ่งไบต์จึงเป็นไปได้ที่จะเข้ารหัสไม่ใช่ 128 แต่มีค่าต่างกันมากถึง 256 ค่า (สองในระดับทั้งหมดเท่ากับ 256) ดังนั้น รุ่นพื้นฐานอัสกี้ปรากฏตัวเต็มแถว ส่วนขยายรหัส ASCIIซึ่งอาจมีอักขระหลักได้ 128 ตัวที่เข้ารหัสสัญลักษณ์ของรหัสประจำชาติ (เช่น ภาษารัสเซีย)
ในลักษณะที่ไพเราะ เป็นการดีที่จะพูดเพิ่มเติมอีกเล็กน้อยเกี่ยวกับระบบตัวเลข ซึ่งฉันจะอธิบายในอีกสักครู่ ก่อนอื่น อย่างที่คุณทราบกันดีว่าคอมพิวเตอร์ใช้งานได้กับตัวเลขในระบบสองหลักเท่านั้น และกับศูนย์และหนึ่ง (“พีชคณิตแบบบูล” ซึ่งโดยปกติจะสอนที่สถาบันหรือที่โรงเรียน) ซึ่งแต่ละขั้นตอนแสดงถึงสองขั้นตอน โดยเริ่มจากศูนย์ และถึงสองใน somy:
สิ่งสำคัญคือต้องตระหนักว่าการรวมศูนย์และค่าที่เป็นไปได้ทั้งหมดสำหรับการก่อสร้างดังกล่าวสามารถมีได้มากกว่า 256 การแปลงตัวเลขจากระบบสองหลักเป็นระบบที่สิบนั้นเป็นเรื่องง่าย คุณเพียงแค่ต้องเพิ่มขั้นตอนทั้งหมดของสองขั้นตอนข้างต้นซึ่งมีอยู่ด้านบน
ในแอปพลิเคชันของเรา ผลลัพธ์จะเป็น 1 (2 ในขั้นตอนที่ 0) บวก 8 (สองในขั้นตอนที่ 3) บวก 32 (สองในขั้นตอนที่ห้า) บวก 64 (ในขั้นตอนที่หก) บวก 128 (ในขั้นตอนที่เจ็ด) ขั้นตอน) ฉันจะรับ 233 V ทันที ระบบที่สิบการคำนวณ คุณเห็นไหมว่าทุกอย่างง่ายมาก
หากคุณประหลาดใจกับตารางที่มีอักขระ ASCII คุณจะเห็นสิ่งที่แสดงในรหัสฐานสิบหก ตัวอย่างเช่น "ดาว" ตรงกับเลข 2A ที่สิบหกในอะซึกะ ดังที่คุณทราบ ในระบบเลขฐานสิบหก มีการใช้ตัวเลขนอกเหนือจากเลขอารบิคและตัวอักษรละตินตั้งแต่ A (หมายถึงสิบ) ถึง F (หมายถึงสิบห้า)
แกนสำหรับ การแปล จำนวนสองเท่าที่ shestnadtyatkovoเข้าสู่แนวทางที่ง่ายและเป็นวิทยาศาสตร์ ข้อมูลแต่ละไบต์จะถูกแบ่งออกเป็นส่วนต่างๆ ตามบิต ดังที่แสดงในภาพหน้าจอด้านบน ที่. ที่สกินครึ่งหนึ่งของไบต์ รหัสคู่คุณสามารถเข้ารหัสค่าได้มากถึงสิบหกค่า (สองค่าในขั้นตอนที่สี่) ซึ่งสามารถระบุได้อย่างง่ายดายด้วยตัวเลขที่สิบหก
ยิ่งไปกว่านั้น ในครึ่งซ้ายของไบต์ จะต้องป้อนสเตจอีกครั้งโดยเริ่มจากศูนย์ และไม่เป็นไปตามที่แสดงในภาพหน้าจอ จากการคำนวณง่ายๆ เราจะเห็นว่าหมายเลข E9 ถูกเข้ารหัสไว้ในภาพหน้าจอ ฉันมั่นใจว่าคุณจะเข้าใจวิธีแก้ปัญหาของ rebus นี้โดยข้ามคำพูดของฉันและวิธีแก้ปัญหาของ rebus นี้ ทีนี้มาพูดถึงการเข้ารหัสข้อความกันดีกว่า
Aska เวอร์ชันขยาย - การเข้ารหัส CP866 และ KOI8-R พร้อม pseudographics
เราเริ่มพูดถึง ASCII ซึ่งเป็นจุดเริ่มต้นสำหรับการพัฒนาโค้ดสมัยใหม่ทั้งหมด (Windows 1251, Unicode, UTF 8)
เริ่มแรกมีตัวอักษรละตินตัวเลขอารบิกและสิ่งอื่น ๆ เพียง 128 ตัว แต่ในเวอร์ชันขยายสามารถแยกค่าทั้งหมด 256 ค่าที่สามารถเข้ารหัสได้ในข้อมูลหนึ่งไบต์ โตโต้ คุณสามารถเพิ่มอักขระจากภาษาของคุณไปยัง Asuka ได้
ที่นี่เราต้องย้อนกลับไปอธิบายอีกครั้ง ตอนนี้เราได้เผารหัสที่จำเป็นออกไปแล้วข้อความและเหตุใดจึงสำคัญมาก อักขระบนหน้าจอคอมพิวเตอร์ของคุณถูกสร้างขึ้นบนพื้นฐานของสองคำ - ชุดของรูปแบบเวกเตอร์ (การแสดง) ของอักขระที่แข็งแกร่ง (พบในไฟล์) และโค้ดที่ช่วยให้ชุดของรูปแบบเวกเตอร์ (ไฟล์ฟอนต์) สามารถเขียนได้ ชุดของรูปแบบเวกเตอร์ (ไฟล์ฟอนต์) ซึ่งเป็นสัญลักษณ์ที่จะต้องแทรกเมื่อจำเป็น
เป็นที่ชัดเจนว่ารูปแบบเวกเตอร์แสดงด้วยแบบอักษร และแกนการเข้ารหัสถูกกำหนดโดยระบบปฏิบัติการและโปรแกรมที่ทำงานอยู่ในนั้น โตโต้ ไม่ว่าข้อความใดๆ ในคอมพิวเตอร์ของคุณจะเป็นชุดไบต์ก็ตาม การเข้ารหัสแต่ละรายการจะมีอักขระตัวเดียวสำหรับข้อความนั้น
โปรแกรมที่แสดงข้อความนี้บนหน้าจอ (โปรแกรมแก้ไขข้อความ เบราว์เซอร์ ฯลฯ) เมื่อแยกวิเคราะห์โค้ด อ่านการเข้ารหัสของอักขระแบบร่าง และค้นหารูปแบบเวกเตอร์ที่เหมาะสมในไฟล์ฟอนต์ที่ต้องการซึ่งใช้สำหรับการแสดงสิ่งนี้ เอกสารข้อความ ทุกสิ่งทุกอย่างเป็นเพียงเรื่องธรรมดา
ดังนั้น ในการเข้ารหัสอักขระใดๆ ที่เราต้องการ (เช่น จากตัวอักษรประจำชาติ) จะต้องสร้างจิตใจสองแบบ - รูปแบบเวกเตอร์ของอักขระนั้นเนื่องมาจากแบบอักษรที่ใช้อยู่ และอักขระนี้สามารถเข้ารหัสแบบขยายได้ รหัส ASCII ในหนึ่งไบต์ มีตัวเลือกดังกล่าวมากมาย สำหรับการเข้ารหัสสัญลักษณ์รัสเซียเท่านั้นคือ Asuka แบบขยายจำนวนหนึ่ง
เช่น เธอปรากฏตัวขึ้นทันที ซีพี866ซึ่งสามารถใช้อักขระที่แตกต่างจากตัวอักษรรัสเซียและ ASCII เวอร์ชันขยายได้
โตโต้ ส่วนบนถูกใช้อย่างสมบูรณ์กับ Asuka เวอร์ชันพื้นฐาน (อักขระละติน 128 ตัว ตัวเลขและอึอื่น ๆ ) ซึ่งนำเสนอในภาพหน้าจอที่สั้นที่สุด และแกนของส่วนล่างของตารางที่มีรหัส CP866 มีข้อบ่งชี้เล็กน้อยบนหน้าจอ รูปลักษณ์ลดลงไม่กี่นาทีและอนุญาตให้เข้ารหัสสัญญาณ (ตัวอักษรรัสเซียและนามแฝงทุกประเภท):
กรุณาตัวเลขทางด้านขวาเริ่มต้นที่ 8 เพราะ... ตัวเลขตั้งแต่ 0 ถึง 7 จะถูกโอนไปยังส่วน ASCII พื้นฐาน (ภาพหน้าจอแรกของ div.) ที่. ตัวอักษรรัสเซีย "M" ใน CP866 มีรหัส 9C (อยู่ที่ด้านหลังของแถวของแถว 9 และตรงกับหมายเลข C ในระบบตัวเลขที่สิบหก) ซึ่งสามารถเขียนได้ในข้อมูลหนึ่งไบต์ และด้วยเหตุผลที่ชัดเจน เช่นเดียวกับแบบอักษรที่มีตัวอักษรรัสเซีย ตัวอักษรนี้จึงไม่มีปัญหาปรากฏในข้อความ
ดาวก็ใหญ่มาก ภาพเทียมใน CP866-
ที่นี่เรากำลังพูดถึงความจริงที่ว่าการเข้ารหัสสำหรับข้อความภาษารัสเซียนั้นยากยิ่งขึ้นหากมีการขยายระบบปฏิบัติการแบบกราฟิกเช่นที่เป็นอยู่ในปัจจุบัน และใน Dosia และระบบปฏิบัติการข้อความที่คล้ายกันก่อนหน้านี้ ภาพเทียมทำให้สามารถเข้าใจการออกแบบข้อความได้ และสิ่งนี้จะอธิบาย CP866 และผู้ร่วมสมัยอื่น ๆ ทั้งหมดจากอันดับของ Asuka เวอร์ชันขยาย IBM เผยแพร่ CP866 อย่างกว้างขวาง แต่นอกจากนี้สำหรับอักขระในภาษารัสเซียนั้น โค้ดอีกจำนวนหนึ่งก็ถูกแบ่งออกไป เช่น สามารถเพิ่มเป็นประเภทเดียวกัน (ส่วนขยาย ASCII) ได้:
KOI8-R
หลักการของงานนี้หายไปจากหลักการเดียวกับที่อธิบายไว้ก่อนหน้า CP866 - อักขระทุกตัวในข้อความจะถูกเข้ารหัสในหนึ่งไบต์เดียว ภาพหน้าจอแสดงเพื่อนครึ่งหนึ่งของตาราง KOI8-R เพราะ ครึ่งแรกคล้ายกับฐาน Asuka อย่างใกล้ชิด ดังที่แสดงในภาพหน้าจอแรกของบทความนี้
ในบรรดาลักษณะเฉพาะของการเข้ารหัส KOI8-R อาจสังเกตได้ว่าตัวอักษรรัสเซียในตารางไม่ได้เรียงตามตัวอักษรเช่นสร้างขึ้นใน CP866
หากคุณดูภาพหน้าจอแรก (ของส่วนพื้นฐานซึ่งรวมอยู่ในส่วนขยายการเข้ารหัสทั้งหมด) คุณจะสังเกตเห็นว่าใน KOI8-R ตัวอักษรรัสเซียอยู่ในตำแหน่งเดียวกันในตาราง เช่นเดียวกับตัวอักษรที่คล้ายกันของ ตัวอักษรละติน ซึ่งมาจากส่วนแรกของตาราง สิ่งนี้ทำขึ้นเพื่ออำนวยความสะดวกในการเปลี่ยนจากสัญลักษณ์รัสเซียเป็นภาษาละตินโดยทิ้งเพียงหนึ่งบิต (สองในขั้นตอนเดียวกันหรือ 128)
การพัฒนาการเข้ารหัสข้อความเพิ่มเติมนั้นเกิดจากการที่ระบบปฏิบัติการแบบกราฟิกกำลังได้รับความนิยมและความจำเป็นในการใช้เทียมในนั้นก็ค่อยๆเพิ่มขึ้น เป็นผลให้ทั้งกลุ่มถูกทำลายซึ่งในแกนกลางของมันเหมือนเมื่อก่อนเป็นเวอร์ชันขยายของ Asuka (อักขระตัวหนึ่งของข้อความถูกเข้ารหัสด้วยข้อมูลเพียงไบต์เดียว) แต่ไม่มีสัญลักษณ์เพิ่มเติมของนามแฝง
กลิ่นนั้นจัดอยู่ในรหัส ANSI ซึ่งแบ่งโดย American Institute of Standardization ในสำนวนทั่วไป ชื่อของอักษรซีริลลิกยังใช้สำหรับรูปแบบที่มีอิทธิพลทางภาษารัสเซีย นี่อาจเป็นก้น
มันแตกต่างอย่างชัดเจนจาก CP866 และ KOI8-R ที่ได้รับชัยชนะก่อนหน้านี้ตรงที่สถานที่ของสัญลักษณ์ปลอมนั้นถูกยึดครองโดยสัญลักษณ์ของ drukarniya ของรัสเซีย (ยกเว้นสัญลักษณ์ในสายตาธรรมดา) เช่นเดียวกับสัญลักษณ์ที่ได้รับชัยชนะใน ภาษาสโลเวเนียใกล้กับรัสเซีย (ยูเครน, เบลารุส ฯลฯ ) d.) -
ด้วยการเข้ารหัสภาษารัสเซียจำนวนมากจากผู้จัดพิมพ์แบบอักษรและแบบอักษร ความปลอดภัยของซอฟต์แวร์อาการปวดหัวก็เกิดขึ้นตลอด และคุณและฉัน นักอ่านเงาก็มักจะทุกข์ทรมานเหมือนกัน คราโคซาบรีหากมีความสับสนกับเวอร์ชันที่ได้รับการแก้ไขในข้อความ
มักจะมีกลิ่นเหม็นออกมาเมื่อกดและนำออก อีเมลสิ่งที่ทำให้เกิดการสร้างตารางการแปลงรหัสแบบพับได้ซึ่งล้มเหลวโดยสิ้นเชิงในการแก้ปัญหานี้และบ่อยครั้งที่ koristuvach สำหรับการใบไม้ vikorystovat เพื่อกำจัด kokobyabrs ที่ขมขื่นในรหัสรัสเซียที่ได้รับชัยชนะของ CP866, KOI8-R หรือ Windows 1251 ที่คล้ายกัน .
ในความเป็นจริงรอยแตกที่ปรากฏแทนที่ข้อความภาษารัสเซียเป็นผลมาจากการเข้ารหัสวิกิที่ไม่ถูกต้องของภาษานี้ซึ่งไม่ตรงกับที่เข้ารหัสไว้ ข้อความซัง
ได้รับอนุญาตหากอักขระที่เข้ารหัสโดยใช้ CP866 ให้ลองแสดงตารางรหัส Windows 1251 โดยใช้ krakozyabry (ชุดอักขระธรรมดา) แล้วลบออกโดยแทนที่ข้อความแจ้งเตือนโดยสมบูรณ์
สถานการณ์ที่คล้ายกันมักเกิดขึ้นในฟอรัมและบล็อกเมื่อข้อความที่มีตัวอักษรรัสเซียถูกบันทึกในรหัสที่ไม่ถูกต้องเช่นเดียวกับกรณีบนเว็บไซต์ด้วยเหตุผลหรือไม่ถูกต้อง โปรแกรมแก้ไขข้อความซึ่งให้รหัสแก่ตนเองไม่สามารถมองเห็นได้ด้วยตาเปล่า
หลังจากแก้ไขสถานการณ์นี้ด้วยการเข้ารหัสแบบคนตาบอดและ kokobrams ที่คลานไปมาอยู่ตลอดเวลา เราได้ค้นพบแนวคิดมากมายเพื่อสร้างรูปแบบสากลใหม่ที่จะแทนที่แบบเดิมทั้งหมดที่ฉันจะพบสาเหตุของปัญหาด้วย การปรากฏตัวของข้อความที่อ่านไม่ได้ ขึ้นอยู่กับปัญหาภาษาที่คล้ายกับภาษาจีนซึ่งมีสัญลักษณ์ของภาษามากกว่า ต่ำกว่า 256
Unicode - การเข้ารหัสสากล UTF 8, 16 และ 32
เป็นไปไม่ได้ที่จะอธิบายอักขระหลายพันตัวของกลุ่มเอเชียพื้นเมืองทั่วไปในข้อมูลหนึ่งไบต์ซึ่งมีให้สำหรับการเข้ารหัสอักขระใน ASCII เวอร์ชันขยาย เป็นผลให้มีการจัดตั้งสมาคมขึ้นภายใต้ชื่อ ยูนิโค้ด(Unicode - Unicode Consortium) ด้วยความร่วมมือของผู้นำในอุตสาหกรรมไอทีหลายคน (ผู้พัฒนาซอฟต์แวร์, ใครเขียนโค้ด, สร้างฟอนต์) ซึ่งมุ่งมั่นที่จะเกิดการเข้ารหัสข้อความสากล
รูปแบบแรกที่ออกมาภายใต้กลุ่ม Unicode คือ UTF32-
ตัวเลขในชื่อการเข้ารหัสระบุจำนวนบิตที่ต้องใช้ในการเข้ารหัสหนึ่งอักขระ 32 บิตจะเพิ่มข้อมูลสูงสุด 4 ไบต์ที่จำเป็นสำหรับการเข้ารหัสอักขระตัวเดียวในการเข้ารหัส UTF สากลใหม่ ด้วยเหตุนี้ไฟล์เดียวกันที่มีข้อความเข้ารหัสใน ASCII เวอร์ชันขยายและ UTF-32 ในกรณีที่เหลือจึงมีขนาด (ความสำคัญ) ที่ใหญ่กว่ามาก สิ่งนี้ไม่ดี แต่ตอนนี้เรามีโอกาสที่จะเข้ารหัสสำหรับ YTF เพิ่มเติมจำนวนสัญญาณที่เท่ากับสองในระดับอื่นสามสิบ (สัญลักษณ์นับพันล้าน
, วิธีครอบคลุมค่าที่จำเป็นจริงๆ ด้วยการสำรองจำนวนมหาศาล) หากประเทศที่ร่ำรวยในกลุ่มยุโรปมีสัญลักษณ์จำนวนมาก ก็ไม่จำเป็นต้องเข้ารหัส irirazove เพิ่มในช่องคลอดเอกสารข้อความ
และเป็นผลให้ปริมาณการใช้อินเทอร์เน็ตเพิ่มขึ้นและปริมาณข้อมูลที่บันทึกไว้ นี่มันรวยมาก และไม่มีใครสามารถเสียเงินขนาดนั้นได้ ผู้สืบทอดต่อการพัฒนา Unicode คือ UTF-16
เมื่อโต๊ะออกมาแต่ไกลก็เป็นที่ยอมรับของจิตใจว่าเป็นพื้นที่พื้นฐานสำหรับสัญลักษณ์ทั้งหมดที่เราใช้ วอห์นใช้สองไบต์ในการเข้ารหัสอักขระหนึ่งตัว มาดูกันว่าสิ่งนี้มีลักษณะอย่างไร สำหรับระบบปฏิบัติการ Windows คุณสามารถไปตามเส้นทาง "เริ่ม" - "โปรแกรม" - "มาตรฐาน" - "บริการ" - "ตารางอักขระ" เป็นผลให้ตารางที่มีรูปแบบเวกเตอร์ของระบบฟอนต์ที่ติดตั้งทั้งหมดในระบบของคุณจะเปิดขึ้น คุณจะห่อมันยังไง”» ชุดอักขระ Unicode จากนั้นคุณสามารถเลือกช่วงอักขระทั้งหมดที่มีอยู่ก่อนหน้าสำหรับแต่ละแบบอักษรได้
ก่อนที่จะพูดคุณสามารถดาวน์โหลดไบต์คู่นี้ได้โดยการคลิกที่รายการใดรายการหนึ่ง รหัสรูปแบบ UTF-16ผลรวมของสี่สิบหกหลักคืออะไร:
สามารถเข้ารหัสอักขระ UTF-16 ได้กี่ตัวและเพิ่มอีก 16 บิต 65536 (สองยกกำลังสิบหก) และตัวเลขนี้เองถูกใช้เป็นช่องว่างฐานใน Unicode นอกจากนี้ ยังมีวิธีเข้ารหัสอักขระเกือบสองล้านตัวที่อยู่ด้านหลัง แต่ยังอนุญาตให้มีการขยายพื้นที่อักขระหลายล้านตัวในข้อความอีกด้วย
อย่างไรก็ตาม การเข้ารหัส Unicode เวอร์ชันนี้ไม่ได้สร้างความพึงพอใจให้กับผู้ที่เขียนโปรแกรมเฉพาะบนเท่านั้น ภาษาอังกฤษน่าเสียดายที่หลังจากการเปลี่ยนจาก ASCII เวอร์ชันขยายเป็น UTF-16 เอกสารของคุณมีขนาดเพิ่มขึ้น (หนึ่งไบต์สำหรับอักขระหนึ่งตัวใน Aski และสองไบต์สำหรับอักขระเดียวกันใน UTF-16)
เพื่อให้ทุกคนและทุกสิ่งใน Unicode consortium พอใจ จึงมีการตัดสินใจเกิดขึ้น การประมวลนกพิราบแลกเปลี่ยน-
พวกเขาเรียกมันว่า UTF-8 แม้ว่าชื่อจะมีความหมาย แต่ก็เป็นวันสุดท้ายของการเปลี่ยนแปลงจริงๆ อักขระทุกตัวในข้อความสามารถเข้ารหัสด้วยลำดับตั้งแต่หนึ่งถึงหกไบต์
ในทางปฏิบัติ UTF-8 มีช่วงตั้งแต่ 1 ถึงหลายไบต์ ดังนั้นในทางทฤษฎีจึงเป็นไปไม่ได้ที่โค้ดจะตรวจจับสิ่งใดๆ ที่เกินจำนวนไบต์ได้ อักขระละตินทั้งหมดในนั้นจะถูกเข้ารหัสเป็นหนึ่งไบต์ เช่นเดียวกับใน ASCII รุ่นเก่าที่ดี
สิ่งที่น่าสังเกตก็คือเนื่องจากมีเพียงตัวอักษรละตินเท่านั้นที่ถูกเข้ารหัส โปรแกรมที่ไม่เข้าใจ Unicode จึงยังสามารถอ่านตัวอักษรที่เข้ารหัสใน UTF-8 ได้ โตโต้ ส่วนพื้นฐานของ Aska ก็ส่งต่อไปยังการสร้าง Unicode consortium อักขระซีริลลิกใน UTF-8 จะถูกเข้ารหัสเป็นสองไบต์ และตัวอย่างเช่น อักขระจอร์เจีย - เป็นสามไบต์ Unicode Consortium หลังจากการสร้าง UTF 16 และ 8 ได้ระบุปัญหาหลักแล้ว - ตอนนี้เรามีแล้วแบบอักษรมีพื้นที่รหัสเดียว
-
และตอนนี้นักเขียนของพวกเขาขาดความแข็งแกร่งและความสามารถในการจดจำสัญลักษณ์รูปแบบเวกเตอร์ในข้อความ ถึงเวลาออกข่าว..
ตอนนี้ให้เราประหลาดใจว่าข้อความถูกแทนที่ด้วย krakozyabry อย่างไรหรือเลือกการเข้ารหัสที่ถูกต้องสำหรับข้อความภาษารัสเซียได้อย่างไร แน่นอนว่ามันถูกตั้งค่าไว้ในโปรแกรมที่คุณสร้างหรือแก้ไขข้อความนี้หรือโค้ดจากส่วนของข้อความต่างๆ
เพื่อแก้ไขประตูนั้น ไฟล์ข้อความฉันเก่งเรื่อง vikorism เป็นพิเศษในความคิดของฉัน นอกจากนี้ คุณยังสามารถจับคู่ไวยากรณ์ของการเขียนโปรแกรมและโปรแกรมมาร์กอัปอื่นๆ ได้หลายร้อยรายการ และยังสามารถขยายได้ด้วยความช่วยเหลือของปลั๊กอินเพิ่มเติม อ่าน รายงานการตรวจสอบสิ่งเหล่านี้เป็นโปรแกรมอัศจรรย์สำหรับการนำทาง
ที่เมนูด้านบนของ Notepad++ จะมีรายการ "การเข้ารหัส" ซึ่งคุณจะสามารถเปลี่ยนตัวเลือกที่มีอยู่เป็นตัวเลือกที่ใช้ในไซต์ของคุณสำหรับการเข้ารหัสได้:
สำหรับไซต์ที่ทำงานบน Joomla 1.5 ขึ้นไป รวมถึงบล็อกที่ทำงานบน WordPress อย่าลืมเลือกตัวเลือกเมื่อปรากฏขึ้น UTF 8 โดยไม่มี BOM-
คำนำหน้า BOM คืออะไร ทางด้านขวา หากแยกย่อยการเข้ารหัส YTF-16 พวกเขาต้องการเพิ่มบางอย่าง เช่น ความสามารถในการเขียนโค้ดลงในสัญลักษณ์ทั้งในลำดับโดยตรง (เช่น 0A15) และในลำดับย้อนกลับ (150A) และเพื่อให้โปรแกรมเข้าใจว่าต้องอ่านโค้ดและตัดสินใจตามลำดับอะไรบอม
(Byte Order Mark หรืออีกนัยหนึ่งคือลายเซ็น) ซึ่งสะท้อนให้เห็นในการเพิ่มสามไบต์เพิ่มเติมที่ส่วนหัวของเอกสาร การเข้ารหัส UTF-8 ไม่มี BOM ใด ๆ ที่ส่งไปยังกลุ่ม Unicode ดังนั้นจึงมีการเพิ่มลายเซ็น (ซึ่งเป็นไบต์เพิ่มเติมที่สำคัญที่สุดสามไบต์ต่อเอกสาร) เพื่อให้บางโปรแกรมจำเป็นต้องอ่านโค้ด ดังนั้นจากนี้ไปเมื่อบันทึกไฟล์จาก UTF เราสามารถเลือกตัวเลือกที่ไม่มี BOM (ไม่มีลายเซ็น) ด้วยวิธีนี้คุณจะอยู่ห่างไกล.
ยึดแจกันของคนใจแคบไว้
เป็นที่น่าสังเกตว่าบางโปรแกรมใน Windows ไม่สามารถทำงานได้ (คุณไม่สามารถบันทึกข้อความจาก UTF-8 โดยไม่มี BOM) ตัวอย่างเช่น Windows Notepad ที่โชคร้ายตัวเดียวกัน จะบันทึกเอกสารในรูปแบบ UTF-8 แต่ยังคงเพิ่มลายเซ็นลงไป (เพิ่มอีกสามไบต์) ยิ่งไปกว่านั้น ไบต์เหล่านี้จะเหมือนกันเสมอ - อ่านโค้ดตามลำดับโดยตรง อย่างไรก็ตามบนเซิร์ฟเวอร์อาจเกิดปัญหาด้วยวิธีนี้ - krakozyabry จะปรากฏขึ้น ดังนั้นทันเวลาพอดีอย่าใช้ Windows Notepad เพื่อแก้ไขเอกสารบนไซต์ของคุณ เพื่อไม่ให้เกิดข้อผิดพลาดใด ๆ เกิดขึ้น ที่ดีที่สุดและยิ่งใหญ่ที่สุดสมมติว่ามันเป็นทางเลือก
ใน Notepad ++ เมื่อคุณเลือกการเข้ารหัส คุณจะสามารถแปลงข้อความเป็นการเข้ารหัส UCS-2 ซึ่งใกล้เคียงกับมาตรฐาน Unicode มาก คุณยังสามารถใช้ Notepad เพื่อเข้ารหัสข้อความใน ANSI อีกไม่นานเราจะอธิบายภาษารัสเซียเพิ่มเติมอีกเล็กน้อยสำหรับ Windows 1251 คุณนำข้อมูลนี้มาจากดวงดาวหรือไม่?
มีการลงทะเบียนในทะเบียนธุรกรรมของคุณ ระบบวินโดวส์- หากคุณเลือกประเภท ANSI หรือหากคุณเลือกประเภท OEM (สำหรับภาษารัสเซียจะเป็น CP866) หากคุณติดตั้งภาษาอื่นบนคอมพิวเตอร์ของคุณหลังการผลิต โค้ดนี้จะถูกแทนที่ด้วยรหัส ANSI หรือ OEM ที่คล้ายกันสำหรับภาษาเดียวกัน
หลังจากที่คุณบันทึกเอกสารใน Notepad++ ด้วยรหัสที่คุณต้องการหรือเปิดเอกสารจากไซต์เพื่อแก้ไข จากนั้นคุณสามารถเพิ่มชื่อได้ที่มุมขวาล่างของตัวแก้ไข:
เพื่อผ่อนคลาย Krakozyabrivนอกเหนือจากคำอธิบายข้างต้นแล้ว ทางที่ดีควรเขียนไว้ที่ส่วนหัวของโค้ดเอาต์พุตของทุกหน้าของข้อมูลไซต์เกี่ยวกับกระบวนการเข้ารหัส เพื่อไม่ให้เซิร์ฟเวอร์หรือโฮสต์ในระบบเกิดความสับสน
โดยทั่วไป เค้าโครงไฮเปอร์เท็กซ์ทั้งหมด รวมถึง HTML จะมีรูปแบบ xml พิเศษ ซึ่งระบุถึงการเข้ารหัสของข้อความ
ครั้งแรกที่คุณแยกวิเคราะห์โค้ด เบราเซอร์จะจดจำเวอร์ชันของโปรแกรมที่กำลังทำงานอยู่ และต้องตีความโค้ดอักขระของภาพยนตร์อย่างไร เป็นที่น่าสังเกตว่าหากคุณบันทึกเอกสารในรูปแบบ Unicode ที่ยอมรับ คุณสามารถละเว้นรูปแบบ xml ได้ (การเข้ารหัสจะใช้ UTF-8 ซึ่งไม่มี BOM หรือ UTF-16 ซึ่งไม่มี BOM ).
ขณะทำเอกสาร ภาพยนตร์ Htmlสำหรับการแทรกโค้ดจะเป็น vikoriated องค์ประกอบเมตาซึ่งเขียนไว้ระหว่างแท็ก Head ซึ่งเปิดและปิด:
... ...
รายการนี้แตกต่างอย่างมากจากที่ได้รับการยอมรับใน แต่จริงๆ แล้วสอดคล้องกับ HTML 5 มาตรฐานใหม่ ซึ่งได้รับการค่อยๆ ส่งเสริม และจะเป็นการถูกต้องที่จะเข้าใจว่าเบราว์เซอร์ใดก็ตามที่กำลังได้รับชัยชนะในขณะนี้
ตามแนวคิดแล้ว องค์ประกอบ Meta ที่มีการเข้ารหัสแบบกล่องของเอกสาร Html จะถูกวางให้เรียบง่ายยิ่งขึ้น Yakomoga vishche ที่ส่วนหัวของเอกสารเพื่อให้ในขณะที่เขียนข้อความของอักขระตัวแรกไม่ใช่ ANSI พื้นฐาน (ซึ่งอ่านอย่างถูกต้องเสมอและในรูปแบบใด ๆ ) เบราว์เซอร์จึงรับผิดชอบต่อข้อมูลนี้เกี่ยวกับวิธีตีความรหัสของอักขระเหล่านี้แล้ว
ขอให้โชคดี! พบกันเร็ว ๆ นี้ที่บล็อกไซต์
คุณอาจจะเดือดร้อน
ที่อยู่ URL ใดที่ประกอบเป็นข้อความที่สำคัญที่สุดสำหรับไซต์คืออะไร
OpenServer - ปัจจุบัน เซิร์ฟเวอร์ท้องถิ่นนั่นก็คือ yogo wiki สำหรับการติดตั้ง WordPress บนคอมพิวเตอร์ของคุณ
Chmod ทำอะไรเพื่อกำหนดสิทธิ์การเข้าถึงไฟล์และโฟลเดอร์ (777, 755, 666) และวิธีดำเนินการผ่าน PHP
ค้นหา Yandex บนเว็บไซต์และร้านค้าออนไลน์
การเข้ารหัส KOI8-R
รหัส ISO 8859-5
ISO 8859-5
ทางเลือกในการเข้ารหัส
"ทางเลือกอื่นในการเข้ารหัส"- ด้านรหัสจะขึ้นอยู่กับ CP437 โดยที่อักขระยุโรปเฉพาะทั้งหมดในอีกครึ่งหนึ่งจะถูกแทนที่ด้วยซีริลลิก ปล่อยให้อักขระเทียมว่างเปล่า อย่างไรก็ตาม ดูเหมือนว่าจะไม่ใช่โปรแกรมที่สามารถใช้สร้างหน้าต่างข้อความสำหรับการทำงานได้ และยังจะมีอักขระซีริลลิกเวอร์ชันที่ถูกต้องอีกด้วย
ในอดีตมีตัวเลือกการเข้ารหัสทางเลือกมากมาย แต่ค่าทั้งหมดจะจำกัดอยู่ที่พื้นที่ 0xF0 – 0xFF (240-255) มาตรฐานที่เหลือคือการเข้ารหัส IBM CP866 ซึ่งเพิ่มเข้ามาใน MS-DOS เวอร์ชัน 6.22 (ก่อนหน้านี้มีการใช้ Russifiers "แบบโฮมเมด" ทุกประเภท การเข้ารหัสทางเลือกยังมีชีวิตอยู่และได้รับความนิยมอย่างมากในหมู่ DOS และ OS/2 นอกจากนี้ในที่ ชื่อรหัสคือ ระบบไฟล์อ้วน.
.0 | .1 | .2 | .3 | .4 | .5 | .6 | .7 | .8 | .9 | CP866 ยังคงใช้ในคอนโซลของระบบ Russified ของตระกูล Windows NT | .ก | .บี | .ค | .ดี | .จ | |
8. | .ฟ | เอ 410 | บี 411 | ยู 412 | ก 413 | ง 414 | อี 415 | จจ 416 | ซี 417 | ฉัน 418 | เจ 419 | สูงถึง 41A | แอล 41บี | เอ็ม 41ซี | เอช 41ดี | ประมาณ 41E |
9. | ป 41เอฟ | อาร์ 420 | ซี 421 | ที 422 | ยู 423 | เอฟ 424 | เอ็กซ์ 425 | ทีเอส 426 | ตอนที่ 427 | Ш428 | ชช 429 | บี 42เอ | เอส 42บี | บี 42ซี | อี 42ดี | ยู 42อี |
ฉันอายุ 42F | ก. | 430 | 432 | บี 431 | ก. 433 | วัน 434 | อี 435 | ฉ 436 | ซี 437 | ตา 438 | 439 | สูงถึง 43A | ลิตร 43B | ม. 43C | n43D | ประมาณ 43E |
น 43เอฟ | ░ 2591 | ▒ 2592 | ▓ 2593 | │ 2502 | ┤ 2524 | ╡ 2561 | ╢ 2562 | ╖ 2556 | ╕ 2555 | ╣ 2563 | ║ 2551 | ╗ 2557 | บี. | ╝ 255D | ╜ 255C | ┐ 2510 |
╛ 255B | └ 2514 | ค. | ┴2534 | ┬ 252C | ─ 2500 | ├ 251C | ┼ 253C | ╞255E | ╟ 255F | ╔ 2554 | ╩ 2569 | ╦ 2566 | ╠ 2560 | ═ 2550 | ╚255A | ╧ 2567 |
╬ 256C | ╨ 2568 | ╤ 2564 | ╥ 2565 | ╙ 2559 | ╘ 2558 | ╒ 2552 | ╓ 2553 | ดี. | ╫ 256B | ┘ 2518 | ╪ 256A | █ 2588 | ▄ 2584 | ┌250C | ▐ 2590 | ▀ 2580 |
▌ 258C | อี. | ฿ 440 | ซี 441 | ที 442 | ที่ 443 | ฉ 444 | x445 | ค 446 | ปี 447 | ว 448 | sch449 | ก.44A | 44B | บี 44ซี | อี 44D | ยู 44อี |
ฉันอายุ 44F | เอฟ | จ 401 | อี 451 | Є404 | 454 | Ї407 | 457 | ยู 40อี | ที่ 45E | ∙ 2219 | °B0 | B7 | № 2116 | √ 221A | ¤A4 | ■ 25A0 |
A0ดังนั้น 8859-5
.0 | .1 | .2 | .3 | .4 | .5 | .6 | .7 | .8 | .9 | CP866 ยังคงใช้ในคอนโซลของระบบ Russified ของตระกูล Windows NT | .ก | .บี | .ค | .ดี | .จ | |
8. | 80 | 81 | 82 | 83 | 84 | 85 | 86 | 87 | 88 | 89 | - การเข้ารหัส 8 บิตจากซีรี่ส์ ISO-8859 สำหรับการเขียนซีริลลิก รัสเซียอาจจะไม่ชินกับมัน โดยทั่วไป ISO 8859-5 ไม่ใช่การเข้ารหัสที่ง่ายมาก โดยทิ้งสัญลักษณ์ที่จำเป็นไว้มากมายในวันใหม่ เช่น ขีดกลาง (-) แก้ม (“”) องศา (°) ฯลฯ | 8เอ | 8B | 8ซี | 8D | 8E |
9. | 90 | 91 | 92 | 93 | 94 | 95 | 96 | 97 | 98 | 99 | 8F | 9เอ | 9B | 9ซี | 9D | 9E |
ฉันอายุ 42F | ■ 25A0 | เอฟ | 9F | 403 | อี 451 | เอ 402 | 405 ปอนด์ | 454 | ฉัน 406 | 408 ปอนด์ | มากถึง 409 | เอ็ม 40เอ | ประมาณ 40B | เอ็น 40ซี | 457 | ค.ศ |
น 43เอฟ | .ฟ | เอ 410 | บี 411 | ยู 412 | ก 413 | ง 414 | อี 415 | จจ 416 | ซี 417 | ฉัน 418 | เจ 419 | สูงถึง 41A | แอล 41บี | เอ็ม 41ซี | เอช 41ดี | ประมาณ 41E |
╛ 255B | ป 41เอฟ | อาร์ 420 | ซี 421 | ที 422 | ยู 423 | เอฟ 424 | เอ็กซ์ 425 | ทีเอส 426 | ตอนที่ 427 | Ш428 | ชช 429 | บี 42เอ | เอส 42บี | บี 42ซี | อี 42ดี | ยู 42อี |
╬ 256C | ก. | 430 | 432 | บี 431 | ก. 433 | วัน 434 | อี 435 | ฉ 436 | ซี 437 | ตา 438 | 439 | สูงถึง 43A | ลิตร 43B | ม. 43C | n43D | ประมาณ 43E |
▌ 258C | อี. | ฿ 440 | ซี 441 | ที 442 | ที่ 443 | ฉ 444 | x445 | ค 446 | ปี 447 | ว 448 | sch449 | ก.44A | 44B | บี 44ซี | อี 44D | ยู 44อี |
ฉันอายุ 44F | № 2116 | จ 401 | พี 40เอฟ | อาร์ 452 | Є404 | - 453 | $455 | Ї407 | ฉัน 456 | $458 | ก.459 | ก.45A | ћ 45B | ќ 45C | ยู 40อี | § ก7 |
ฉันอายุ 45F KOI-8 (รหัสแลกเปลี่ยนข้อมูล 8 บิต), KOI8
ผู้พัฒนา KOI-8 วางสัญลักษณ์ของตัวอักษรรัสเซียไว้ที่ด้านบนของตาราง ASCII ที่ขยายออกไปในลักษณะที่ตำแหน่งของสัญลักษณ์ซีริลลิกสอดคล้องกับการออกเสียงในตัวอักษรภาษาอังกฤษในส่วนล่างและตาราง ซึ่งหมายความว่าหากในข้อความที่เขียนด้วย KOI-8 คุณเพิ่มสัญลักษณ์สกินบิตที่แปด คุณจะได้รับข้อความที่ "อ่านได้" แม้ว่าจะไม่ได้เขียนด้วยตัวอักษรละตินก็ตาม ตัวอย่างเช่น คำว่า "ข้อความภาษารัสเซีย" จะถูกแปลงเป็น "rUSSKIJ tEKST" เนื่องจากเป็นผลพลอยได้ สัญลักษณ์ซีริลลิกจึงไม่เรียงตามตัวอักษร
.0 | .1 | .2 | .3 | .4 | .5 | .6 | .7 | .8 | .9 | CP866 ยังคงใช้ในคอนโซลของระบบ Russified ของตระกูล Windows NT | .ก | .บี | .ค | .ดี | .จ | |
8. | ─ 2500 | │ 2502 | ╪ 256A | ┐ 2510 | └ 2514 | ┘ 2518 | ┬ 252C | ┤ 2524 | ┴2534 | ค. | ├ 251C | ▀ 2580 | ▄ 2584 | █ 2588 | ┌250C | ▐ 2590 |
9. | ░ 2591 | ▒ 2592 | ▓ 2593 | ⌠ 2320 | ¤A4 | ∙ 2219 | B7 | ≈ 2248 | ≤ 2264 | ≥ 2265 | ■ 25A0 | ⌡ 2321 | ที่ 45E | ² บี2 | °B0 | ۞F7 |
ฉันอายุ 42F | ═ 2550 | ║ 2551 | ╒ 2552 | จ 401 | ╓ 2553 | ╔ 2554 | ╕ 2555 | ╖ 2556 | ╗ 2557 | ╘ 2558 | ╙ 2559 | ╟ 255F | ╜ 255C | ╝ 255D | บี. | ┼ 253C |
น 43เอฟ | ╞255E | ╠ 2560 | ╡ 2561 | เอฟ | ╢ 2562 | ╣ 2563 | ╤ 2564 | ╥ 2565 | ╦ 2566 | ╧ 2567 | ╨ 2568 | ╩ 2569 | ╫ 256B | ดี. | ╚255A | © A9 |
╛ 255B | อี 44D | ก. | 430 | x445 | ก. 433 | วัน 434 | ที่ 443 | บี 431 | ฉ 444 | ซี 437 | ตา 438 | 439 | สูงถึง 43A | ลิตร 43B | ม. 43C | n43D |
╬ 256C | ประมาณ 43E | ยู 44อี | อี. | ฿ 440 | ซี 441 | ที 442 | อี 435 | 432 | 44B | ก.44A | ฉ 436 | ปี 447 | บี 44ซี | ว 448 | ค 446 | sch449 |
▌ 258C | อี 42ดี | .ฟ | เอ 410 | เอ็กซ์ 425 | ก 413 | ง 414 | ยู 423 | ยู 412 | เอฟ 424 | ซี 417 | ฉัน 418 | เจ 419 | สูงถึง 41A | แอล 41บี | เอ็ม 41ซี | เอช 41ดี |
ฉันอายุ 44F | ประมาณ 41E | ยู 42อี | ป 41เอฟ | อาร์ 420 | ซี 421 | ที 422 | อี 415 | บี 411 | เอส 42บี | บี 42เอ | จจ 416 | ตอนที่ 427 | บี 42ซี | Ш428 | ทีเอส 426 | ชช 429 |
การเข้ารหัส KOI8-U (ภาษายูเครน)
KOI-8 กลายเป็นการเข้ารหัสมาตรฐานรัสเซียตัวแรกบนอินเทอร์เน็ต
IETF ได้ตรวจสอบ RFC สำหรับตัวเลือกการเข้ารหัส KOI-8:
- RFC 1489 – KOI8-R (ตัวอักษรรัสเซีย);
- RFC 2319 – KOI8-U (ตัวอักษรของอักษรยูเครน);
- RFC 1345 – ISO-IR-111 (พร้อมการปรับเปลี่ยนสำหรับช่วงหลักที่กำหนด)
ในตารางเหล่านี้ ตัวเลขใต้ตัวอักษรจะระบุรหัสเลขฐานสิบหกของตัวอักษรในรูปแบบ Unicode
โคดูวานเนีย KOI8-R (รัสเซีย)
.0 | .1 | .2 | .3 | .4 | .5 | .6 | .7 | .8 | .9 | CP866 ยังคงใช้ในคอนโซลของระบบ Russified ของตระกูล Windows NT | .ก | .บี | .ค | .ดี | .จ | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
8. |
─
2500 |
│
2502 |
┌
250C |
┐
2510 |
└
2514 |
┘
2518 |
├
251C |
┤
2524 |
┬
252C |
┴
2534 |
┼
253C |
▀
2580 |
▄
2584 |
█
2588 |
▌
258ซี |
▐
2590 |
9. |
░
2591 |
▒
2592 |
▓
2593 |
⌠
2320 |
■
25A0 |
∙
2219 |
√
221เอ |
≈
2248 |
≤
2264 |
≥
2265 |
■ 25A0 |
⌡
2321 |
°
B0 |
²
บี2 |
·
B7 |
÷
F7 |
ก. |
═
2550 |
║
2551 |
╒
2552 |
จ 451 |
╓
2553 |
╔
2554 |
╕
2555 |
╖
2556 |
╗
2557 |
╘
2558 |
╙
2559 |
╚
255เอ |
╛
255B |
╜
255C |
╝
255D |
╞
255E |
บี. |
╟
255F |
╠
2560 |
╡
2561 |
โย่ 401 |
╢
2562 |
╣
2563 |
╤
2564 |
╥
2565 |
╦
2566 |
╧
2567 |
╨
2568 |
╩
2569 |
╪
256เอ |
╫
256B |
╬
256ซี |
©
A9 |
ค. |
ยู 44E |
ก 430 |
ข 431 |
ทีเอส 446 |
ง 434 |
จ 435 |
ฉ 444 |
ช 433 |
เอ็กซ์ 445 |
і 438 |
ไทย 439 |
ก่อน 43เอ |
ล 43B |
ม 43ค |
n 43D |
เกี่ยวกับ 43E |
ดี. |
ป 43ฟ |
ฉัน 44ฟ |
ร 440 |
ชม. 441 |
ต 442 |
ที่ 443 |
และ 436 |
วี 432 |
ข 44ค |
ส ก.44A |
ชม. 437 |
ว 448 |
จ 44D |
ช 449 |
ปี 447 |
ก 44ก |
อี. |
ยุ 42E |
ก 410 |
บี 411 |
ค 426 |
ดี 414 |
อี 415 |
เอฟ 424 |
ช 413 |
เอ็กซ์ 425 |
І 418 |
ย 419 |
ก่อน 41ก |
ล 41B |
ม 41ค |
เอ็น 41D |
เกี่ยวกับ 41E |
เอฟ |
ป 41เอฟ |
ฉัน 42เอฟ |
ร 420 |
ซี 421 |
ต 422 |
ยู 423 |
และ 416 |
ยู 412 |
ข 42ซ |
ย 42B |
ซี 417 |
ช 428 |
อี 42D |
สช 429 |
ชม 427 |
คอมเมอร์สันต์ 42เอ |
ตัวเลือกอื่น
แสดงเฉพาะแถวในตารางที่ไม่ถูกบันทึก แต่แถวอื่นๆ ยังคงถูกบันทึก
การเข้ารหัส KOI8-U (รัสเซีย - ยูเครน)
.0 | .1 | .2 | .3 | .4 | .5 | .6 | .7 | .8 | .9 | CP866 ยังคงใช้ในคอนโซลของระบบ Russified ของตระกูล Windows NT | .ก | .บี | .ค | .ดี | .จ | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
ก. |
═
2550 |
║
2551 |
╒
2552 |
จ 451 |
є
454 |
╔
2554 |
і
456 |
ї
457 |
╗
2557 |
╘
2558 |
╙
2559 |
╚
255เอ |
╛
255B |
ґ
491 |
╝
255D |
╞
255E |
บี. |
╟
255F |
╠
2560 |
╡
2561 |
โย่ 401 |
Є
404 |
╣
2563 |
І
406 |
Ї
407 |
╦
2566 |
╧
2567 |
╨
2568 |
╩
2569 |
╪
256เอ |
Ґ
490 |
╬
256ซี |
©
A9 |
การเข้ารหัส KOI8-RU (รัสเซีย-เบลารุส-ยูเครน)
.0 | .1 | .2 | .3 | .4 | .5 | .6 | .7 | .8 | .9 | CP866 ยังคงใช้ในคอนโซลของระบบ Russified ของตระกูล Windows NT | .ก | .บี | .ค | .ดี | .จ | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
ก. |
═
2550 |
║
2551 |
╒
2552 |
จ 451 |
є
454 |
╔
2554 |
і
456 |
ї
457 |
╗
2557 |
╘
2558 |
╙
2559 |
╚
255เอ |
╛
255B |
ґ
491 |
ў
45E |
╞
255E |
บี. |
╟
255F |
╠
2560 |
╡
2561 |
โย่ 401 |
Є
404 |
╣
2563 |
І
406 |
Ї
407 |
╦
2566 |
╧
2567 |
╨
2568 |
╩
2569 |
╪
256เอ |
Ґ
490 |
Ў
40อี |
©
A9 |
โคดูวันย่า KOI8-C (เอเชียกลาง)
.0 | .1 | .2 | .3 | .4 | .5 | .6 | .7 | .8 | .9 | CP866 ยังคงใช้ในคอนโซลของระบบ Russified ของตระกูล Windows NT | .ก | .บี | .ค | .ดี | .จ | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
8. | ғ 493 |
җ 497 |
қ 49B |
ҝ 49D |
ң 4A3 |
ү 4เอเอฟ |
ұ 4B1 |
ҳ 4B3 |
ҷ 4B7 |
ҹ 4B9 |
һ 4บีบี |
▀ 2580 |
ә 4D9 |
ӣ 4E3 |
ө 4E9 |
ӯ 4EF |
9. | Ғ 492 |
Җ 496 |
Қ 49ก |
Ҝ 49ซ |
Ң 4A2 |
Ү 4เออี |
Ұ 4B0 |
Ҳ 4B2 |
Ҷ 4B6 |
Ҹ 4B8 |
Һ 4BA |
⌡ 2321 |
Ә 4D8 |
Ӣ 4E2 |
Ө 4E8 |
Ӯ 4EE |
ฉันอายุ 42F | ■ 25A0 |
ђ 452 |
ѓ 453 |
จ 451 |
є 454 |
ѕ 455 |
і 456 |
ї 457 |
ј 458 |
љ 459 |
њ 45เอ |
ћ 45B |
ќ 45C |
ґ 491 |
ў 45E |
џ 45F |
น 43เอฟ | № 2116 |
Ђ 402 |
Ѓ 403 |
โย่ 401 |
Є 404 |
Ѕ 405 |
І 406 |
Ї 407 |
Ј 408 |
Љ 409 |
Њ 40เอ |
Ћ 40B |
Ќ 40ซ |
Ґ 490 |
Ў 40อี |
Џ 40F |
โคดูวานย่า KOI8-T (ทาจิกิสถาน)
.0 | .1 | .2 | .3 | .4 | .5 | .6 | .7 | .8 | .9 | CP866 ยังคงใช้ในคอนโซลของระบบ Russified ของตระกูล Windows NT | .ก | .บี | .ค | .ดี | .จ | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
8. | қ 49B |
ғ 493 |
‚ 201เอ |
Ғ 492 |
„ 201E |
… 2026 |
† 2020 |
‡ 2021 |
‰ 2030 |
ҳ 4B3 |
‹ 2039 |
Ҳ 4B2 |
ҷ 4B7 |
Ҷ 4B6 |
||
9. | Қ 49ก |
‘ 2018 |
’ 2019 |
“ 201C |
” 201D |
2022 |
– 2013 |
- 2014 |
™ 2122 |
› 203เอ |
||||||
ฉันอายุ 42F | ӯ 4EF |
Ӯ 4EE |
จ 451 |
¤ A4 |
ӣ 4E3 |
¦ A6 |
§ A7 |
« เอบี |
¬ เอ.ซี. |
เอ็น 40ซี |
® เอ.อี. |
|||||
น 43เอฟ | ° B0 |
± B1 |
² บี2 |
โย่ 401 |
Ӣ 4E2 |
¶ B6 |
· B7 |
№ 2116 |
» BB |
© A9 |
Koduvannya KOI8-O, KOI8-S (ภาษาสโลวีเนีย การสะกดแบบเก่า)
.0 | .1 | .2 | .3 | .4 | .5 | .6 | .7 | .8 | .9 | CP866 ยังคงใช้ในคอนโซลของระบบ Russified ของตระกูล Windows NT | .ก | .บี | .ค | .ดี | .จ | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
8. |
Ђ
0402 |
Ѓ
0403 |
¸
00B8 |
ѓ
0453 |
„
201E |
…
2026 |
†
2020 |
§
00A7 |
€
20เอซี |
¨
00A8 |
Љ
0409 |
‹
2039 |
Њ
040A |
Ќ
040ซี |
Ћ
040B |
Џ
040F |
9. |
ђ
0452 |
‘
2018 |
’
2019 |
“
201C |
”
201D |
2022 |
–
2013 |
—
2014 |
£
00A3 |
·
00B7 |
љ
0459 |
›
203เอ |
њ
045เอ |
ќ
045ซี |
ћ
045บี |
џ
045ฟ |
ก. |
00A0 |
ѵ
0475 |
ѣ
0463 |
จ 0451 |
є
0454 |
ѕ
0455 |
і
0456 |
ї
0457 |
ј
0458 |
®
00AE |
™
2122 |
«
00AB |
ѳ
0473 |
ґ
0491 |
ў
045E |
´
00B4 |
บี. |
°
00B0 |
Ѵ
0474 |
Ѣ
0462 |
โย่ 0401 |
Є
0404 |
Ѕ
0405 |
І
0406 |
Ї
0407 |
Ј
0408 |
№
2116 |
¢
00A2 |
»
00บีบี |
Ѳ
0472 |
Ґ
0490 |
Ў
040E |
©
00A9 |
รหัส ISO-IR-111, KOI8-E
.0 | .1 | .2 | .3 | .4 | .5 | .6 | .7 | .8 | .9 | CP866 ยังคงใช้ในคอนโซลของระบบ Russified ของตระกูล Windows NT | .ก | .บี | .ค | .ดี | .จ | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
ก. |
00A0 |
ђ
0452 |
ѓ
0453 |
จ 0451 |
є
0454 |
ѕ
0455 |
і
0456 |
ї
0457 |
ј
0458 |
љ
0459 |
њ
045เอ |
ћ
045บี |
ќ
045ซี |
00AD |
ў
045E |
џ
045ฟ |
บี. |
№
2116 |
Ђ
0402 |
Ѓ
0403 |
โย่ 0401 |
Є
0404 |
Ѕ
0405 |
І
0406 |
Ї
0407 |
Ј
0408 |
Љ
0409 |
Њ
040A |
Ћ
040B |
Ќ
040ซี |
¤
00A4 |
Ў
040E |
Џ
040F |
การเข้ารหัส KOI8-Unified, KOI8-F
รหัส KOI8-Unified (KOI8-F) ได้รับการพัฒนาโดย Fingertip Software
.0 | .1 | .2 | .3 | .4 | .5 | .6 | .7 | .8 | .9 | CP866 ยังคงใช้ในคอนโซลของระบบ Russified ของตระกูล Windows NT | .ก | .บี | .ค | .ดี | .จ | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
8. |
─
2500 |
│
2502 |
┌
250C |
┐
2510 |
└
2514 |
┘
2518 |
├
251C |
┤
2524 |
┬
252C |
┴
2534 |
┼
253C |
▀
2580 |
▄
2584 |
█
2588 |
▌
258ซี |
▐
2590 |
9. |
░
2591 |
‘
2018 |
’
2019 |
“
201C |
”
201D |
2022 |
–
2013 |
—
2014 |
©
00A9 |
™
2122 |
00A0 |
»
00บีบี |
®
00AE |
«
00AB |
·
00B7 |
¤
00A4 |
ก. |
00A0 |
ђ
0452 |
ѓ
0453 |
จ 0451 |
є
0454 |
ѕ
0455 |
і
0456 |
ї
0457 |
ј
0458 |
љ
0459 |
њ
045เอ |
ћ
045บี |
ќ
045ซี |
ґ
0491 |
ў
045E |
џ
045ฟ |
บี. |
№
2116 |
Ђ
0402 |
Ѓ
0403 |
โย่ 0401 |
Є
0404 |
Ѕ
0405 |
І
0406 |
Ї
0407 |
Ј
0408 |
Љ
0409 |
Њ
040A |
Ћ
040B |
Ќ
040ซี |
Ґ
0490 |
Ў
040E |
Џ
040F |
ตัวแปรที่ไม่ใช่ซีริลลิกของ KOI-8
ในบางประเทศ REV ได้สร้างการดัดแปลง KOI-8 สำหรับตัวอักษรละตินแบบประจำชาติ แนวคิดพื้นฐานก็เหมือนกัน - เมื่อบิตที่แปดถูก "ตัด" ข้อความมีแนวโน้มที่จะเข้าใจน้อยลง
- เอาล่ะ เริ่มได้เลย! - Dolokhov กล่าว
“เอาล่ะ” ปิแอร์พูดเพียงหัวเราะ - มันเริ่มน่ากลัวแล้ว เห็นได้ชัดว่าทางด้านขวาซึ่งเริ่มต้นอย่างง่ายดาย ไม่มีอะไรสามารถหยุดมันได้ เพราะมันออกมาด้วยตัวเอง โดยไม่คำนึงถึงเจตจำนงของผู้คน และไม่น่าจะตื่นขึ้นมา Denisov คนแรก Viyshov เดินหน้าไปหาบาร์เทนเดอร์และโหวต:
- เนื่องจากฝ่ายตรงข้ามตัดสินใจตั้งชื่อกันแล้ว จึงไม่ใช่เวลาที่ดีที่จะเริ่ม: หยิบปืนพกแล้วพูดคุยและเริ่มมาบรรจบกัน
- ก... "az! Two! T" i! ... - เดนิซอฟตะโกนด้วยความโกรธและเห็นเขา ความขุ่นเคืองเดินไปตามเส้นทางที่เหยียบย่ำอย่างใกล้ชิดมากขึ้นเรื่อย ๆ โดยจดจำกันและกันในสายหมอก ฝ่ายตรงข้ามพูดถูก ไปที่บาร์ ยิงได้ทุกเมื่อที่ต้องการ Dolokhov ishov อย่างสมบูรณ์โดยไม่ต้องยกปืนพกประหลาดใจกับดวงตาที่สดใสเป็นประกายและเป็นประกายในหน้ากากของคู่ต่อสู้ ปากของเขาก็มีเสียงหัวเราะเหมือนกันเหมือนเมื่อก่อน
- ถ้าฉันต้องการฉันก็ยิงได้! - ปิแอร์กล่าวพร้อมคำว่าสามก้าวข้างหน้าอย่างรวดเร็วเคาะบนเส้นทางที่ถูกเหยียบย่ำและหิมะตกลงมาทั้งหมด เขายื่นปืนพกออกมา เหยียดมือขวาไปข้างหน้า บางทีอาจกลัวว่าเขาจะโดนปืนพกฟาดตัวเอง เขาวางมือซ้ายกลับอย่างระมัดระวัง เพราะเขาต้องการสัมผัสมือขวา และเขารู้ว่ามันเป็นไปไม่ได้ เมื่อเดินไปได้หกไมล์และหลงทางในหิมะ ปิแอร์มองที่เท้าของเขา และจ้องมองที่โดโลคอฟอีกครั้งสั้น ๆ แล้วเหยียดนิ้วราวกับว่าเขาถูกพาเข้าไปแล้วยิงออกไป ปิแอร์ไม่รู้ตัวถึงเสียงที่ดังขนาดนี้ เมื่อเห็นกระสุนของเขาตัวสั่นก็ตัวสั่น จากนั้นก็ยิ้มจนรู้สึกรังเกียจและทรุดตัวลง ควันหนาทึบเป็นพิเศษในหมอก กระตุ้นให้โยมะมีความเพียรพยายาม ไม่มีการยิงอื่นใดเท่าที่เรารู้ เศษขนมปังของ Dolokhov เพิ่งเริ่มมีน้ำและ Dima ก็ปรากฏตัวขึ้นเพื่อยืนหยัดเพื่อเขา เธอใช้มือข้างหนึ่งเอื้อมไปที่สะโพกซ้าย และอีกมือบีบส่วนล่างของปืน การเปิดเผยของเขาใกล้เข้ามามากขึ้น รอสตอฟเข้ามาและพูดอะไรบางอย่างกับคุณ
“ไม่...ไม่...ไม่” โดโลคิฟบ้วนฟัน “ไม่ ยังไม่เสร็จ” และทำเอาเศษขนมปังร่วงหล่นลงมาจนสุดปลายตกลงไปในหิมะสีขาว มือซ้ายของเขาเต็มไปด้วยเลือด เขาเช็ดมันบนซูร์ดุตแล้วเอามันมาปิดไว้ รูปร่างหน้าตาของเขาซีดเซียวขมวดคิ้วและสั่นเทา
“บางที...” โดโลคอฟพูด แต่เขาไม่เข้าใจในทันที... ท่าเรือที่รักในตอนเช้าหนีไปที่ Dolokhov และต้องการข้ามพื้นที่ที่เสริมกำลังบาร์ในขณะที่ Dolokhov ดัง: - ไปที่บาร์! - และเปอร์เมื่อรู้ว่าคำพูดนั้นหมายถึงอะไรก็พูดตะกุกตะกักกับแม่แบบของเขา น้อยกว่า 10 โครกีก็แบ่งพวกเขา Dolokhov ก้มศีรษะลงสู่หิมะชิมหิมะอย่างตะกละตะกลามเงยหน้าขึ้นอีกครั้งลูบไล้ยกขาขึ้นแล้วนั่งดูจุดศูนย์ถ่วง หิมะที่หนาวเย็นตกลงมาและโยเกิร์ตก็ชุ่มฉ่ำ ริมฝีปากของเขาสั่นเทา แต่ทุกคนก็หัวเราะ ดวงตาเปล่งประกายด้วยความแข็งแกร่งและความโกรธของกองกำลังที่เหลือที่รวมตัวกัน เขายกปืนพกขึ้นและเริ่มเล็ง
“เอาปืนพกไปด้านข้าง” เนสวิตสกีกล่าว
“ ระวัง!” โดยไม่สะดุ้งตะโกนบอกเดนิซอฟใส่คู่ต่อสู้ของเขา
ฉันรู้สึกเสียใจกับปิแอร์ด้วยรอยยิ้มอันแสนหวานและเรือคายัคที่กางขาและแขนอย่างไม่มีความสุขเพียงแค่ยืนด้วยอกที่กว้างต่อหน้า Dolokhov และประหลาดใจที่เขาด้วยความประหลาดใจ เดนิซอฟ, รอสตอฟ และเนสวิตสกีกลายเป็นเพื่อนกัน ทันใดนั้นกลิ่นเหม็นได้กลิ่นกระสุนปืนของ Dolokhov และเสียงร้องไห้ด้วยความโกรธ
- อดีต!
- Dolokhov ตะโกนและล้มตัวลงนอนต่อหน้าหิมะอย่างไร้เรี่ยวแรง เขาโค้งศีรษะแล้วหันหลังกลับเดินไปใกล้ป่าหิมะตกลงมาจนหมดและพูดด้วยน้ำเสียงหมดสติ:
- โง่... โง่! ความตาย... เรื่องไร้สาระ... - เขาพูดซ้ำแล้วสะดุ้ง เนสวิทสกี้อุ้มเขาขึ้นและพาเขากลับบ้าน
Rostov และ Denisov นำ Dolokhov ที่ได้รับบาดเจ็บมา
เด็กหญิงตัวเล็ก ๆ ของ Dolokhov ที่มีดวงตาแบนนอนอยู่ข้างเลื่อนและไม่ให้อาหารแม้แต่คำเดียวเพราะพวกเขาขี้อาย แต่เมื่อไปถึงมอสโคว์พวกเขาก็เข้ามาหาคุณและที่สำคัญพวกเขาเงยหน้าขึ้นโดยจับมือ Rostov ซึ่งนั่งอยู่ตรงหน้าเขา Rostov เปลี่ยนไปอย่างสิ้นเชิงและสิ่งสำคัญที่สุดที่เผยให้เห็น Dolokhov ถูกฝังอย่างไม่สามารถควบคุมได้
- แล้วไงล่ะ? คุณรู้สึกอย่างไรกับตัวเอง? - ขับเคลื่อน Rostov
- มันเน่า! แต่ไม่ thats จุด.
“ เพื่อนของฉัน” Dolokhov พูดด้วยน้ำเสียงที่ไม่ต่อเนื่อง“ เราอยู่ที่ไหน” ฉันรู้ เราอยู่ใกล้มอสโกว ฉันไม่สนใจ แต่ถ้าฉันตีมัน ถ้าฉันตีมัน... ฉันทนไม่ไหว ฉันทนไม่ไหวแล้ว...
-WHO?
ช่วงเวลาที่เหลือ Pier ไม่ค่อยได้ออกไปเที่ยวกับทีมของเขาทุกคืน ทั้งในเซนต์ปีเตอร์สเบิร์กและมอสโก บูธของพวกเขาจะเป็นแขกเสมอ คืนถัดมา หลังจากการดวล ทหารมักจะขี้อายไม่ยอมไปที่ห้องนอน แต่ออกจากห้องทำงานของบิดาผู้สง่างาม ในสถานที่เดียวกับที่เคานต์เบซูฮีเสียชีวิต
เขานอนลงบนโซฟาและอยากจะหลับไปเพื่อลืมทุกสิ่งที่เกิดขึ้นกับเขา ไม่เช่นนั้นเขาจะทำอะไรไม่ได้เลย พายุแห่งความรู้สึก ความคิด และความสงสัยเกิดขึ้นในจิตวิญญาณของเขาจนเขาไม่เพียงแต่นอนไม่หลับเท่านั้น แต่ยังไม่สามารถนั่งนิ่งลงจากโซฟาแล้วเดินไปรอบ ๆ ห้องอย่างรวดเร็ว จากนั้นเธอก็ปรากฏตัวทันทีเป็นมิตรไหล่มีขนดกและท่าทางเหนื่อยล้าและหลงใหลและในทันทีเธอก็ดูเหมือน Garne หยาบคายและเยาะเย้ยอย่างหนักแน่นการบอกเลิก Dolokhov ซึ่งอยู่ในที่ประชุมและเช่นเดียวกันกับที่ประณาม Dolokhov ohova, blede, tremtyacheache . และเขาก็ทนทุกข์ทรมานเช่นเดียวกับที่เขาหันหลังกลับและตกลงไปบนหิมะ
"เกิดอะไรขึ้น?
- ลองถามตัวเองดู - ฉันฆ่าโคคาน และฆ่าโคคานในทีมของฉัน ใช่แล้วนั่นแหละ เช่นอะไร?
ฉันควรทำอย่างไรดี? “เพราะคุณเป็นเพื่อนกับเธอ” เสียงภายในพูด
“อนาโทลขับรถไปหาเธอและจ่ายเงินเพนนีให้เธอ และจูบไหล่เปลือยของเธอ โวนาไม่ได้ให้เงินคุณ แต่อนุญาตให้คุณจูบเธอเท่านั้น พ่อที่รัก ปลุกเร้าความอิจฉาของพวกเขา เธอพูดด้วยรอยยิ้มสงบว่าเธอไม่ได้แย่จนอิจฉาหรอก อย่าลังเลที่จะพูดอะไรเธอก็พูดถึงฉันด้วย ฉันถามเธอว่าเธอไม่รู้สึกถึงความโน้มถ่วง โวนาหัวเราะอย่างไม่เคารพและบอกว่าเธอไม่เลวพอที่จะมีลูก และเธอคงไม่มีลูกเหมือนฉัน”
จากนั้นเขาก็รับรู้ถึงความหยาบคาย ความชัดเจนในความคิดของเธอ และการแสดงออกที่หยาบคายที่ครอบงำเธอ โดยไม่คำนึงถึงอิทธิพลของเธอในแวดวงชนชั้นสูง “ฉันไม่ได้โง่... ไปลองด้วยตัวเอง... allez vous promener” เธอกล่าว บ่อยครั้งด้วยความประหลาดใจกับความสำเร็จของเธอในสายตาของชายหนุ่มและหญิงสาว ปิแอร์ไม่เข้าใจว่าทำไมพวกเขาถึงไม่รักเธอ แต่ฉันไม่ได้รักเธอเลยบอกตัวเองว่าพี่เอ๋ ฉันรู้ว่าเธอเป็นผู้หญิงเสเพล ย้ำกับตัวเอง แต่ไม่กล้ายอมรับ
วันนี้เราจะพูดคุยกับคุณเกี่ยวกับข้อเท็จจริงที่พบในไซต์และโปรแกรม วิธีเขียนโค้ดข้อความ และวิธีปฏิบัติตาม มาดูประวัติความเป็นมาของการพัฒนากัน โดยเริ่มจาก ASCII พื้นฐาน รวมถึง CP866, KOI8-R, Windows 1251 เวอร์ชันขยาย และลงท้ายด้วยการเข้ารหัสปัจจุบันของ Unicode consortium UTF 16 และ 8 สวัสดีเพื่อนผู้อ่านบล็อกไซต์ วันนี้เราจะพูดคุยกับคุณเกี่ยวกับข้อเท็จจริงที่พบในไซต์และโปรแกรม วิธีเขียนโค้ดข้อความ และวิธีปฏิบัติตาม เรามาดูประวัติความเป็นมาของการพัฒนากัน โดยเริ่มจาก ASCII พื้นฐาน ไปจนถึงเวอร์ชันขยายของ CP866, KOI8-R, Windows 1251 และลงท้ายด้วยการเข้ารหัสปัจจุบันของ Unicode consortium UTF 16 และ 8
ข้อมูลนี้อาจน่าสนใจสำหรับใครถ้าเพียงคุณเท่านั้นที่รู้ว่าต้องใช้เวลานานแค่ไหนในการมาให้อาหาร krakozyabrs ที่ยืนอยู่รอบ ๆ (ชุดอักขระไม่สามารถอ่านได้) ตอนนี้ฉันมีโอกาสที่จะนำทุกคนมาสู่เนื้อหาของบทความนี้และแก้ไขปัญหาของฉันอย่างอิสระ ก็เตรียมรวบรวมข้อมูลและพยายามตามบทสนทนาให้ทัน
การพัฒนาข้อความที่เข้ารหัสเกิดขึ้นพร้อมกันกับการก่อตัวของกาแล็กซีไอที และในช่วงเวลานี้พวกเขาก็ตระหนักถึงการเปลี่ยนแปลงเล็กน้อย ในอดีตทุกอย่างเริ่มค่อนข้างไม่มั่นคงในภาษารัสเซีย EBCDIC ซึ่งอนุญาตให้มีการเข้ารหัสตัวอักษรของตัวอักษรละติน เลขอารบิค และเครื่องหมายวรรคตอนพร้อมสัญลักษณ์ที่ต้องจัดการ อย่างไรก็ตาม จุดเริ่มต้นสำหรับการพัฒนาข้อความการเข้ารหัสในปัจจุบันคือการเคารพผู้มีชื่อเสียง อย่างไรก็ตาม จุดเริ่มต้นสำหรับการพัฒนาข้อความการเข้ารหัสในปัจจุบันคือการเคารพผู้มีชื่อเสียง(รหัส American Standard สำหรับการแลกเปลี่ยนข้อมูล เป็นภาษารัสเซียเรียกว่า "aski") วอห์นอธิบายถึงสัญลักษณ์ 128 ตัวแรกที่ใช้บ่อยที่สุดโดยชาวแองโกล-อเมริกัน ได้แก่ ตัวอักษรละติน เลขอารบิค และเครื่องหมายหาร นอกจากนี้ยังมีอักขระ 128 ตัวที่อธิบายไว้ใน ASCII รวมถึงสัญลักษณ์บริการบนสัญลักษณ์คันธนู เครื่องหมาย ดาว ฯลฯ Vlasna คุณเองสามารถช่วยพวกเขาได้:![](https://i0.wp.com/javarush.ru/images/article/bbbac187-4c49-4c4d-aba0-b5541bbdecc0/1024.jpeg)
![](https://i2.wp.com/javarush.ru/images/article/a0332a25-8302-4442-b957-20733f967cc2/1024.jpeg)
Aska เวอร์ชันขยาย - การเข้ารหัส CP866 และ KOI8-R พร้อม pseudographics
เราเริ่มพูดถึง ASCII ซึ่งเป็นจุดเริ่มต้นสำหรับการพัฒนาโค้ดสมัยใหม่ทั้งหมด (Windows 1251, Unicode, UTF 8) เริ่มแรกมีตัวอักษรละตินตัวเลขอารบิกและสิ่งอื่น ๆ เพียง 128 ตัว แต่ในเวอร์ชันขยายสามารถแยกค่าทั้งหมด 256 ค่าที่สามารถเข้ารหัสได้ในข้อมูลหนึ่งไบต์ โตโต้ คุณสามารถเพิ่มอักขระจากภาษาของคุณไปยัง Asuka ได้ ที่นี่เราต้องก้าวขึ้นมาอีกครั้งเพื่ออธิบาย ตอนนี้เรามีการเข้ารหัสข้อความที่จำเป็นแล้วและเหตุใดจึงสำคัญมาก? อักขระบนหน้าจอคอมพิวเตอร์ของคุณถูกสร้างขึ้นบนพื้นฐานของสองคำ - ชุดของรูปแบบเวกเตอร์ (การแสดง) ของอักขระที่แข็งแกร่ง (ซึ่งพบในไฟล์ที่มีแบบอักษรที่ติดตั้งบนคอมพิวเตอร์ของคุณ) และโค้ดที่อนุญาตให้ตั้งค่ารูปแบบเวกเตอร์ (ฟอนต์ของไฟล์) เป็นสัญลักษณ์ที่ต้องแทรกในตำแหน่งที่ต้องการ เป็นที่ชัดเจนว่ารูปแบบเวกเตอร์แสดงด้วยแบบอักษร และแกนการเข้ารหัสถูกกำหนดโดยระบบปฏิบัติการและโปรแกรมที่ทำงานอยู่ในนั้น โตโต้ ไม่ว่าข้อความใดๆ ในคอมพิวเตอร์ของคุณจะเป็นชุดไบต์ก็ตาม การเข้ารหัสแต่ละรายการจะมีอักขระตัวเดียวสำหรับข้อความนั้น โปรแกรมที่แสดงข้อความนี้บนหน้าจอ (โปรแกรมแก้ไขข้อความ เบราว์เซอร์ ฯลฯ) เมื่อแยกวิเคราะห์โค้ด อ่านการเข้ารหัสของอักขระแบบร่าง และค้นหารูปแบบเวกเตอร์ที่เหมาะสมในไฟล์ฟอนต์ที่ต้องการซึ่งใช้สำหรับการแสดงสิ่งนี้ เอกสารข้อความ ทุกสิ่งทุกอย่างเป็นเพียงเรื่องธรรมดา ดังนั้นในการเข้ารหัสอักขระใด ๆ ที่เราต้องการ (เช่นจากตัวอักษรประจำชาติ) จะต้องสร้างจิตใจสองประการ - รูปแบบเวกเตอร์ของอักขระนี้เกิดจากแบบอักษรที่ใช้ในแบบอักษรและอักขระนี้สามารถ เข้ารหัสในรหัส ASCII แบบขยายหนึ่งไบต์ มีตัวเลือกดังกล่าวมากมาย สำหรับการเข้ารหัสสัญลักษณ์รัสเซียเท่านั้นคือ Asuka แบบขยายจำนวนหนึ่ง เช่น เธอปรากฏตัวขึ้นทันที ซีพี866ซึ่งสามารถใช้อักขระที่แตกต่างจากตัวอักษรรัสเซียและ ASCII เวอร์ชันขยายได้ โตโต้ ส่วนบนถูกใช้อย่างสมบูรณ์กับ Asuka เวอร์ชันพื้นฐาน (อักขระละติน 128 ตัว ตัวเลขและอึอื่น ๆ ) ซึ่งนำเสนอในภาพหน้าจอที่สั้นที่สุด และแกนของส่วนล่างของตารางที่มีรหัส CP866 มีข้อบ่งชี้เล็กน้อยบนหน้าจอ รูปลักษณ์ลดลงไม่กี่นาทีและอนุญาตให้เข้ารหัสสัญญาณ (ตัวอักษรรัสเซียและนามแฝงทุกประเภท):![](https://i1.wp.com/javarush.ru/images/article/8fd47169-3d5c-4088-838e-665d397d3ce8/1024.jpeg)
![](https://i1.wp.com/javarush.ru/images/article/9d3f99a7-8ae2-4888-80d3-28e63e64fb00/1024.jpeg)
หลักการของงานนี้หายไปเหมือนกับใน CP866 ที่อธิบายไว้ก่อนหน้านี้ - อักขระทุกตัวในข้อความจะถูกเข้ารหัสในหนึ่งไบต์เดียว ภาพหน้าจอแสดงเพื่อนครึ่งหนึ่งของตาราง KOI8-R เพราะ ครึ่งแรกคล้ายกับฐาน Asuka อย่างใกล้ชิด ดังที่แสดงในภาพหน้าจอแรกของบทความนี้ ในบรรดาลักษณะเฉพาะของการเข้ารหัส KOI8-R อาจสังเกตได้ว่าตัวอักษรรัสเซียในตารางไม่ได้เรียงตามตัวอักษรเช่นสร้างขึ้นใน CP866 หากคุณดูภาพหน้าจอแรก (ของส่วนพื้นฐานซึ่งรวมอยู่ในส่วนขยายการเข้ารหัสทั้งหมด) คุณจะสังเกตเห็นว่าใน KOI8-R ตัวอักษรรัสเซียอยู่ในตำแหน่งเดียวกันในตาราง เช่นเดียวกับตัวอักษรที่คล้ายกันของ ตัวอักษรละติน ซึ่งมาจากส่วนแรกของตาราง สิ่งนี้ทำขึ้นเพื่ออำนวยความสะดวกในการเปลี่ยนจากสัญลักษณ์รัสเซียเป็นภาษาละตินโดยทิ้งเพียงหนึ่งบิต (สองในขั้นตอนเดียวกันหรือ 128)
การพัฒนาการเข้ารหัสข้อความเพิ่มเติมนั้นเกิดจากการที่ระบบปฏิบัติการแบบกราฟิกกำลังได้รับความนิยมและความจำเป็นในการใช้เทียมในนั้นก็ค่อยๆเพิ่มขึ้น เป็นผลให้ทั้งกลุ่มถูกทำลายซึ่งในแกนกลางของมันเหมือนเมื่อก่อนเป็นเวอร์ชันขยายของ Asuka (อักขระตัวหนึ่งของข้อความถูกเข้ารหัสด้วยข้อมูลเพียงไบต์เดียว) แต่ไม่มีสัญลักษณ์เพิ่มเติมของนามแฝง กลิ่นนั้นจัดอยู่ในรหัส ANSI ซึ่งแบ่งโดย American Institute of Standardization ในสำนวนทั่วไป ชื่อของอักษรซีริลลิกยังใช้สำหรับรูปแบบที่มีอิทธิพลทางภาษารัสเซีย ก้นแบบนี้ก็ได้ วินโดว์ 1251-![](https://i2.wp.com/javarush.ru/images/article/6a5e411e-8bc2-45d2-bf21-e0b5e27d1f3a/1024.jpeg)
![](https://i0.wp.com/javarush.ru/images/article/3972bdb7-53bc-4e62-95e4-0a124a113981/1024.jpeg)
Unicode - การเข้ารหัสสากล UTF 8, 16 และ 32
เป็นไปไม่ได้ที่จะอธิบายอักขระหลายพันตัวของกลุ่มเอเชียพื้นเมืองทั่วไปในข้อมูลหนึ่งไบต์ซึ่งมีให้สำหรับการเข้ารหัสอักขระใน ASCII เวอร์ชันขยาย เป็นผลให้มีการจัดตั้งสมาคมขึ้นภายใต้ชื่อ ยูนิโค้ด(Unicode - Unicode Consortium) สำหรับความร่วมมือของผู้นำหลายรายในอุตสาหกรรมไอที (ผู้พัฒนาซอฟต์แวร์, ใครเขียนโค้ด, ใครสร้างฟอนต์) ซึ่งมุ่งมั่นที่จะเกิดการเข้ารหัสข้อความสากล รูปแบบแรกที่ออกมาภายใต้กลุ่ม Unicode คือ UTF32- ด้วยเหตุนี้ไฟล์เดียวกันที่มีข้อความเข้ารหัสใน ASCII เวอร์ชันขยายและ UTF-32 ในกรณีที่เหลือจึงมีขนาด (ความสำคัญ) ที่ใหญ่กว่ามาก สิ่งนี้ไม่ดี แต่ตอนนี้เรามีโอกาสที่จะเข้ารหัสสำหรับ YTF เพิ่มเติมจำนวนสัญญาณที่เท่ากับสองในระดับอื่นสามสิบ (ตัวเลขในชื่อการเข้ารหัสระบุจำนวนบิตที่ต้องใช้ในการเข้ารหัสหนึ่งอักขระ 32 บิตจะเพิ่มข้อมูลสูงสุด 4 ไบต์ที่จำเป็นสำหรับการเข้ารหัสอักขระตัวเดียวในการเข้ารหัส UTF สากลใหม่ ด้วยเหตุนี้ไฟล์เดียวกันที่มีข้อความเข้ารหัสใน ASCII เวอร์ชันขยายและ UTF-32 ในกรณีที่เหลือจึงมีขนาด (ความสำคัญ) ที่ใหญ่กว่ามาก สิ่งนี้ไม่ดี แต่ตอนนี้เรามีโอกาสที่จะเข้ารหัสสำหรับ YTF เพิ่มเติมจำนวนสัญญาณที่เท่ากับสองในระดับอื่นสามสิบ ( ผู้สืบทอดต่อการพัฒนา Unicode คือเมื่อโต๊ะออกมาแต่ไกลก็เป็นที่ยอมรับของจิตใจว่าเป็นพื้นที่พื้นฐานสำหรับสัญลักษณ์ทั้งหมดที่เราใช้ วอห์นใช้สองไบต์ในการเข้ารหัสอักขระหนึ่งตัว มาดูกันว่าสิ่งนี้มีลักษณะอย่างไร ในระบบปฏิบัติการ Windows คุณสามารถไปตามเส้นทาง "เริ่ม" - "โปรแกรม" - "มาตรฐาน" - "บริการ" - "ตารางอักขระ" เป็นผลให้ตารางที่มีรูปแบบเวกเตอร์ของระบบฟอนต์ที่ติดตั้งทั้งหมดในระบบของคุณจะเปิดขึ้น หากคุณเลือกชุดอักขระ Unicode ใน "พารามิเตอร์ขั้นสูง" คุณสามารถเลือกช่วงอักขระทั้งหมดที่รวมอยู่ในแบบอักษรแต่ละตัวได้ ก่อนที่จะพูดคุณสามารถดาวน์โหลดไบต์คู่นี้ได้โดยการคลิกที่รายการใดรายการหนึ่ง รหัสรูปแบบ UTF-16ผลรวมของสี่สิบหกหลักคืออะไร:![](https://i2.wp.com/javarush.ru/images/article/f350c86a-5a52-4bd7-baf6-01fb406198a7/1024.jpeg)
และตอนนี้นักเขียนของพวกเขาขาดความแข็งแกร่งและความสามารถในการจดจำสัญลักษณ์รูปแบบเวกเตอร์ในข้อความ ถึงเวลาออกข่าว..
และตอนนี้นักเขียนของพวกเขาขาดความแข็งแกร่งและความสามารถในการจดจำสัญลักษณ์รูปแบบเวกเตอร์ในข้อความ เมื่อคุณวางเมาส์เหนือ "ตารางอักขระ" คุณจะเห็นว่าแบบอักษรที่แตกต่างกันรองรับจำนวนอักขระที่แตกต่างกัน แบบอักษรที่มีอักขระ Unicode สามารถอ่านได้ค่อนข้างดี แต่ตอนนี้กลิ่นเหม็นนั้นสังเกตเห็นได้ชัดเจนไม่ใช่เพราะกลิ่นเหม็นนั้นถูกสร้างขึ้นสำหรับโค้ดที่แตกต่างกัน แต่เป็นเพราะฟอนต์ถูกเติมหรือไม่เต็มไปด้วยโค้ดสเปซเดียวด้วยแบบฟอร์มเหล่านี้และรูปแบบเวกเตอร์อื่น ๆ จนกระทั่งสิ้นสุด![](https://i1.wp.com/javarush.ru/images/article/bf37060e-ef16-4412-a171-2220f71e9568/1024.jpeg)