Які бувають формати текстових файлів? Вивчаємо формати текстових файлів

Головна / 2 Cool Reader

Програмне забезпечення обробки текстових та графічних даних.

Однією з найпоширеніших функцій сучасного персонального комп'ютерає підготовка різноманітних текстових документів.

Розрізняють дві основні групи програм підготовки текстових документів: текстові редактори та текстові процесори.

Текстовими редакторами, в основному, називають програми, що створюють текстові файли без елементів форматування (тобто не дозволяють виділяти частини тексту різними шрифтами та гарнітурами). Редактори такого роду незамінні під час створення текстів комп'ютерних програм.

Текстові процесоривміють форматувати текст, вставляти в документ графіку та інші об'єкти, які не належать до класичного поняття "текст". Слід зазначити умовність такого поділу - різноманітність програм обробки тексту дозволяє знайти редактор з будь-яким набором функцій.

Деякі текстові процесори є так званими редакторами WYSIWYG. Назву отримано за першими буквами фрази What You See Is What You Get - те, що ти бачиш, є те, що ти отримаєш. Коли кажуть, що це WYSIWYG-редактор, гарантують повну відповідність зовнішнього вигляду документа на екрані комп'ютера та його друкованої копії. До редакторів такого типу відносяться Word та StarWriter.

Деякі сучасні редактори підтримують концепцію "майже" WYSIWYG. Вигляд документа на екрані при цьому трохи відрізняється від того, як виглядатиме надрукований документ, але робиться це спеціально з метою ефективнішого використання робочого вікна документа. Прикладами "майже" WYSIWYG-редакторів є Netscape Composer та KLyX.

Формати текстових файлів

Текстові файли- Найпоширеніший тип даних у комп'ютерному світі. Існує кілька проблем, пов'язаних з текстовими файлами. Перша – надзвичайно велика кількість символів, потрібних для підтримки різних мов. Американські програмісти для роботи зі 128 символами використовують набір символів US ASCII (американський стандартний код обміну інформацією). Для підтримки інших мов часто-густо не вистачає і 256 символів, тому зараз здійснюється поступовий перехід до кодування Unicode, в якій для зберігання одного символу відводиться вже два байти (тобто є можливість закодувати 65 536 різних символів).

Друга проблема полягає в тому, що люди хочуть, щоб документи, що роздруковуються, містили графіки, діаграми, примітки, заголовки і щоб при цьому використовувалися різні шрифти. Документи, що розповсюджуються в Інтернет (онлайнові документи), можуть містити мультиплікацію, посилання на різні мережеві ресурсита звуковий супровід.

Багато текстові файли передаються як простого тексту (plain text). Простий текст складно зробити привабливим і легко читати, тому що в ньому немає шрифтів різних накреслень, графіки, заголовків, підзаголовків і т. д. Ці додаткові особливості звуться розмітки тексту (markup).

Говорячи про розмітку тексту, виділяють поняття фізичної та логічної розмітки. З використанням фізичної розмітки тексту вказується точний вигляд кожного фрагмента. Наприклад, "центрований текст, 14-м кеглем, жирний, гарнітура Times". При логічній розмітці вказується логічне значенняцього фрагмента, наприклад, "це заголовок глави". Ці два способи розмітки призначаються, як правило, для використання у різних ситуаціях. Щоб роздрукувати текст на принтері, потрібно використовувати фізичну розмітку. Повинні бути прийняті рішення про розмір полів та абзацні відступи. Ранні версії текстових процесорів використовували лише фізичний тип розмітки. При цьому для кожного фрагмента вказувався шрифт, розмір та стиль.

Під час обміну інформацією з іншими людьми фізичне оформлення тексту накладає низку обмежень, особливо для онлайнових документів. Розмір екрана, роздільна здатність, шрифти різні для різних систем. З цих причин дедалі частіше використовується логічне оформлення тексту. У деяких випадках логічне оформлення практично необхідне: під час створення електронних документівтипу сторінок WWW або під час створення та публікації об'ємних праць, таких як книги.

Для збереження розмітки документів під час передачі текстової інформації від машини до машини застосовують різні способи. Текстові процесори та видавничі системи використовують спеціально розроблені формати файлів, що містять не лише текст, а й інформацію про те, як він має бути оформлений. Основна проблема тут у несумісності таких форматів, хоча найбільше складні програмизазвичай, можуть читати файли у форматах програм-конкурентів. Прикладами такого підходу є текстові процесори Word та StarWriter.

За іншого підходу безпосередньо до тексту документа вставляються спеціальні команди розмітки. Навіть якщо у вас немає програмного забезпечення, що підтримує такий формат, ви все ж таки зумієте в ньому розібратися. Існує чимало способів подібного представлення розмітки тексту, зокрема:

HyperText Markup Language (HTML), що використовується у World Wide Web;

TeX і LaTeX, що користуються популярністю у багатьох академічних видань, а також математиків, фізиків, хіміків і навіть музикантів.

Прикладами програм, які дозволяють розмітити текст подібним чином, є Netscape Composer і LyX (KLyX).

Файли, створені різними редакторами, часто мають унікальні розширення, що дозволяють, не дивлячись у документ, здогадатися про способи розмітки тексту. Так, файли, створені редакторами підготовки plain-тексту, часто мають розширення .txt, а підготовлені в редакторі Lyx - .lyx. Текстовий процесор Word за замовчуванням створює файли у форматі MS Word (розширення.doc), але підтримує інші формати, наприклад RTF (расширение.rtf). Документи, що містять команди розмітки HTML, мають розширення.html або.htm.

Очевидно, що неможливо перерахувати всі текстові редактори. Багато хто з них "заточений" під ту чи іншу специфічну діяльність. У списку, розглянутому нижче, представлено лише невелику частину текстових редакторів.

Редактори неформатованих текстів

NotePad - вбудований в операційну систему Windows, зрозумілий і простий використання;

McEdit - має схожість з редактором Edit із MS DOS, компонента файлового менеджера mc (Midnight Commander) ОС Linux;

KEdit - найпростіший текстовий редактор, що входить до складу KDE Linux;

KWrite - текстовий редактор з рядом додаткових налаштуваньпорівняно з іншими найпростішими текстовими редакторами;

Emacs - поєднує у собі функції файлового менеджера та текстового редактора; однією з відмінностей є можливість створення макрокоманд (макросів); є у всіх клонах Unix, у тому числі Linux; Emacs можна використовувати й у MS Windows.

Редактори, які створюють текст із елементами розмітки

Word - служить до створення різноманітних друкованих документів, є компонентом офісних додатків у MS Windows;

StarWriter - входить до складу програми StarOffice, зовнішнім виглядом та функціональністю він схожий на Word, однаково добре працює як у MS Windows, так і в ОС Linux;

LyX (KLyX в KDE) - сучасний текстовий редактор, призначений для людей, які хочуть отримати документ, що виглядає професійно, але витратити на його створення мінімум часу; редактор вставляє текст команди розмітки TeX і LaTeX;

Netscape Composer - вставляє у текст команди розмітки мови HTML, існують версії як ОС Linux, так MS Windows.

При обробці інформації, пов'язаної із зображенням на моніторі, прийнято виділяти три основних напрямки: розпізнавання образів, обробку зображень та машинну графіку.

Основне завдання розпізнавання образов полягає в перетворенні вже наявного зображення формально зрозумілою мовою символів. Розпізнавання образів або система технічного зору (COMPUTER VISION) - це сукупність методів, що дозволяють одержати опис зображення, поданого на вхід, або віднести задане зображення до деякого класу (так роблять, наприклад, при сортуванні пошти). Одним із завдань COMPUTER VISION є так звана скелетизація об'єктів, при якій відновлюється якась основа об'єкта, його «скелет».

Обробка зображень(IMAGE PROCESSING) розглядає завдання у яких і вхідні та вихідні дані є зображеннями. Наприклад, передача зображення з усуненням шумів та стисненням даних, перехід від одного виду зображення до іншого (від кольорового до чорно-білого) тощо. Таким чином, під обробкою зображень розуміють діяльність над зображеннями (перетворення зображень). Завданням обробки зображень може бути як покращення залежно від певного критерію (реставрація, відновлення), так і спеціальне перетворення, що кардинально змінює зображення.

При обробці зображень є такі групи задач:

Обмежимося роботою тільки з цифровим зображенням. Цифрові перетворення за метою перетворення можна розділити на два типи:

Реставрація зображення – компенсація наявного спотворення (наприклад, погані умови фотозйомки);

Покращення зображення - це спотворення зображення з метою покращення візуального сприйняття або перетворення на форму, зручну для подальшої обробки.

Комп'ютерна (машинна) графіка(COMPUTER GRAPHICS) відтворює зображення у випадку, коли вихідною є інформація про невиразну природу. Наприклад, візуалізація експериментальних даних у вигляді графіків, гістограм або діаграм, виведення інформації на екран комп'ютерних ігорсинтез сцен на тренажерах.

Комп'ютерна графіка нині сформувалася як наука про апаратне та програмне забезпечення для різноманітних зображень від простих креслень до реалістичних образів природних об'єктів. Комп'ютерна графіка використовується майже у всіх наукових та інженерних дисциплінах для наочності та сприйняття, передачі інформації. Застосовується в медицині, рекламному бізнесі, індустрії розваг і т.д. комп'ютерної графікине обходиться жодна сучасна програма. p align="justify"> Робота над графікою займає до 90% робочого часу програмістських колективів, що випускають програми масового застосування.

Кінцевим продуктом комп'ютерної графіки є зображення.Це зображення може використовуватися в різних сферах, наприклад, воно може бути технічним кресленням, ілюстрацією із зображенням деталі в посібнику з експлуатації, простою діаграмою, архітектурним виглядом передбачуваної конструкції або проектним завданням, рекламною ілюстрацією або кадром з мультфільму.

Комп'ютерна графіка - це наука, предметом вивчення якої є створення, зберігання та обробка моделей та його зображень з допомогою ЕОМ, тобто. це розділ інформатики, який займається проблемами отримання різних зображень (малюнки, креслення, мультиплікації) на комп'ютері.

У комп'ютерній графіці розглядаються такі завдання:

Подання зображення у комп'ютерній графіці;

Підготовка зображення до візуалізації;

Створення зображення;

Здійснення дій із зображенням.

Під комп'ютерною графікоюзазвичай розуміють автоматизацію процесів підготовки, перетворення, зберігання та відтворення графічної інформації за допомогою комп'ютера. Під графічною інформацієюрозуміються моделі об'єктів та його зображення.

Якщо користувач може управляти характеристиками об'єктів, то говорять про інтерактивної комп'ютерної графіки, тобто. здатність комп'ютерної системистворювати графіку та вести діалог з людиною. Нині майже будь-яку програму вважатимуться системою інтерактивної комп'ютерної графіки.

Інтерактивна комп'ютерна графіка- це так само використання комп'ютерів для підготовки та відтворення зображень, але при цьому користувач має можливість оперативно вносити зміни у зображення безпосередньо в процесі відтворення, тобто. передбачається можливість роботи з графікою у режимі діалогу у реальному масштабі часу.

Інтерактивна графіка є важливим розділом комп'ютерної графіки, коли користувач має можливість динамічно керувати вмістом зображення, його формою, розміром і кольором на поверхні дисплея за допомогою інтерактивних пристроїв керування.

Історично першими інтерактивними системами вважаються системи автоматизованого проектування (САПР), що виникли у 60-х роках. Вони є значним етапом в еволюції комп'ютерів та програмного забезпечення. У системі інтерактивної комп'ютерної графіки користувач сприймає на дисплеї зображення, що представляє деякий складний об'єкт, і може змінювати опис (модель) об'єкта. Такими змінами можуть бути як введення та редагування окремих елементів, так і завдання числових значень для будь-яких параметрів, а також інші операції із введення інформації на основі сприйняття зображень.

Растрова графіка, загальні відомості

Комп'ютерне растрове зображення представляється як прямокутної матриці, кожна осередок якої представлена ​​кольоровою точкою.

Основою растрового представлення графіки є піксель(точка) із зазначенням її кольору. При описі, наприклад, червоного еліпса на білому тлі, необхідно вказати колір кожної точки еліпса і фону. Зображення представляється як великої кількості точок - що їх більше, тим візуально якісніше зображення і більше розмір файла. Тобто. одна і навіть картинка може бути представлена ​​з кращою або найгіршою якістю відповідно до кількості точок на одиницю довжини - роздільною здатністю (зазвичай, точок на дюйм - dpi або пікселів на дюйм - ppi).

Растрові зображеннянагадують лист картатого паперу, у якому будь-яка клітина зафарбована або чорним, або білим кольором, утворюючи разом малюнок. Піксел – основний елемент растрових зображень. Саме таких елементів складається растрове зображення, тобто. растрова графіка описує зображення з використанням кольорових точок (пікселі), розміщених на сітці.

У разі редагування растрової графіки Ви редагуєте пікселі, а не лінії. Растрова графіка залежить від роздільної здатності, оскільки інформація, що описує зображення, прикріплена до сітки певного розміру. При редагуванні растрової графіки якість її подання може змінитися. Зокрема, зміна розмірів растрової графіки може призвести до «розкушування» країв зображення, оскільки пікселі будуть перерозподілятися на сітці. Виведення растрової графіки на пристрої з нижчою роздільною здатністю, ніж роздільна здатність самого зображення, зменшить його якість.

Крім того, якість характеризується ще й кількістю кольорів та відтінків, які може набувати кожна точка зображення. Чим більшою кількістю відтінків характеризується зображення, тим більше розрядів потрібно їх описи. Червоний може бути кольором номер 001, а може і - 00000001. Таким чином, чим якісніше зображення, тим більший розмір файлу.

Растрове подання зазвичай використовують для зображень фотографічного типу з великою кількістю деталей або відтінків. На жаль, масштабування таких картинок у будь-який бік зазвичай погіршує якість. При зменшенні кількості точок губляться дрібні деталі і деформуються написи (щоправда, це може бути помітно при зменшенні візуальних розмірів самої картинки - тобто. збереженні дозволу). Додавання пікселів призводить до погіршення різкості та яскравості зображення, т.к. новим точкам доводиться давати відтінки, середні між двома і більше квітами, що межують.

За допомогою растрової графіки можна відобразити та передати всю гаму відтінків та тонких ефектів, властивих реальному зображенню. Растрове зображення ближче до фотографії, воно дозволяє більш точно відтворювати основні характеристики: освітленість, прозорість і глибину різкості.

Найчастіше растрові зображення отримують за допомогою сканування фотографій та інших зображень, за допомогою цифрової фотокамери або "захоплення" кадру відеозйомки. Растрові зображення можна отримати безпосередньо в програмах растрової або векторної графіки шляхом перетворення векторних зображень.

Поширені формати .tif, .gif, .jpg, .png, .bmp, .pcx та ін.

Векторна графіка, загальні відомості

Векторна графіка описує зображення з використанням прямих та вигнутих ліній, званих векторами, а також параметрів, що описують кольори та розташування. Наприклад, зображення деревного листа (див. рис. 1.) описується точками, якими проходить лінія, створюючи цим контур листа. Колір листа визначається кольором контуру та області всередині цього контуру.

На відміну від растрової графіки у векторній графіці зображення будується за допомогою математичних описів об'єктів, кіл та ліній. Хоча на перший погляд це може здатися складніше, ніж використання растрових масивів, але для деяких видів зображень використання математичних описів є більш простим способом.

Ключовим моментом векторної графіки є те, що вона використовує комбінацію комп'ютерних команд та математичних формул для об'єкта. Це дозволяє комп'ютерним пристроям обчислювати та поміщати у потрібному місці реальні точки при малюванні цих об'єктів. Така особливість векторної графіки дає їй ряд переваг перед растрової графікою, але водночас причиною її недоліків.

Векторну графіку часто називають об'єктно-орієнтованою графікоюабо креслярською графікою. Прості об'єкти, такі як кола, лінії, сфери, куби тощо називається примітивами, і використовуються при створенні складніших об'єктів. У векторній графіці об'єкти створюються шляхом поєднання різних об'єктів.

Для створення векторних малюнків необхідно використовувати один із численних ілюстраційних пакетів. Перевага векторної графіки в тому, що опис є простим і займає мало пам'яті комп'ютера. Однак недоліком є ​​те, що детальний векторний об'єкт може бути занадто складним, він може надрукуватися не в тому вигляді, в якому очікує користувач або не надрукується взагалі, якщо принтер неправильно інтерпретує або не розуміє векторні команди.

У разі редагування елементів векторної графіки змінюються параметри прямих та вигнутих ліній, що описують форму цих елементів. Можна переносити елементи, змінювати їх розмір, форму і колір, але це не вплине на якість їх візуального представлення. Векторна графіка залежить від дозволу, тобто. може бути показана у різноманітних вихідних пристроях з різною роздільною здатністю без втрати якості.

Векторне уявлення полягає в описі елементів зображення математичними кривими із зазначенням їх кольорів та заповнюваності.

Ще одна перевага – якісне масштабування в будь-який бік. Збільшення чи зменшення об'єктів здійснюється збільшенням чи зменшенням відповідних коефіцієнтів у математичних формулах. На жаль, векторний форматстає невигідним під час передачі зображень з великою кількістю відтінків або дрібних деталей (наприклад, фотографій). Адже кожен найменший відблиск у цьому випадку буде не сукупністю одноколірних точок, а найскладнішою математичною формулою або сукупністю графічних примітивів, кожен з яких є формулою. Це призводить до обтяження файлу. Крім того, переведення зображення з растрового у векторний формат (наприклад, програмою Adobe Strime Line або Corel OCR-TRACE) призводить до спадкування останнім неможливості коректного масштабування у велику сторону. Від збільшення лінійних розмірів кількість деталей чи відтінків на одиницю площі не стає. Це обмеження накладається роздільною здатністю вступних пристроїв (сканерів, цифрових фотокамер та ін.).

Елементи (об'єкти) векторної графіки. Об'єкти та їх атрибути

Основним логічним елементом векторної графіки є геометричний об'єкт. Як об'єкт приймаються прості геометричні фігури (так звані примітиви - прямокутник, коло, еліпс, лінія), складові фігури або фігури, побудовані з примітивів, заливки кольорів, у тому числі градієнти.

Важливим об'єктом векторної графіки є сплайн. Сплайн - це крива, з якої описується та чи інша геометрична фігура. На сплайнах побудовані сучасні шрифти TryeType та PostScript.

Об'єкти векторної графіки легко трансформуються і модифікуються, що практично ніякого впливу якість зображення. Масштабування, поворот, викривлення можуть бути зведені до пари-трійки елементарних перетворень над векторами.

Якщо растрової графіці базовим елементом зображення є точка, то векторної графіці - лінія. Лінія описується математично як єдиний об'єкт, і тому обсяг даних для відображення об'єкта засобами векторної графіки значно менше, ніж у растрової графіці.

Лінія – елементарний об'єкт векторної графіки. Як і будь-який об'єкт, лінія має властивості: форму (пряму, криву), товщину, колір, накреслення (суцільну, пунктирну). Замкнуті лінії набувають властивості заповнення. Простір, що охоплюється ними, може бути заповнений іншими об'єктами (тектури, карти) або вибраним кольором. Найпростіша незамкнена лінія обмежена двома точками, іменованими вузлами. Вузли мають властивості, параметри яких впливають на форму кінця лінії і характер сполучення з іншими об'єктами. Інші об'єкти векторної графіки складаються з ліній. Наприклад, куб можна скласти із шести пов'язаних прямокутників, кожен з яких, у свою чергу, утворений чотирма зв'язаними лініями.

Найчастіше використовуваний тип даних у комп'ютерному світі та інтернеті – текстовий. Відео та графіка набагато яскравіше і взагалі краще один раз побачити, ніж сто разів почути. Ну і почути також непогано – на цей випадок є аудіо-формати даних. Проте правлять комп'ютерний бал непоказні та скромні літери та цифри. Без них нікуди навіть назви іншому файлу не дати. Текстові дані важливі та різноманітні – це і книги, і документи, і програмний код. І кожного призначення існують власні варіанти форматів. Саме про них і йтиметься у цій статті. Правда слід відразу ж зробити одне застереження - у цьому огляді не будуть порушені формати електронних книг, вони заслуговують на окрему розмову. Тут же буде говорити про формати саме документів.

Текстовий формат – TXT (PlainText)

Отже – найпростіше із можливих, формат TXT. Це текст у його, по суті, чистому та незамутненому вигляді. Містить лише вміст тексту та абсолютний мінімум службових даних – символи початку та кінця тексту, перекладу каретки тощо.

Незважаючи на практично спартанську простоту, формат не позбавлений варіантів та відмінностей. По-перше, є деякі відмінності між Windows, Unix та MacOS версіями у яких використовуються різні символи кінця рядка. Також відмінності можуть бути обумовлені використанням 8-бітної (ASCII) або 16-бітної (UNICODE) кодових сторінок.

Однак, незважаючи на це, формат TXT відрізняється крайньою універсальністю, за що дуже любимо програмістами та системними адміністраторами.

Формати документів MS Office та аналоги – DOC, DOCX, RTF, ODT

При всій універсальності та простоті TXT абсолютно непридатний для створення власне документів – текстів, призначених для друку з дотриманням певних правил та норм оформлення. Оскільки подібні документи, крім самого тексту, повинні містити ще масу інформації про оформлення та форматування тексту. А також про формат та розмір аркуша паперу, де вони мають розміщуватися.

Для цього були створені досить численні формати різних офісних пакетів. Найбільш популярним та фактично близьким до універсального можна вважати формати MS Word – doc та docx. Перший є спеціальним закритим форматом, створеним компанією Microsoft для свого текстового редактора (точніше цілу лінійку форматів – за час свого існування він кілька разів піддавався удосконаленню). Поряд із ним ще на зорі розвитку компанії у співпраці з корпорацією Adobe було створено формат RTF (Rich Text Format). На відміну від DOC, структура цього формату доступна і він успішно підтримується практично всіма існуючими текстовими редакторами. Хоча й дещо поступається DOC за набором доступних функцій.

Закритість розробок Microsoft привела до створення відкритого офісного пакету Open Office. Для якого було розроблено власний формат ODT (OpenDocument Text Format). Формат не дуже добре підтримується комерційними редакторами, зокрема MS Wordі може відкриватися ними помилково.

Нарешті 2007 року Microsoft вирішила відмовитися від ставки на формат DOCі розробила сімейство форматів Office Open XML, в яке входить DOCX, що став основним форматом нових версій MS Word.

Формат PDF

Відмовившись від співпраці з Microsoft, компанія Adobe рушила своїм шляхом. Нею був розроблений формат PDF, який був форматом не стільки для розробки документів, скільки для їх перегляду та друку. На відміну від попередньої групи, що являють собою форматований текст, вигляд якого тим не менш може змінюватися в залежності від того на якій конкретній машині він відображається або друкується, PDF є форматом документа принципово незмінного і зберігаючого зовнішній виглядта верстку в будь-яких умовах. Також він підтримує досить широкий спектр поліграфічних елементів, так і додаткового сервісу(наприклад захист документа паролем від редагування чи друку тощо). Все це робить PDF скоріше форматом для поширення складних та професійно виконаних документів і навіть книг.

Колись текстові дані містилися лише у вид контейнера - ТХТ. Інших не було. Нині їх кількість, можливо, наближається до півсотні. Якими ми користуємось постійно, з іншими стикаємося дуже рідко. Про існування третіх ми навіть не підозрюємо. Розглянемо найпоширеніші сховища текстових даних з точки зору зручностівикористання.
<<>>

ТХТ(«простий текстовий»)

Родоначальник "жанру". Активно використовується досі. Так як текст зберігається у вигляді послідовності символів, то розмір файлу в байтах дорівнює числу символів плюс символи, що не друкуються (знак пробілу, табуляції, знак кінця абзацу та інші - їх ще називають знаками форматування). За рахунок цього досягається мінімальний розмір файлу. Проте можливості форматування подібних документів дуже обмежені. По суті це просто текст. Текстові дані можуть зберігатися у контейнерах з розширенням ТХТ. По суті, ці розширення є обов'язковими. Перейменуйте ТХТ на DOC, нічого не зміниться. Внутрішня структура залишиться тією ж. Так само, змінивши розширення DOC на ТХТ, ви отримаєте той самий «вордовський» файл. Навіщо тоді потрібні ці три букви після точки? Для правильної інтерпретації програм, які відкривають їх за замовчуванням.

RTF ("Rich Text Format" - "формат збагаченого тексту")

Вільний міжплатформний формат зберігання розмічених текстових документів, створений Microsoft 1987 року. Нині він поширений, тому більшість сучасних текстових редакторів його підтримують. Створивши RTF на платформі Windows, він чудово читатиметься і редагуватиметься на інших платформах (Apple, Linux та інші). Стандарт де-факто у поліграфії. Проте чи всі програми однаково правильно його створюють. Помічено, що в документі, створеному в OpenOffice, іноді злітало форматування, а частина тексту перетворювалася на символи, що не читаються.

RTF дозволяє робити і зберігати досить складне форматування, вставляти виноски, колонтитули, малюнки, таблиці і формули, хоча в цьому він все ж таки поступається формату DOC. Поступається він DOC і обсяг файлів: складні документи більш компактно зберігаються в DOC-файлах (прості - навпаки). Однак RTF виграє суперечку з DOC щодо безпеки, тому що не використовує макроси. Тому заражені макровірусами файли Word можна «вилікувати» збереженням у форматі RTF. Крім того, формат RTF стійкий до пошкодження файлу. Якщо в DOC-файлі змінити хоча б один байт, він уже не відкриється в Word. А пошкодження файлу RTF може призвести лише до втрати пошкодженого шматка тексту.

DOC (від англ. "Document")

Спочатку це розширення використовувалося для позначення простих текстових файлів без форматування, проте на початку 90-х Microsoft фактично його "приватизувала". Тому зараз DOC асоціюється лише із продуктами цієї компанії. Цей формат забезпечує великі можливості форматування тексту (включені сценарії, макроси). За рахунок цього погіршилася сумісність із текстовими редакторами сторонніх розробників. У файлі цього формату міститься величезна кількість інформації про шрифти, зображення символів, абзацні відступи та інтервали, навіть якщо все це вам зовсім не потрібно. Саме з цієї додаткової інформації файл, що містить тільки текст, перевищує розмір RTF-файлу. Однак при включенні в документ різних графічних елементів та зображень DOC виграє у розмірі та забезпечує більшу сумісність. На відміну від ТХТ та RTF DOC є бінарним форматом, що робить його нечитабельним у простих текстових редакторах. Наприклад, блокнот може переглядати деякі RTF-файли. Популярний нарівні із RTF.

DOCX

З появою Office 2007 компанія Microsoftперейшла на нові формати, що базуються на Office Open XML (візуально відрізняються тим, що до розширень додано букву «х» на кінці). Формат є zip-архівом, що містить текст у вигляді XML, графіку та інші дані. Для зменшення розміру файлу використовується компресія ZiP. Документи сумісні з Office 2000/XP/2003, лише якщо встановлено Microsoft Office Compatibility Pack (знайти і завантажити його можна з офіційного сайту Microsoft, розмір файлу 27,8 Мб). Якщо потрібно терміново конвертувати DOCX в інший формат, скористайтесь послугами сайту http://docx-converter.com/. Якщо ви користуєтеся останньою версією Office і плануєте передавати файли будь-кому, зберігайте документи в RTF або DOC.

ODT/ODF ("Open Document Format")

ODF - загальне найменування відкритого форматудокументів для офісних програм (текст, таблиці, малюнки, бази даних, презентації). Текстові дані зберігаються у файлах із розширенням ODT. Стандарт був розроблений індустріальним співтовариством OASIS і заснований на форматі XML. 1 травня 2006 року прийнято як міжнародний стандарт ISO/IEC 26300. ODF є доступним для всіх і може бути використаний без обмежень. Така собі безкоштовна альтернатива закритим форматам Microsoft. Для того, щоб читати та записувати формат ODF у продуктах Microsoft, було випущено плагін Sun ODF Plugin for Microsoft Office. Підтримка ODF у Microsoft Office 2007 має бути введена з випуском з Service Pack 2. На жаль, як і раніше, поступається за поширеністю RTF і DOC.

HTML

(Від англ. Hypertext Markup Language - «мова розмітки гіпертексту»)

Стандартна мова розмітки документів в Інтернеті (розширення.htm/html). Веб-сторінки створюються за допомогою мови HTML (або XHTML). HTML був розроблений британським ученим Тімом Бернерсом-Лі в 1991 році як мова для обміну науковою та технічною документацією, придатна для використання людьми, які не є фахівцями в галузі верстки. Текст з розміткою HTML повинен був без стилістичних та структурних спотворень відтворюватися на різних пристроях. Однак пізніше активне впровадження мультимедійного та графічного оформлення порушило ці плани. Для перегляду HTML-документів не потрібні спеціальні редактори, досить стандартні засоби, вбудовані в ОС. По відкритості, індексованості, конвертованості та читання перевершує будь-які інші формати. На жаль, графіка зберігається в окремій папці. Internet Explorerдозволяє зберігати текст і графіку в одному документі формату МНТ, але інші браузери можуть не відкрити подібний файл.

СНМ (Compiled HTML)

СНМ, по суті, це набір скомпілованих HTML-документів, щось на зразок архіву з веб-сторінок, за рахунок чого його розмір менший. Для перегляду використовується утиліта, вбудована у Windows 98/NT та вище. Існують і сторонні браузери. Для створення СММ-файлів можна використовувати безкоштовний засіб HTML Help Workshop. Зараз активно використовується як довідка різних додатків.

PDF

(Portable Document Format - формат документів, що переноситься)

Кросплатформовий формат електронних документів, створений фірмою Adobe Systems з використанням ряду можливостей PostScript. В першу чергу призначений для представлення в електронному виглядіполіграфічної продукції Для перегляду можна використовувати офіційну безкоштовну програму Adobe Reader, а також програми інших розробників. Зручний тим, що вирішена проблема зі форматуванням, що злетіло, неправильним відображенням впроваджених графічних елементів, відсутністю тих чи інших шрифтів. Файл на будь-якій платформі буде відображено в такому вигляді, в якому він був створений. Традиційним способом створення PDF-документів є наступний: документ як такий готується у своїй програмі, а потім експортується до PDF. Деякі програми мають можливість прямого експорту (без використання віртуального принтера). Наприклад, OpenOffice.org. У MS Word такої опції поки що немає. Стандарт де-факто більшість документації.

DjVu («дежа вю»)

Технологія стиснення зображень із втратами, розроблена спеціально для зберігання сканованих документів - книг, журналів, рукописів та ін., де наявність формул, схем, малюнків та рукописних символів робить надзвичайно трудомістким їхнє повноцінне розпізнавання. Також є ефективним рішенням, якщо необхідно передати всі аспекти оформлення, наприклад, історичних документів. Дуже поширений багато бібліотек використовують його для зберігання відсканованих наукових книг. DjVu іноді називають "тексто-графічним" форматом. Суть технології DjVuполягає в автоматичному розбиття зображення на кілька ділянок (наприклад, текст, логотип фірми та растрова фотографія), для кожного з яких вибирається оптимальний алгоритм стиснення. Крім того, DjVu-файл може містити вбудований інтерактивний зміст та активні області - посилання, що дозволяє реалізовувати зручну навігацію. Дає виграш у розмірі файлу порівняно з GIF-форматом у середньому у півтора-два десятки разів.

XML-формати

(«extensible Markup Language»)

Існує досить багато текстових форматів, створених для одного конкретного пристроюабо програми. Наприклад, електронні книги. До них можна зарахувати Rocket e-book (.rb), Microsoft Reader (.lit), PalmDoc, MobiPocket (.pro) і т.д. Як правило, всі вони створені за допомогою мови XML. Найуспішнішим і найпоширенішим є формат FictionBook (FB2). На даний момент це найпрогресивніший і найперспективніший формат для електронних книг. Єдиний його недолік -тривалі тимчасові витрати під час підготовки початкового тексту. Що окупається зручністю читання. У FictionBook упор зроблено структурування документа: з допомогою тегів можна виділяти різні області тексту (глави, заголовки, цитати, врізки). Як все виглядатиме на екрані, залежить від програми-рідера. Якщо потрібно оформити документ певним чином, є можливість приєднання таблиці стилів.

Набір правил, за якими зберігаються дані файлу, називається форматом файла. Різні типи файлів, такі як текстові файли, растрова графіка тощо, використовують різні формати. Загалом для одного типу файлів може бути визначено декілька різних форматів, хоча часто під типом файлу і форматом розуміють те саме. Формат файлу визначається розширенням імені файлу, яке додається до імені файлу при його збереженні в певному форматі, наприклад, DOC, GIF і т.д.

Як правило, формати файлів створюються для використання в строго визначеній прикладної програми. Наприклад, графічні об'єкти, створювані у відомому пакеті векторної графіки CorelDRAW, зберігаються як файли з розширенням CDR, а зображення, що формуються іншим графічним пакетом, CorelXara записуються на диск як файли з розширенням XAR. Деякі формати не пов'язуються з конкретними програмами, тобто є універсальними. Одним з найвідоміших універсальних форматівє форматом TXT (формат текстових файлів DOS).

Часто використовують стиск комп'ютерних файлівдля економії місця на носії. Існує багато способів стиснення файлів. Ці методи залежать від вихідного формату файлів. Як правило, чим вищий ступінь стиснення, тим повільніше виконуються операції читання та запису.

Що стосується алгоритмів стиснення, то є як алгоритми стиснення без втрати даних, так і алгоритми, при використанні яких можлива втрата даних.



Стиснення без втрат гарантує, що всі дані, які були у файлі до стиснення, будуть присутні і після розпакування файлу. Механізми стиснення без втрат використовуються при збереженні тексту або числових даних, наприклад, електронних таблиць або файлів документів. Прикладами алгоритмів стиснення без втрат можуть бути загальновідомі алгоритми ZIP, ARJ, та інші.

Дамо короткий описосновних використовуваних форматів:

§ American Standard Code for Information Interchange ASCII (TXT). Формат текстових файлів розроблений Американським інститутом стандартів (American National Standards Institute). Підтримується усіма операційними системамита всіма програмами. Є текстовим файлом в DOS-кодуванні, немає функції вставити малюнок, немає форматування, працює у всіх машинах, можливо створити тільки файли малого обсягу.

§ ANSI (TXT). Формат текстових файлів у кодуванні ANSI (для кодової сторінки Microsoft Windows)

§ MsWord для DOS, Windows (.DOС). Формат документів, розроблений корпорацією Microsoft, підтримується програмами для MS-DOS та більшістю текстових процесорів. Він зберігає вихідне форматування документів, а також стилі зображення символів. Крім текстової інформації, файли цього формату можуть містити графічні зображення з різними параметрами. Підтримує 256 кольорів. Не підтримує стиснення. Використовується в основному для обміну форматованими текстовими даними між різними платформами та програмами.

§ Hypertext Markup Language HTML (HTM, HTML). Мова розмітки гіпертекстових документів. Всі сторінки, розташовані в Інтернеті, створені з використанням цієї спеціальної мови. HTML-документи являють собою ASCII-файли, доступні для перегляду та редагування в будь-якому текстовому редакторі. Відмінністю від звичайного текстового файлу є те, що в HTML-документах є спеціальні команди-теги, які визначають правило форматування документа. Якщо вам вдалося освоїти мова HTML, Ви можете створити сторінки для Internet. Додаючи теги (мітки) до звичайного тексту, ви змушуєте програму перегляду відображати цей текст певним чином та розміщувати на сторінці зображення. Якщо ви вивчили Java і JavaScript, знаєте, як розширити можливості HTML, поміщаючи всередині тегів команди, написані мовою сценаріїв.

§ Portable Document Format PDF (.PDF). Цей формат зберігання документів, розроблений Adobe, претендує на роль відкритого друкарського стандарту для Web. Він сприймається як альтернатива HTML. Недоліком HTML є те, що документи, перекладені в HTML, зазвичай не зберігають початковий формат, причому HTML пропонує при перегляді дуже обмежена кількістьгарнітур. Навпаки, користувачі програми Acrobatі PDF-інструментарію для створення, розповсюдження та перегляду документів у початковому форматі, знають, що читачі побачать публікацію саме такою, якою вона була зроблена. Формат PDF незамінний, якщо потрібно отримати точну копію документа. Як приклад успішного застосування PDF для документів на російській мові наведемо сервер "Московських новин" в Internet. Представлені на ньому в електронному вигляді матеріали повністю повторюють паперовий оригінал, надрукований друкарським способом.

§ Standard Generalized Markup Language (SGML). Розвиток HTML перекладається як стандартна мова узагальненої розмітки. Є інструментальним набором механізмів створення структурованих документів, розмічених за допомогою дескрипторів (tags). У порівнянні з HTML він забезпечує більш гнучкі та різнобічні можливості форматування в Web. Однак SGML відрізняється і підвищеною швидкістю, тому як простіший засіб застосовується PDF. Могутність SGML полягає у його міжплатформному структурному підході до опису змісту документів. SGML є власне метамовою, тобто. призначений для опису мов розмітки, які застосовуються під час створення документів.


Для чого вам текст?

Сьогодні існує три найпоширеніші текстові формати – TXT, RTF та DOC. У чому їхня відмінність і що їх об'єднує? Загальне у них одне: усі вони зберігають текстову інформацію. Відмінність полягає в тому, які можливості форматування та обробки тексту вони надають, а також – наскільки доступна інформація, що зберігається в них щодо сумісності програм.

Найпростіший текстовий формат

Найстаріший і найскромніший за можливостями формат. Все, що можна робити з текстом у цьому форматі – це власне вводити текст і зберігати розбиття на абзаци. Ця простота в певних ситуаціях набуває значущості універсальності та прозорості: TXT легко доступний для читання в різних додаткахта на різних платформах. Крім того, багато програм, що навіть не мають своїм безпосереднім завданням роботи з текстом, вміють зберігати текст у форматі TXT.

TXT-процесори

З DOS-івських часів багато хто пам'ятає текстовий процесор Lexicon, який умів обробляти TXT-формат на досить високому рівні. Сьогодні основним інструментом для роботи з TXT є стандартний Блокнот Windows. Той, кому його функцій здається недостатньо, завжди може знайти собі редактор за смаком та потребами у всесвітньому павутинні, у тому числі безкоштовно. Наприклад, використовуючи freeware-програму Vega Костянтина Шереметьєва, ви навряд чи побачите повідомлення про те, що текстовий файл, що відкривається, занадто великий; як запевняє автор, Vega версії 2.04 відкриває файли об'ємом до 2 Gb (!), а сама програма займає при цьому всього 9,5 kb (порівняйте, Блокнот у Windows XP «важить» близько 65 kb); при цьому Vega навіть зручніша за Блокнот і не вимагає установки. А ось інший зразок можливостей опрацювання «простого тексту». Текст, який ви читаєте, було набрано у процесорі UltraEdit від IDM Computer Solutions. Його сильна сторона – спеціальне відображення та обробка синтаксису мов програмування, але і з найпростішим текстом він може творити дива. Поціновувачам зручних русифікованих програм, ергономічних і, головне, «знають толк» у специфіці кириличних кодувань, варто познайомитися з програмою Патріот.

Форматування та універсальність

Rich Text Format – так розшифровується абревіатура, що стоїть у назві формату, створеного корпорацією Microsoft. RTF є текст, розмічений за допомогою спеціальних «керуючих слів», що дозволяє виробляти і зберігати досить складне форматування, вставляти виноски, колонтитули, малюнки, таблиці та формули, хоча в обробці цих додаткових об'єктів RTF поступається формату DOC. Поступається він DOC і обсяг файлів: використання для форматування тексту «керуючих слів» замість стильової таблиці не призводить до компактності. Проте, RTF виграє суперечку з DOC щодо безпеки, т.к. його внутрішня організація передбачає зберігання макрокоду і, отже, невразлива до макровирусам.

RTF-процесори

RTF використовується як основний або підтримуваний формат у багатьох, якщо не в більшості програм обробки тексту. Хорошим інструментом може бути, наприклад, Hieroglyph Михайла Морозова. У програмі реалізована як перевірка правопису російської, а й функція автоматичної зміни мовної розкладки клавіатури. Текстовий процесор Atlantis від Rising Sun Solutions, що існує як у комерційній, так і в безкоштовній версіях, напевно влаштує багатьох користувачів продуманістю інтерфейсу, наявністю великої кількості швидких клавіш, змінною інструментальною панеллю та ін. функціями. З RTF вміє працювати і вже згадуваний редактор Patriot.

Найбільший текстовий формат

У формат DOC включені найширші можливості обробки та форматування тексту, включаючи створення виносок та коментарів, а також можливості створення, розміщення та редагування таблиць, діаграм, зображень та інших елементів. Правда, в повному обсязі і найбільш коректно всі ці можливості реалізовані тільки в MS Word, чому сприяє позиція Microsoft, яка не розкриває поточні специфікації популярного формату. Незважаючи на те, що DOC "розуміють" та інші програми, їх виробникам не завжди вдається забезпечити його коректне розпізнавання. На відміну від TXT і RTF, DOC є бінарним форматом, що робить його нечитабельним у простих текстових редакторах і, більше, не забезпечує повної сумісності його власних версій.

DOC-процесори

Основним і, зважаючи на згадані причини, «незамінним» текстовим процесором для роботи з DOC є MS Word, який найповніше реалізує всі можливості цього формату. Чимало продуктивності та функціональності Ворду додають сторонні розробки – всілякі доповнення, макроси та програми існують у великих кількостяхна просторах мережі. Конкуренцію Ворду забезпечують, наприклад, WordPerfect компанії Corel, StarOffice від Sun Microsystems та безкоштовний OpenOffice.org. Працюючи і в Word, і в інших програмах, слід пам'ятати про проблему сумісності форматів і зберігати документ у DOC, лише якщо ви впевнені, що несумісності не виникне.

Застосовність форматів

Безпідставно стверджувати, що один із розглянутих форматів гірший за інші, не враховуючи особливостей завдань, для вирішення яких слід їх використовувати. Оскільки ми не ставитимемо перед собою завдання верстки в текстовому процесорі, то вибір практично однозначний. Для підготовки обсягів тексту від середніх до дуже великих та забезпечення «повного розуміння» набраного будь-якою програмою верстки найбільш зручним є використання найпростішого, компактного та універсального засобу набору та зберігання тексту – формату TXT. Що ж до використання у верстці інших текстових форматів, то дуже залежить від реалізації їх підтримки у конкретній програмі макетування.
OpenOffice.org – міжнародний проект з відкритими вихідними кодами, спрямований на створення універсального офісного пакета, що працює на різних операційних платформах, що має відкритий API та формат файлів, що базується на XML. По суті OpenOffice.org це набір програм, розроблений в рамках даного проекту. До нього входять: текстовий процесор, електронні таблиці, графічний редактор, система презентацій та система доступу до даних. За своїми можливостями він можна порівняти з аналогічними комерційними програмами і цілком може розглядатися як альтернатива їм. В даний час OpenOffice.org випускається під подвійним ліцензуванням: GPL та SISSL. Незважаючи на відмінності в цих ліцензіях, кінцевого користувача OpenOffice.org є вільним.

OpenOffice.org веде своє походження від офісного пакету StarOffice, розробленого німецькою фірмою StarDivision у середині 90-х років. Восени 1999 року корпорація Sun купила StarDivision. У червні 2000 року вже під торговою маркою Sun вийшов StarOffice 5.2 під MS Windows, Linux і Solaris. 13 жовтня 2000 року були відкриті вихідні тексти StarOffice (за винятком коду деяких модулів, розроблених третіми фірмами) і цей день офіційно вважається днем ​​народження OpenOffice.org. Сьогодні над кодом OpenOffice.org працюють як добровольці з усього світу, і програмісти корпорації Sun.

В даний час з одного вихідного коду, що розробляється спільнотою OpenOffice.org, випускаються два продукти: StarOffice, до якого додаються компоненти під пропрієтарною ліцензією і вільний OpenOffice.org. У OpenOffice.org більшість пропрієтарних компонентів, що є у StarOffice, замінено їх вільними аналогами.

(За інформацією cnews.ru.)

© 2022 androidas.ru - Все про Android