Какие виды информации содержатся в файлах
Текущая версия страницы пока не проверялась опытными участниками и может значительно отличаться от версии, проверенной 4 августа 2019;
проверки требует 1 правка.
У этого термина существуют и другие значения, см. Каталог.
Катало́г — каталог, директория, справочник, папка — объект в файловой системе, упрощающий организацию файлов.
Ранее часто использовалось слово директо́рия[1], которое представляет собой транслитерацию с английского (англ. directory).
Типичная файловая система содержит большое количество файлов, и каталоги помогают упорядочить её путём их группировки. Каталог может быть реализован как специальный файл, где регистрируется информация о других файлах и каталогах на носителе информации[1].
Корневой каталог[править | править код]
Каталог, прямо или косвенно включающий в себя все прочие каталоги и файлы файловой системы, называется корневым. В Unix-подобных ОС он обозначается символом / (дробь, слеш), в DOS и Windows исторически используется символ (обратный слеш), но с некоторого времени поддерживается и /.
Текущий каталог[править | править код]
Текущим называется каталог, с которым работает ОС, если ей не указать другого каталога. Он обозначается точкой (.).
Для смены текущего каталога на другой используется команда cd; без указания целевого каталога она меняет каталог на домашний (в Unix-подобных ОС) или возвращает текущий (в Windows).
Подкаталог[править | править код]
Каталог, находящийся внутри текущего или любого другого последующего далее по иерархии каталога, называют подкаталогом. Также это название применимо к любому каталогу, который находится в любом другом каталоге, местоположение которого может быть не указано. Например, фраза «подкаталог каталога sample» обозначает нахождение в файловой системе каталога sample, содержащего подкаталог.
Родительский каталог[править | править код]
Родительским каталогом называется каталог, в котором находится текущий. Он обозначается двумя точками (..).
Пример (переход в родительский каталог):
Каталоги в UNIX[править | править код]
Каталог в UNIX — это файл, содержащий несколько inode и привязанные к ним имена.[2] В современных UNIX-подобных ОС вводится структура каталогов, соответствующая стандарту FHS.
Иерархия каталогов в Windows[править | править код]
Каталог, который не является подкаталогом ни одного другого каталога, называется корневым. Это значит, что этот каталог находится на самом верхнем уровне иерархии всех каталогов. В Windows каждый из дисков имеет свой корневой каталог (C:, D: и т. д).
Каталоги в Windows бывают системные (служебные, созданные ОС) и пользовательские (созданные пользователем). Пример системных каталогов: «Рабочий стол», «Корзина», «Сетевое окружение», «Панель управления», каталоги логических дисков и т. п.
Термин «Папка»[править | править код]
Термин папка (англ. folder) был введён для представления объектов файловой системы в графическом пользовательском интерфейсе путём аналогии с офисными папками. Он был впервые использован в Mac System Software, предшественнице Mac OS, а в системах семейства Windows — с выходом Windows 95.[3] Эта метафора стала использоваться в большом числе операционных систем: Windows NT, Mac OS, Mac OS X, а также в средах рабочего стола для систем семейства UNIX (например, KDE и GNOME).
До выхода Windows 95 это понятие называлось словами каталог или директория.
В этой терминологии папка, находящаяся в другой папке, называется подпапка, вложенная папка или дочерняя папка. Все вместе папки на компьютере представляют иерархическую структуру (дерево каталогов). Подобная древообразная структура возможна в операционных системах, не допускающих существование «физических ссылок» (таких как Windows 3.x и 9x, которые допускали только ярлыки). В общем случае файловая система представляет собой ориентированный граф.
См. также[править | править код]
- Общий ресурс
Примечания[править | править код]
Литература[править | править код]
- Власов К.А. Файловая система: термины и понятия // Total Commander: эффективная работа с файлами и архивами. — БХВ-Петербург, 2012. — 752 p. — ISBN 9785977500227.
Все
программы и данные хранятся в долговременной(внешней) памяти компьютера в виде
файлов.
Файл — это определенное количество информации (программа или данные), имеющее имя и хранящееся в долговременной (внешней) памяти.
Имя файла. Имя файла состоит из двух частей, разделенных точкой: собственно имя файла и расширение, определяющее его тип (программа, данные и так далее). Собственно имя файлу дает пользователь, а тип файла обычно задается программой автоматически при его создании.
В различных операционных системах существуют различные форматы имен файлов. В операционной системе MS-DOS собственно имя файла должно содержать не более 8 букв латинского алфавита, цифр и некоторых специальных знаков, а расширение состоит из трех латинских букв, например: proba.txt
В операционной системе Windows имя файла может иметь длину до 255 символов, причем можно использовать русский алфавит, например: Единицы измерения информации.doc
Таблица 1.1. Типы файлов и расширений | ||||||||||||||
|
Пример файловой системы:
Файловая система. На каждом носителе информации (гибком, жестком или лазерном диске) может храниться большое количество файлов. Порядок хранения файлов на диске определяется используемой файловой системой.
Каждый диск разбивается на две области: область хранения файлов и каталог. Каталог содержит имя файла и указание на начало его размещения на диске. Если провести аналогию диска с книгой, то область хранения файлов соответствует ее содержанию, а каталог — оглавлению. Причем книга состоит из страниц, а диск — из секторов.
Для дисков с небольшим количеством файлов (до нескольких десятков) может использоваться одноуровневая файловая система, когда каталог (оглавление диска) представляет собой линейную последовательность имен файлов (табл. 1.2). Такой каталог можно сравнить с оглавлением детской книжки, которое содержит только названия отдельных рассказов.
Таблица 1.2. Одноуровневый каталог | ||||||||||
|
Если на диске хранятся сотни и тысячи файлов, то для удобства поиска используется многоуровневая иерархическая файловая система, которая имеет древовидную структуру. Такую иерархическую систему можно сравнить, например, с оглавлением данного учебника, которое представляет собой иерархическую систему разделов, глав, параграфов и пунктов.
Начальный, корневой каталог содержит вложенные каталоги 1-го уровня, в свою очередь, каждый из последних может содержать вложенные каталоги 2-го уровня и так далее. Необходимо отметить, что в каталогах всех уровней могут храниться и файлы.
Например, в корневом каталоге могут находиться два вложенных каталога 1-го уровня (Каталог_1, Каталог_2) и один файл (Файл_1). В свою очередь, в каталоге 1-го уровня (Каталог_1) находятся два вложенных каталога второго уровня (Каталог_1.1 и Каталог_1.2) и один файл (Файл_1.1) — рис. 1.3.
Файловая система — это система хранения файлов и организации каталогов.
Рис. 1.3. Иерархическая файловая система |
Рассмотрим иерархическую файловую систему на конкретном примере. Каждый диск имеет логическое имя (А:, В: — гибкие диски, С:, D:, Е: и так далее — жесткие и лазерные диски).
Пусть в корневом каталоге диска С: имеются два каталога 1-го уровня (GAMES, TEXT), а в каталоге GAMES один каталог 2-го уровня (CHESS). При этом в каталоге TEXT имеется файл proba.txt, а в каталоге CHESS — файл chess.exe (рис. 1.4).
Рис. 1.4. Пример иерархической файловой системы |
Путь к файлу. Как найти имеющиеся файлы (chess.exe, proba.txt) в данной иерархической файловой системе? Для этого необходимо указать путь к файлу. В путь к файлу входят записываемые через разделитель «» логическое имя диска и последовательность имен вложенных друг в друга каталогов, в последнем из которых содержится нужный файл. Пути к вышеперечисленным файлам можно записать следующим образом:
C:GAMESCHESS
С:ТЕХТ
Путь к файлу вместе с именем файла называют иногда полным именем файла.
Пример полного имени файла:
С GAMESCHESSchess.exe
Представление файловой системы с помощью графического интерфейса. Иерархическая файловая система MS-DOS, содержащая каталоги и файлы, представлена в операционной системе Windows с помощью графического интерфейса в форме иерархической системы папок и документов. Папка в Windows является аналогом каталога MS-DOS
Однако иерархическая структура этих систем несколько различается. В иерархической файловой системе MS-DOS вершиной иерархии объектов является корневой каталог диска, который можно сравнить со стволом дерева, на котором растут ветки (подкаталоги), а на ветках располагаются листья (файлы).
В Windows на вершине иерархии папок находится папка Рабочий стол. Следующий уровень представлен папками Мой компьютер, Корзина и Сетевое окружение (если компьютер подключен к локальной сети) — рис. 1.5.
Рис. 1.5. Иерархическая структура папок |
Если мы хотим ознакомиться с ресурсами компьютера, необходимо открыть папку Мой компьютер.
Иерархическая система папок Windows
1. В окне Мой компьютер находятся значки имеющихся в компьютере дисков. Активизация (щелчок) значка любого диска выводит в левой части окна информацию о его емкости, занятой и свободной частях.
2. Виды информации. Представление информации.
Виды информации. Представление информации.
По
способу восприятия
информации человеком можно выделить визуальную (зрительную), аудиальную
(звуковую), обонятельную (запахи) вкусовую, тактильную (осязательную),
вестибулярную и мышечную информацию (рис.3).
Рис. 3.Виды информации по способу восприятия
Визуальную информацию люди
воспринимают с помощью глаз. Человек может увидеть объект или явление, букву
или цифру, картину или фильм, схему или карту, жест или танец. Аудиальную
информацию люди воспринимают с помощью ушей. Человек может услышать
произвольные звуки, шум, музыку, пение и речь. Обонятельную информацию,
или запахи, человек воспринимает с помощью носа. Запах можно охарактеризовать
как терпкий или пряный, приятный или неприятный, тяжелый или легкий. Вкусовую
информацию человек воспринимает с помощью языка. Вкус может быть горький или
сладкий, кислый или соленый. Тактильнуюинформацию человек воспринимает кожей. Прикасаясь к предмету,
можно определить его температуру (холодный или горячий) и вид поверхности
(гладкая или шероховатая, мокрая или сухая). Вестибулярную информацию
человек воспринимает с помощью вестибулярного аппарата, который отслеживает
положение тела человека в трехмерном пространстве. Летя в самолете и не видя
горизонта, человек может определить, куда и как он перемещается: вверх или
вниз, вправо или влево, ускоренно или замедленно. Мышечную информацию люди
воспринимают с помощью мышц. Закрыв глаза, человек не пронесет ложку с супом
мимо своего рта, может дотронуться указательным пальцем до своего носа,
сравнить массу гирь, одинаковых на ощупь.
Воспринимать информацию могут не только
люди, но и животные, и растения. Однако в отличие от людей, восприятие
информации животными и растениями имеет свои особенности. Например, слоны
способны воспринимать звуки, которые не слышит человек, у собак лучше всего
развито обоняние, у летучих мышей – слух, а растения могут получать информацию
с помощью корней и листьев. Несмотря на эти особенности, в живой природе, так
же как и в мире людей, информация играет важную роль в обеспечении жизненных
процессов. Воспринимаемую с помощью органов чувств информацию человек стремится
выразить так, чтобы она была понятна другим. Одну и ту же информацию, в
зависимости от цели деятельности, можно выразить разными способами и
представить в разной форме.
По
форме представления
принято выделять числовую, текстовую, графическую, звуковую и комбинированную
информацию (рис. 4).
Рис. 4. Виды информации по форме представления
Например, если человек хочет выучить
слова песни наизусть, то, скорее всего, он запишет стихи с помощью букв. В этом
случае информация будет представлена в текстовой форме. Запомнить мелодию
песни позволит прослушивание этой песни в исполнении певца или музыканта. В
этом случае информация будет представлена в звуковой форме. Образ,
навеянный стихами или мелодией, можно изобразить в графической форме с
помощью рисунка.
Для того чтобы выяснить количество поклонников исполнителя
песни, необходимо их подсчитать и результат представить в числовой форме. Каждая из
этих форм представления информации имеет свои особенности. Графическая информация наиболее доступна, так как срезу передает
визуальный образ.
С помощью текстовой и звуковой информации можно представить
исчерпывающие разъяснения. Числовая
информация дает возможность проводить различные сравнения и вычисления.
Поэтому чаще всего информацию представляют в комбинированной форме.
Частным случаем комбинированной информации является мультимедийная информация, когда текстовая и числовая информация
сочетается со звуковой и графической информацией, с видеоизображением.
Для представления информации человек
использует различные знаки. Один и тот же знак может иметь разный смысл. Если
человек наделил знак смыслом, то этот
знак называют символом
Например, нарисованный овал может
означать или букву «О», или цифру ноль, или химический элемент кислород, или
геометрическую фигуру. В нашем примере нарисованный овал – это знак. Буква,
цифра и обозначение химического элемента являются символами.
Для того чтобы понимать смысл
информации, представленной с помощью символов, человеку необходимо знать не
только символы, но и правила составления сообщений из этих символов. Говоря
другими словами, человеку необходимо знать язык.
Язык может быть разговорным, языком рисунков, мимики и жестов, языком науки
и искусства.
Выделяют естественные (разговорные) и
искусственные языки (рис. 5).
Естественные языки исторически
сложились в процессе развития человеческой цивилизации. К естественным языкам
относятся русский, английский, китайский и многие другие языки. В мире
насчитывается более 10 тыс. разных
языков, диалектов и наречий.
Рис. 5. Виды языков
Искусственные языки специально
созданы для профессионального применения в какой-либо области человеческой
деятельности. Некоторые искусственные языки складывались в течение длительного
исторического периода, например язык математических обозначений. С этой точки
зрения они мало отличаются от естественных языков. Примерами искусственных
языков являются эсперанто, языки программирования, язык математики,
язык химии, язык логики, язык флажков на флоте, язык дорожных знаков.
Некоторые естественные языки имеют
искусственно созданные алфавиты. Так, например, авторами русского языка являются
Кирилл и Мефодий.
Представление информации с помощью
определенного языка всегда связано с алфавитом. Алфавит содержит конечный набор
символов, из которых можно составить как угодно много слов. Все символы в
алфавите упорядочены.
Количество символов в алфавите называют
мощность алфавита.
Например, текст может быть представлен с
помощью букв русского или английского алфавита, а число – с помощью алфавита
десятичных цифр. В каждом из этих алфавитов буквы и цифры расположены в
определенном порядке. Мощность русского
алфавита составляет 33 буквы, мощность английского алфавита – 26 букв, а мощность десятичного алфавита – 10 цифр.
Представленную информацию можно
преобразовать из одной последовательности знаков в другую, не задумываясь о
смысле сообщения. Такой процесс преобразования сообщения называется кодированием. Обратный процессом
кодированию является процесс декодирования.
Для того чтобы выполнить кодирование или декодирование, необходимо знать
правила перевода одних знаков в другие знаки. Говоря другими словами, надо
знать код или шифр.
По мере развития средств появились
различные способы кодирования информации. Например, кодирование с помощью
азбуки (кода) Морзе (длительный сигнал – тире, короткий сигнал – точка, нет
сигнала – пауза), с помощью двоичного кода (нет сигнала – 0, есть сигнал – 1). Кодирование
используется для представления информации в такой форме, которая будет наиболее
удобна для работы человека или технического устройства. Например, человеку
удобно и привычно работать с десятичными числами, а компьютер настроен на
работу с двоичными числами. Поэтому десятичное число, введенное с помощью
клавиатуры компьютера, кодируется в двоичное число. При выводе числа на экран
монитора происходит декодирование из двоичного числа в десятичное число.
Кодирование информации необходимо не только для ее рационального представления, но и для ее эффективной
защиты. Не случайно другим примером кода является пин-код сотового телефона или
банковской карточки, а также код, используемый в качестве ключа от цифрового
замка дорожной сумки.
Запрос «TXT» перенаправляется сюда; см. также другие значения.
Пиктограммное описание текстового файла с CSV-данными
Те́кстовый файл — компьютерный файл, содержащий текстовые данные. Текстовым файлам противопоставляются двоичные (бинарные) файлы, в которых содержатся данные, не рассчитанные на интерпретацию в качестве текстовых (например, файлы, хранящие текст в закодированном или сжатом виде, или хранящие не текст, а звук, изображение или иные данные).
В отличие от термина «текстовые данные» (текстовый формат данных), характеризующего содержимое данных, термин «текстовый файл» относится к файлу и характеризует его как контейнер, хранящий такие данные.
Описание[править | править код]
Текстовый файл содержит последовательность символов (в основном печатных знаков, принадлежащих тому или иному набору символов). Эти символы обычно сгруппированы в строки (англ. lines, rows). В современных системах строки разделяются разделителями строк, в прошлом же применялось хранение строк в виде записей постоянной или переменной длины (см.: Перфокарта). Иногда конец текстового файла (особенно если в файловой системе не хранится информация о размере файла) также отмечается одним или более специальными знаками, известными как маркеры конца файла.
Преимущества и недостатки[править | править код]
Преимущества:
- Универсальность — текстовый файл может быть прочитан (так или иначе) на любой системе или ОС, особенно если речь идёт об однобайтных кодировках вроде ASCII, которые не подвержены проблеме, характерной для других форматов файлов — для них не важна разница в порядке байтов или длине машинного слова на разных платформах.
- Устойчивость — каждое слово и символ в таком файле самодостаточны и, если случится повреждение байтов в таком файле, то обычно можно восстановить данные или продолжить обработку остального содержимого, в то время как у сжатых или двоичных файлов повреждение нескольких байтов может сделать файл совершенно невосстановимым. Многие системы управления версиями рассчитаны на текстовые файлы и с двоичными файлами могут работать только как с единым целым.
- Формат текстового файла крайне прост и его можно изменять текстовым редактором — программой, входящей в комплект практически любой ОС.
Недостатки:
- У больших несжатых текстовых файлов низкая информационная энтропия — эти файлы занимают больше места, нежели минимально необходимо. Хотя эта избыточность и определяет повышенную устойчивость к сбоям в каналах передачи данных и при получении данных с носителей, например, с магнитной ленты.
- Некоторые операции с текстовыми файлами неэффективны. Например, если в файле встретится число, вычислительная система до начала операций с ним должна будет перевести его в свой внутренний формат, применив сравнительно сложную процедуру конвертации числа; чтобы перейти на 1000-ю строку, требуется считать 999 строк, идущих до неё; сложно заменить одну строку другой и т. д. Поэтому при работе с большими объёмами данных текстовые файлы применяют только как промежуточный формат, обеспечивающий интероперабельность.
Форматы, основанные на текстовых файлах[править | править код]
В силу своей простоты текстовые файлы нередко используются для хранения служебной информации (например, логов): так как операция добавления в конец текстового файла новых данных не требует сколь-нибудь значительных вычислительных ресурсов независимо от уже имеющегося объёма файла и вида добавляемых текстовых данных, ведение текстовых лог-файлов обычно происходит эффективно и незаметно для пользователя и для других приложений (вплоть до исчерпания дискового пространства).
Текстовый формат служит основой для многих более специализированных форматов (например, .ini, SGML, HTML, XML, TeX, исходных текстов языков программирования). В некоторых из таких форматов определённые сочетания символов могут использоваться как средства разметки текста. В таком случае файл может хранить форматированный текст, в котором для символов дополнительно может быть задан шрифт, начертание, размер и т. п. (например, Rich Text Format, HTML).
Расширения имён файлов[править | править код]
В DOS, Mac OS и Windows для файлов с неформатированным текстом обычно используется расширение .txt. Тем не менее, текстовыми могут являться файлы с любым другим расширением или без оного. Например, исходные коды программ обычно хранятся в файлах с расширениями, соответствующими языку программирования, на котором написаны программы (.java, .bas, .pas, .c).
Форматированный текст (текст с разметкой) обычно хранится в файлах с расширением, соответствующим формату или языку разметки — .rtf, .htm, .html.
Кодировки[править | править код]
8-битный текст[править | править код]
Исторически для кодирования текстовых файлов применялись 7-битный набор символов ASCII, а также 8-битные EBCDIC и различные расширения ASCII. В 8-битных кодовых страницах общепринято использовать в первой половине кодовой таблицы символы, соответствующие ASCII.
Преимуществом 8-битного представления текста является программная простота и независимость от проблемы порядка байтов или длины машинного слова на разных платформах. Недостаток — большое количество различных стандартов, что может приводить к несовместимости.
Unicode в текстовых файлах[править | править код]
Применение Unicode в текстовых файлах хотя в основном решает «проблему кодировок» и стандартизирует употребление управляющих символов, но создаёт свои проблемы. В большинстве современных систем неделимой единицей информации в потоке данных является байт (8 бит), которых для кодирования одного символа из Юникода требуется несколько. В качестве решения применяются несовместимые между собой системы UTF-8 и две версии UTF-16 (UTF-16LE и UTF-16BE с противоположным порядком байтов). Иногда в начало файла добавляют специальный символ-маркер (U+FEFF[1]), позволяющий распознать формат однозначно. UTF-8 имеет преимущество обратной совместимости с ASCII, однако программная обработка текста в UTF-8 усложняется непостоянным размером символа. Также тексты в Юникоде отличаются ещё большей избыточностью, нежели 8-битные.
Управляющие символы[править | править код]
Различные операционные системы придерживаются своего представления перевода строки и конца файла. В UNIX перевод строки состоит из одного символа LF (код 0xA), в Mac OS (но не OS X) — из символа CR (код 0xD), а в DOS и Windows перевод строки кодируется последовательностью двух символов: CR и LF.
Такой разнобой продиктован принципами работы пишущих машинок: чтобы перейти на новую строку, надо вернуть каретку в начало строки (carriage return), а затем провернуть барабан на одну строку (line feed). При печати на принтере тот и другой символ мог стоять обособленно (например, чтобы выделить строку, пропечатав её дважды, или прокрутить барабан на несколько строк), но в текстовых файлах в этом нет нужды.
Помимо названных, в текстовых файлах встречаются такие символы, как табуляция (код 9) и перевод страницы (код 0xC). Последний использовался старыми текстовыми редакторами наподобие ЛЕКСИКОН, а также в файлах, предназначенных для распечатки на принтере.