Какое количество информации содержится в слове бит
Анонимный вопрос · 3 мая 2018
4,6 K
Кандидат физ.-мат. наук, делаю Яндекс, увлекаюсь всем на свете
Если бы этот вопрос задали моему ребенку на уроке информатики, то я бы, чтобы помочь ему получить хорошую оценку, ответил, что 88. Сейчас объясню, как обосновать этот ответ в школе, и почему он при этом не совсем правильный, а в настоящем программировании всё сложнее.
В слове «информатика» 11 букв. Каждую букву мы можем закодировать одним байтом. В одном байте 8 бит, поэтому ответ 11х8=88.
Как это проверить? Очень просто, запустите на компьютере «Блокнот» (я предполагаю, что у вас Windows), напечатайте в нём это слово и сохраните в текстовый файл. Кликните правой кнопкой, выберите «свойства», видите? Размер: 11 байт (то есть 88 бит).
Теперь о том, почему в реальности всё сложнее. Мы выше написали, что каждую букву мы закодируем одним байтом. Всего разных символов у нас, таким образом, может быть максимум столько, сколько разных значений у одного байта, то есть 2 в восьмой степени, 256. Это значит, что все буквы всех алфавитов мира в один байт точно не влезут. Даже одни только японские или китайские иероглифы в один байт не вмещаются.
То есть кодировка, какому значению байта соответствует какая буква, это вовсе не универсальная штука, они бывают разные. В «Блокноте» и много где ещё в Windows используется кодировка Windows-1251 (это если вы в России живете, в других странах другие). В некоторых кодировках слово «информатика» просто нельзя записать. А в Windows-1251 нельзя записать слово 信息学. Если вы свой текстовый файлик, содержащий слово «информатика», пришлёте китайцу, он, открыв его, увидит какую-то абракадабру, и наоборот. Так что ответ «11 байт или 88 бит» предполагает, что мы с получателем используем одну и ту же однобайтовую кодировку, содержащую кириллические буквы.
А есть такой стандарт кодирования, в котором можно написать что угодно и не устраивать вот этих сложностей? Как ни странно, есть! Он называется Unicode, и в ней каждому символу всех алфавитов Земли (даже вымершим языкам, даже египетским иероглифам, даже смайликам и эмоджи) присвоен свой код. Естественно, в нём много тысяч символов и в один байт всё это не влезет. Unicode можно для компьютера кодировать по-разному, но самый популярный вариант устроен так. В нём самые распространенные символы (цифры, точки-запятые-скобки и буквы латинского алфавита) занимают один байт, чуть менее распространенные (кириллические буквы, а также всякие там Ä и π) два байта, а всякая экзотика вроде индейских узелковых письменностей и четыре может занимать.
С каждым годом Unicode становится всё более популярным, а «старые» кодировки вроде Windows 1251, господствовавшие, когда писался школьный учебник по информатике, уходят на второй план. Так что по-честному я бы ответил, что в слове «информатика» 22 байта = 176 бит, ну, насколько уж этот вопрос вообще имеет смысл.
Вы тоже забыли символ конца строки 🙂
Смотря какой алфавит Вы используете.
Если алфавит — просто строчные русские буквы, то всего имеется 33 символа. В таком случае, для кодировки каждого символа понадобится 6 бит (2^5 < 33, 2^6 >= 33 — берем ближайшую степень двойки, которая вместит наш алфавит). Значит, для кодировки слова «информатика», где 11 букв, нужно будет 66 бит.
По образу и… Читать далее
Вы символ конца строки забыли 🙂 То есть всего будет 72 бита.
Вероятно, «66 бит» считается правильным ответом в… Читать дальше
Cколько бит необходимо, чтобы закодировать все десятичные цифры?
Формально, количество бит для представления значений определяется двоичным логарифмом от числа значений. Здесь число десятичных цифр равно 10, значит, число возможных значений равно 10. Осталось вычислить log₂10 — получится приблизительно 3,322 бита.
Иными словами, спросите себя: в какую степень нужно возвести число 2 чтобы получить 10? Правильный ответ: число 2 в степени 3,322 приблизительно равно 10.
Если вам трудно воспринять тот факт, что число бит оказалось нецелым числом, округлите в большую сторону — получится 4 бита. Но тогда и вопрос нужно было начать словами: «Какое минимальное количество бит потребуется, чтобы…»
Нецелое число бит может иметь практический смысл в вычислениях. Например, у вас есть цветное изображение, где каждый пиксель представлен смешением красного, зелёного и синего сигнала, причём для каждого сигнала возможны 10 значений яркости. Сколько бит потребуется для представления одного пикселя? Умножаем 3,322 бита на 3 сигнала — получим 9,966 бит на пиксель. На практике вы будете использовать для представления пикселя не менее 10 бит, округлив до целого числа бит.
Но было бы неправильно сказать, что для пикселя требуется как минимум 12 бит, потому что якобы для 10 значений яркости сигнала нужно целых 4 бита.
Прочитать ещё 1 ответ
Почему в одном Килобайте 1024 байт, а не 1000?
Эксперт TQ по темам: IT, телеком, телефония, базы данных, интеграционные…
Обозначения единиц измерения — это всегда результат договорённости, отражённый в нормативных документах. Так «ПОЛОЖЕНИЕ о единицах величин, допускаемых к применению в Российской Федерации», принятое в 2009 году и действующее сейчас в редакции от 2015, гласит:
Наименование и обозначение единицы количества информации «байт» (1 байт = 8 бит) применяются с двоичными приставками «Кило», «Мега», «Гига», которые соответствуют множителям «2¹⁰», «2²⁰» и «2³⁰» (1 Кбайт = 1024 байт, 1 Мбайт = 1024 Кбайт, 1 Гбайт = 1024 Мбайт). Данные приставки пишутся с большой буквы. Допускается применение международного обозначения единицы информации с приставками «K» «M» «G», рекомендованного Международным стандартом Международной электротехнической комиссии МЭК 60027-2 (KB, MB, GB, Kbyte, Mbyte, Gbyte).
Как видно, авторы Положения пошли на хитрость, чтобы подружить сложившуюся практику с нормативными документами Международной системы единиц (СИ), и ГОСТ 8.417—2002. Обратите внимание, СИ предписывает стандартные приставки начинать с маленькой буквы: кВт, кОм, кг. А для байтов это Положение утверждает приставки с большой буквы.
Маленькая буква тоже применяется: 123 кбайта — это по закону именно 123000 байт ровно. А 123 Кбайта = 125925 байт.
Прочитать ещё 2 ответа
Что такое 1 бит?
Бит (русское обозначение: бит; международное: bit; от англ. binary digit — двоичное число; также игра слов: англ. bit — кусочек, частица) — единица измерения количества информации. 1 бит информации — это символ или сигнал, который может принимать два значения: включено или выключено, да или нет, высокий или низкий, заряженный или незаряженный; в двоичной системе исчисления это 1 (единица) или 0 (ноль).
Подробнее: https://ru.wikipedia.org/wiki/Бит
Какая последовательность символов служит именем в языке Паскаль?
Разработчик интерфейсов в Яндекс · asmoth.me
Правила составления названия переменной:
- может начинаться с символа подчеркивания “_” или буквы, строчной или заглавной, от A до Z;
- может состоять из букв, подчеркиваний или цифр;
- может содержать спецсимволы например !, %, ] или $;
- не может содержать знак пробела;
- не может быть одним из зарезервированных слов;
- не длиннее 32ух символов;
Эта статья о единице измерения информации; другие значения: бит (значения).
Один бит информации равный 0 (нулю) | Один бит информации равный 1 (единице) |
Бит (русское обозначение: бит; международное: bit; от англ. binary digit — двоичное число; также игра слов: англ. bit — кусочек, частица) — единица измерения количества информации. 1 бит информации — символ или сигнал, который может принимать два значения: включено или выключено, да или нет, высокий или низкий, заряженный или незаряженный; в двоичной системе исчисления это 1 (единица) или 0 (ноль).
В Российской Федерации обозначения бита, а также правила его применения и написания установлены «Положением о единицах величин, допускаемых к применению». В соответствии с данным положением бит относится к числу внесистемных единиц величин с областью применения «информационные технологии, связь» и неограниченным сроком действия[1]. Ранее обозначения бита устанавливались также в ГОСТ 8.417-2002[2]. Для образования кратных единиц применяется с приставками СИ и с двоичными приставками.
История[править | править код]
- В 1703 году в работе «Объяснение двоичной арифметики»[3]Лейбниц пишет, что двоичная система счисления была описана китайским королём (императором) и философом по имени Фу Си, который жил более чем за 4000 лет до Лейбница. Краткого современного названия китайский Liangyi (инь-ян («0»–«1»), китайский двоичный разряд, китайский бит) в то время пока ещё не имел. Китайский двубит — «сы-сян», образующий четыре диграммы, и китайский трибит — «ба-гуа», образующий восемь преднебесных и посленебесных триграмм, в современной междунаодной терминологии собственных названий до сих пор не имеют.
- В 1948 году Клод Шеннон впервые использовал слово «bit» для обозначения наименьшей единицы количества информации в статье «Математическая теория связи». Происхождение этого слова он приписывал Джону Тьюки, использовавшему сокращение «bit» вместо слов «binary digit» в заметке лаборатории Белла от 9 января 1947 года.
Определения и свойства[править | править код]
Для трёх состояний светофора необходимо бита:
01 — красный,
10 — жёлтый,
11 — зелёный;
00 может кодировать четвёртое состояние «выключен»
В зависимости от области применения (математика, электроника, цифровая техника, вычислительная техника, теория информации и др.), бит может определяться следующими способами:
1. В математике
1.1. Бит — это один разряд двоичного кода (двоичная цифра). Может принимать только два взаимоисключающих значения: «да» или «нет», «1» или «0», «включено» или «выключено», и т. п.
1.2. Соответствует одному числовому разряду в двоичной системе счисления, принимающему значение «0» или «1» («ложь» или «истина»)[4].
2. В электронике, в цифровой технике и в вычислительной технике
2.1. Одному биту (одному двоичному разряду) соответствует один двоичный триггер (триггер, имеющий два взаимоисключающих возможных устойчивых состояния) или один разряд двоичной памяти.
Для перехода от количества возможных состояний (возможных значений) к количеству бит можно воспользоваться формулой на основе двоичного логарифма:
[возможных состояний] [битов].
Следовательно, для одного двоичного разряда (триггера)
[бит] [возможных состояний].
Для перехода от количества битов к количеству возможных состояний (возможных значений) можно воспользоваться формулой
[возможных состояний][битов].
2.2. Формула Хартли
где
— количество информации, бит;
— возможное количество различных сообщений (количество возможных состояний n-разрядного регистра), шт;
— количество букв в алфавите (количество возможных состояний одного разряда (триггера) регистра, в двоичной системе равно 2 («0» и «1»)), шт;
— количество букв в сообщении (количество разрядов (триггеров) в регистре), шт.
Применяется для измерения объёмов запоминающих устройств и объёмов цифровых данных.
3. В теории информации
3.1. Бит — базовая единица измерения количества информации, равная количеству информации, содержащемуся в опыте, имеющем два равновероятных исхода; см. информационная энтропия. Это тождественно количеству информации в ответе на вопрос, допускающий ответ «да» или «нет» и никакого другого (то есть такое количество информации, которое позволяет однозначно ответить на поставленный вопрос).
3.2. Один бит равен количеству информации, получаемой в результате осуществления одного из двух равновероятных событий[5].
3.3. Бит — двоичный логарифм вероятности равновероятных событий или сумма произведений вероятности на двоичный логарифм вероятности при равновероятных событиях; см. информационная энтропия.
Применяется для измерения информационной энтропии. Отличается от бита для измерения объёмов запоминающих устройств и объёмов цифровых данных, так как большой по объёму массив данных может иметь очень малую информационную энтропию, то есть энтропийно может быть почти пустым.
Физические реализации[править | править код]
В цифровой технике бит (один двоичный разряд) реализуется триггером или одним двоичным разрядом памяти.
Возможны две физические (в частности электронные) реализации бита (одного двоичного разряда):
- однофазный («однопроводный») бит (двоичный разряд). Используется один выход двоичного триггера. Нулевой уровень обозначает либо сигнал логического «0», либо неисправность схемы. Высокий уровень обозначает либо сигнал логической «1», либо исправность схемы. Дешевле двухфазной реализации, но менее надёжен;
- двухфазный (парафазный, «двухпроводный») бит (двоичный разряд). Используются оба выхода двоичного триггера. При исправной схеме один из двух уровней высокий, другой — низкий. Неисправность схемы опознаётся либо высоким уровнем на обоих проводах (на обеих фазах), либо низким уровнем на обоих проводах (на обеих фазах). Дороже однофазной реализации, но более надёжен.
В вычислительной технике и сетях передачи данных значения «0» и «1» обычно передаются различными уровнями либо напряжения, либо тока. Например, в микросхемах на основе транзисторно-транзисторной логики значение «0» представляется напряжением в диапазоне от +0 до +0,8 В, а значение «1» — напряжением в диапазоне от +2,4 до +5,0 В.
Обозначения[править | править код]
В вычислительной технике, особенно в документации и стандартах, слово «бит» часто применяется в значении «двоичный разряд». Например: старший бит — старший двоичный разряд байта или слова.
Использование прописной буквы «Б» для обозначения байта соответствует требованиям ГОСТ и позволяет избежать путаницы между сокращениями от «байт» и «бит». Однако, следует учитывать, что в стандарте нет сокращения для «бит», поэтому использование записи «Гб» как синонима для «Гбит» неверно.
В международном стандарте МЭК (IEC) 60027-2 2005 года[6] для применения в электротехнической и электронной областях рекомендуются обозначения:
- «bit» для обозначения бита;
- «o» или «B» для обозначения октета или байта. «о» — единственное указанное обозначение во французском языке.
Аналогом бита в квантовых компьютерах является кубит (q-бит; «q» от англ. quantum, квант).
Двоичные логарифмы других оснований[править | править код]
Единицы измерения информации. Обозначения:
- зелёные штрихи на вертикальной шкале слева — значения натурального логарифма для целых чисел;
- жёлтая кривая — график натурального логарифма;
- бит показан чёрным и белым прямоугольниками, так как принимает одно из двух возможных значений;
- высота прямоугольника одного бита равна loge(2);
- «nibble» — тетрада или ниббл, 4 бита;
- трит показан тремя разноцветными прямоугольниками, так как принимает одно из трёх возможных значений;
- высота прямоугольника одного трита равна loge(3);
- харт (дит, децит) показан прямоугольником, залитым градиентом, принимает одно из 10-и возможных значений;
- высота прямоугольника одного харта (дита, децита) равна loge(10); количество синих штрихов равно 20; расстояние между штрихами равно loge(10)/20;
- ширина прямоугольников равна 1;
- горизонтальная линия, подписанная «1 Nat», имеет высоту 1 нат = log2e.
Замена логарифмируемого числа с 2 на e, 3, 4, 8, 10, 16, 27 и др. приводит соответственно к битовым (двоичным) эквивалентам редко употребляемых единиц нат, трит, тетрит (tetrit — tetral digit) (двубит), октит (octit — octal digit) (трибит), Харт (дит (dit — decimal digit), бан, децит (decit — decimal digit)), ниббл (гексадецит, четырёхбит), гептакозаит и др., равных соответственно:
бита,
бита,
1 двубит = бита,
1 трибит = бита,
бита,
1 четырёхбит = бита,
бита.
См. также[править | править код]
- NX-бит
- Бит чётности
- Битовые операции
- Двоичная система счисления
- Двоичный триггер
- Единицы измерения информации
- Битрейт
Примечания[править | править код]
Набор символов знаковой системы (алфавит) можно рассматривать как различные возможные состояния (события).
Тогда, если считать, что появление символов в сообщении равновероятно, количество возможных событийN можно вычислить как N=2i
Количество информации в сообщении I можно подсчитать умножив количество символов K на информационный вес одного символа i
Итак, мы имеем формулы, необходимые для определения количества информации в алфавитном подходе:
Если к этим задачам добавить задачи на соотношение величин, записанных в разных единицах измерения, с использованием представления величин в виде степеней двойки мы получим 9 типов задач.
Рассмотрим задачи на все типы. Договоримся, что при переходе от одних единиц измерения информации к другим будем строить цепочку значений. Тогда уменьшается вероятность вычислительной ошибки.
Задача 1. Получено сообщение, информационный объем которого равен 32 битам. чему равен этот объем в байтах?
Решение: В одном байте 8 бит. 32:8=4
Ответ: 4 байта.
Задача 2. Объем информацинного сообщения 12582912 битов выразить в килобайтах и мегабайтах.
Решение: Поскольку 1Кбайт=1024 байт=1024*8 бит, то 12582912:(1024*8)=1536 Кбайт и
поскольку 1Мбайт=1024 Кбайт, то 1536:1024=1,5 Мбайт
Ответ:1536Кбайт и 1,5Мбайт.
Задача 3. Компьютер имеет оперативную память 512 Мб. Количество соответствующих этой величине бит больше:
1) 10 000 000 000бит 2) 8 000 000 000бит 3) 6 000 000 000бит 4) 4 000 000 000бит Решение: 512*1024*1024*8 бит=4294967296 бит.
Ответ: 4.
Задача 4. Определить количество битов в двух мегабайтах, используя для чисел только степени 2.
Решение: Поскольку 1байт=8битам=23битам, а 1Мбайт=210Кбайт=220байт=223бит. Отсюда, 2Мбайт=224бит.
Ответ: 224бит.
Задача 5. Сколько мегабайт информации содержит сообщение объемом 223бит?
Решение: Поскольку 1байт=8битам=23битам, то
223бит=223*223*23бит=210210байт=210Кбайт=1Мбайт.
Ответ: 1Мбайт
Задача 6. Один символ алфавита «весит» 4 бита. Сколько символов в этом алфавите?
Решение:
Дано:
i=4 | По формуле N=2i находим N=24, N=16 |
Найти: N — ? |
Ответ: 16
Задача 7. Каждый символ алфавита записан с помощью 8 цифр двоичного кода. Сколько символов в этом алфавите?
Решение:
Дано:
i=8 | По формуле N=2i находим N=28, N=256 |
Найти:N — ? |
Ответ: 256
Задача 8. Алфавит русского языка иногда оценивают в 32 буквы. Каков информационный вес одной буквы такого сокращенного русского алфавита?
Решение:
Дано:
N=32 | По формуле N=2i находим 32=2i, 25=2i,i=5 |
Найти: i— ? |
Ответ: 5
Задача 9. Алфавит состоит из 100 символов. Какое количество информации несет один символ этого алфавита?
Решение:
Дано:
N=100 | По формуле N=2i находим 32=2i, 25=2i,i=5 |
Найти: i— ? |
Ответ: 5
Задача 10. У племени «чичевоков» в алфавите 24 буквы и 8 цифр. Знаков препинания и арифметических знаков нет. Какое минимальное количество двоичных разрядов им необходимо для кодирования всех символов? Учтите, что слова надо отделять друг от друга!
Решение:
Дано:
N=24+8=32 | По формуле N=2i находим 32=2i, 25=2i,i=5 |
Найти: i— ? |
Ответ: 5
Задача 11. Книга, набранная с помощью компьютера, содержит 150 страниц. На каждой странице — 40 строк, в каждой строке — 60 символов. Каков объем информации в книге? Ответ дайте в килобайтах и мегабайтах
Решение:
Дано:
K=360000 | Определим количество символов в книге 150*40*60=360000. Один символ занимает один байт. По формуле I=K*iнаходим I=360000байт 360000:1024=351Кбайт=0,4Мбайт |
Найти: I— ? |
Ответ: 351Кбайт или 0,4Мбайт
Задача 12. Информационный объем текста книги, набранной на компьютере с использованием кодировки Unicode, — 128 килобайт. Определить количество символов в тексте книги.
Решение:
Дано:
I=128Кбайт,i=2байт | В кодировке Unicode один символ занимает 2 байта. Из формулыI=K*i выразимK=I/i,K=128*1024:2=65536 |
Найти: K— ? |
Ответ: 65536
Задача 13.Информационное сообщение объемом 1,5 Кб содержит 3072 символа. Определить информационный вес одного символа использованного алфавита
Решение:
Дано:
I=1,5Кбайт,K=3072 | Из формулы I=K*i выразимi=I/K,i=1,5*1024*8:3072=4 |
Найти: i— ? |
Ответ: 4
Задача 14.Сообщение, записанное буквами из 64-символьного алфавита, содержит 20 символов. Какой объем информации оно несет?
Решение:
Дано:
N=64, K=20 | По формуле N=2i находим 64=2i, 26=2i,i=6. По формуле I=K*i I=20*6=120 |
Найти: I— ? |
Ответ: 120бит
Задача 15. Сколько символов содержит сообщение, записанное с помощью 16-символьного алфавита, если его объем составил 1/16 часть мегабайта?
Решение:
Дано:
N=16, I=1/16 Мбайт | По формуле N=2i находим 16=2i, 24=2i,i=4. Из формулы I=K*i выразим K=I/i, K=(1/16)*1024*1024*8/4=131072 |
Найти: K— ? |
Ответ: 131072
Задача 16. Объем сообщения, содержащего 2048 символов,составил 1/512 часть мегабайта. Каков размер алфавита, с помощью которого записано сообщение?
Решение:
Дано:
K=2048,I=1/512 Мбайт | Из формулы I=K*i выразим i=I/K, i=(1/512)*1024*1024*8/2048=8. По формулеN=2iнаходим N=28=256 |
Найти: N— ? |
Ответ: 256
Задачи для самостоятельного решения:
- Каждый символ алфавита записывается с помощью 4 цифр двоичного кода. Сколько символов в этом алфавите?
- Алфавит для записи сообщений состоит из 32 символов, каков информационный вес одного символа? Не забудьте указать единицу измерения.
- Информационный объем текста, набранного на компьюте¬ре с использованием кодировки Unicode (каждый символ кодируется 16 битами), — 4 Кб. Определить количество символов в тексте.
- Объем информационного сообщения составляет 8192 бита. Выразить его в килобайтах.
- Сколько бит информации содержит сообщение объемом 4 Мб? Ответ дать в степенях 2.
- Сообщение, записанное буквами из 256-символьного ал¬фавита, содержит 256 символов. Какой объем информации оно несет в килобайтах?
- Сколько существует различных звуковых сигналов, состоящих из последовательностей коротких и длинных звонков. Длина каждого сигнала — 6 звонков.
- Метеорологическая станция ведет наблюдение за влажностью воздуха. Результатом одного измерения является целое число от 20 до 100%, которое записывается при помощи минимально возможного количества бит. Станция сделала 80 измерений. Определите информационный объем результатом наблюдений.
- Скорость передачи данных через ADSL-соединение равна 512000 бит/с. Через данное соединение передают файл размером 1500 Кб. Определите время передачи файла в секундах.
- Определите скорость работы модема, если за 256 с он может передать растровое изображение размером 640х480 пикселей. На каждый пиксель приходится 3 байта. А если в палитре 16 миллионов цветов?
Тема определения количества информации на основе алфавитного подхода используется в заданиях А1, А2, А3, А13, В5 контрольно-измерительных материалов ЕГЭ.