Какое максимальное количество символов может содержаться в алфавите

Какое максимальное количество символов может содержаться в алфавите thumbnail

Содержательный подход к оценке количества информации, который мы рассматривали ранее, измеряет ее количество, как уменьшение неопределенности наших знаний.

Однако любое техническое устройство не способно воспринимать непосредственно содержание информации, оно лишь понимает наличие или отсутствие электрических сигналов. Вследствие чего в вычислительной технике вынуждены использовать другой подход к оценке количества информации, который называется алфавитным.

Принцип алфавитного подхода к оценке количества информации

Алфавитный подход строится на принципе, утверждающем, что любое сообщение можно представить в виде кодов с помощью конечной последовательности символов, содержащейся в любом алфавите. Носители информации содержат любые последовательности символов, которые могут храниться, передаваться и обрабатываться как с помощью человека, так и с помощью технических устройств, в частности компьютера. Этот подход описал А.Н. Колмогоров, согласно которому, информативность, заключающаяся в последовательности символов, не может зависеть от содержания самого сообщения, а может определяться лишь минимальным количеством символов, необходимых для ее кодирования. Подобный подход к оценке количества информации носит объективный характер, так как не зависит от получателя, принимающего сообщения. Смысл же сообщений может учитываться только на этапе выбора алфавита кодирования либо не учитываться совсем.

Готовые работы на аналогичную тему

Получить выполненную работу или консультацию специалиста по вашему учебному проекту
Узнать стоимость

В основу принципа этого подхода лег подсчет числа символов в сообщении, таким образом, важна только длина сообщения и совсем не учитывается его содержание. Однако на длину сообщения может влиять мощность алфавита используемого языка.

Самый простой способ разобраться в этом — рассмотреть пример любого текста, написанного на каком-нибудь языке. Для нас, конечно же, удобным будет текст на русском языке.

Мощность алфавита и информационная емкость. Формула Хартли

Все множество символов, из которых состоит язык, можно традиционно назвать алфавитом. Как правило, под алфавитом понимаются только буквы, но кроме них при написании текстов используются знаки препинания, цифры, скобки, пробелы, их тоже, в свою очередь, можно включить в алфавит.

Таким образом, алфавит — это множество символов, используемых при записи текста.

Мощность (размер) алфавита — это полное количество символов в алфавите.

Мощность алфавита обозначается буквой $N$.

Например:

  • мощность алфавита, состоящего из русских букв (кириллицы), равна $33$;

  • мощность алфавита, состоящего из латинских букв — $26$;

  • мощность алфавита текста набранного с клавиатуры компьютера равна $256$ (строчные и прописные латинские и русские буквы, цифры, знаки арифметических операций, скобки, знаки препинания и т.д.);

  • мощность двоичного алфавита равна $2$.

При алфавитном подходе считают, что каждый символ текста несет в себе определенную информационную емкость, которая, в свою очередь, зависит от мощности алфавита.

Алфавит, с помощью которого записывается сообщение, состоит из $N$ знаков. В самом простом случае при длине кода сообщения, равной одному знаку, отправитель может послать одно из $N$ возможных сообщений, которое будет нести количество информации, равное $I$, согласно формуле:

$N = 2^I$ ,

где $N$ — количество знаков в алфавите знаковой системы,

$I$ — количество информации, которое несет каждый знак.

Данную формулу вывел Р. Хартли, который в $20$-е годы прошлого столетия заложил основы теории информации, в которой определялась мера количества информации при решении некоторых задач.

Хартли утверждал, что на количество информации, содержащейся в сообщении, может влиять фактор неожиданности, который, в свою очередь, зависит от вероятности получения сообщения. Если эта вероятность получения сообщения высокая, а неожиданность при этом низкая, то сообщение будет содержать мало полезной для человека информации.

Замечание 1

Однако при создании своей формулы Р.Хартли полностью исключил фактор неожиданности. Формула Хартли работает только в том случае, когда появление символов равновероятно и они статистически независимы.

Например, с помощью приведенной формулы можно определить количество информации, которое несет знак в двоичной системе счисления:

Какое максимальное количество символов может содержаться в алфавите

Рисунок 1.

Информационная емкость знака двоичной системы составляет 1 бит.

Пример 1

Необходимо определить информационную емкость буквы русского алфавита (без учета буквы «ё»).

Решение:

Представим себе, что текст к нам поступает последовательно, по одному знаку, словно бумажная лента, выползающая из телеграфного аппарата. Предположим, что каждый символ, который появляется на ленте, с равной вероятностью может быть любым символом алфавита. В действительности это не совсем так, но для упрощения примем такое предположение.

В каждой очередной позиции текста может появиться любой из $N$ символов. Тогда, согласно известной нам формуле, каждый такой символ несет количество информации равное $I$ бит, которое можно определить из решения уравнения:

Какое максимальное количество символов может содержаться в алфавите

Рисунок 2.

Информационная емкость буквы русского алфавита составляет $5$ бит информации.

Таким образом, формула определения $N$ связывает между собой количество возможных событий и количество информации, которое содержит в себе полученное сообщение. В рассматриваемой выше задаче $N$ — это количество знаков в русском алфавите, а $I$ — количество информации, которое несёт одна буква.

Сообщение состоит из последовательности знаков, каждый из которых несет определенное количество информации.

Количество информации в сообщении можно определить, используя формулу:

$I_c = K cdot I$,

где $I_c$ — количество информации, содержащееся в сообщении;

$I$ — количество информации, которое несет один знак (информационная емкость);

$K$ — количество знаков в сообщении.

Рассмотрим пример решения задачи

Пример 2

Необходимо определить какое количество информации содержит слово «Привет», если считать, что алфавит состоит из $32$ букв (без учета буквы «ё»)?

Решение. Чтобы решить задачу, для начала определим количество знаков в сообщении и мощность используемого алфавита.

Читайте также:  Какие витамины содержатся в свежем огурце

Количество знаков в сообщении: $K= 6$,

а мощность данного алфавита: $N = 32$.

Необходимо определить какое количество информации содержит слово «Привет».

Для этого необходимо умножить количество информации, которое несет один знак ($I$), на количество знаков в сообщении ($K$), т.е. воспользоваться формулой: $I_c = K cdot I$.

Однако мы не сможем воспользоваться этой формулой, поскольку нам не известно какое количество информации несет один знак ($I$).

Для решения задачи воспользуемся формулой Хартли. Сообщение записано с помощью алфавита, мощность которого равна $32$, т.е. $N = 32$.

Решив уравнение, используя формулу $N = 2^I$, мы получили, что количество информации $I = 5$ бит. Зная количество информации, которое содержит в себе один знак нашего алфавита, и количество знаков в сообщении, можно определить, какое количество информации содержит наше сообщение.

Итак: $I_c = K cdot I = 6 cdot 5 = 30$ бит.

При измерении информации удобным является использование размера алфавита $N$, равного целой степени двойки. К примеру, если $N=16$, то это означает, что каждый символ несет $4$ бита информации, так как $2^4= 16$.

Единицы измерения информации

Ограничений максимального размера алфавита теоретически не существует. Однако существует алфавит, который можно назвать достаточным. Он используется при работе с компьютером. Мощность этого алфавита — $256$ символов. Он включает в себя практически все необходимые символы: латинские и русские буквы, цифры, знаки арифметических операций, всевозможные скобки, знаки препинания.

Поскольку $256 = 2^8$, то отсюда следует, что $1$ символ этого алфавита содержит $8$ бит информации. Эта величина лежит в основе использования вычислительной технике и носит название — байт.

$1$ байт = $8$ бит

Используя данный алфавит, который еще называется таблицей ASCII-кодов, можно легко подсчитать объем информации в тексте. В данном случае $1$ символ алфавита содержит в себе $1$ байт информации, поэтому необходимо просто определить количество символов, то число, которое получим в результате, и будет выражать информационный объем текста в байтах.

Допустим небольшая книга, распечатанная на принтере, содержит $50$ страниц, при этом на каждой странице расположено $50$ строк, в каждой строке — $60$ символов.

Проведем несложный расчет и получим, что страница содержит:

$50 cdot 60 = 3000$ байт информации.

Объем же информации, содержащейся в книге:

$3000 cdot 50 = 150 000$ байт.

Любая система единиц измерения содержит основные единицы и производные от них.

При измерении больших объемов информации на практике широко используются следующие производные от байта единицы, которые приведены в таблице:

Какое максимальное количество символов может содержаться в алфавите

Рисунок 3.

Источник

Набор символов знаковой системы (алфавит) можно рассматривать как различные возможные состояния (события).
Тогда, если считать, что появление символов в сообщении равновероятно, количество возможных событийN можно вычислить как N=2i
Количество информации в сообщении I можно подсчитать умножив количество символов K на информационный вес одного символа i
Итак, мы имеем формулы, необходимые для определения количества информации в алфавитном подходе:

Если к этим задачам добавить задачи на соотношение величин, записанных в разных единицах измерения, с использованием представления величин в виде степеней двойки мы получим 9 типов задач.
Рассмотрим задачи на все типы. Договоримся, что при переходе от одних единиц измерения информации к другим будем строить цепочку значений. Тогда уменьшается вероятность вычислительной ошибки.

Задача 1. Получено сообщение, информационный объем которого равен 32 битам. чему равен этот объем в байтах?

Решение: В одном байте 8 бит. 32:8=4
Ответ: 4 байта.

Задача 2. Объем информацинного сообщения 12582912 битов выразить в килобайтах и мегабайтах.

Решение: Поскольку 1Кбайт=1024 байт=1024*8 бит, то 12582912:(1024*8)=1536 Кбайт и
поскольку 1Мбайт=1024 Кбайт, то 1536:1024=1,5 Мбайт
Ответ:1536Кбайт и 1,5Мбайт.

Задача 3. Компьютер имеет оперативную память 512 Мб. Количество соответствующих этой величине бит больше:

1) 10 000 000 000бит 2) 8 000 000 000бит 3) 6 000 000 000бит 4) 4 000 000 000бит Решение: 512*1024*1024*8 бит=4294967296 бит.
Ответ: 4.

Задача 4. Определить количество битов в двух мегабайтах, используя для чисел только степени 2.
Решение: Поскольку 1байт=8битам=23битам, а 1Мбайт=210Кбайт=220байт=223бит. Отсюда, 2Мбайт=224бит.
Ответ: 224бит.

Задача 5. Сколько мегабайт информации содержит сообщение объемом 223бит?
Решение: Поскольку 1байт=8битам=23битам, то
223бит=223*223*23бит=210210байт=210Кбайт=1Мбайт.
Ответ: 1Мбайт

Задача 6. Один символ алфавита «весит» 4 бита. Сколько символов в этом алфавите?
Решение:
Дано:

i=4По формуле N=2i находим N=24, N=16
Найти: N — ? 

Ответ: 16

Задача 7. Каждый символ алфавита записан с помощью 8 цифр двоичного кода. Сколько символов в этом алфавите?
Решение:
Дано:

i=8По формуле N=2i находим N=28, N=256
Найти:N — ? 

Ответ: 256

Задача 8. Алфавит русского языка иногда оценивают в 32 буквы. Каков информационный вес одной буквы такого сокращенного русского алфавита?
Решение:
Дано:

N=32По формуле N=2i находим 32=2i, 25=2i,i=5
Найти: i— ? 

Ответ: 5

Задача 9. Алфавит состоит из 100 символов. Какое количество информации несет один символ этого алфавита?
Решение:
Дано:

N=100По формуле N=2i находим 32=2i, 25=2i,i=5
Найти: i— ? 

Ответ: 5

Задача 10. У племени «чичевоков» в алфавите 24 буквы и 8 цифр. Знаков препинания и арифметических знаков нет. Какое минимальное количество двоичных разрядов им необходимо для кодирования всех символов? Учтите, что слова надо отделять друг от друга!
Решение:
Дано:

N=24+8=32По формуле N=2i находим 32=2i, 25=2i,i=5
Найти: i— ? 

Ответ: 5

Задача 11. Книга, набранная с помощью компьютера, содержит 150 страниц. На каждой странице — 40 строк, в каждой строке — 60 символов. Каков объем информации в книге? Ответ дайте в килобайтах и мегабайтах
Решение:
Дано:

Читайте также:  Рыбий жир какого витамина содержится больше
K=360000Определим количество символов в книге 150*40*60=360000. Один символ занимает один байт. По формуле I=K*iнаходим I=360000байт 360000:1024=351Кбайт=0,4Мбайт
Найти: I— ? 

Ответ: 351Кбайт или 0,4Мбайт

Задача 12. Информационный объем текста книги, набранной на компьютере с использованием кодировки Unicode, — 128 килобайт. Определить количество символов в тексте книги.
Решение:
Дано:

I=128Кбайт,i=2байтВ кодировке Unicode один символ занимает 2 байта. Из формулыI=K*i выразимK=I/i,K=128*1024:2=65536
Найти: K— ? 

Ответ: 65536

Задача 13.Информационное сообщение объемом 1,5 Кб содержит 3072 символа. Определить информационный вес одного символа использованного алфавита
Решение:
Дано:

I=1,5Кбайт,K=3072Из формулы I=K*i выразимi=I/K,i=1,5*1024*8:3072=4
Найти: i— ? 

Ответ: 4

Задача 14.Сообщение, записанное буквами из 64-символьного алфавита, содержит 20 символов. Какой объем информации оно несет?
Решение:
Дано:

N=64, K=20По формуле N=2i находим 64=2i, 26=2i,i=6. По формуле I=K*i I=20*6=120
Найти: I— ? 

Ответ: 120бит

Задача 15. Сколько символов содержит сообщение, записанное с помощью 16-символьного алфавита, если его объем составил 1/16 часть мегабайта?
Решение:
Дано:

N=16, I=1/16 МбайтПо формуле N=2i находим 16=2i, 24=2i,i=4. Из формулы I=K*i выразим K=I/i, K=(1/16)*1024*1024*8/4=131072
Найти: K— ? 

Ответ: 131072

Задача 16. Объем сообщения, содержащего 2048 символов,составил 1/512 часть мегабайта. Каков размер алфавита, с помощью которого записано сообщение?
Решение:
Дано:

K=2048,I=1/512 МбайтИз формулы I=K*i выразим i=I/K, i=(1/512)*1024*1024*8/2048=8. По формулеN=2iнаходим N=28=256
Найти: N— ? 

Ответ: 256

Задачи для самостоятельного решения:

  1. Каждый символ алфавита записывается с помощью 4 цифр двоичного кода. Сколько символов в этом алфавите?
  2. Алфавит для записи сообщений состоит из 32 символов, каков информационный вес одного символа? Не забудьте указать единицу измерения.
  3. Информационный объем текста, набранного на компьюте¬ре с использованием кодировки Unicode (каждый символ кодируется 16 битами), — 4 Кб. Определить количество символов в тексте.
  4. Объем информационного сообщения составляет 8192 бита. Выразить его в килобайтах.
  5. Сколько бит информации содержит сообщение объемом 4 Мб? Ответ дать в степенях 2.
  6. Сообщение, записанное буквами из 256-символьного ал¬фавита, содержит 256 символов. Какой объем информации оно несет в килобайтах?
  7. Сколько существует различных звуковых сигналов, состоящих из последовательностей коротких и длинных звонков. Длина каждого сигнала — 6 звонков.
  8. Метеорологическая станция ведет наблюдение за влажностью воздуха. Результатом одного измерения является целое число от 20 до 100%, которое записывается при помощи минимально возможного количества бит. Станция сделала 80 измерений. Определите информационный объем результатом наблюдений.
  9. Скорость передачи данных через ADSL-соединение равна 512000 бит/с. Через данное соединение передают файл размером 1500 Кб. Определите время передачи файла в секундах.
  10. Определите скорость работы модема, если за 256 с он может передать растровое изображение размером 640х480 пикселей. На каждый пиксель приходится 3 байта. А если в палитре 16 миллионов цветов?

Тема определения количества информации на основе алфавитного подхода используется в заданиях А1, А2, А3, А13, В5 контрольно-измерительных материалов ЕГЭ.

Источник

Теория:

1 Гб = 1024 Мб

1 Мб = 1024 Кб

1 Кб = 1024 байта

1 байт = 8 бит

1. Переведите 2 Мб в Кб, байты, биты.

Решение:

1 способ:

2 Мб * 1024 Кб = 2048 Кб

2 Мб * 1024 Кб * 1024 байт = 2097152 байт

2 Мб * 1024 Кб * 1024 байт * 8 бит = 16777216 бит

2 способ:

2 Мб * 1024 Кб = 2048 Кб

2048 Кб * 1024 байт = 2097152 байт

2097152 байт * 8 бит = 16777216 бит

2. Переведите 27262976 бит в Мб, Кб, байты

Решение:

1 способ:

27262976 бит : 8 бит = 3407872 байта

27262976 бит : 8 бит : 1024 байта = 3328 Кб

27262976 бит : 8 бит : 1024 байта : 1024 Кб = 3,25 Мб

2 способ:

27262976 бит :8 бит = 3407872 байта

3407872 байта : 1024 байта = 3328 Кб

3328 Кб : 1024 Кб = 3,25 Мб

Теория:

По умолчанию (если в задаче не указано специально) при решении задачи указывается 256-символьный алфавит – таблица ASCII (мощность алфавита = 256 символов). Значит, на один символ (букву, цифру, знак, знак препинания, пробел) приходится 8 бит информации или 1 байт.

3. Определить количество информации, которое содержится на печатном листе бумаги (двусторонняя печать), если на одной стороне умещается 40 строк по 67 символов в строке.

Решение:

Определим количество символов на одной стороне листа:

40 строк * 67 символов = 2680 символов

Определим количество символов на 2-х сторонах листа:

2680 символов * 2 = 5360 символов

Количество информации = 5360 символов * 1 байт = 5360 байт

Переводим в Кб: 5360 байт : 1024 байт = 5,23 Кб

Если бы необходимо было получить ответ в бит, то

Количество информации = 5360 символов * 8 бит = 42880 бит

Переводим в байты 42880 бит : 8 бит = 5360 байт

Переводим в Кб 5360 байт : 1024 байт = 5,23 Кб

Теория:

,

где i – количество информации в бит, N – количество символов, количество событий

Символом является и знак препинания, и цифра, и специальные знаки. И пробел!

4. Какое количество информации будет содержаться на странице печатного текста при использовании 32-х символьного алфавита (на странице 60 строк по 56 символов).

Решение:

Количество символов на странице = 60 строк * 56 символов = 3360 символов

По условию используется 32-х символьный алфавит (т.е. мощность алфавита = 32 символа).

Тогда , отсюда i = 5 бит. Такое количество информации приходится на 1 символ 32-х символьного алфавита.

Читайте также:  В каком продукте содержатся витамины как в рыбе

Количество информации, содержащееся на странице = 3360 символов * 5 бит = 16800 бит

Переводим в байты: 16800 бит : 8 бит = 2100 байт

Переводим в Кб 2100 байт : 1024 байт = 2,05 Кб

Теория:

        
  

общее количество символов на одной странице

 

количество бит информации, приходящейся на один символ

 

I (количество информации)

   
 
 
 

= * *

Единицы измерения информации правой и левой части должны быть одинаковыми.

5. Какое количество символов содержится на странице энциклопедического словаря, если в памяти компьютера эта страница занимает 13 Кб?

Решение:

По умолчанию количество бит информации, приходящейся на один символ, равно 8 бит.

Переведем 13 Кб в биты:

13 Кб * 1024 байт * 8 бит = 106496 бит

 
 

6. Используя данные предыдущей задачи и зная, что в одной строке находится 85 знаков, определить количество строк на странице.

Решение:

Общее число символов на странице (по предыдущей задаче) = 13312 символов

Общее число символов 13312 символов

Количество строк = ————————————————— = —————————-

Количество символов в одной строке 85 знаков

» 157 строк

7. Сколько бит содержится в слове ИНФОРМАЦИЯ?

Решение:

Т.к. по умолчанию количество бит информации, приходящейся на 1 символ = 8 бит
(256-символьный алфавит, , i=8 бит), а в предлагаемом слове 10 букв, то количество бит, содержащихся в слове =

10 букв * 8 бит = 80 бит = 10 байт

8. В каком алфавите одна буква несет в себе больше информации, в русском или латинском? Примечание: в русском языке 33 буквы, в латинском – 26 букв.

Решение:

Русский язык: , i = 6 бит (i не должно быть меньше 6, т.к. , а у нас 33 буквы

Латинский язык: , i = 5 бит.

Количество бит информации одного символа русского языка больше на 1, чем в латинском языке.

Теория:

При форматировании дискеты 3.5 (А) ее физический размер составляет 1.44 Мб. Тем не менее, доступно для записи непосредственно самой информации пользователя только 1.37 Мб, т.к. 71,7 Кб отводится на создание каталога диска и нулевую дорожку.

9. Сколько дискет объемом 1.37 Мб необходимо для сохранения информации с винчестера объемом 40 Гб? А сколько CD-дисков?

Решение:

Переводим единицы измерения информации к одному виду.

40 Гб * 1024 Мб = 40960 Мб

Количество дискет = 40960 Мб : 1.37 Мб = 29 897 дискет.

Т.е. примерно 30 тыс. дискет 3.5 (А)!

Один CD-диск содержит примерно 700 Mb информации, тогда 40960 Mb / 700Mb = 58,51? Т.е. примерно 59 компакт-дисков CD-R объемом по 700 Мб.

10. Какое количество вопросов необходимо задать, чтобы наверняка угадать загаданного ученика из вашего класса?

Решение:

Допустим, в вашем классе 27 человек.

, где N=27, т.е.

Точной степени для этого уравнения нет ( и ).

В первом случае мы угадаем только из 16 человек, во втором из 32-х.

Значит, чтобы угадать из 27 человек необходимо получить 5 бит информации,
т.е. задать 5 вопросов.

11. Сколько символов содержится в алфавите, при помощи которого написана книга из 20 страниц, на каждой из которых содержится 15 строк по 20 символов и занимает в памяти компьютера вся книга 5,86 Кб.

Решение:

Количество символов на одной странице — 15 строк * 20 символов = 300 символов

Всего символов в книге n = 300 символов * 20 страниц = 6000 символов

Общее количество информации I = бит в 1 символе * n символов

5,86 Кб = 48005,12 бит

Определим сколько бит в 1 символе:

x =

, где N – мощность алфавита, значит ,

N=256 символов в алфавите

12. В алфавите некоторого формального языка всего два знака буквы. Каждое слово этого языка состоит обязательно из 7 букв. Какое максимальное число слов возможно записать в этом языке?

Решение:

Т.к. для записи слов используется только 2 знака-буквы, при N-перемещениях существует различных наборов слов. N=7, значит , тогда N=128 слов.

13. Решить уравнение

Решение:

Приведем выражение к общему основанию и общим единицам измерения.

, т.к. 1 Мб =

Решаем уравнение:

5(x+3) = 8x + 20

5x + 15 = 8x + 20

5x – 8x = 20 – 15

-3x = 5

x =

14. Какое количество информации несет в себе экран SVGA – монитора (16-bit кодирование, размер экрана 800*600)?

Решение:

Определим, сколько всего пиксел содержится на всем экране:

800*600=480 000 пиксел

480 000 * 16 бит = 7 680 000 бит = 960 000 байт = 937,5 Кб = 0,9 Мб

15. Сколько цветов содержит рисунок размером 100*150 пиксел и объемом 29,3 Кб

Решение:

Количество точек по вертикали

    
 

I (количество информации)

 
 

Количество точек по горизонтали

= * *

Количество цветов =

Тогда, 29,3 Кб = 30003,2 байт = 240025,6 бит

Общее число точек = 100*150 = 15 000

Глубина цвета =

Тогда количество цветов =

16. 256-цветный рисунок содержит 120 байт информации. Из скольких точек он состоит?

Решение:

Т.к. рисунок содержит 256 цветов, то , i = 8 бит – глубина цвета

I = кол-во точек * глубину цвета

Количество точек = , т.к. 120 байт = 960 бит

17. Достаточно ли видеопамяти объемом 256 Кб для работы монитора в режиме 640*480 точек и палитрой в 16 цветов.

Решение:

Т.к. используется 16 цветов, значит глубина цвета = 4 бита ( )

256 Кб = 2 097 152 бит

640*480 = 307 200 всего точек

Необходимое количество видеопамяти:

2 097 152 бит дано изначально

307 200 * 4 бита = 1 228 800 занимает экран

— получается, что дано в 1,7 раз больше, значит видеопамяти хватит!

Источник