- Кодировка файлов
- Кодировка utf-8
- Кодировка Windows-1251 (синоним CP1251)
- Отличие кодировок
- Перекодировка файлов в utf-8 в три шага
- Меняем кодировку текста у всех HTML файлов в одной директории (папке).
- Изменение кодировки в Microsoft Excel
- Работа с кодировкой текста
- Способ 1: изменение кодировки с помощью Notepad++
- Способ 2: применение Мастера текстов
- Способ 3: сохранение файла в определенной кодировке
Кодировка файлов
О превосходстве кодировки utf-8 над windows-1251 я уже слышал давно, но не предавал этому значения, так как проблем с отображением текста web страниц ни когда не возникало.
Вернее, проблемы-то были, но они всегда решались одним из трёх верных способов, о которых и пойдёт речь.
Кодировка utf-8
UTF-8 (от англ. Unicode Transformation Format — формат преобразования Юникода) — в настоящее время распространённая кодировка, реализующая представление Юникода, совместимое с 8-битным кодированием текста. Нашла широкое применение в операционных системах и веб пространстве. В Unicode насчитывается свыше 100 000 символов.
Кодировка Windows-1251 (синоним CP1251)
Windows-1251 — набор символов и кодировка, являющаяся стандартной 8-битной кодировкой для всех русских версий Microsoft Windows. Пользуется довольно большой популярностью. Windows-1251 выгодно отличается от других 8‑битных кириллических кодировок (таких как CP866, KOI8-R и ISO 8859-5) наличием практически всех символов, использующихся в русской типографии для обычного текста (отсутствует только значок ударения); она также содержит все символы для близких к русскому языку языков: украинского, белорусского, сербского и болгарского. Общее количество символов порядка — 256 шт.
Отличие кодировок
Главное отличие кодировок — это количество символов и здесь явно лидирует UTF-8.
Наверно, единственный плюс кодировки windows-1251 – она однобайтовая, следовательно, занимает меньший объём. Но сегодня, когда дисковое пространство измеряется гига-тера-байтами, вряд ли, кто-то будет считать байты.
И еще одно обстоятельство, которое меня окончательно убедило использовать кодировку UTF-8 – это технология AJAX, которая не поддерживает windows-1251.
Так, что если Вы еще не определились, какую кодировку использовать для Ваших web страниц, то советую остановиться на Юникоде (UTF-8), что бы в дальнейшем не пришлось переводить весь сайт с кодировки windows-1251 на utf-8.
Перекодировка файлов в utf-8 в три шага
- Кодировка страниц.
Для того, что бы сменить кодировку страницы, необходимо открыть файл в Adobe Dreamweaver и в окне «свойства страницы» установить нужную кодировку и нажать OK.
Ни каких галочек BOM ставить не надо.
Многие программы Windows (включая Блокнот) добавляют байты 0xEF, 0xBB, 0xBF в начале любого документа,
сохраняемого как UTF-8. Это метка порядка байтов Юникода (англ. Byte Order Mark, BOM), также её часто
называют сигнатурой (соответственно, UTF-8 и UTF-8 with Signature). По наличию сигнатуры программы могут
автоматически определить, является ли файл закодированным в UTF-8, однако файлы с такой сигнатурой
могут некорректно обрабатываться старыми программами, в частности xml-анализаторами.
Можно так же использовать текстовый редактор NotePad++,
Dreamweaver это делает автоматически.
А что же делать, если вы наклепали сотню другую html — файлов, прежде чем узнали о превосходстве кодировки UTF-8?
В ручную с помощью вышеупомянутых программ перекодировать все файлы отнимет уйму времени. Да и выполнять однообразную работу по смене кодировки в html- файлах вряд ли кому-то доставит удовольствие.
Думаю, с этой проблемой сталкиваются многие начинающие web мастера (скажу честно, я не исключение). Поэтому и выкладываю решение данной задачи.
Меняем кодировку текста у всех HTML файлов в одной директории (папке).
Затем отправляем этот файл на сервер в ту папку, где находятся HTML страницы в кодировке Windows-1251
Теперь остаётся только открыть файл «recode.php» в любом удобном для вас браузере и нажать кнопку.
Через секунду или две все файлы с разрешением .html и .htm поменяют кодировку с windows-1251 на utf-8.
А в конфигурационный файл «.htaccess» пропишется кодировка по умолчанию UTF-8.
Хочу заметить, что это всё возможно только при поддержке сервером технологии PHP.
Настройка кодировки по умолчанию для сервера.
Для настройки сервера необходимо создать (если файла нет) в любом текстовом редакторе файл с именем .htaccess (с точкой в начале).
Прописать в нем одну строку:
И сохранить файл в корневой директории (там же где и index).
.htaccess (от. англ. hypertext access) — файл дополнительной конфигурации веб-сервера Apache,
а также подобных ему серверов. Позволяет задавать большое количество дополнительных
параметров и разрешений для работы веб-сервера в отдельных каталогах (папках), таких
как управляемый доступ к каталогам, переназначение типов файлов и т.д., без изменения
главного конфигурационного файла.
Кодировка базы данных MySQL.
Для отображения правильного, читабельного текста в таблицах базы данных, а так же при выводе данных на веб страницу необходимо полное соответствие кодировок.
Решается это внесением дополнительной строки перед закрывающемся тегом ?> в PHP код подключения к базе данных:
Если после выполнения этих шагов по решению проблем с кодировкой текста на Ваших страницах не исчезнут кракозябры, то не стесняясь, обращайтесь в техподдержку хостера.
Изменение кодировки в Microsoft Excel
С потребностью менять кодировку текста часто сталкиваются пользователи, работающие браузерах, текстовых редакторах и процессорах. Тем не менее, и при работе в табличном процессоре Excel такая необходимость тоже может возникнуть, ведь эта программа обрабатывает не только цифры, но и текст. Давайте разберемся, как изменить кодировку в Экселе.
Работа с кодировкой текста
Кодировка текста – эта набор электронных цифровых выражений, которые преобразуются в понятные для пользователя символы. Существует много видов кодировки, у каждого из которых имеются свои правила и язык. Умение программы распознавать конкретный язык и переводить его на понятные для обычного человека знаки (буквы, цифры, другие символы) определяет, сможет ли приложение работать с конкретным текстом или нет. Среди популярных текстовых кодировок следует выделить такие:
- Windows-1251;
- KOI-8;
- ASCII;
- ANSI;
- UKS-2;
- UTF-8 (Юникод).
Последнее наименование является самым распространенным среди кодировок в мире, так как считается своего рода универсальным стандартом.
Чаще всего, программа сама распознаёт кодировку и автоматически переключается на неё, но в отдельных случаях пользователю нужно указать приложению её вид. Только тогда оно сможет корректно работать с кодированными символами.
Наибольшее количество проблем с расшифровкой кодировки у программы Excel встречается при попытке открытия файлов CSV или экспорте файлов txt. Часто, вместо обычных букв при открытии этих файлов через Эксель, мы можем наблюдать непонятные символы, так называемые «кракозябры». В этих случаях пользователю нужно совершить определенные манипуляции для того, чтобы программа начала корректно отображать данные. Существует несколько способов решения данной проблемы.
Способ 1: изменение кодировки с помощью Notepad++
К сожалению, полноценного инструмента, который позволял бы быстро изменять кодировку в любом типе текстов у Эксель нет. Поэтому приходится в этих целях использовать многошаговые решения или прибегать к помощи сторонних приложений. Одним из самых надежных способов является использование текстового редактора Notepad++.
- Запускаем приложение Notepad++. Кликаем по пункту «Файл». Из открывшегося списка выбираем пункт «Открыть». Как альтернативный вариант, можно набрать на клавиатуре сочетание клавиш Ctrl+O.
Запускается окно открытия файла. Переходим в директорию, где расположен документ, который некорректно отобразился в Экселе. Выделяем его и жмем на кнопку «Открыть» в нижней части окна.
После этого, чтобы сохранить изменения в файле жмем на кнопку на панели инструментов в виде дискеты. Закрываем Notepad++, нажав на кнопку в виде белого крестика в красном квадрате в верхнем правом углу окна.
Несмотря на то, что данный способ основан на использовании стороннего программного обеспечения, он является одним из самых простых вариантов для перекодировки содержимого файлов под Эксель.
Способ 2: применение Мастера текстов
Кроме того, совершить преобразование можно и с помощью встроенных инструментов программы, а именно Мастера текстов. Как ни странно, использование данного инструмента несколько сложнее, чем применение сторонней программы, описанной в предыдущем методе.
- Запускаем программу Excel. Нужно активировать именно само приложение, а не открыть с его помощью документ. То есть, перед вами должен предстать чистый лист. Переходим во вкладку «Данные». Кликаем на кнопку на ленте «Из текста», размещенную в блоке инструментов «Получение внешних данных».
- TXT;
- CSV;
- PRN.
Переходим в директорию размещения импортируемого файла, выделяем его и кликаем по кнопке «Импорт».
Открывается окно Мастера текстов. Как видим, в поле предварительного просмотра символы отображаются некорректно. В поле «Формат файла» раскрываем выпадающий список и меняем в нем кодировку на «Юникод (UTF-8)».
Если данные отображаются все равно некорректно, то пытаемся экспериментировать с применением других кодировок, пока текст в поле для предпросмотра не станет читаемым. После того, как результат удовлетворит вас, жмите на кнопку «Далее».
Открывается следующее окно Мастера текста. Тут можно изменить знак разделителя, но рекомендуется оставить настройки по умолчанию (знак табуляции). Жмем на кнопку «Далее».
- Общий;
- Текстовый;
- Дата;
- Пропустить столбец.
Тут настройки следует выставить, учитывая характер обрабатываемого контента. После этого жмем на кнопку «Готово».
В следующем окне указываем координаты левой верхней ячейки диапазона на листе, куда будут вставлены данные. Это можно сделать, вбив адрес вручную в соответствующее поле или просто выделив нужную ячейку на листе. После того, как координаты добавлены, в поле окна жмем кнопку «OK».
Способ 3: сохранение файла в определенной кодировке
Бывает и обратная ситуация, когда файл нужно не открыть с корректным отображением данных, а сохранить в установленной кодировке. В Экселе можно выполнить и эту задачу.
- Переходим во вкладку «Файл». Кликаем по пункту «Сохранить как».
Открывается окно сохранения документа. С помощью интерфейса Проводника определяем директорию, где файл будет храниться. Затем выставляем тип файла, если хотим сохранить книгу в формате отличном от стандартного формата Excel (xlsx). Потом кликаем по параметру «Сервис» и в открывшемся списке выбираем пункт «Параметры веб-документа».
В открывшемся окне переходим во вкладку «Кодировка». В поле «Сохранить документ как» открываем выпадающий список и устанавливаем из перечня тот тип кодировки, который считаем нужным. После этого жмем на кнопку «OK».
Документ сохранится на жестком диске или съемном носителе в той кодировке, которую вы определили сами. Но нужно учесть, что теперь всегда документы, сохраненные в Excel, будут сохраняться в данной кодировке. Для того, чтобы изменить это, придется опять заходить в окно «Параметры веб-документа» и менять настройки.
Существует и другой путь к изменению настроек кодировки сохраненного текста.
- Находясь во вкладке «Файл», кликаем по пункту «Параметры».
Открывается окно параметров Эксель. Выбираем подпункт «Дополнительно» из перечня расположенного в левой части окна. Центральную часть окна прокручиваем вниз до блока настроек «Общие». Тут кликаем по кнопке «Параметры веб-страницы».
Открывается уже знакомое нам окно «Параметры веб-документа», где мы проделываем все те же действия, о которых говорили ранее.
Теперь любой документ, сохраненный в Excel, будет иметь именно ту кодировку, которая была вами установлена.
Как видим, у Эксель нет инструмента, который позволил бы быстро и удобно конвертировать текст из одной кодировки в другую. Мастер текста имеет слишком громоздкий функционал и обладает множеством не нужных для подобной процедуры возможностей. Используя его, вам придется проходить несколько шагов, которые непосредственно на данный процесс не влияют, а служат для других целей. Даже конвертация через сторонний текстовый редактор Notepad++ в этом случае выглядит несколько проще. Сохранение файлов в заданной кодировке в приложении Excel тоже усложнено тем фактом, что каждый раз при желании сменить данный параметр, вам придется изменять глобальные настройки программы.