std::codecvt

在标头 `<locale>` 定义
`template< class InternT, class ExternT, class StateT > class codecvt;`

类模板 std::codecvt 封装字符串的转换，包括宽和多字节，从一种编码到另一种。通过 std::basic_fstream<CharT> 进行的所有输入/输出操作都使用流中浸染的 std::codecvt<CharT, char, std::mbstate_t> 本地环境刻面。

继承图

特化

标准库保证提供以下特化（所有本地环境对象都需要实现这些特化）：

在标头 `<locale>` 定义
`std::codecvt<char, char, std::mbstate_t>`	恒等转换
`std::codecvt<char16_t, char, std::mbstate_t>` (C++11 起)(C++20 弃用)	在 UTF-16 和 UTF-8 间转换
`std::codecvt<char16_t, char8_t, std::mbstate_t>` (C++20 起)	在 UTF-16 和 UTF-8 间转换
`std::codecvt<char32_t, char, std::mbstate_t>` (C++11 起)(C++20 弃用)	在 UTF-32 和 UTF-8 间转换
`std::codecvt<char32_t, char8_t, std::mbstate_t>` (C++20 起)	在 UTF-32 和 UTF-8 间转换
`std::codecvt<wchar_t, char, std::mbstate_t>`	在系统原生宽和单字节窄字符集间转换

嵌套类型

类型	定义
`intern_type`	`InternT`
`extern_type`	`ExternT`
`state_type`	`StateT`

数据成员

成员	描述
std::locale::id `id` [静态]	刻面标识

成员函数

(构造函数)	构造新的 `codecvt` 刻面 (公开成员函数)
out	调用 `do_out` (公开成员函数) [编辑]
in	调用 `do_in` (公开成员函数) [编辑]
unshift	调用 `do_unshift` (公开成员函数) [编辑]
encoding	调用 `do_encoding` (公开成员函数) [编辑]
always_noconv	调用 `do_always_noconv` (公开成员函数) [编辑]
length	调用 `do_length` (公开成员函数) [编辑]
max_length	调用 `do_max_length` (公开成员函数) [编辑]

受保护成员函数

(析构函数)	销毁 `codecvt` 刻面 (受保护成员函数)
do_out [虚]	将字符串从 `InternT` 转换到 `ExternT`，例如在写入文件时 (虚受保护成员函数) [编辑]
do_in [虚]	将字符串从 `ExternT` 转换到 `InternT`，例如在从文件读取时 (虚受保护成员函数) [编辑]
do_unshift [虚]	为不完整转换生成 `ExternT` 字符的终止字符序列 (虚受保护成员函数) [编辑]
do_encoding [虚]	返回产生一个 `InternT` 字符所需的 `ExternT` 字符数，如果它是常数 (虚受保护成员函数) [编辑]
do_always_noconv [虚]	测试刻面的编码是否对所有合法实参值都是恒等转换 (虚受保护成员函数) [编辑]
do_length [虚]	计算转换成给定的 `InternT` 缓冲区会消耗的 `ExternT` 字符串长度 (虚受保护成员函数) [编辑]
do_max_length [虚]	返回能转换成单个 `InternT` 字符的最大 `ExternT` 字符数 (虚受保护成员函数) [编辑]

继承自 std::codecvt_base

嵌套类型	定义
`enum result { ok, partial, error, noconv };`	无作用域枚举类型

枚举常量	定义
`ok`	完成转换而无错误
`partial`	未转换所有源字符
`error`	遇到非法字符
`noconv`	无需转换，输入与输出类型相同

示例

下例示例用在 codecvt<wchar_t, char, std::mbstate_t> 实现 UTF-8 转换的本地环境读取 UTF-8 环境，并用 std::codecvt 的标准特化转换 UTF-8 字符串到 UTF-16。

运行此代码

#include <codecvt>
#include <cstdint>
#include <fstream>
#include <iomanip>
#include <iostream>
#include <locale>
#include <string>

// 工具包装器，用于为 wstring/wbuffer 适配绑定到本地环境的刻面
template<class Facet>
struct deletable_facet : Facet
{
    template<class... Args>
    deletable_facet(Args&&... args) : Facet(std::forward<Args>(args)...) {}
    ~deletable_facet() {}
};

int main()
{
    // UTF-8 窄多字节编码
    std::string data = reinterpret_cast<const char*>(+u8"z\u00df\u6c34\U0001f34c");
                       // 或 reinterpret_cast<const char*>(+u8"zß水🍌")
                       // 或 "\x7a\xc3\x9f\xe6\xb0\xb4\xf0\x9f\x8d\x8c"
    
    std::ofstream("text.txt") << data;
    
    // 使用系统提供的本地环境的 codecvt 刻面
    std::wifstream fin("text.txt");
    // 从 wifstream 的读取将使用 codecvt<wchar_t, char, std::mbstate_t>
    // 此本地环境的 codecvt 从 UTF-8 转换到 UCS4（在如 Linux 的系统上）
    fin.imbue(std::locale("en_US.UTF-8"));
    std::cout << "此 UTF-8 文件包含以下 UCS4 编码单元：\n" << std::hex;
    for (wchar_t c; fin >> c;)
        std::cout << "U+" << std::setw(4) << std::setfill('0')
                  << static_cast<uint32_t>(c) << ' ';
    
    // 使用标准（本地环境无关）codecvt 刻面
    std::wstring_convert<
        deletable_facet<std::codecvt<char16_t, char, std::mbstate_t>>, char16_t> conv16;
    std::u16string str16 = conv16.from_bytes(data);
    
    std::cout << "\n\n此 UTF-8 文件包含以下 UTF-16 编码单元：\n"
              << std::hex;
    for (char16_t c : str16)
        std::cout << "U+" << std::setw(4) << std::setfill('0')
                  << static_cast<uint16_t>(c) << ' ';
    std::cout << '\n';
}

输出：

此 UTF-8 文件包含以下 UCS4 编码单元：
U+007a U+00df U+6c34 U+1f34c

此 UTF-8 文件包含以下 UTF-16 编码单元：
U+007a U+00df U+6c34 U+d83c U+df4c

参阅

字符转换	本地环境定义的多字节 (UTF-8, GB18030)	UTF-8	UTF-16
UTF-16	`mbrtoc16` / `c16rtomb`(有 C11 的 DR488)	`codecvt<char16_t,char,mbstate_t>` `codecvt_utf8_utf16<char16_t>` `codecvt_utf8_utf16<char32_t>` `codecvt_utf8_utf16<wchar_t>`	不适用
UCS-2	`c16rtomb`(无 C11 的 DR488)	`codecvt_utf8<char16_t>`	`codecvt_utf16<char16_t>`
UTF-32	`mbrtoc32` / `c32rtomb`	`codecvt<char32_t,char,mbstate_t>` `codecvt_utf8<char32_t>`	`codecvt_utf16<char32_t>`
系统宽 `wchar_t`: UTF-32 (非 Windows) UCS2(Windows)	`mbsrtowcs` / `wcsrtombs` `use_facet<codecvt` `<wchar_t,char,mbstate_t>>`(`locale`)	`codecvt_utf8<wchar_t>`	`codecvt_utf16<wchar_t>`

codecvt_base	定义字符转换错误 (类) [编辑]
codecvt_byname	表示系统提供的具名本地环境的 std::codecvt (类模板) [编辑]
codecvt_utf8 (C++11)(C++17 弃用)(C++26 移除)	在 UTF-8 与 UCS-2/UCS-4 间转换 (类模板) [编辑]
codecvt_utf16 (C++11)(C++17 弃用)(C++26 移除)	在 UTF-16 与 UCS-2/UCS-4 间转换 (类模板) [编辑]
codecvt_utf8_utf16 (C++11)(C++17 弃用)(C++26 移除)	在 UTF-8 与 UTF-16 间转换 (类模板) [编辑]

编译器支持
自立实现与有宿主实现
语言
标准库
标准库标头
具名要求
功能特性测试宏 (C++20)
语言支持库
概念库 (C++20)
诊断库
内存管理库
元编程库 (C++11)
通用工具库
容器库
迭代器库
范围库 (C++20)
算法库
字符串库
文本处理库
数值库
日期和时间库
输入/输出库
文件系统库 (C++17)
并发支持库 (C++11)
执行控制库 (C++26)
技术规范
符号索引
外部库

成员函数
codecvt::codecvt
codecvt::~codecvt
codecvt::outcodecvt::do_out
codecvt::incodecvt::do_in
codecvt::unshiftcodecvt::do_unshift
codecvt::encodingcodecvt::do_encoding
codecvt::always_noconvcodecvt::do_always_noconv
codecvt::lengthcodecvt::do_length
codecvt::max_lengthcodecvt::do_max_length

cppreference.com

搜索

命名空间

语言变体

查看

操作