Hive之set参数大全-13_代码007(未授权)

本文介绍: 是一个 Hive 配置参数，用于控制在执行 Skew Join 操作时是否进行编译时优化。Skew Join 是一种处理数据倾斜（skew）的连接操作的技术，它可以提高查询性能。如果被设置为true，则表示在编译阶段会对 Skew Join 进行优化。这通常包括生成更有效的执行计划，以减轻数据倾斜带来的性能问题。如果设置为false，则不会进行编译时的优化，而是依赖运行时的动态优化。默认情况下，这个参数通常是开启的，以确保在编译时尽量提前优化 Skew Join 操作。

hive.optimize.skewjoin.compiletime 是一个 Hive 配置参数，用于控制在执行 Skew Join 操作时是否进行编译时优化。Skew Join 是一种处理数据倾斜（skew）的连接操作的技术，它可以提高查询性能。

如果 hive.optimize.skewjoin.compiletime 被设置为 true，则表示在编译阶段会对 Skew Join 进行优化。这通常包括生成更有效的执行计划，以减轻数据倾斜带来的性能问题。如果设置为 false，则不会进行编译时的优化，而是依赖运行时的动态优化。

默认情况下，这个参数通常是开启的，以确保在编译时尽量提前优化 Skew Join 操作。但在某些特殊情况下，你可能希望根据实际情况调整这个参数，以获得更好的性能。

要设置这个参数，可以在 Hive 中使用如下语句：

SET hive.optimize.skewjoin.compiletime=true;

或

SET hive.optimize.skewjoin.compiletime=false;

请根据你的需求选择合适的值。

hive.optimize.sort.dynamic.partition 是一个 Hive 配置参数，用于控制在动态分区插入时是否进行排序优化。

如果 hive.optimize.sort.dynamic.partition 被设置为 true，则表示在执行动态分区插入操作时，Hive 会尝试对插入的数据进行排序，以提高查询性能。排序的目的是为了减少写入磁盘的随机 I/O 操作，从而提高性能。

如果设置为 false，则不会进行排序优化，数据将按照输入顺序插入到分区中。

SET hive.optimize.sort.dynamic.partition=true;

SET hive.optimize.sort.dynamic.partition=false;

hive.optimize.union.remove 是一个 Hive 配置参数，用于控制是否在执行查询时优化 UNION 操作。

如果 hive.optimize.union.remove 被设置为 true，则表示 Hive 将尝试在查询计划中删除冗余的 UNION 操作。这样可以减少查询的复杂性和提高执行效率。

如果设置为 false，则不会进行 UNION 操作的移除优化。

SET hive.optimize.union.remove=true;

SET hive.optimize.union.remove=false;

hive.optimize.update.table.properties.from.serde 是一个 Hive 配置参数，用于控制在执行 UPDATE TABLE SET 操作时是否从 SerDe 中获取表属性进行优化。

如果 hive.optimize.update.table.properties.from.serde 被设置为 true，则表示 Hive 在执行 UPDATE TABLE SET 操作时会尝试从表的 SerDe 中获取属性信息，并利用这些信息进行优化。这包括了更新列的数据类型、序列化格式等信息，以便更有效地执行更新操作。

如果设置为 false，则不会从 SerDe 中获取属性信息进行优化。

SET hive.optimize.update.table.properties.from.serde=true;

SET hive.optimize.update.table.properties.from.serde=false;

在 Hive 中，hive.orc.cache.stripe.details.mem.size 是一个配置参数，用于设置 ORC 文件格式的缓存大小，以存储 stripe 的详细信息。

hive.orc.cache.stripe.details.mem.size 参数的值表示用于缓存 stripe 详细信息的内存大小。通过增加缓存大小，你可以提高对 ORC 文件的读取性能，尤其是在某些查询模式下。

SET hive.orc.cache.stripe.details.mem.size=256Mb;

其中 <desired_size> 是你想要分配给 stripe 详细信息缓存的内存大小。

hive.orc.cache.use.soft.references 是 Hive 中的一个配置参数，用于控制 ORC 文件格式是否使用软引用来管理缓存。

如果 hive.orc.cache.use.soft.references 被设置为 true，则表示 ORC 文件格式会使用软引用来管理缓存，这意味着缓存的对象在 JVM 内存不足时可以被垃圾回收，从而避免过多的内存压力。

如果设置为 false，则不会使用软引用，缓存的对象将被视为强引用，不会轻易被垃圾回收。

SET hive.orc.cache.use.soft.references=true;

SET hive.orc.cache.use.soft.references=false;

在 Hive 中，hive.orc.compute.splits.num.threads 是一个配置参数，用于指定计算 ORC 文件分片（splits）时所使用的线程数。

ORC 文件通常被分为多个分片以便并行处理，特别是在使用 MapReduce 或 Tez 等并行计算框架时。hive.orc.compute.splits.num.threads 允许你配置在计算这些分片时使用的线程数量，以优化计算性能。

SET hive.orc.compute.splits.num.threads=<desired_threads>;

其中 <desired_threads> 是你想要设置的线程数目。

hive.orc.splits.include.file.footer 是一个 Hive 中的配置参数，用于指定在生成 ORC 文件分片时是否包含文件的底部（footer）信息。

如果 hive.orc.splits.include.file.footer 被设置为 true，则生成的 ORC 文件分片将包含文件底部的元数据信息。这样的话，每个分片都包含有关整个文件的元数据，这对某些查询模式可能是有用的。

如果设置为 false，则生成的 ORC 文件分片将不包含文件底部的元数据信息。这可以减小分片的大小，但在某些查询模式下可能需要额外的元数据操作。

SET hive.orc.splits.include.file.footer=true;

SET hive.orc.splits.include.file.footer=false;

根据你的需求选择适当的值。在大多数情况下，默认值（通常是 true）都能够满足要求，但具体取决于你的查询模式和性能需求。

hive.orc.splits.ms.footer.cache.enabled 是 Hive ORC 文件格式的一个配置参数。截至我了解的截断日期（2022年1月），这个参数用于启用或禁用 ORC 文件中的元数据（footer）的缓存功能，以提高性能。

SET hive.orc.splits.ms.footer.cache.enabled=true; -- 启用 ORC 文件中元数据的缓存

默认情况下，这个参数的值可能是 true，表示启用元数据的缓存。启用缓存可以减少对 ORC 文件中元数据的重复读取，从而提高读取性能。

在Hive中，hive.orderby.position.alias 是一个配置参数，用于指定在执行ORDER BY语句时，是否可以使用SELECT语句中的别名引用列的位置。这个参数的默认值通常是 false。

SET hive.orderby.position.alias=true; -- 允许使用SELECT语句中的别名引用列的位置

当 hive.orderby.position.alias 设置为 true 时，Hive 将允许在ORDER BY子句中使用SELECT语句中的列别名来引用列的位置。这样可以使查询更灵活，并减少在ORDER BY子句中硬编码列的位置的需要。

在 Hive 中，hive.ppd.remove.duplicatefilters 是一个配置参数，用于控制是否在谓词下推优化中移除重复的过滤条件。

如果 hive.ppd.remove.duplicatefilters 被设置为 true，则表示 Hive 将尝试在谓词下推优化过程中检测和移除重复的过滤条件，以减少查询计划的复杂性。

如果设置为 false，则不会进行这样的优化，保留所有的过滤条件，可能导致查询计划中存在冗余的谓词。

SET hive.ppd.remove.duplicatefilters=true;

SET hive.ppd.remove.duplicatefilters=false;

在 Hive 中，hive.prewarm.enabled 是一个配置参数，用于控制是否启用 Hive 表的预热（Prewarm）功能。

如果 hive.prewarm.enabled 被设置为 true，则表示启用预热功能。预热是指在 Hive 查询执行之前，提前加载和缓存表的数据到内存中，以加速后续查询的执行。

如果设置为 false，则禁用预热功能，查询将按照正常的方式执行，不进行提前加载和缓存。

SET hive.prewarm.enabled=true;

SET hive.prewarm.enabled=false;

hive.privilege.synchronizer.interval 是 Hive 的配置参数，用于指定 Hive 权限同步器运行的时间间隔。权限同步器用于同步 Hive 中的权限信息。

如果 hive.privilege.synchronizer.interval 被设置为一个正整数，表示同步器将以该间隔的频率运行一次。这个同步器的任务是确保 Hive 中的权限信息与底层存储系统（如HDFS）中的权限信息保持一致。

SET hive.privilege.synchronizer.interval=3600;

hive.query.id 是 Hive 中的一个配置参数，用于指定或获取当前查询的唯一标识符（ID）。

在 Hive 中，每次执行查询都会被分配一个唯一的查询标识符。你可以使用 hive.query.id 参数来获取当前查询的 ID。这个参数通常用于日志记录或监控目的，以便跟踪特定查询的执行过程。

SET hive.query.id;

在 Hive 中，hive.query.reexecution.always.collect.operator.stats 是一个配置参数，用于控制是否在查询重新执行时始终收集运算符（operator）的统计信息。

如果 hive.query.reexecution.always.collect.operator.stats 被设置为 true，则表示无论何时重新执行查询，都会始终收集运算符的统计信息。这些统计信息对于查询优化和性能调整非常有用。

如果设置为 false，则只在某些情况下（例如查询计划发生变化）才会收集运算符的统计信息。

SET hive.query.reexecution.always.collect.operator.stats=true;

SET hive.query.reexecution.always.collect.operator.stats=false;

在 Hive 中，hive.query.reexecution.enabled 是一个配置参数，用于控制是否启用查询重新执行（reexecution）的功能。

如果 hive.query.reexecution.enabled 被设置为 true，则表示启用查询重新执行。查询重新执行是一种优化机制，它允许 Hive 在执行复杂查询时在必要时部分地重新执行查询的一部分，以减少整体查询的执行时间。

如果设置为 false，则禁用查询重新执行，Hive 将按照正常的方式执行查询。

SET hive.query.reexecution.enabled=true;

SET hive.query.reexecution.enabled=false;

在 Hive 中，hive.query.reexecution.max.count 是一个配置参数，用于指定查询重新执行（reexecution）的最大次数。查询重新执行是一种优化机制，允许 Hive 在执行复杂查询时在必要时部分地重新执行查询的一部分，以减少整体查询的执行时间。

如果 hive.query.reexecution.max.count 被设置为一个正整数，它表示查询在执行过程中可以最多重新执行的次数。

SET hive.query.reexecution.max.count=3;

在 Hive 中，hive.query.reexecution.stats.cache.batch.size 是一个配置参数，用于设置在查询重新执行（reexecution）过程中缓存运算符（operator）统计信息的批量大小。

如果 hive.query.reexecution.stats.cache.batch.size 被设置为一个正整数，它表示在重新执行期间每次缓存运算符统计信息的批量大小。这个参数的调整可以影响重新执行期间的内存使用和性能。

SET hive.query.reexecution.stats.cache.batch.size=100;

在 Hive 中，hive.query.reexecution.stats.cache.size 是一个配置参数，用于指定查询重新执行（reexecution）期间用于缓存运算符（operator）统计信息的总体缓存大小。

如果 hive.query.reexecution.stats.cache.size 被设置为一个正整数，它表示在重新执行期间用于缓存运算符统计信息的总体缓存大小。这个参数的调整可以影响重新执行期间的内存使用和性能。

SET hive.query.reexecution.stats.cache.size=1024; -- 单位为 MB

在 Hive 中，hive.query.reexecution.stats.persist.scope 是一个配置参数，用于指定查询重新执行（reexecution）期间是否持久化运算符（operator）统计信息的范围。

如果 hive.query.reexecution.stats.persist.scope 被设置为 QUERY，则表示运算符统计信息仅在单个查询的生命周期内持久化。这意味着在查询执行期间，统计信息会被保存，但在查询结束后将被清除。

如果设置为 SESSION，则表示运算符统计信息在整个会话的生命周期内持久化。这样，统计信息将在会话中的多个查询之间共享，直到会话结束。

SET hive.query.reexecution.stats.persist.scope=SESSION;

SET hive.query.reexecution.stats.persist.scope=QUERY;

根据你的需求选择适当的值。如果希望在整个会话期间共享运算符统计信息，则选择 SESSION，如果希望在每个查询之间隔离统计信息，则选择 QUERY。

在 Hive 中，hive.query.reexecution.strategies 是一个配置参数，用于指定查询重新执行（reexecution）的策略。这个参数决定了 Hive 在执行复杂查询时何时选择重新执行的部分查询而不是一直执行整个查询。

SET hive.query.reexecution.strategies=[strategy1, strategy2, ...];

其中，strategy1、strategy2 等是具体的重新执行策略名称，按照它们的优先级从高到低排列。不同版本的 Hive 可能支持不同的重新执行策略。

在 Hive 中，hive.query.result.fileformat 是一个配置参数，用于指定查询结果的文件格式。该参数允许你指定在执行查询时将结果保存为何种文件格式。

SET hive.query.result.fileformat=TEXTFILE;

在上述示例中，查询的结果将被保存为文本文件格式（TextFile）。根据你的需求，你可以将文件格式设置为不同的选项，例如：ORC、PARQUET、AVRO 等。

在 Hive 中，hive.query.results.cache.directory 是一个配置参数，用于指定查询结果缓存的目录。该参数允许你指定一个本地目录，用于缓存查询结果的中间数据。

SET hive.query.results.cache.directory=/path/to/cache/directory;

在 Hive 中，hive.query.results.cache.enabled 是一个配置参数，用于控制是否启用查询结果缓存。当启用查询结果缓存时，Hive 将尝试缓存查询的中间结果，以便在后续执行相同查询或查询的一部分时重用这些中间结果，从而提高性能。

SET hive.query.results.cache.enabled=true;

SET hive.query.results.cache.enabled=false;

在 Hive 中，hive.query.results.cache.max.entry.lifetime 是一个配置参数，用于指定查询结果缓存中每个缓存项的最大生命周期。这个参数控制缓存中间结果的持续时间，超过该时间的缓存项将被视为过期并可能被清除。

SET hive.query.results.cache.max.entry.lifetime=3600; -- 单位为秒

在 Hive 中，hive.query.results.cache.max.entry.size 是一个配置参数，用于指定查询结果缓存中每个缓存项的最大大小。这个参数控制了缓存中间结果的大小，超过该大小的缓存项可能被清除。

SET hive.query.results.cache.max.entry.size=1073741824; -- 单位为字节

在 Hive 中，hive.query.results.cache.max.size 是一个配置参数，用于指定整个查询结果缓存的最大大小。这个参数控制了缓存中间结果的总体大小，当缓存中的数据大小达到该阈值时，系统可能会开始清除一些缓存项。

SET hive.query.results.cache.max.size=10737418240; -- 单位为字节

在 Hive 中，hive.query.results.cache.nontransactional.tables.enabled 是一个配置参数，用于控制是否启用对非事务性表的查询结果缓存。这个参数允许你指定是否应该对查询结果缓存非事务性表的数据。

SET hive.query.results.cache.nontransactional.tables.enabled=true;

SET hive.query.results.cache.nontransactional.tables.enabled=false;

在 Hive 中，hive.query.results.cache.wait.for.pending.results 是一个配置参数，用于控制是否等待挂起的查询结果被缓存后再执行查询。这个参数通常用于异步查询的场景，其中查询可能会在后台执行，并且在结果完全准备好之前，查询可能会被挂起。

SET hive.query.results.cache.wait.for.pending.results=true;

SET hive.query.results.cache.wait.for.pending.results=false;

如果设置为 true，则查询会等待挂起的查询结果被完全缓存后再执行。如果设置为 false，则查询将立即执行，不等待挂起的查询结果。

在 Hive 中，hive.query.string 是一个配置参数，用于获取当前查询的字符串表示。该参数返回当前正在执行的查询的文本形式。

SET hive.query.string=show+schemas;

在 Hive 中，hive.query.timeout.seconds 是一个配置参数，用于指定查询的最大执行时间（超时时间），单位为秒。如果查询的执行时间超过这个设定的时间，Hive 将中止该查询。

SET hive.query.timeout.seconds=600; -- 设定查询最大执行时间为 600 秒（10分钟）

在 Hive 中，hive.querylog.enable.plan.progress 是一个配置参数，用于控制是否启用查询执行计划的进度日志记录。启用此选项后，Hive 会记录查询执行计划的进度信息，可以用于监控查询的执行情况。

SET hive.querylog.enable.plan.progress=true;

SET hive.querylog.enable.plan.progress=false;

在 Hive 中，hive.querylog.location 是一个配置参数，用于指定查询日志的存储位置。查询日志包含有关执行的查询的信息，可以用于监控、审计和调试。

SET hive.querylog.location=/path/to/query/logs;

上述语句表示查询日志将被存储在 /path/to/query/logs 目录下。确保指定的路径对 Hive 进程是可读写的。

在 Hive 中，hive.querylog.plan.progress.interval 是一个配置参数，用于指定查询执行计划的进度信息记录的时间间隔。这个参数控制了记录查询执行计划进度信息的频率。

SET hive.querylog.plan.progress.interval=5000; -- 单位为毫秒

控制是否在子查询中移除 `ORDER BY` 子句

在 Hive 中，hive.remove.orderby.in.subquery 是一个配置参数，用于控制是否在子查询中移除 ORDER BY 子句。启用这个选项后，Hive 在处理包含 ORDER BY 子句的子查询时，可能会尝试优化掉这部分排序操作。

SET hive.remove.orderby.in.subquery=true;

SET hive.remove.orderby.in.subquery=false;

默认情况下，这个参数通常是关闭的。启用这个选项可能在一些查询模式下带来性能优势，但在其他情况下可能会导致查询结果不准确，因为 ORDER BY 子句影响了查询结果的排序。

在 Hive 中，hive.reorder.nway.joins 是一个配置参数，用于控制是否在执行多表连接操作时对连接的表进行重新排序。启用这个选项后，Hive 可能会尝试重新排列多表连接的顺序，以优化查询性能。

SET hive.reorder.nway.joins=true;

SET hive.reorder.nway.joins=false;

在 Hive 中，hive.repl.add.raw.reserved.namespace 是一个配置参数，用于控制是否将数据库中的原始（raw）和保留（reserved）命名空间添加到复制（replication）过程中。启用此选项后，Hive 复制将包括原始和保留的命名空间。

SET hive.repl.add.raw.reserved.namespace=true;

SET hive.repl.add.raw.reserved.namespace=false;

显示所有内容

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

是否进行编译时优化

控制在动态分区插入时是否进行排序优化

是否在执行查询时优化 UNION 操作

控制在执行 UPDATE TABLE SET 操作时是否从 SerDe 中获取表属性进行优化

设置 ORC 文件格式的缓存大小，以存储 stripe 的详细信息

控制 ORC 文件格式是否使用软引用来管理缓存

指定计算 ORC 文件分片（splits）时所使用的线程数

指定在生成 ORC 文件分片时是否包含文件的底部（footer）信息

启用或禁用 ORC 文件中的元数据（footer）的缓存功能，以提高性能

指定在执行ORDER BY语句时，是否可以使用SELECT语句中的别名引用列的位置

P

控制是否在谓词下推优化中移除重复的过滤条件

是否启用 Hive 表的预热（Prewarm）功能

指定 Hive 权限同步器运行的时间间隔

Q

获取当前查询的唯一标识符（ID）

是否在查询重新执行时始终收集运算符（operator）的统计信息

是否启用查询重新执行（reexecution）的功能

指定查询重新执行（reexecution）的最大次数

设置在查询重新执行（reexecution）过程中缓存运算符（operator）统计信息的批量大小

指定查询重新执行（reexecution）期间用于缓存运算符（operator）统计信息的总体缓存大小

指定查询重新执行（reexecution）期间是否持久化运算符（operator）统计信息的范围

指定查询重新执行（reexecution）的策略

指定查询结果的文件格式

指定查询结果缓存的目录

是否启用查询结果缓存

指定查询结果缓存中每个缓存项的最大生命周期

指定查询结果缓存中每个缓存项的最大大小

指定整个查询结果缓存的最大大小

是否启用对非事务性表的查询结果缓存

是否等待挂起的查询结果被缓存后再执行查询

获取当前查询的字符串表示

指定查询的最大执行时间（超时时间），单位为秒

是否启用查询执行计划的进度日志记录

指定查询日志的存储位置

指定查询执行计划的进度信息记录的时间间隔

R

控制是否在子查询中移除 ORDER BY 子句

是否在执行多表连接操作时对连接的表进行重新排序

是否将数据库中的原始（raw）和保留（reserved）命名空间添加到复制（replication）过程中

相关文章

发表回复 取消回复

控制是否在子查询中移除 `ORDER BY` 子句

发表回复取消回复