TxT2Docx/test_segment_function.py
2025-09-26 15:49:06 +08:00

35 lines
1.1 KiB
Python

#!/usr/bin/env python3
"""测试分段排版功能"""
import sys
import os
sys.path.insert(0, os.path.dirname(os.path.abspath(__file__)))
from text_splitter import TextSplitter
# 测试文本
test_text = """这是一个测试文本。它包含多个句子。每个句子都很短。但是我们需要测试分段排版功能。
当文本长度超过最小段落长度时。应该被分割成多个段落。这样可以提高文档的可读性。
让内容更加清晰易懂。"""
def test_text_splitting():
print("=== 测试分段排版功能 ===")
print(f"原始文本长度: {len(test_text)} 字符")
print(f"原始文本: {test_text}")
print()
# 创建分段器
splitter = TextSplitter(min_length=50, max_length=200)
# 分段处理
paragraphs = splitter.split_text(test_text)
print(f"分段结果 ({len(paragraphs)} 个段落):")
for i, paragraph in enumerate(paragraphs, 1):
print(f"段落 {i} ({len(paragraph)} 字符): {paragraph}")
print()
print("=== 测试完成 ===")
if __name__ == "__main__":
test_text_splitting()