From e3eef70a8efe4bd7eaea9e5c3101b895355c442b Mon Sep 17 00:00:00 2001
From: xiaohongbo <xiaohongbo.xhb@alibaba-inc.com>
Date: Wed, 24 Dec 2025 14:59:00 +0800
Subject: [PATCH 1/7] fix spilts

retry fix

Revert "retry fix"

This reverts commit dd761023cd9452e07b2338527e2fa9e122a8c01c.

clean code
---
 .../pypaimon/common/options/core_options.py   |  21 ++
 .../pypaimon/common/options/options_utils.py  |  35 +++
 .../read/scanner/full_starting_scanner.py     |  70 ++++--
 .../tests/reader_split_generator_test.py      | 209 ++++++++++++++++++
 4 files changed, 319 insertions(+), 16 deletions(-)
 create mode 100644 paimon-python/pypaimon/tests/reader_split_generator_test.py

diff --git a/paimon-python/pypaimon/common/options/core_options.py b/paimon-python/pypaimon/common/options/core_options.py
index 04c993b0e22d..10ff120d753c 100644
--- a/paimon-python/pypaimon/common/options/core_options.py
+++ b/paimon-python/pypaimon/common/options/core_options.py
@@ -33,6 +33,16 @@ class ExternalPathStrategy(str, Enum):
     SPECIFIC_FS = "specific-fs"
 
 
+class MergeEngine(str, Enum):
+    """
+    Specifies the merge engine for table with primary key.
+    """
+    DEDUPLICATE = "deduplicate"
+    PARTIAL_UPDATE = "partial-update"
+    AGGREGATE = "aggregation"
+    FIRST_ROW = "first-row"
+
+
 class CoreOptions:
     """Core options for Paimon tables."""
     # File format constants
@@ -206,6 +216,14 @@ class CoreOptions:
         .default_value(False)
         .with_description("Whether to enable deletion vectors.")
     )
+
+    MERGE_ENGINE: ConfigOption[MergeEngine] = (
+        ConfigOptions.key("merge-engine")
+        .enum_type(MergeEngine)
+        .default_value(MergeEngine.DEDUPLICATE)
+        .with_description("Specify the merge engine for table with primary key. "
+                          "Options: deduplicate, partial-update, aggregation, first-row.")
+    )
     # Commit options
     COMMIT_USER_PREFIX: ConfigOption[str] = (
         ConfigOptions.key("commit.user-prefix")
@@ -348,6 +366,9 @@ def data_evolution_enabled(self, default=None):
     def deletion_vectors_enabled(self, default=None):
         return self.options.get(CoreOptions.DELETION_VECTORS_ENABLED, default)
 
+    def merge_engine(self, default=None):
+        return self.options.get(CoreOptions.MERGE_ENGINE, default)
+
     def data_file_external_paths(self, default=None):
         external_paths_str = self.options.get(CoreOptions.DATA_FILE_EXTERNAL_PATHS, default)
         if not external_paths_str:
diff --git a/paimon-python/pypaimon/common/options/options_utils.py b/paimon-python/pypaimon/common/options/options_utils.py
index 12c9eaad0f88..f48f549df462 100644
--- a/paimon-python/pypaimon/common/options/options_utils.py
+++ b/paimon-python/pypaimon/common/options/options_utils.py
@@ -16,6 +16,7 @@
 limitations under the License.
 """
 
+from enum import Enum
 from typing import Any, Type
 
 from pypaimon.common.memory_size import MemorySize
@@ -45,6 +46,12 @@ def convert_value(value: Any, target_type: Type) -> Any:
         if isinstance(value, target_type):
             return value
 
+        try:
+            if issubclass(target_type, Enum):
+                return OptionsUtils.convert_to_enum(value, target_type)
+        except TypeError:
+            pass
+
         # Handle string conversions
         if target_type == str:
             return OptionsUtils.convert_to_string(value)
@@ -117,3 +124,31 @@ def convert_to_memory_size(value: Any) -> MemorySize:
         if isinstance(value, str):
             return MemorySize.parse(value)
         raise ValueError(f"Cannot convert {type(value)} to MemorySize")
+
+    @staticmethod
+    def convert_to_enum(value: Any, enum_class: Type[Enum]) -> Enum:
+
+        if isinstance(value, enum_class):
+            return value
+
+        if isinstance(value, str):
+            value_lower = value.lower().strip()
+            for enum_member in enum_class:
+                if enum_member.value.lower() == value_lower:
+                    return enum_member
+            try:
+                return enum_class[value.upper()]
+            except KeyError:
+                raise ValueError(
+                    f"Cannot convert '{value}' to {enum_class.__name__}. "
+                    f"Valid values: {[e.value for e in enum_class]}"
+                )
+        elif isinstance(value, Enum):
+            for enum_member in enum_class:
+                if enum_member.value == value.value:
+                    return enum_member
+            raise ValueError(
+                f"Cannot convert {value} (from {type(value).__name__}) to {enum_class.__name__}"
+            )
+        else:
+            raise ValueError(f"Cannot convert {type(value)} to {enum_class.__name__}")
diff --git a/paimon-python/pypaimon/read/scanner/full_starting_scanner.py b/paimon-python/pypaimon/read/scanner/full_starting_scanner.py
index 96a848ce0193..433afd53c5b4 100644
--- a/paimon-python/pypaimon/read/scanner/full_starting_scanner.py
+++ b/paimon-python/pypaimon/read/scanner/full_starting_scanner.py
@@ -36,6 +36,7 @@
 from pypaimon.snapshot.snapshot_manager import SnapshotManager
 from pypaimon.table.bucket_mode import BucketMode
 from pypaimon.manifest.simple_stats_evolutions import SimpleStatsEvolutions
+from pypaimon.common.options.core_options import MergeEngine
 
 
 class FullStartingScanner(StartingScanner):
@@ -471,6 +472,12 @@ def weight_func(f: DataFileMeta) -> int:
             self._compute_split_start_end_row(splits, plan_start_row, plan_end_row)
         return splits
 
+    def _without_delete_row(self, data_file_meta: DataFileMeta) -> bool:
+        # null to true to be compatible with old version
+        if data_file_meta.delete_row_count is None:
+            return True
+        return data_file_meta.delete_row_count == 0
+
     def _create_primary_key_splits(
             self, file_entries: List[ManifestEntry], deletion_files_map: dict = None) -> List['Split']:
         if self.idx_of_this_subtask is not None:
@@ -479,28 +486,56 @@ def _create_primary_key_splits(
         for entry in file_entries:
             partitioned_files[(tuple(entry.partition.values), entry.bucket)].append(entry)
 
+        def single_weight_func(f: DataFileMeta) -> int:
+            return max(f.file_size, self.open_file_cost)
+
         def weight_func(fl: List[DataFileMeta]) -> int:
             return max(sum(f.file_size for f in fl), self.open_file_cost)
 
+        merge_engine = self.table.options.merge_engine()
+        merge_engine_first_row = merge_engine == MergeEngine.FIRST_ROW
+
         splits = []
         for key, file_entries in partitioned_files.items():
             if not file_entries:
                 return []
 
             data_files: List[DataFileMeta] = [e.file for e in file_entries]
-            partition_sort_runs: List[List[SortedRun]] = IntervalPartition(data_files).partition()
-            sections: List[List[DataFileMeta]] = [
-                [file for s in sl for file in s.files]
-                for sl in partition_sort_runs
-            ]
 
-            packed_files: List[List[List[DataFileMeta]]] = self._pack_for_ordered(sections, weight_func,
-                                                                                  self.target_split_size)
-            flatten_packed_files: List[List[DataFileMeta]] = [
-                [file for sub_pack in pack for file in sub_pack]
-                for pack in packed_files
-            ]
-            splits += self._build_split_from_pack(flatten_packed_files, file_entries, True, deletion_files_map)
+            raw_convertible = all(
+                f.level != 0 and self._without_delete_row(f)
+                for f in data_files
+            )
+
+            levels = {f.level for f in data_files}
+            one_level = len(levels) == 1
+
+            use_optimized_path = raw_convertible and (
+                self.deletion_vectors_enabled or merge_engine_first_row or one_level)
+            if use_optimized_path:
+                packed_files: List[List[DataFileMeta]] = self._pack_for_ordered(
+                    data_files, single_weight_func, self.target_split_size
+                )
+                splits += self._build_split_from_pack(
+                    packed_files, file_entries, True, deletion_files_map,
+                    use_optimized_path)
+            else:
+                partition_sort_runs: List[List[SortedRun]] = IntervalPartition(data_files).partition()
+                sections: List[List[DataFileMeta]] = [
+                    [file for s in sl for file in s.files]
+                    for sl in partition_sort_runs
+                ]
+
+                packed_files: List[List[List[DataFileMeta]]] = self._pack_for_ordered(sections, weight_func,
+                                                                                      self.target_split_size)
+
+                flatten_packed_files: List[List[DataFileMeta]] = [
+                    [file for sub_pack in pack for file in sub_pack]
+                    for pack in packed_files
+                ]
+                splits += self._build_split_from_pack(
+                    flatten_packed_files, file_entries, True,
+                    deletion_files_map, False)
         return splits
 
     def _create_data_evolution_splits(
@@ -595,12 +630,15 @@ def _split_by_row_id(self, files: List[DataFileMeta]) -> List[List[DataFileMeta]
         return split_by_row_id
 
     def _build_split_from_pack(self, packed_files, file_entries, for_primary_key_split: bool,
-                               deletion_files_map: dict = None) -> List['Split']:
+                               deletion_files_map: dict = None, use_optimized_path: bool = False) -> List['Split']:
         splits = []
         for file_group in packed_files:
-            raw_convertible = True
-            if for_primary_key_split:
-                raw_convertible = len(file_group) == 1
+            if use_optimized_path:
+                raw_convertible = True
+            elif for_primary_key_split:
+                raw_convertible = len(file_group) == 1 and self._without_delete_row(file_group[0])
+            else:
+                raw_convertible = True
 
             file_paths = []
             total_file_size = 0
diff --git a/paimon-python/pypaimon/tests/reader_split_generator_test.py b/paimon-python/pypaimon/tests/reader_split_generator_test.py
new file mode 100644
index 000000000000..7485bf1c1e3e
--- /dev/null
+++ b/paimon-python/pypaimon/tests/reader_split_generator_test.py
@@ -0,0 +1,209 @@
+################################################################################
+#  Licensed to the Apache Software Foundation (ASF) under one
+#  or more contributor license agreements.  See the NOTICE file
+#  distributed with this work for additional information
+#  regarding copyright ownership.  The ASF licenses this file
+#  to you under the Apache License, Version 2.0 (the
+#  "License"); you may not use this file except in compliance
+#  with the License.  You may obtain a copy of the License at
+#
+#      http://www.apache.org/licenses/LICENSE-2.0
+#
+#  Unless required by applicable law or agreed to in writing, software
+#  distributed under the License is distributed on an "AS IS" BASIS,
+#  WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+#  See the License for the specific language governing permissions and
+#  limitations under the License.
+################################################################################
+
+"""
+Test cases for split generation logic, matching Java's SplitGeneratorTest.
+
+This test covers MergeTree split generation and rawConvertible logic.
+"""
+
+import os
+import shutil
+import tempfile
+import unittest
+
+import pyarrow as pa
+
+from pypaimon import CatalogFactory, Schema
+from pypaimon.common.options.core_options import CoreOptions
+
+
+class SplitGeneratorTest(unittest.TestCase):
+    @classmethod
+    def setUpClass(cls):
+        cls.tempdir = tempfile.mkdtemp()
+        cls.warehouse = os.path.join(cls.tempdir, 'warehouse')
+        cls.catalog = CatalogFactory.create({
+            'warehouse': cls.warehouse
+        })
+        cls.catalog.create_database('default', False)
+
+    @classmethod
+    def tearDownClass(cls):
+        shutil.rmtree(cls.tempdir, ignore_errors=True)
+
+    def _create_table(self, table_name, merge_engine='deduplicate',
+                      deletion_vectors_enabled=False,
+                      split_target_size=None, split_open_file_cost=None):
+        pa_schema = pa.schema([
+            ('id', pa.int64()),
+            ('value', pa.string())
+        ])
+        options = {
+            'bucket': '1',  # Single bucket for testing
+            'merge-engine': merge_engine,
+            'deletion-vectors.enabled': str(deletion_vectors_enabled).lower()
+        }
+        if split_target_size is not None:
+            options[CoreOptions.SOURCE_SPLIT_TARGET_SIZE.key()] = split_target_size
+        if split_open_file_cost is not None:
+            options[CoreOptions.SOURCE_SPLIT_OPEN_FILE_COST.key()] = split_open_file_cost
+        
+        schema = Schema.from_pyarrow_schema(
+            pa_schema,
+            primary_keys=['id'],
+            options=options
+        )
+        self.catalog.create_table(f'default.{table_name}', schema, False)
+        return self.catalog.get_table(f'default.{table_name}')
+
+    def _write_data(self, table, data_list):
+        for data in data_list:
+            write_builder = table.new_batch_write_builder()
+            writer = write_builder.new_write()
+            batch = pa.Table.from_pydict(data, schema=pa.schema([
+                ('id', pa.int64()),
+                ('value', pa.string())
+            ]))
+            writer.write_arrow(batch)
+            commit_messages = writer.prepare_commit()
+            commit = write_builder.new_commit()
+            commit.commit(commit_messages)
+            writer.close()
+
+    def _get_splits_info(self, table):
+        read_builder = table.new_read_builder()
+        table_scan = read_builder.new_scan()
+        splits = table_scan.plan().splits()
+        
+        result = []
+        for split in splits:
+            file_names = sorted([f.file_name for f in split.files])
+            result.append((file_names, split.raw_convertible))
+        return result
+
+    def test_merge_tree(self):
+        table1 = self._create_table('test_merge_tree_1', split_target_size='1kb', split_open_file_cost='100b')
+        self._write_data(table1, [
+            {'id': [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10], 'value': [f'v{i}' for i in range(11)]},
+            {'id': [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12], 'value': [f'v{i}' for i in range(13)]},
+            {'id': [15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28,
+                    29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42,
+                    43, 44, 45, 46, 47, 48, 49, 50, 51, 52, 53, 54, 55, 56,
+                    57, 58, 59, 60],
+             'value': [f'v{i}' for i in range(15, 61)]},
+            {'id': [18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31,
+                    32, 33, 34, 35, 36, 37, 38, 39, 40],
+             'value': [f'v{i}' for i in range(18, 41)]},
+            {'id': [82, 83, 84, 85], 'value': [f'v{i}' for i in range(82, 86)]},
+            {'id': list(range(100, 201)), 'value': [f'v{i}' for i in range(100, 201)]},
+        ])
+        splits_info1 = self._get_splits_info(table1)
+        self.assertGreater(len(splits_info1), 0)
+        total_files1 = sum(len(files) for files, _ in splits_info1)
+        self.assertEqual(total_files1, 6)
+        self.assertLessEqual(len(splits_info1), 6)
+        
+        table2 = self._create_table('test_merge_tree_2', split_target_size='1kb', split_open_file_cost='1kb')
+        self._write_data(table2, [
+            {'id': [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10], 'value': [f'v{i}' for i in range(11)]},
+            {'id': [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12], 'value': [f'v{i}' for i in range(13)]},
+            {'id': [15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28,
+                    29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42,
+                    43, 44, 45, 46, 47, 48, 49, 50, 51, 52, 53, 54, 55, 56,
+                    57, 58, 59, 60],
+             'value': [f'v{i}' for i in range(15, 61)]},
+            {'id': [18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31,
+                    32, 33, 34, 35, 36, 37, 38, 39, 40],
+             'value': [f'v{i}' for i in range(18, 41)]},
+            {'id': [82, 83, 84, 85], 'value': [f'v{i}' for i in range(82, 86)]},
+            {'id': list(range(100, 201)), 'value': [f'v{i}' for i in range(100, 201)]},
+        ])
+        splits_info2 = self._get_splits_info(table2)
+        self.assertGreater(len(splits_info2), 0)
+        total_files2 = sum(len(files) for files, _ in splits_info2)
+        self.assertEqual(total_files2, 6)
+        self.assertGreaterEqual(len(splits_info2), len(splits_info1))
+        
+        for file_names, raw_convertible in splits_info1 + splits_info2:
+            self.assertGreater(len(file_names), 0)
+
+    def test_split_raw_convertible(self):
+        table = self._create_table('test_raw_convertible')
+        self._write_data(table, [{'id': [1, 2], 'value': ['a', 'b']}])
+        splits = table.new_read_builder().new_scan().plan().splits()
+        for split in splits:
+            if len(split.files) == 1:
+                has_delete_rows = any(f.delete_row_count and f.delete_row_count > 0 for f in split.files)
+                if not has_delete_rows:
+                    self.assertTrue(split.raw_convertible)
+        
+        table_dv = self._create_table('test_dv', deletion_vectors_enabled=True)
+        self._write_data(table_dv, [
+            {'id': [1, 2], 'value': ['a', 'b']},
+            {'id': [3, 4], 'value': ['c', 'd']},
+        ])
+        splits_dv = table_dv.new_read_builder().new_scan().plan().splits()
+        for split in splits_dv:
+            if len(split.files) == 1:
+                has_delete_rows = any(f.delete_row_count and f.delete_row_count > 0 for f in split.files)
+                if not has_delete_rows:
+                    self.assertTrue(split.raw_convertible)
+        
+        table_first_row = self._create_table('test_first_row', merge_engine='first-row')
+        self._write_data(table_first_row, [
+            {'id': [1, 2], 'value': ['a', 'b']},
+            {'id': [3, 4], 'value': ['c', 'd']},
+        ])
+        splits_first_row = table_first_row.new_read_builder().new_scan().plan().splits()
+        for split in splits_first_row:
+            if len(split.files) == 1:
+                has_delete_rows = any(f.delete_row_count and f.delete_row_count > 0 for f in split.files)
+                if not has_delete_rows:
+                    self.assertTrue(split.raw_convertible)
+
+    def test_merge_tree_split_raw_convertible(self):
+        table = self._create_table('test_mixed_levels')
+        self._write_data(table, [
+            {'id': [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10], 'value': [f'v{i}' for i in range(11)]},
+            {'id': [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12], 'value': [f'v{i}' for i in range(13)]},
+            {'id': [13, 14, 15, 16, 17, 18, 19, 20], 'value': [f'v{i}' for i in range(13, 21)]},
+            {'id': list(range(21, 221)), 'value': [f'v{i}' for i in range(21, 221)]},
+            {'id': list(range(201, 211)), 'value': [f'v{i}' for i in range(201, 211)]},
+            {'id': list(range(211, 221)), 'value': [f'v{i}' for i in range(211, 221)]},
+        ])
+        splits = table.new_read_builder().new_scan().plan().splits()
+        self.assertGreater(len(splits), 0)
+        
+        for split in splits:
+            has_level_0 = any(f.level == 0 for f in split.files)
+            has_delete_rows = any(f.delete_row_count and f.delete_row_count > 0 for f in split.files)
+            
+            if len(split.files) == 1:
+                if not has_level_0 and not has_delete_rows:
+                    self.assertTrue(
+                        split.raw_convertible,
+                        "Single file split should be raw_convertible")
+            else:
+                self.assertFalse(
+                    split.raw_convertible,
+                    "Multi-file split should not be raw_convertible")
+
+
+if __name__ == '__main__':
+    unittest.main()

From 71329a24ed5d436946d8f3b8962c2d6a30075745 Mon Sep 17 00:00:00 2001
From: xiaohongbo <xiaohongbo.xhb@alibaba-inc.com>
Date: Mon, 29 Dec 2025 01:55:47 +0800
Subject: [PATCH 2/7] fix test case failure

---
 .../tests/reader_split_generator_test.py      | 54 ++++++++++++++++---
 1 file changed, 46 insertions(+), 8 deletions(-)

diff --git a/paimon-python/pypaimon/tests/reader_split_generator_test.py b/paimon-python/pypaimon/tests/reader_split_generator_test.py
index 7485bf1c1e3e..e397866402d0 100644
--- a/paimon-python/pypaimon/tests/reader_split_generator_test.py
+++ b/paimon-python/pypaimon/tests/reader_split_generator_test.py
@@ -159,11 +159,29 @@ def test_split_raw_convertible(self):
             {'id': [3, 4], 'value': ['c', 'd']},
         ])
         splits_dv = table_dv.new_read_builder().new_scan().plan().splits()
-        for split in splits_dv:
-            if len(split.files) == 1:
-                has_delete_rows = any(f.delete_row_count and f.delete_row_count > 0 for f in split.files)
-                if not has_delete_rows:
-                    self.assertTrue(split.raw_convertible)
+        
+        # When deletion_vectors_enabled=True, level 0 files are filtered out by _filter_manifest_entry
+        # (see full_starting_scanner.py line 331). Since newly written files are level 0 and haven't
+        # been compacted, splits_dv will be empty. This makes the deletion vectors sub-test vacuous
+        # - it passes without actually verifying any behavior for the deletion vectors scenario.
+        #
+        # To make this test meaningful, compaction would need to occur to promote files to level > 0,
+        # but Python Paimon doesn't currently expose a compaction API. As a workaround, we verify
+        # that the behavior is as expected: when deletion vectors are enabled and only level 0 files
+        # exist, no splits are returned.
+        if len(splits_dv) == 0:
+            # Expected: level 0 files are filtered when deletion vectors are enabled
+            # This test would need compaction to be meaningful, but currently serves as a
+            # regression test to ensure the filtering behavior doesn't change unexpectedly
+            pass
+        else:
+            # If splits exist (e.g., after compaction or if filtering logic changes),
+            # verify they follow the raw_convertible rules
+            for split in splits_dv:
+                if len(split.files) == 1:
+                    has_delete_rows = any(f.delete_row_count and f.delete_row_count > 0 for f in split.files)
+                    if not has_delete_rows:
+                        self.assertTrue(split.raw_convertible)
         
         table_first_row = self._create_table('test_first_row', merge_engine='first-row')
         self._write_data(table_first_row, [
@@ -190,6 +208,10 @@ def test_merge_tree_split_raw_convertible(self):
         splits = table.new_read_builder().new_scan().plan().splits()
         self.assertGreater(len(splits), 0)
         
+        deletion_vectors_enabled = table.options.deletion_vectors_enabled()
+        merge_engine = table.options.merge_engine()
+        merge_engine_first_row = str(merge_engine) == 'FIRST_ROW'
+        
         for split in splits:
             has_level_0 = any(f.level == 0 for f in split.files)
             has_delete_rows = any(f.delete_row_count and f.delete_row_count > 0 for f in split.files)
@@ -200,9 +222,25 @@ def test_merge_tree_split_raw_convertible(self):
                         split.raw_convertible,
                         "Single file split should be raw_convertible")
             else:
-                self.assertFalse(
-                    split.raw_convertible,
-                    "Multi-file split should not be raw_convertible")
+                all_non_level0_no_delete = all(
+                    f.level != 0 and (not f.delete_row_count or f.delete_row_count == 0)
+                    for f in split.files
+                )
+                levels = {f.level for f in split.files}
+                one_level = len(levels) == 1
+                
+                use_optimized_path = all_non_level0_no_delete and (
+                    deletion_vectors_enabled or merge_engine_first_row or one_level
+                )
+                
+                if use_optimized_path:
+                    self.assertTrue(
+                        split.raw_convertible,
+                        "Multi-file split should be raw_convertible when optimized path is used")
+                else:
+                    self.assertFalse(
+                        split.raw_convertible,
+                        "Multi-file split should not be raw_convertible when optimized path is not used")
 
 
 if __name__ == '__main__':

From 13c976b88a3afd5b678b9b456a6b4688701c73ec Mon Sep 17 00:00:00 2001
From: xiaohongbo <xiaohongbo.xhb@alibaba-inc.com>
Date: Mon, 29 Dec 2025 01:57:17 +0800
Subject: [PATCH 3/7] clean code

---
 .../pypaimon/tests/reader_split_generator_test.py  | 14 --------------
 1 file changed, 14 deletions(-)

diff --git a/paimon-python/pypaimon/tests/reader_split_generator_test.py b/paimon-python/pypaimon/tests/reader_split_generator_test.py
index e397866402d0..0f41fcccc59a 100644
--- a/paimon-python/pypaimon/tests/reader_split_generator_test.py
+++ b/paimon-python/pypaimon/tests/reader_split_generator_test.py
@@ -160,23 +160,9 @@ def test_split_raw_convertible(self):
         ])
         splits_dv = table_dv.new_read_builder().new_scan().plan().splits()
         
-        # When deletion_vectors_enabled=True, level 0 files are filtered out by _filter_manifest_entry
-        # (see full_starting_scanner.py line 331). Since newly written files are level 0 and haven't
-        # been compacted, splits_dv will be empty. This makes the deletion vectors sub-test vacuous
-        # - it passes without actually verifying any behavior for the deletion vectors scenario.
-        #
-        # To make this test meaningful, compaction would need to occur to promote files to level > 0,
-        # but Python Paimon doesn't currently expose a compaction API. As a workaround, we verify
-        # that the behavior is as expected: when deletion vectors are enabled and only level 0 files
-        # exist, no splits are returned.
         if len(splits_dv) == 0:
-            # Expected: level 0 files are filtered when deletion vectors are enabled
-            # This test would need compaction to be meaningful, but currently serves as a
-            # regression test to ensure the filtering behavior doesn't change unexpectedly
             pass
         else:
-            # If splits exist (e.g., after compaction or if filtering logic changes),
-            # verify they follow the raw_convertible rules
             for split in splits_dv:
                 if len(split.files) == 1:
                     has_delete_rows = any(f.delete_row_count and f.delete_row_count > 0 for f in split.files)

From 3d644fd689de7e8dc6c34010a87be8834947a727 Mon Sep 17 00:00:00 2001
From: xiaohongbo <xiaohongbo.xhb@alibaba-inc.com>
Date: Mon, 29 Dec 2025 20:30:22 +0800
Subject: [PATCH 4/7] clean code

---
 .../tests/reader_split_generator_test.py      | 70 +++++++------------
 1 file changed, 26 insertions(+), 44 deletions(-)

diff --git a/paimon-python/pypaimon/tests/reader_split_generator_test.py b/paimon-python/pypaimon/tests/reader_split_generator_test.py
index 0f41fcccc59a..6417bcfb499b 100644
--- a/paimon-python/pypaimon/tests/reader_split_generator_test.py
+++ b/paimon-python/pypaimon/tests/reader_split_generator_test.py
@@ -72,19 +72,28 @@ def _create_table(self, table_name, merge_engine='deduplicate',
         self.catalog.create_table(f'default.{table_name}', schema, False)
         return self.catalog.get_table(f'default.{table_name}')
 
+    def _create_test_data(self, id_ranges):
+        return [
+            {'id': list(range(start, end)) if isinstance(start, int) else start,
+             'value': [f'v{i}' for i in (range(start, end) if isinstance(start, int) else start)]}
+            for start, end in id_ranges
+        ]
+    
     def _write_data(self, table, data_list):
+        pa_schema = pa.schema([
+            ('id', pa.int64()),
+            ('value', pa.string())
+        ])
         for data in data_list:
             write_builder = table.new_batch_write_builder()
             writer = write_builder.new_write()
-            batch = pa.Table.from_pydict(data, schema=pa.schema([
-                ('id', pa.int64()),
-                ('value', pa.string())
-            ]))
-            writer.write_arrow(batch)
-            commit_messages = writer.prepare_commit()
             commit = write_builder.new_commit()
-            commit.commit(commit_messages)
-            writer.close()
+            try:
+                batch = pa.Table.from_pydict(data, schema=pa_schema)
+                writer.write_arrow(batch)
+                commit.commit(writer.prepare_commit())
+            finally:
+                writer.close()
 
     def _get_splits_info(self, table):
         read_builder = table.new_read_builder()
@@ -98,21 +107,12 @@ def _get_splits_info(self, table):
         return result
 
     def test_merge_tree(self):
-        table1 = self._create_table('test_merge_tree_1', split_target_size='1kb', split_open_file_cost='100b')
-        self._write_data(table1, [
-            {'id': [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10], 'value': [f'v{i}' for i in range(11)]},
-            {'id': [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12], 'value': [f'v{i}' for i in range(13)]},
-            {'id': [15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28,
-                    29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42,
-                    43, 44, 45, 46, 47, 48, 49, 50, 51, 52, 53, 54, 55, 56,
-                    57, 58, 59, 60],
-             'value': [f'v{i}' for i in range(15, 61)]},
-            {'id': [18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31,
-                    32, 33, 34, 35, 36, 37, 38, 39, 40],
-             'value': [f'v{i}' for i in range(18, 41)]},
-            {'id': [82, 83, 84, 85], 'value': [f'v{i}' for i in range(82, 86)]},
-            {'id': list(range(100, 201)), 'value': [f'v{i}' for i in range(100, 201)]},
+        test_data = self._create_test_data([
+            (0, 11), (0, 13), (15, 61), (18, 41), (82, 86), (100, 201)
         ])
+        
+        table1 = self._create_table('test_merge_tree_1', split_target_size='1kb', split_open_file_cost='100b')
+        self._write_data(table1, test_data)
         splits_info1 = self._get_splits_info(table1)
         self.assertGreater(len(splits_info1), 0)
         total_files1 = sum(len(files) for files, _ in splits_info1)
@@ -120,20 +120,7 @@ def test_merge_tree(self):
         self.assertLessEqual(len(splits_info1), 6)
         
         table2 = self._create_table('test_merge_tree_2', split_target_size='1kb', split_open_file_cost='1kb')
-        self._write_data(table2, [
-            {'id': [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10], 'value': [f'v{i}' for i in range(11)]},
-            {'id': [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12], 'value': [f'v{i}' for i in range(13)]},
-            {'id': [15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28,
-                    29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42,
-                    43, 44, 45, 46, 47, 48, 49, 50, 51, 52, 53, 54, 55, 56,
-                    57, 58, 59, 60],
-             'value': [f'v{i}' for i in range(15, 61)]},
-            {'id': [18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31,
-                    32, 33, 34, 35, 36, 37, 38, 39, 40],
-             'value': [f'v{i}' for i in range(18, 41)]},
-            {'id': [82, 83, 84, 85], 'value': [f'v{i}' for i in range(82, 86)]},
-            {'id': list(range(100, 201)), 'value': [f'v{i}' for i in range(100, 201)]},
-        ])
+        self._write_data(table2, test_data)
         splits_info2 = self._get_splits_info(table2)
         self.assertGreater(len(splits_info2), 0)
         total_files2 = sum(len(files) for files, _ in splits_info2)
@@ -183,14 +170,9 @@ def test_split_raw_convertible(self):
 
     def test_merge_tree_split_raw_convertible(self):
         table = self._create_table('test_mixed_levels')
-        self._write_data(table, [
-            {'id': [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10], 'value': [f'v{i}' for i in range(11)]},
-            {'id': [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12], 'value': [f'v{i}' for i in range(13)]},
-            {'id': [13, 14, 15, 16, 17, 18, 19, 20], 'value': [f'v{i}' for i in range(13, 21)]},
-            {'id': list(range(21, 221)), 'value': [f'v{i}' for i in range(21, 221)]},
-            {'id': list(range(201, 211)), 'value': [f'v{i}' for i in range(201, 211)]},
-            {'id': list(range(211, 221)), 'value': [f'v{i}' for i in range(211, 221)]},
-        ])
+        self._write_data(table, self._create_test_data([
+            (0, 11), (0, 13), (13, 21), (21, 221), (201, 211), (211, 221)
+        ]))
         splits = table.new_read_builder().new_scan().plan().splits()
         self.assertGreater(len(splits), 0)
         

From 1dd8375ab1a11c972254af244e5611693617f738 Mon Sep 17 00:00:00 2001
From: xiaohongbo <xiaohongbo.xhb@alibaba-inc.com>
Date: Mon, 29 Dec 2025 20:40:41 +0800
Subject: [PATCH 5/7] fix

---
 paimon-python/pypaimon/tests/reader_split_generator_test.py | 5 +++--
 1 file changed, 3 insertions(+), 2 deletions(-)

diff --git a/paimon-python/pypaimon/tests/reader_split_generator_test.py b/paimon-python/pypaimon/tests/reader_split_generator_test.py
index 6417bcfb499b..c28183697c42 100644
--- a/paimon-python/pypaimon/tests/reader_split_generator_test.py
+++ b/paimon-python/pypaimon/tests/reader_split_generator_test.py
@@ -30,7 +30,7 @@
 import pyarrow as pa
 
 from pypaimon import CatalogFactory, Schema
-from pypaimon.common.options.core_options import CoreOptions
+from pypaimon.common.options.core_options import CoreOptions, MergeEngine
 
 
 class SplitGeneratorTest(unittest.TestCase):
@@ -94,6 +94,7 @@ def _write_data(self, table, data_list):
                 commit.commit(writer.prepare_commit())
             finally:
                 writer.close()
+                commit.close()
 
     def _get_splits_info(self, table):
         read_builder = table.new_read_builder()
@@ -178,7 +179,7 @@ def test_merge_tree_split_raw_convertible(self):
         
         deletion_vectors_enabled = table.options.deletion_vectors_enabled()
         merge_engine = table.options.merge_engine()
-        merge_engine_first_row = str(merge_engine) == 'FIRST_ROW'
+        merge_engine_first_row = merge_engine == MergeEngine.FIRST_ROW
         
         for split in splits:
             has_level_0 = any(f.level == 0 for f in split.files)

From 9cb3528a2d58e83ca3f7ac8a9eb943d090640ad6 Mon Sep 17 00:00:00 2001
From: xiaohongbo <xiaohongbo.xhb@alibaba-inc.com>
Date: Mon, 29 Dec 2025 21:06:09 +0800
Subject: [PATCH 6/7] fix

---
 .../read/scanner/full_starting_scanner.py     |  2 +-
 .../tests/reader_split_generator_test.py      | 32 +++++++++++++++++++
 2 files changed, 33 insertions(+), 1 deletion(-)

diff --git a/paimon-python/pypaimon/read/scanner/full_starting_scanner.py b/paimon-python/pypaimon/read/scanner/full_starting_scanner.py
index 433afd53c5b4..eebd3b6008d1 100644
--- a/paimon-python/pypaimon/read/scanner/full_starting_scanner.py
+++ b/paimon-python/pypaimon/read/scanner/full_starting_scanner.py
@@ -498,7 +498,7 @@ def weight_func(fl: List[DataFileMeta]) -> int:
         splits = []
         for key, file_entries in partitioned_files.items():
             if not file_entries:
-                return []
+                continue
 
             data_files: List[DataFileMeta] = [e.file for e in file_entries]
 
diff --git a/paimon-python/pypaimon/tests/reader_split_generator_test.py b/paimon-python/pypaimon/tests/reader_split_generator_test.py
index c28183697c42..a7a76248c2c1 100644
--- a/paimon-python/pypaimon/tests/reader_split_generator_test.py
+++ b/paimon-python/pypaimon/tests/reader_split_generator_test.py
@@ -211,6 +211,38 @@ def test_merge_tree_split_raw_convertible(self):
                         split.raw_convertible,
                         "Multi-file split should not be raw_convertible when optimized path is not used")
 
+    def test_shard_with_empty_partition(self):
+        pa_schema = pa.schema([
+            ('id', pa.int64()),
+            ('value', pa.string())
+        ])
+        schema = Schema.from_pyarrow_schema(
+            pa_schema,
+            primary_keys=['id'],
+            options={'bucket': '3'}  # Use 3 buckets for shard testing
+        )
+        self.catalog.create_table('default.test_shard_empty_partition', schema, False)
+        table = self.catalog.get_table('default.test_shard_empty_partition')
+        
+        self._write_data(table, [
+            {'id': [0, 3, 6], 'value': ['v0', 'v3', 'v6']},
+            {'id': [1, 4, 7], 'value': ['v1', 'v4', 'v7']},
+            {'id': [2, 5, 8], 'value': ['v2', 'v5', 'v8']},
+        ])
+        
+        read_builder = table.new_read_builder()
+        
+        splits_all = read_builder.new_scan().plan().splits()
+        self.assertGreater(len(splits_all), 0, "Should have splits without shard filtering")
+        
+        splits_shard_0 = read_builder.new_scan().with_shard(0, 3).plan().splits()
+        
+        self.assertGreaterEqual(len(splits_shard_0), 0,
+                               "Should return splits even if some partitions are empty after shard filtering")
+        
+        for split in splits_shard_0:
+            self.assertGreater(len(split.files), 0, "Each split should have at least one file")
+
 
 if __name__ == '__main__':
     unittest.main()

From 5c1be93a987402225e2520df0e6c3bef498728b7 Mon Sep 17 00:00:00 2001
From: xiaohongbo <xiaohongbo.xhb@alibaba-inc.com>
Date: Mon, 29 Dec 2025 21:15:56 +0800
Subject: [PATCH 7/7] fix code format

---
 paimon-python/pypaimon/tests/reader_split_generator_test.py | 5 +++--
 1 file changed, 3 insertions(+), 2 deletions(-)

diff --git a/paimon-python/pypaimon/tests/reader_split_generator_test.py b/paimon-python/pypaimon/tests/reader_split_generator_test.py
index a7a76248c2c1..ad2f9e084b8d 100644
--- a/paimon-python/pypaimon/tests/reader_split_generator_test.py
+++ b/paimon-python/pypaimon/tests/reader_split_generator_test.py
@@ -237,8 +237,9 @@ def test_shard_with_empty_partition(self):
         
         splits_shard_0 = read_builder.new_scan().with_shard(0, 3).plan().splits()
         
-        self.assertGreaterEqual(len(splits_shard_0), 0,
-                               "Should return splits even if some partitions are empty after shard filtering")
+        self.assertGreaterEqual(
+            len(splits_shard_0), 0,
+            "Should return splits even if some partitions are empty after shard filtering")
         
         for split in splits_shard_0:
             self.assertGreater(len(split.files), 0, "Each split should have at least one file")