Fix id baseline (#2036)

* Fix all human_readable_id columns to start at 0 * Semver
2026-01-14 00:57:23 +08:00 · 2025-08-27 11:15:21 -07:00 · 2025-08-27 11:15:21 -07:00 · 69ad36e735
commit 69ad36e735
parent 30bdb35cc8
14 changed files with 10 additions and 12 deletions
--- a/.semversioner/next-release/patch-20250827005334747623.json
+++ b/.semversioner/next-release/patch-20250827005334747623.json
@ -0,0 +1,4 @@
+{
+  "type": "patch",
+  "description": "Fix all human_readable_id fields to be 0-based."
+}
--- a/graphrag/index/workflows/create_final_documents.py
+++ b/graphrag/index/workflows/create_final_documents.py
@ -69,7 +69,7 @@ def create_final_documents(
    ).reset_index(drop=True)

    rejoined["id"] = rejoined["id"].astype(str)
-    rejoined["human_readable_id"] = rejoined.index + 1
+    rejoined["human_readable_id"] = rejoined.index

    if "metadata" not in rejoined.columns:
        rejoined["metadata"] = pd.Series(dtype="object")
--- a/graphrag/index/workflows/create_final_text_units.py
+++ b/graphrag/index/workflows/create_final_text_units.py
@ -60,7 +60,7 @@ def create_final_text_units(
 ) -> pd.DataFrame:
    """All the steps to transform the text units."""
    selected = text_units.loc[:, ["id", "text", "document_ids", "n_tokens"]]
-    selected["human_readable_id"] = selected.index + 1
+    selected["human_readable_id"] = selected.index

    entity_join = _entities(final_entities)
    relationship_join = _relationships(final_relationships)
--- a/graphrag/index/workflows/extract_covariates.py
+++ b/graphrag/index/workflows/extract_covariates.py
@ -88,6 +88,6 @@ async def extract_covariates(
    )
    text_units.drop(columns=["text_unit_id"], inplace=True)  # don't pollute the global
    covariates["id"] = covariates["covariate_type"].apply(lambda _x: str(uuid4()))
-    covariates["human_readable_id"] = covariates.index + 1
+    covariates["human_readable_id"] = covariates.index

    return covariates.loc[:, COVARIATES_FINAL_COLUMNS]
--- a/tests/verbs/data/communities.parquet
+++ b/tests/verbs/data/communities.parquet
--- a/tests/verbs/data/community_reports.parquet
+++ b/tests/verbs/data/community_reports.parquet
--- a/tests/verbs/data/covariates.parquet
+++ b/tests/verbs/data/covariates.parquet
--- a/tests/verbs/data/documents.parquet
+++ b/tests/verbs/data/documents.parquet
--- a/tests/verbs/data/entities.parquet
+++ b/tests/verbs/data/entities.parquet
--- a/tests/verbs/data/relationships.parquet
+++ b/tests/verbs/data/relationships.parquet
--- a/tests/verbs/data/text_units.parquet
+++ b/tests/verbs/data/text_units.parquet
--- a/tests/verbs/test_extract_covariates.py
+++ b/tests/verbs/test_extract_covariates.py
@ -58,8 +58,8 @@ async def test_extract_covariates():
    assert_series_equal(actual["text_unit_id"], input["id"], check_names=False)

    # make sure the human ids are incrementing
-    assert actual["human_readable_id"][0] == 1
-    assert actual["human_readable_id"][1] == 2
+    assert actual["human_readable_id"][0] == 0
+    assert actual["human_readable_id"][1] == 1

    # check that the mock data is parsed and inserted into the correct columns
    assert actual["covariate_type"][0] == "claim"
--- a/tests/verbs/test_finalize_graph.py
+++ b/tests/verbs/test_finalize_graph.py
@ -30,9 +30,6 @@ async def test_finalize_graph():
        "relationships", context.output_storage
    )

-    assert len(nodes_actual) == 291
-    assert len(edges_actual) == 452
-
    # x and y will be zero with the default configuration, because we do not embed/umap
    assert nodes_actual["x"].sum() == 0
    assert nodes_actual["y"].sum() == 0
@ -58,9 +55,6 @@ async def test_finalize_graph_umap():
        "relationships", context.output_storage
    )

-    assert len(nodes_actual) == 291
-    assert len(edges_actual) == 452
-
    # x and y should have some value other than zero due to umap
    assert nodes_actual["x"].sum() != 0
    assert nodes_actual["y"].sum() != 0
--- a/tests/verbs/test_prune_graph.py
+++ b/tests/verbs/test_prune_graph.py
@ -28,4 +28,4 @@ async def test_prune_graph():

    nodes_actual = await load_table_from_storage("entities", context.output_storage)

-    assert len(nodes_actual) == 21
+    assert len(nodes_actual) == 20