camel.datagen.source2synth package

camel.datagen.source2synth package#

Submodules#

camel.datagen.source2synth.data_processor module#

class camel.datagen.source2synth.data_processor.DataCurator(config: ProcessorConfig, rng: Random)[source]#

Bases: object

Manages and curates datasets of multi-hop question-answer pairs.

This class handles dataset management tasks including quality filtering, complexity filtering, deduplication, and dataset sampling.

config#

Configuration for data curation parameters.

Type:: ProcessorConfig

rng#

Random number generator for reproducible sampling.

Type:: random.Random

curate_dataset(examples: List[Dict[str, Any]]) → List[Dict[str, Any]][source]#

Manage and curate a dataset through multiple filtering stages.

Parameters:: examples (List[Dict[str, Any]]) – List of examples to curate.
Returns:: Curated dataset meeting quality criteria.
Return type:: List[Dict[str, Any]]

class camel.datagen.source2synth.data_processor.ExampleConstructor(config: ProcessorConfig, multi_hop_agent: MultiHopGeneratorAgent | None = None)[source]#

Bases: object

Constructs training examples from raw text data.

This class handles the construction of training examples by preprocessing text, extracting information pairs, and generating question-answer pairs.

config#

Configuration for example construction.

Type:: ProcessorConfig

multi_hop_agent#

Agent for QA generation.

Type:: Optional[MultiHopGeneratorAgent]

construct_examples(raw_data: List[Dict[str, Any]]) → List[Dict[str, Any]][source]#

Construct training examples from raw data.

Parameters:

raw_data (List[Dict[str, Any]]) – List of raw data dictionaries containing text and metadata.

Returns:

List of constructed examples with QA pairs: and metadata.

Return type:

List[Dict[str, Any]]

class camel.datagen.source2synth.data_processor.UserDataProcessor(config: ProcessorConfig | None = None)[source]#

Bases: object

A processor for generating multi-hop question-answer pairs from user data.

This class handles the processing of text data to generate multi-hop question-answer pairs using either an AI model or rule-based approaches. It manages the entire pipeline from text preprocessing to dataset curation.

config#

Configuration for data processing parameters.

Type:: ProcessorConfig

rng#

Random number generator for reproducibility.

Type:: random.Random

multi_hop_agent#

Agent for generating QA pairs.

Type:: Optional[MultiHopGeneratorAgent]

process_batch(texts: List[str], sources: List[str] | None = None) → List[Dict[str, Any]][source]#

Process multiple texts in batch to generate multi-hop QA pairs.

Parameters:

texts (List[str]) – List of input texts to process.
sources (Optional[List[str]], optional) – List of source identifiers. (default: None)

Returns:

List of processed examples with QA pairs and: metadata.

Return type:

List[Dict[str, Any]]

Raises:

ValueError – If length of sources doesn’t match length of texts.

process_text(text: str, source: str = 'user_input') → List[Dict[str, Any]][source]#

Process a single text to generate multi-hop QA pairs.

Parameters:

text (str) – The input text to process.
source (str, optional) – Source identifier for the text. (default: "user_input")

Returns:

List of processed examples with QA pairs and: metadata.

Return type:

List[Dict[str, Any]]

camel.datagen.source2synth.models module#

class camel.datagen.source2synth.models.ContextPrompt(*, main_context: str, related_contexts: List[str] | None = None)[source]#

Bases: BaseModel

A context prompt for generating multi-hop question-answer pairs.

main_context#

The primary context for generating QA pairs.

Type:: str

related_contexts#

Additional related contexts.

Type:: Optional[List[str]]

main_context: str#

model_config: ClassVar[ConfigDict] = {}#: Configuration for the model, should be a dictionary conforming to [ConfigDict][pydantic.config.ConfigDict].

related_contexts: List[str] | None#

class camel.datagen.source2synth.models.MultiHopQA(*, question: str, reasoning_steps: List[ReasoningStep], answer: str, supporting_facts: List[str], type: str)[source]#

Bases: BaseModel

A multi-hop question-answer pair with reasoning steps and supporting facts.

question#

The question requiring multi-hop reasoning.

Type:: str

reasoning_steps#

List of reasoning steps to answer.

Type:: List[ReasoningStep]

answer#

The final answer to the question.

Type:: str

supporting_facts#

List of facts supporting the reasoning.

Type:: List[str]

type#

The type of question-answer pair.

Type:: str

class Config[source]#

Bases: object

json_schema_extra: ClassVar[Dict[str, Any]] = {'example': {'answer': 'Paris', 'question': 'What is the capital of France?', 'reasoning_steps': [{'step': 'Identify the country France.'}, {'step': 'Find the capital city of France.'}], 'supporting_facts': ['France is a country in Europe.', 'Paris is the capital city of France.'], 'type': 'multi_hop_qa'}}#

answer: str#

model_config: ClassVar[ConfigDict] = {'json_schema_extra': {'example': {'answer': 'Paris', 'question': 'What is the capital of France?', 'reasoning_steps': [{'step': 'Identify the country France.'}, {'step': 'Find the capital city of France.'}], 'supporting_facts': ['France is a country in Europe.', 'Paris is the capital city of France.'], 'type': 'multi_hop_qa'}}}#: Configuration for the model, should be a dictionary conforming to [ConfigDict][pydantic.config.ConfigDict].

question: str#

reasoning_steps: List[ReasoningStep]#

supporting_facts: List[str]#

type: str#

class camel.datagen.source2synth.models.ReasoningStep(*, step: str)[source]#

Bases: BaseModel

A single step in a multi-hop reasoning process.

step#

The textual description of the reasoning step.

Type:: str

model_config: ClassVar[ConfigDict] = {}#: Configuration for the model, should be a dictionary conforming to [ConfigDict][pydantic.config.ConfigDict].

step: str#

camel.datagen.source2synth.user_data_processor_config module#

class camel.datagen.source2synth.user_data_processor_config.ProcessorConfig(*, seed: int = <factory>, min_length: int = 50, max_length: int = 512, complexity_threshold: float = 0.5, dataset_size: int = 1000, use_ai_model: bool = True, hop_generating_agent: ~camel.agents.multi_hop_generator_agent.MultiHopGeneratorAgent = <factory>)[source]#

Bases: BaseModel

Data processing configuration class

complexity_threshold: float#

dataset_size: int#

hop_generating_agent: MultiHopGeneratorAgent#

max_length: int#

min_length: int#

model_config: ClassVar[ConfigDict] = {'arbitrary_types_allowed': True, 'frozen': False, 'protected_namespaces': (), 'validate_assignment': True}#: Configuration for the model, should be a dictionary conforming to [ConfigDict][pydantic.config.ConfigDict].

seed: int#

use_ai_model: bool#

Module contents#

class camel.datagen.source2synth.DataCurator(config: ProcessorConfig, rng: Random)[source]#

Bases: object

Manages and curates datasets of multi-hop question-answer pairs.

This class handles dataset management tasks including quality filtering, complexity filtering, deduplication, and dataset sampling.

config#

Configuration for data curation parameters.

Type:: ProcessorConfig

rng#

Random number generator for reproducible sampling.

Type:: random.Random

curate_dataset(examples: List[Dict[str, Any]]) → List[Dict[str, Any]][source]#

Manage and curate a dataset through multiple filtering stages.

Parameters:: examples (List[Dict[str, Any]]) – List of examples to curate.
Returns:: Curated dataset meeting quality criteria.
Return type:: List[Dict[str, Any]]

class camel.datagen.source2synth.ExampleConstructor(config: ProcessorConfig, multi_hop_agent: MultiHopGeneratorAgent | None = None)[source]#

Bases: object

Constructs training examples from raw text data.

This class handles the construction of training examples by preprocessing text, extracting information pairs, and generating question-answer pairs.

config#

Configuration for example construction.

Type:: ProcessorConfig

multi_hop_agent#

Agent for QA generation.

Type:: Optional[MultiHopGeneratorAgent]

construct_examples(raw_data: List[Dict[str, Any]]) → List[Dict[str, Any]][source]#

Construct training examples from raw data.

Parameters:

raw_data (List[Dict[str, Any]]) – List of raw data dictionaries containing text and metadata.

Returns:

List of constructed examples with QA pairs: and metadata.

Return type:

List[Dict[str, Any]]

class camel.datagen.source2synth.MultiHopQA(*, question: str, reasoning_steps: List[ReasoningStep], answer: str, supporting_facts: List[str], type: str)[source]#

Bases: BaseModel

A multi-hop question-answer pair with reasoning steps and supporting facts.

question#

The question requiring multi-hop reasoning.

Type:: str

reasoning_steps#

List of reasoning steps to answer.

Type:: List[ReasoningStep]

answer#

The final answer to the question.

Type:: str

supporting_facts#

List of facts supporting the reasoning.

Type:: List[str]

type#

The type of question-answer pair.

Type:: str

class Config[source]#

Bases: object

json_schema_extra: ClassVar[Dict[str, Any]] = {'example': {'answer': 'Paris', 'question': 'What is the capital of France?', 'reasoning_steps': [{'step': 'Identify the country France.'}, {'step': 'Find the capital city of France.'}], 'supporting_facts': ['France is a country in Europe.', 'Paris is the capital city of France.'], 'type': 'multi_hop_qa'}}#

answer: str#

model_config: ClassVar[ConfigDict] = {'json_schema_extra': {'example': {'answer': 'Paris', 'question': 'What is the capital of France?', 'reasoning_steps': [{'step': 'Identify the country France.'}, {'step': 'Find the capital city of France.'}], 'supporting_facts': ['France is a country in Europe.', 'Paris is the capital city of France.'], 'type': 'multi_hop_qa'}}}#: Configuration for the model, should be a dictionary conforming to [ConfigDict][pydantic.config.ConfigDict].

question: str#

reasoning_steps: List[ReasoningStep]#

supporting_facts: List[str]#

type: str#

class camel.datagen.source2synth.ProcessorConfig(*, seed: int = <factory>, min_length: int = 50, max_length: int = 512, complexity_threshold: float = 0.5, dataset_size: int = 1000, use_ai_model: bool = True, hop_generating_agent: ~camel.agents.multi_hop_generator_agent.MultiHopGeneratorAgent = <factory>)[source]#

Bases: BaseModel

Data processing configuration class

complexity_threshold: float#

dataset_size: int#

hop_generating_agent: MultiHopGeneratorAgent#

max_length: int#

min_length: int#

model_config: ClassVar[ConfigDict] = {'arbitrary_types_allowed': True, 'frozen': False, 'protected_namespaces': (), 'validate_assignment': True}#: Configuration for the model, should be a dictionary conforming to [ConfigDict][pydantic.config.ConfigDict].

seed: int#

use_ai_model: bool#

class camel.datagen.source2synth.ReasoningStep(*, step: str)[source]#

Bases: BaseModel

A single step in a multi-hop reasoning process.

step#

The textual description of the reasoning step.

Type:: str

model_config: ClassVar[ConfigDict] = {}#: Configuration for the model, should be a dictionary conforming to [ConfigDict][pydantic.config.ConfigDict].

step: str#

class camel.datagen.source2synth.UserDataProcessor(config: ProcessorConfig | None = None)[source]#

Bases: object

A processor for generating multi-hop question-answer pairs from user data.

config#

Configuration for data processing parameters.

Type:: ProcessorConfig

rng#

Random number generator for reproducibility.

Type:: random.Random

multi_hop_agent#

Agent for generating QA pairs.

Type:: Optional[MultiHopGeneratorAgent]

process_batch(texts: List[str], sources: List[str] | None = None) → List[Dict[str, Any]][source]#

Process multiple texts in batch to generate multi-hop QA pairs.

Parameters:

texts (List[str]) – List of input texts to process.
sources (Optional[List[str]], optional) – List of source identifiers. (default: None)

Returns:

List of processed examples with QA pairs and: metadata.

Return type:

List[Dict[str, Any]]

Raises:

ValueError – If length of sources doesn’t match length of texts.

process_text(text: str, source: str = 'user_input') → List[Dict[str, Any]][source]#

Process a single text to generate multi-hop QA pairs.

Parameters:

text (str) – The input text to process.
source (str, optional) – Source identifier for the text. (default: "user_input")

Returns:

List of processed examples with QA pairs and: metadata.

Return type:

List[Dict[str, Any]]

camel.datagen.source2synth package

On this page

camel.datagen.source2synth package#

Submodules#

camel.datagen.source2synth.data_processor module#

camel.datagen.source2synth.models module#

camel.datagen.source2synth.user_data_processor_config module#

Module contents#