impresso-project
/

ocr-quality-assessor-unigram-light

Token Classification

ocr_qa_assessment

quality-assessment

Model card Files Files and versions

ocr-quality-assessor-unigram-light / ocr_qa_assessment.py

emanuelaboros's picture

add models and config

53e37f7 about 1 year ago

958 Bytes

	from transformers import Pipeline


	class QAAssessmentPipeline(Pipeline):

	def _sanitize_parameters(self, **kwargs):
	preprocess_kwargs = {}
	if "text" in kwargs:
	preprocess_kwargs["text"] = kwargs["text"]
	return preprocess_kwargs, {}, {}

	def preprocess(self, text, **kwargs):
	# Nothing to preprocess
	return text

	def _forward(self, text, **kwargs):
	predictions, probabilities = self.model(text)
	return predictions, probabilities

	def postprocess(self, outputs, **kwargs):
	predictions, probabilities = outputs
	label = predictions[0][0].replace("__label__", "") # Remove __label__ prefix
	confidence = float(
	probabilities[0][0]
	) # Convert to float for JSON serialization

	# Format as JSON-compatible dictionary
	model_output = {"label": label, "confidence": round(confidence * 100, 2)}
	return model_output