การแปลงข้อมูลภาพให้เป็นตัวอักษรแบบกำหนดพื้นที่ (Zone OCR)

ในระบบจัดเก็บเอกสาร และข้อมูลอิเล็กทรอนิกส์ สำหรับขั้นตอนของการนำข้อมูลเข้าระบบ ถือเป็นขั้นตอนที่มีความสำคัญ และค่อนข้างจะใช้เวลามากในการเก็บข้อมูลแต่ละครั้ง เพราะต้องมีการป้อน “ชุดคำค้น” ให้กับรายการข้อมูลที่ต้องการเก็บ ในลักษณะ 1 ต่อ 1 ทุกๆครั้งไป และส่วนใหญ่การกำหนดชุดคำค้น จะใช้วิธีการพิมพ์เข้าไปที่กรอบรับข้อมูลในระบบดังกล่าว ถือได้ว่าเป็นการใช้กำลังคน และ เวลาเป็นอย่างมาก สำหรับขั้นตอนนี้

เพื่อเป็นการอำนวยความสะดวก และเพิ่มความเร็วในการป้อนข้อมูลคำค้น ให้กับผู้นำข้อมูลเข้าระบบจัดเก็บเอกสาร โปรแกรม DocnFlow รุ่น Standard จะมีคุณสมบัติหนึ่งที่จะช่วยให้ผู้นำข้อมูลเข้าระบบได้รับความสะดวกในการทำงานมากขึ้น นั้นก็คือ คุณสมบัติการแปลงข้อมูลภาพให้เป็นตัวอักษรแบบกำหนดบริเวณ หรือ ที่เรียกในภาษาอังกฤษว่า Zone OCR  คุณสมบัตินี้จะยอมให้ผู้ใช้งานทำการกำหนดพื้นที่ของข้อมูลประเภท “ข้อความ” ภายในหน้าเอกสาร เมื่อกำหนดขอบเขตข้อมูลที่ต้องการ จับและแปลงข้อมูล ได้แล้ว ข้อมูลในพื้นที่ดังกล่าวจะถูกนำมาใช้เป็นคำค้นให้กับชุดเอกสารทันที การแปลงข้อมูลแบบนี้สามารถทำงานได้กับข้อมูลภาษาอังกฤษ และ ตัวเลข และหากต้องการความถูกต้องมากขึ้นหลังผ่านขั้นตอนการทำ Zone OCR ตัวเอกวารควรจะถูกสแกนด้วยความละเอียดอย่างต่ำที่ 300 จุดต่อนิ้ว

ชุดภาพตัวอย่างด้านล่างเป็นการแสดงขั้นตอนการทำงานกับคุณสมับติ การแปลงข้อมูลภาพให้เป็นตัวอักษรแบบกำหนดบริเวณ นี้ โดยเป็นการสาธิตการเก็บไฟล์เอกสารประเภท TIFF เข้าตู้เอกสารที่ชื่อว่า Sample File Cabinet โดยในตู้เอกสารนี้มี “ชุดคำค้น หรือในระบบ DocnFlow จะเรียกว่า แม่แบบเอกสาร (Document Template)” ที่ชื่อว่า Index ประกอบไปด้วยกรอบรับข้อมูลคำค้นดังต่อไปนี้

  1. Document No:
  2. Document Subject:
  3. Document Date:
  4. Document Type:
  5. Related to:
  6. Status:
  7. Keywords:

ภาพที่1: หน้าต่างเพื่อล๊อกอินเข้าระบบ DocnFlow

ภาพที่2: คลิ้กเม้าส์ขวาที่โฟลเดอร์ที่ต้องการเก็บข้อมูล ในตัวอย่างนี้จะเก็บที่ตู้เอกสารที่ชื่อ “Sample File Cabinet” และลิ้นชักที่ชื่อ “เอกสารที่มาจากการสแกน” และ โฟลเดอร์ที่ชื่อ “TIFF” จนพบเมนูที่ชื่อว่า Browse ซึ่งเป็นการจัดเก็บด้วยวิธีการเลือกไฟล์นั่นเอง

ภาพที่3: จะเลือกใช้ไฟล์ที่ชื่อ Lorem…(300DPI).Tif เพื่อการสาธิต

ภาพที่4: ไฟล์ที่ถูกเลือกจะมาปรากฎที่กรอบ File List และเนื้อไฟล์เอกสารจะถูกแสดงที่กรอบทางด้านขวามือ ซึ่งมีชื่อว่า DocnFlow Window Viewer

ภาพที่5: ซูมตรงบริเวณที่ต้องการทำ Zone OCR ซึ่งตัวอย่างนี้จะจับข้อมูลตรงข้อความ “Lorem ipsum”

ภาพที่6: สังเกตุว่าจะมีกรอบสีเขียวปรากฎขึ้น ณ บริเวณที่ได้กำหนดขอบเขตข้อมูลเสร็จ พร้อมกับที่ระบบ DocnFlow จะทำการ Recognize ข้อมูลบริเวณดังกล่าวทันที

ภาพที่ 7: เมื่อ DocnFlow ทำการ Recognize ข้อมูลเสร็จ จะปรากฎหน้าต่างที่แสดงรายชื่อของ กรอบรับข้อมูล (แสดงตามที่ปรากฎใน Document Template) จะเลือกที่คำว่า  Document No. จากนั้นข้อความที่ได้เลือกไว้จะถูกนำไปใส่ในกรอบรับข้อมูลนี้ให้ทันที คุณสามารถทำ Zone OCR ได้มากจำนวน ตามที่ต้องการ หากเลือกกรอบรับข้อมูลที่มีข้อมูลอยู่แล้ว ข้อมูลใหม่จะถูกนำไปแทนที่

ภาพที่ 8: เมื่อข้อมูลในกรอบรับข้อมูลมีครบตามที่ต้องการแล้ว ด้วยการใช้คุณสมบัติ zone ocr ก็ดี หรือ เป็นการพิมพ์เข้าไปเองด้วยมือก็ดี ให้กดปุ่ม Store หรือ จัดเก็บ ทางด้านล่างซ้ายมือ ระบบ DocnFlow จะแสดงหน้าต่างเพื่อการยืนยันการจัดเก็บ

ภาพที่ 9: หากการจัดเก็บข้อมูลเสร็จสมบูรณ์ ระบบ DocnFlow จะแสดงหน้าต่างนี้แจ้งให้กับผู้นำข้อมูลเข้าระบบรับทราบ

ภาพที่ 10: เมื่อกลับมาสืบค้นที่ตู้ ลิ้นชัก และโฟลเดอร์ ณ ตำแหน่งเดียวกับที่ได้เก็บเอกสาร ก็จะพบรายการข้อมูล ดังภาพ

ตัวอย่างนี้อาจจะดูเหมือนไม่เป็นการทำงานในสภาพแวดล้อมจริงๆ เพราะข้อมูลตัวอย่างเป็นประโยคที่ไม่ได้ใจความอะไร แต่..อย่างน้อย คุณผู้อ่าน ก็ได้เห็นไอเดีย และขั้นตอนต่างๆ ของคุณสมบัติการทำ OCR บนไฟล์เอกสารภาพประเภท TIFF ที่มีให้ใช้งานในระบบ DocnFlow รุ่น Standard นี้ เชื่อว่าน่าจะเป็นประโยชน์กับผู้ที่นำเอาเอกสารเข้าระบบไม่มากก็น้อย ซึ่งในอนาคตทางบ. เอ็นทูเอ็นฯ ก็จะพยายามหาแนวทาง ที่จะประยุกต์คุณสมบัติ Zone OCR นี้ ให้สามารถทำงานกับ “ข้อมูลที่เป็นตัวอักษรภาษาไทย” ให้ได้