โปรแกรม ABBYY Recognition Server

     เป็นโซลูชั่นที่อำนวยความสะดวกด้านการทำ OCR แบบอัตโนมัติบนเครื่องคอมพิวเตอร์แม่ข่าย ที่มีประสิทธิภาพสูง  รวมถึงการแปลงเอกสารภาพที่มีจำนวนปานกลางถึงมาก ให้มีผลลัพธ์ออกมาอยู่ในรูปแบบของ PDF File หรือรูปแบบของ Microsoft Office ก็ได้ภายในองค์กรของท่าน

Recognition Server OCR Simple Diagram

ABBYY Recognition Server (ENG) Brochure

คุณสมบัติหลักๆ ของโปรแกรม

  • รองรับเอกสารจากผู้ใช้งานได้มากกว่าหนึ่งผู้ใช้งาน ณ ขณะเวลาเดียวกัน ผ่านทาง Shared Folder(s)
  • รองรับเอกสารจากผู้ใช้งานได้มากกว่าหนึ่งผู้ใช้งาน ณ ขณะเวลาเดียวกัน ผ่านทาง FTP
  • รองรับการทำงานกับไฟล์รูปภาพได้หลากหลายนามสกุล เช่น JPEG, TIFF, BMP, PDF, DjVu เป็นต้น
  • รองรับการทำงานกับข้อมูลที่เป็นบาร์โค้ดได้ทั้งแบบ 1 มิติ และ 2 มิติ
  • รองรับการอ่านข้อมูลที่ถูกจัดวางแบบแนวนอนซึ่งเป็นแบบปกติ และ แนวตั้ง
  • ผลลัพธ์ที่ได้สามารถกำหนดให้อยู่ในรูปแบบของไฟล์ได้หลากหลาย เช่น PDF, DOC, RTF, XML  เป็นต้น
  • ขนาด ของไฟล์ใหญ่หรือเล็ก ก็ไม่ใช่ปัญหาสำหรับ ABBYY Recognition Server เนื่องจากโครงสร้างหลักของโปรแกรมถูกออกแบบมาเพื่อรองรับการทำงานแบบ กระจายภาระ หรือ Load balancing
  • OCR ได้ถูกต้องแม่นยำสูง และรองรับภาษาได้มากถึง 191 ภาษาทั่วโลก
  • สามารถผลิตไฟล์ผลลัพธ์ได้มากกว่า 1 ชนิดไฟล์ในแต่ละงาน เช่น ต้องการสร้างไฟล์ .DOC และ .TXT จากเอกสารที่เป็น TIFF เป็นต้น
  • รองรับการทำงานแบบ หลายแกนการประมวลผล ภายในเวลาเดียวกัน ( CPU ในยุคปัจจุบันอยู่ที่ 2 และ 4 แกนการประมวลผล)
  • สามารถปรับความเร็วในการแปลงเอกสารได้ตามเงื่อนไขของการต้องการความเร็ว หรือต้องการคุณภาพของผลลัพธ์ได้ ได้รับการออกแบบมาเพื่อรองรับกับการทำงานที่มีต้องผลิตงานสูงๆ  มีระบบการทำ OCR  ที่เสถียรภาพและความปลอดภัยของข้อมูล ทำงานได้ทั้ง ตลอด 7 วัน 24 ชั่วโมง
  • สามารถกำหนดการทำงาน โดยให้ทำงานตามตารางเวลาที่กำหนดไว้ให้กับแต่ละงาน ซึ่งได้สร้างไว้ใน ส่วนของ Manager Server ได้
  • มี กระบวนการในการแบ่งชุดเอกสาร เช่น แบ่งตามจำนวนหน้า แบ่งเอกสารเมื่อพบเอกสารหน้าว่าง หรือ แบ่งเอกสารเมื่อพบเอกสารที่มีข้อมูลบาร์โค้ดเป็นต้น
  • สามารถกำหนดรูปแบบของการตั้งชื่อไฟล์เอกสารผลลัพธ์ได้ตามที่ต้องการ
  • ใน ส่วนของเครื่องที่ใช้เพื่อการ “ตรวจสอบข้อมูล หรือ verification Station” ได้รับการปรับปรุงส่วนติดต่อกับผู้ใช้งานใหม่ โดยให้เหมาะกับลักษณะข้อมูลที่ต้องได้รับการตรวจสอบ เช่น สามารถกำหนดข้อมูล หรือกลุ่มของข้อมูลที่ต้องได้รับการตรวจสอบให้อยู่ในมุมมองแบบ “ตรวจสอบเฉพาะตัวอักษรที่ไม่แน่ใจ” เป็นต้น
  • สามารถ ส่งผลลัพธ์ที่เสร็จจากขั้นตอนของการแปลง กลับไปยังเจ้าของเอกสารผ่านบัญชีอีเมล์ของตนเอง หรือ สามารถส่งไปยังบัญชีอีเมล์อื่นๆก็ได้
  • มี ความสามารถต่างๆ สำหรับการประมวลผลภาพขั้นสูง เช่น สามารถปรับเอกสารที่เอียงให้ตรงได้ สามารถปรับหมุนเอกสารให้ข้อความถูกจัดวางในระนาบที่เหมาะแก่การแปลงเอกสาร เป็นต้น

ความสามารถด้านการผลิตผลลัพธ์

  • ABBYY Recognition Server สามารถนำข้อมูลที่ผ่านการแปลงแล้วไปอยู่ในรูปนามสกุล DOCX, XLSX ได้
  • สามารถสร้างไฟล์ผลลัพธ์ที่นำไปใช้งานต่อ หรือใช้งานร่วมกับโซลูชั่นที่สร้างขึ้นจาก ABBYY FineReader Engine ได้โดยง่าย
  • รองรับมาตรฐานของไฟล์ประเภท PDF และ PDF/A ซึ่งเหมาะกับเอกสารที่ต้องได้รับการเก็บรักษาไว้เป็นระยะเวลายาวนาน
  • สร้าง ความปลอดภัยในการเข้าถึงไฟล์ประเภท PDF ได้ด้วยวิธีการกำหนดรหัสผ่านให้กับไฟล์ PDF ที่สร้างจาก ABBYY Recognition Server อย่างอัตโนมัติ
  • สร้าง ไฟล์ PDF ให้เหมาะกับการนำไปใช้งาน หรือกระจายไฟล์ผ่านช่องทางของอินเทอร์เน็ต (ลดควมละเอียดของรูปภาพที่บรรจุอยู่ในหน้าเอกสารของไฟล์ PDF แต่เพิ่มความคมชัดให้กับ ตัวอักษร จึงทำให้ขนาดของไฟล์ PDF ลดลงจนเหมาะกับการส่งผ่านเอกสารผ่านเครื่อข่ายดังกล่าว)
  • รอง รับการบีบอัดไฟล์ให้กับ PDF ให้มีขนาดเล็กลงมากขึ้นกว่าเวอร์ชั่นก่อนๆ ด้วยเทคโนโลยีใหม่ คือ MRC  หรือ Mixed Raster Compression ทำให้ไฟล์ผลลัพธ์ที่เป็น PDF ที่ได้นั้น มีขนาดเล็กลงยิ่งขึ้น

ความสามารถด้านการบูรณาการ

  • ABBYY Recognition Server มี API ให้ไว้ใช้งาน ทำให้กลุ่มผู้พัฒนาโปรแกรม สามารถเรียกใช้ทรัพยากรด้านการแปลงเอกสารของ ABBYY Recognition Server ได้สะดวก รวดเร็ว และมีความยืดหยุ่นมากขึ้น ซึ่งสามารถเขียนโปรแกรมได้ทั้งแบบที่ทำงานบนแพลตฟอร์มของวินโดว์ และ เว็ป (Com-based API และ Web Service API)
  • สามารถนำข้อมูลผลลัพธ์ที่ผ่านการทำ Recognition แล้ว ส่งตรงเข้า Microsoft SharePoint Server 2003 และ 2007 ได้โดยตรง ทันที
  • ABBYY Recognition Server มีสามารถตรวจตรา กล่องรับอีเมล์ในระบบของ Microsoft Exchange ได้ ซึ่งหากมีอีเมล์ที่มีไฟล์ PDF หรือ ไฟล์เอกสารรูปภาพเข้ามาในอีเมล์ที่ถูกจับตามองอยู่ ตัวระบบจะทำการแปลงข้อมูลไฟล์เหล่านั้น ให้เป็นไปตาม Profile ที่กำหนดอย่างอัตโนมัติ
  • รองรับการสั่งการด้วยการใช้ หรือ การประกอบคำสั่งต่างๆไว้ในรูปแบบของ XML File ชนิดพิเศษ หรือเรียกว่า XML ticket

Recognition IFilter Server Diagram

ABBYY Recogonition Server ทำงานอย่างไร

ABBYY Recognition server

คือ ซอฟต์แวร์แบบผู้ให้บริการเพื่องานประมวลผลกับไฟล์เอกสารอิเล็กทรอนิกส์ มันจะทำการแปลงข้อมูลด้วยเทคโนโลยีแบบ OCR และบันทึกเป็นไฟล์ PDF ที่ทำงานบนฐานแวดล้อมของผู้ให้บริการ ด้วยโครงสร้างของตัวโปรแกรมส่งผลให้การนำไปพัฒนาใช้งานร่วมกับระบบต่างๆที่มีอยู่แล้วภายในองค์กรสามารถเกิดขึ้นได้อย่างง่าย และรวดเร็ว ไม่ว่าขนาด หรือความต้องการในการใช้งานขององค์กรนั้นๆจะเป็นอย่างไร ประหยัดเวลา และค่าใช้จ่ายต้นทุน ต่างๆที่จะใช้ในการพัฒนาระบบลงๆไปได้อย่างมหาศาล

   ABBYY Recognition Server สามารถแปลงไฟล์เอกสาร หรือไฟล์รูปภาพ ในปริมาณที่มากๆได้อย่างอัตโนมัติ ให้ไปอยู่ในรูปแบบข้อมูลตัวอักษรอิเล็กทรอนิกส์ ที่เหมาะกับการนำไปใช้ในกระบวนการทางธุรกิจอื่นๆ ได้ ประกอบไปด้วย การเก็บข้อมูลระยะยาว การเรียกค้นข้อมูล หรือ การสืบค้นข้อมูลภายในระบบทั้งหมดขององค์การ เป็นต้น ตัวซอฟต์แวร์ยังเปิดโอกาสให้ ตัวระบบถูกดำเนินการ หรือ เข้าถึงจากโปรแกรมที่ติดตั้งใช้งานภายในองค์การ และโปรแกรมที่ทำงานอยู่ภายนอกองค์การ เพื่อให้เกิดการทำงานแบบแปลงข้อมูล อัตโมติโดยไม่ต้องมีการกำกับดูแลใดๆก็ได้ ABBYY Recognition Server ก็ยังสามารถเชื่อมต่อกับระบบหลังบ้านของแต่ละองค์กร ที่มีความหลากหลายทางเทคโนโลยีได้อีกด้วยผ่านองค์ประกอบซอฟต์แวร์ที่มีไว้ให้ใช้งานดังนี้ Scripts, XML tickets, a Web-service API หรือ  a COM-based API.

   เทคโนโลยีอันชาญฉลาดในการรู้จำข้อมูล การแปลงข้อมูลให้อยู่ในรูปนามสกุล PDFที่รวดเร็ว ความเข้ากันได้กับระบบต่างๆที่ทำงานอยู่เบื้องหลัง การรองรับภาษามากกว่า 190 ต่างๆทั่วโลก (รวมถึงภาษาไทยด้วย) และคุณสมบัติที่ยังไม่ได้กล่าวมา ที่ยังมีอยู่อีกมากมาย ที่โปรแกรมชุดนี้มีให้กับท่าน จะนำผลลัพธ์ด้านการแปลงข้อมูล ที่มีความถูกต้องแม่นยำสูง ความคุ้มค่าในการลงทุน และความมีเสถียรภาพโดยรวมของระบบงาน มาสู่องค์การของท่านได้อย่างแน่นอน

Architecture

ABBYY Recognition Server

จะมีส่วนประกอบต่างๆ ซึ่งสามารถติดตั้งองค์ประกอบเหล่านี้ทั้งหมดบนเครื่องคอมพิวเตอร์เครื่องเดียว หรือกระจายไปฝากไว้ที่เครื่องคอมพิวเตอร์เครื่องอื่นๆที่อยู่ในวงเครือข่ายเดียวกัน เพื่อเป็นการแบ่งภาระงานแยกออกจากกันก็สามารถทำได้ องค์ประกอบหลักที่สำคัญๆมีดังนี้

  • หน่วยจัดการงานบริการ – เป็นตัวควบคุมเซอร์วิสกลาง จะเอาไว้ควบคุมคิวของงานเพื่อการประมวลผลเอกสาร และ ควบคุมการกระจายงานไปยังกลุ่มของสถานีงานต่างๆ ภายในวงเครือข่าย
  • สถานีงานประมวลผล – เป็นเซอร์วิสที่ทำงานบนเครื่องคอมพิวเตอร์เครื่องใดเครื่องหนึ่ง หรือบนหลายๆเครื่องภายในเครือข่ายเดียวกัน โดยมีหน้าที่ในการ “จับและรู้จำข้อมูล” ทั้งหมดในชุดเอกสาร และ งานแปลงไฟล์เอกสารต้นทางให้ไปเป็นไฟล์ผลลัพธ์ในรูปแบบนามสกุลที่ต้องการ
  • สถานีงานสแกนข้อมูล – เป็นเครื่องลูกข่ายที่ทำหน้าสแกนเอกสารในปริมาณมากๆ และ อาจจะมีขั้นตอนของการตระเตรียมเอกสารภาพที่ได้หลังจากงานสแกนนั้น ให้มีความสะอาด และมีลักษณะข้อมูลขาเข้า ที่ถูกต้องมากที่สุดเพื่อให้ได้ผลลัพธ์ของการแปลงข้อมูลที่มีความถูกต้องแม่นยำมากที่สุดด้วยเช่นกัน
  • สถานีกำหนดดัชนี – เป็นเครื่องลูกข่ายที่ทำหน้าที่ในการกำหนดคำประกอบเอกสาร หรือ ดัชนี และ งานเพื่อการจัดกลุ่มเอกสารด้วย
  • ตัวเชื่อมต่อกับ Google Search Appliance (GSA) – เป็นส่วนประกอบทางด้านซอฟต์แวร์ในชุด ABBYY Recognition Server ที่อนุญาตให้อุปกรณ์ Google Search Appliance (ลักษณะคล้ายกับ Rack Server) เข้ามาใช้ทรัพยากรของ ABBYY Recognition Server เพื่อให้เกิดงานแยกข้อมูลข้อความออกจากไฟล์เอกสารอิเล็กทรอนิกส์ ซึ่งไฟล์เอกสารที่ว่าเหล่านั้น ต้นทางและผลลัพธ์จะถูกจะเก็บ และบริหารจัดการจากเครื่องของ Google Search Appliance  จากนั้นอุปกรณ์ตัวนี้ก็จะเอาข้อมูลที่ได้จาก Recognition Server ไปใช้ในงานของ “การสืบค้นข้อมูลองค์รวมภายในองค์กร”

Recognition Server - GoogleSearch Appliance

  • ตัวเชื่อมต่อกับเซอร์วิส Microsoft Search (IFilter) – เป็นส่วนประกอบทางด้านซอฟต์แวร์ในชุด ABBYY Recognition Server ที่อนุญาตให้เซอร์วิสที่เกี่ยวกับการสืบค้นข้อมูลของ Microsoft Office SharePoint Serverและ Windows Search เข้ามาใช้ทรัพยากรของ ABBYY Recognition Server เพื่อให้เกิดงานแยกข้อมูลข้อความออกจากไฟล์เอกสารอิเล็กทรอนิกส์ ซึ่งไฟล์เอกสารที่ว่าเหล่านั้น ต้นทางและผลลัพธ์จะถูกจะเก็บ และบริหารจัดการภายในระบบของ Microsoft Office SharePoint Serverและ Windows Search เอง จากนั้นจะเอาข้อมูลที่ได้จาก Recognition Server ไปใช้ในส่วนงานของ “การสืบค้นข้อมูลองค์รวมภายในองค์กร”

Recognition IFilter Server Diagram

  • แผงคุมงานเพื่อผู้ดูแลระบบ –  เป็นชุดโปรแกรมที่ทำงานบนเครื่องลูกข่าย เอาไว้ใช้เพื่อกำหนดค่างาน ค่าที่จำเป็นต่อการสร้างงาน และ การตรวจตรากิจกรรมต่างๆ ที่เกิดขึ้นในระบบของ ABBYY Recognition Server นี้

Recognition Server - Remote Administration

WorkFlow

กระบวนการแปลงเอกสารภายใน Recognition Server สามารถแบ่งออกดังนี้

1. งานสแกน/นำข้อมูลเข้าและแยกชุดเอกสาร

1.1 สถานีงานสแกน

     ที่สถานีงานนี้ได้เตรียมคุณสมบัติ ความสามารถสำหรับงานสแกนเอกสารที่มีปริมาณมากๆ รวมถึงกระบวนการทางด้านซอฟต์แวร์เพื่อการปรับเอกสารภาพที่ได้หลังจากการสแกนให้มีคุณภาพมากที่สุดอีกด้วย

  • สแกนงานผ่านตัวกลางดังต่อไปนี้ได้ TWAIN, ISIS และ WIA
  • สามารถเรียกดูภาพอย่างเร็วได้
  • มีคุณสมบัติพื้นฐาน ด้านการปรับปรุงคุณภาพของเอกสารภาพ เช่น การหมุนเอกสารให้ถูกต้อง การปรับตรงให้กับเอกสารที่สแกนมาเอียง และ การลบจุดหรือข้อมูลขยะบนหน้าเอกสาร และอื่นๆ
  • แยกเอกสารเป็นชุดๆ โดยพิจารณาจาก บาร์โค้ด, หน้าว่าง หรือ ให้แยกเอกสารทุกๆ จำนวนหน้าที่ต้องการ เป็นต้น 

1.2 นำเข้าข้อมูลที่มาจากเครือข่าย และ เครื่องให้บริการ FTP

     ABBYY Recognition server สามารถนำไฟล์ภาพ หรือไฟล์เอกสารจากแหล่งข้อมูลภายในเครือข่ายได้โดยอัตโนมัติ

  • โฟลเดอร์แบ่งปันบนเครื่องคอมพิวเตอร์ทั่วไป
  • โฟลเดอร์แบ่งปันบนเครื่องผู้ให้บริการแบบ FTP
  • โฟลเดอร์ภายในโปรแกรมอีเมล์ โดยจะดึงเอาเฉพาะไฟล์ที่แนบมากับอีเมล์ที่เก็บไว้ในโฟลเดอร์ที่สนใจนี้เท่านั้น

Recognition Server - Scanning Stations UI     สำหรับไฟล์ภาพที่สแกนและเก็บไว้ในโฟลเดอร์เรียบร้อยแล้วนั้น  โปรแกรม ABBYY Recognition Server ก็มีช่วยงานเสริมภายใน เพื่องานการแยกชุดเอกสารไว้ให้ด้วยเช่นกัน ส่วนงานเสริมนี้จะทำการแยกเอกสารด้วยการพิจารณาไปที่   เอกสารหน้าว่าง หรือ เอกสารที่มีบาร์โค้ด เป็นต้น และยังรวมไปถึง ท่านสามารถสร้างเงื่อนไขเพื่อการแยกชุดเอกสารโดยการใช้ “ข้อความที่อ่านได้จากเอกสาร” เป็นตัวแยกชุดเอกสาร ได้อีกด้วย

2. การจับ/รู้จำข้อมูล

     งานจับและรู้จำข้อมูล หรือ OCR จะจบในเครื่องที่กำหนดให้เป็นเครื่อง “สถานีงานประมวลผล”  ซึ่งเป็นไปได้ว่าภายในเครือข่ายจะมีสถานีเพื่องานประมวลผลที่มากกว่า 1 เครื่อง ช่วยกันทำงาน โดยจะมี “หน่วยจัดการงานบริการ” ซึ่งเป็นหน่วยที่ทำงานบนเครื่อง Server และ เป็นตัวควบคุมว่างานไหน ควรไปทำงานที่สถานีงานประมวลผลใด ทั้งนี้ทั้งนั้นก็ขึ้นกับภาระงานในแต่ละสถานีด้วยเช่นกัน เป็นการกระจายงานไปยังเครื่องลูกข่าย เพื่อให้งานโดยรวมสามารถทำเสร็จได้ในเวลาที่สั้นที่สุด

     เทคโนโลยีด้านการอ่าน OCR และ บาร์โค้ดที่พัฒนาใช้อยู่ภายในชุดโปรแกรม ABBYY Recognition Server จะมอบผลลัพธ์ที่ถูกต้อง แม่นยำอย่างที่ไม่เคยปรากฏมาก่อน มันสามารถทำงานได้กับหลากหลายของประเภทของตัวอักษร ที่ปรากฏใช้งานในภาษของแต่ละประเทศ แต่ละภูมิภาค และรองรับการอ่านข้อมูลบาร์โค้ดทั้งแบบ 1 มิติ และ 2 มิติได้ด้วย การอ่านตัวอักษรที่ใช้ในภาษาของแต่ละประเทศ สามารถเข้าใจได้ถึง 198 ภาษา ประกอบไปด้วย Latin, Cyrillic, Greek, Arabic, Chinese, Japanese, Korean, Vietnamese, Hebrew, Yiddish and Thai แม้ภาษาเขียนที่มีฟอนต์แบบ Gothic ของฝั่งยุโรป มันก็สามารถอ่านและแปลงออกมาเป็นข้อมูลอิเล็กทรอนิกส์ได้อีกด้วย

     เพื่อที่จะยังคงเค้าโครงของข้อมูลในเอกสารผลลัพธ์ ให้ใกล้เคียงกับเอกสารต้นฉบับ ABBYY Recognition Server จึงใช้เทคโนโลยีที่ชื่อว่า ADRT ซึ่งเป็นเทคโนโลยีเฉพาะด้านการวิเคราห์โครงสร้างของเอกสาร พัฒนาขึ้นด้วยทำงานของ ABBYY เอง ซึ่งด้วยเทคโนโลยีนี้ มันจะรู้ว่า ข้อมูลส่วนไหนของเอกสารเป็น “หัวเอกสาร” “ท้ายเอกสาร” “ข้อความ” “รูปภาพ” และ “ตาราง” และมันจะจำพิกัดของข้อมูลเหล่านั้นไว้ เพื่อที่จะทำการจัดเรียงข้อมูล ภายในเอกสารผลลัพธ์ที่ตรงกับตำแหน่งจริงในเอกสารต้นทาง

3. ควบคุมคุณภาพ

     บางครั้งก็จะมีข้อมูลที่สำคัญๆที่จำเป็นต้องมีขั้นตอนของการ “ตรวจสอบข้อมูลผลลัพธ์” เข้ามาขั้นก่อนที่จะนำเอาผลลัพธ์ที่ได้จากขั้นตอนของการรู้จำข้อมูล บันทึกออกไปยังไฟล์ผลลัพธ์ในรูปแบบนามสกุลต่างๆ

Recognition Server - Indexing Stations UI

     ซึ่งขั้นตอนการตรวจสอบจะเกิดขึ้นใน “สถานีการตรวจสอบข้อมูล” ก็คือ การตรวจสอบข้อมูลที่ยังอยู่ภายในงาน จะสามารถกำหนดได้ว่า ให้ตรวจสอบทั้งหมด หรือเลือกตรวจสอบเฉพาะข้อมูลที่ไม่ผ่านเกณฑ์การยอมรับข้อผิดพลาดได้ หรือยอมให้ผลลัพธ์ที่มีข้อผิดพลาดถูกบันทึกออกไปเป็นข้อมูลผลลัพธ์ก็สามารถกำหนดได้ด้วยเช่นกัน ทั้งหมดทั้งปวงนี้จะเกิดขึ้นในสถานีนี้ ซึ่งจำเป็นต้องมีเจ้าหน้าที่เข้ามาเกี่ยวข้องเพื่อตัดสินใจว่าควรจะทำอะไรบ้างกับข้อมูลที่ถูกแปลงมาจากขึ้นตอนที่ 2