Scan və OCR

Yaxşı günortadan sonra

Yəqin ki, hər biriniz kağız sənədini elektron formada tərcümə etməlisiniz. Bu, xüsusən təhsil alan, sənədlərlə işləyən, elektron lüğətlərdən istifadə edən mətnləri tərcümə edənlər üçün xüsusilə vacibdir.

Bu yazıda mən bu prosesin bəzi əsaslarını bölüşmək istərdim. Ümumiyyətlə, tarama və mətnin tanınması çox vaxt aparır, çünki ən əməliyyatlar əl ilə aparılmalıdır. Nə, necə və nəyi anlamağa çalışacağıq.

Hər kəs dərhal bir şeyi anlamır. Tarama işleminden sonra (tarayıcıdaki bütün sahifalar uyğun olaraq) BMP, JPG, PNG, GIF (diğer formatlar ola bilər) formatında resimleriniz olacaq. Beləliklə, bu şəkildən mətni almaq lazımdır - bu prosedur tanınma adlanır. Bu qaydada və aşağıda təqdim ediləcək.

Məzmun

  • 1. Tarama və tanınma üçün nə lazımdır?
  • 2. Mətn tarama variantları
  • 3. Sənədin mətninin tanınması
    • 3.1 Mətn
    • 3.2 şəkillər
    • 3.3 Tablolar
    • 3.4 Lazım olmayan əşyalar
  • 4. PDF / DJVU fayllarının tanınması
  • 5. İş nəticələrinin yoxlanılması və qənaətində səhv

1. Tarama və tanınma üçün nə lazımdır?

1) Scanner

Çap edilmiş sənədləri mətn formasına çevirmək üçün əvvəlcə bir skaner və buna görə də "doğma" proqramlar və onunla birlikdə gedən sürücülər lazımdır. Onlarla sənədləri tarayaraq daha da emal üçün saxlaya bilərsiniz.

Digər analogları istifadə edə bilərsiniz, ancaq kitdə olan skaner ilə gələn proqram adətən daha sürətli işləyir və daha çox variantları var.

Nə növ skanerdən asılı olaraq - iş sürəti əhəmiyyətli dərəcədə dəyişə bilər. 10 saniyədə bir hesabat şəklini ala bilən skanerlər var, 30 saniyə içərisində alacaq olanlar var. Bir kitabı 200-300 səhifədə taradınızsa - mən hesab edirəm ki, vaxtın bir neçə dəfə necə olacağını hesablamaq çətin deyil?

2) tanınma proqramı

Məqaləmizdə sizə işi tamamilə hər hansı sənədləri - ABBYY FineReader-ın taranması və tanınması üçün ən yaxşı proqramlardan birində göstərəcəyəm. Çünki proqram ödənilir, onda dərhal digərinə bir link verəcəyəm - Cunei Formasının pulsuz analoqudur. Doğrudur, FineReader hər cəhətdən qalib gəldiyi üçün onları müqayisə etmirəm, mən də onu sınamağa gəlirəm.

ABBYY FineReader 11

Rəsmi sayt: //www.abbyy.ru/

Onun ən yaxşı proqramlarından biri. Şəkil içindəki mətni tanımaq üçün nəzərdə tutulmuşdur. Bir çox variant və xüsusiyyət qurulmuşdur. Şerlər bir dəstə ayırmaq olar, hətta el yazısı versiyasını dəstəkləyir (baxmayaraq ki, mən şəxsən sınamamışam, əlyazma versiyasını çətin şəkildə tanıyacağam). Onunla işləmək haqqında daha ətraflı məlumat aşağıda müzakirə olunacaq. Burada da qeyd olunub ki, məqalə proqramın 11 versiyasındakı işləri əhatə edəcəkdir.

Bir qayda olaraq, ABBYY FineReader'ın müxtəlif versiyaları bir-birindən çox fərqlənmir. Digər tərəfdən asanlıqla eyni şeyi edə bilərsiniz. Əsas fərqlər proqramın rahatlığı, sürəti və imkanları ola bilər. Məsələn, əvvəlki versiyalar PDF sənədini və DJVU-nu açmaqdan imtina edir ...

3) Taranacak sənədlər

Bəli, buradakı sənədləri ayrı bir sütunla çıxarmaq qərarına gəldim. Çox hallarda hər hansı bir dərslik, qəzet, məqalə, jurnal və s bu kitablar və tələb olunan ədəbiyyat. Nə gətirdim? Şəxsi təcrübə ilə, tarama etmək istədiyiniz çox şey deyə bilərəm - zaten ağda ola bilər! Bir kitab və ya şəbəkədə artıq skanlaşdıqda bir dəfə tapdığım zaman şəxsən neçə dəfə qənaət etdim. Yalnız mətni sənədə köçürdüm və onunla davam etdim.

Bu sadə məsləhətdən - bir şey taramadan əvvəl, kiminsə artıq skan edilmiş olub olmadığını yoxlayın və vaxtınızı itirməyin lazım deyil.

2. Mətn tarama variantları

Burada brauzerinizin, onunla birlikdə gedən proqramların, bütün skaner modellərinin fərqli olduğundan, proqram hər yerdə fərqlənir və guessing və əməliyyatın reallaşdırılmasının qeyri-real olduğunu göstərən daha aydın şəkildə ifadə edirəm.

Ancaq bütün skanerlər işinizin sürətini və keyfiyyətini böyük ölçüdə təsir edə biləcək eyni parametrlərə sahibdir. Burada onlar haqqında danışacağam. Mən sıralayacağam.

1) Scan keyfiyyəti - DPI

Birincisi, 300 DPI-dən aşağı olmayan seçimlərdə scan keyfiyyətini təyin edin. Mümkünsə, hətta bir az daha çox qoymaq məsləhətdir. DPI göstəricisi nə qədər yüksəksə, şəkiliniz daha aydın olacaq və buna görə də daha çox işləmə daha sürətli keçiriləcəkdir. Bundan əlavə, scan keyfiyyəti daha yüksəkdir - daha az səhvlər sonra düzəltməlisiniz.

Ən yaxşı seçim, adətən 300-400 DPI təşkil edir.

2) xromatsızlıq

Bu parametr tarama vaxtı çox təsir edir (bu arada, DPI də təsir göstərir, lakin onlar çox güclüdür və yalnız istifadəçi yüksək dəyərlər təyin edər).

Adətən üç rejim var:

- qara və ağ (düz mətn üçün mükəmməl);

- boz (masalar və şəkillər ilə mətn üçün uyğun);

- rəng (rəngli jurnallar, kitablar, ümumiyyətlə, rənglər vacib olduğu sənədlər üçün).

Adətən scan zamanı rəng seçiminə bağlıdır. Bütün bunlardan sonra, böyük bir sənədiniz varsa, bütün səhifədə əlavə 5-10 saniyə belə yaxşı bir zamanla nəticələnəcək ...

3) Fotoşəkillər

Sənədi yalnız tarama ilə deyil, həm də bir şəkil çəkməklə əldə edə bilərsiniz. Bir qayda olaraq, bu vəziyyətdə başqa problemlər olacaq: görüntü pozulması, bulanıklaşma. Buna görə də, alınan mətnin daha çox redaktə edilməsi və işlənməsi tələb oluna bilər. Şəxsən mən bu iş üçün kameralardan istifadə etməyi məsləhət görmürəm.

Qeyd etmək vacibdir ki, hər bir belə sənəd tanınmayacaqdır tarama keyfiyyəti olduqca aşağı ola bilər ...

3. Sənədin mətninin tanınması

Hesab edirəm ki, əziz səhifələr sizin aldığınız səni taradı. Ən çox onlar formatlardır: tif, bmb, jpg, png. Ümumiyyətlə, ABBYY FineReader üçün - bu çox vacib deyil ...

Şəkil ABBYY FineReader'da açıldıqdan sonra, proqram, bir qayda olaraq, maşın üzərində sahələri seçmək və onları tanıyır. Amma bəzən səhv edir. Bunun üçün əlverişli sahələrin seçilməsini nəzərdən keçiririk.

Bu vacibdir! Proqramda bir sənəd açıldıqdan sonra hər kəs dərhal anlayır ki, mənbə sənəd, müxtəlif sahələri qeyd etdiyiniz pəncərədə solda göstərilir. "Tanınma" düyməsinə basdıqdan sonra sağdakı pəncərədə proqram sizə başa mətni gətirəcəkdir. Tanınmadan sonra, eyni FineReader'daki səhvlərin mətnini yoxlamaq məqsədə uyğundur.

3.1 Mətn

Bu sahə mətni vurğulamaq üçün istifadə olunur. Şəkillər və cədvəllər bundan istisna edilməlidir. Nadir və qeyri-adi şriftlər əllə girilməlidir ...

Bir mətn sahəsi seçmək üçün FineReader'ın üstündəki panelə diqqət yetirin. "T" düyməsinə var (bax: Aşağıdakı ekran görüntüsü, siçan pointeri bu düyməyə bənzəyir). Aşağıdakı şəkildə mətnin yerləşdiyi düzgün düzbucaqlı ərazini seçin, üzərinə basın. Yeri gəlmişkən, bəzi hallarda, 2-3 ədəd mətn bloğunu və bəzən hər səhifə üçün 10-12 ədəd yaratmalısınız Mətn formatı fərqli ola bilər və bütün sahəsi bir dikdörtgə ilə seçməyin.

Təsvirlərin mətn sahəsinə düşməməsi lazım olduğunu qeyd etmək vacibdir! Gələcəkdə, çox vaxt sizi xilas edəcək ...

3.2 şəkillər

Görünüşləri və keyfiyyətsiz və qeyri-adi yazı tipi səbəbindən tanış olmaq çətin olan sahələri qeyd etmək üçün istifadə olunur.

Aşağıdakı ekran şəklində, siçan pointer "şəkil" sahəsi seçmək üçün istifadə olunan düyməni yerləşir. Yeri gəlmişkən, səhifənin tamamilə hər hansı bir hissəsi bu sahədə seçilə bilər və FineReader onu sənəddə normal bir şəkil kimi yerləşdirəcəkdir. Yəni yalnız "axmaq" kopyalanacaq ...

Tipik olaraq, bu sahə qeyri-standart mətn və yazı tipini, şəkillərin özlərini vurğulamaq üçün yoxsul taranmış masaları göstərmək üçün istifadə olunur.

3.3 Tablolar

Aşağıdakı ekran, masaları göstərmək üçün düyməni göstərir. Ümumiyyətlə, mən şəxsən çox nadir hallarda istifadə edirəm. Faktiki olaraq, müntəzəm olaraq hər bir masanın cədvəlini (həqiqətən) cəlb etmək və proqramı necə və necə göstərmək lazımdır. Cədvəl kiçik olsa və çox yaxşı deyilsə, mən bu məqsədlər üçün "şəkil" sahəsini istifadə etməyi məsləhət görürəm. Beləliklə çox vaxt qənaət edər və sonra bir şəkil əsasında Worddə tez bir masa edə bilərsiniz.

3.4 Lazım olmayan əşyalar

Qeyd etmək vacibdir. Bəzən, mətnin tanınması çətinləşdirən səhifənin lazımsız elementləri var və ya istənilən sahəni seçməyinizə imkan verməyin. Onlar "pozan" istifadə edərək, xaric edilə bilər.

Bunu etmək üçün, şəkil redaktə rejiminə keçin.

Silgi alətini seçin və istənilməyən sahəni seçin. O, silinəcək və yerinə bir ağ kağız kağız olacaq.

Yeri gəlmişkən, bu variantı mümkün qədər tez-tez istifadə etməyi məsləhət görürəm. Seçdiyiniz bütün mətn sahələrini istifadə edin, burada mətnin bir parçasına ehtiyacınız yoxdur və ya lazımsız nöqtələr, bulanıklık, təhriflər var - silgi ilə silin. Bu tanıma sayəsində daha sürətli olacaq!

4. PDF / DJVU fayllarının tanınması

Ümumiyyətlə, bu tanınma formatı başqalarından fərqlənməyəcək - yəni. Yalnız şəkillərdə olduğu kimi bununla da işləyə bilərsiniz. PDF / DJVU faylları açmırsanız, proqramın köhnə versiyası olmadığı yeganə şey - versiyanı 11-ə yeniləyin.

Bir az məsləhət. Document FineReader'da açıldıqdan sonra avtomatik olaraq sənədləri tanıyacaq. Tez-tez PDF / DJVU fayllarında, sənədin hər bir hissəsi üçün xüsusi bir sahə lazım deyil! Bütün sahələrdə belə bir sahəni aradan qaldırmaq üçün aşağıdakıları edin:

1. Image editing bölməsinə gedin.

2. "trimming" seçimini aktiv edin.

3. Bütün səhifələrdə lazım olan ərazini seçin.

4. Bütün səhifələrə müraciət edin və düzəltin.

5. İş nəticələrinin yoxlanılması və qənaətində səhv

Göründüyü kimi, bütün sahələr seçildikdə digər problemlər ola bilər, sonra tanıyır - götür və saxlaya bilərsiniz ... Orada deyildi!

Birincisi, sənədləri yoxlamaq lazımdır!

Bunu təmin etmək üçün, tanınmasından sonra, sağdakı pəncərədə bir "yoxlama" düyməsi olacaq, aşağıdakı ekran görüntüsünə baxın. Bu proqramı tıkladıktan sonra, FineReader proqramı, proqramın hataları olduğu və bir və ya bir başqa simvolu güvenilir bir şekilde belirleyemediği alanları avtomatik olaraq gösterir. Yalnız seçmək məcburiyyətindəsiniz və ya proqramın fikirlərini qəbul edirsiniz və ya xarakterinizi daxil edə bilərsiniz.

Yeri gəlmişkən, yarım halda, təxminən, proqram sizə hazır bir doğru söz təklif edəcək - yalnız istədiyiniz variantları seçmək üçün siçan istifadə etmək lazımdır.

İkincisi, yoxlamadan sonra işinizin nəticəsini saxladığınız formatı seçməlisiniz.

FineReader sizə tam olaraq bir növbəni verir: məlumatı yalnız Word-də bir-birinə köçürə bilərsiniz və on bir formatda saxlaya bilərsiniz. Ancaq başqa bir əhəmiyyətli xüsusiyyəti vurğulamaq istəyirəm. Seçdiyiniz hansı formatda, surət növünü seçmək daha vacibdir! Ən maraqlı variantları nəzərdən keçirin ...

Tam surət

Təqdim edilən sənəddə seçdiyiniz bütün sahələr, qaynaq sənədində tam olaraq eşleşecektir. Mətn formatlamasını itirməməyin vacib olduğu zaman çox rahat bir seçimdir. Yeri gəlmişkən, şriftlər orijinalə çox oxşardır. Sənədin Word-ə köçürülməsi üçün bu variantla məsləhətləşirəm ki, orada daha da işə davam edin.

Düzenlenebilir surət

Mətnin artıq biçimlendirilmiş versiyasını aldığınız üçün bu seçim yaxşıdır. Yəni Orijinal sənəddə ola biləcək "kilometrə" nin endirilməsi - görüşməyəcəksiniz. Məlumatı əhəmiyyətli dərəcədə redaktə edəcəyi zaman faydalı seçimdir.

Doğrudur, dizaynın, şriftin, üslubun tərzini qorumaq sizin üçün vacibdirmi seçməlisiniz. Bəzən tanınma çox müvəffəqiyyətli deyilsə - dəyişdiyiniz formatdan görə sənədiniz "əyri" ola bilər. Bu halda dəqiq surəti seçmək məsləhətdir.

Düz mətn

Hər şeydən başqa, yalnız mətnə ​​ehtiyacı olanlar üçün bir seçimdir. Şəkillər və masalarsız sənədlər üçün uyğundur.

Bu, sənəd tarama və tanınma məqaləsini bağlamışdır. Ümid edirəm ki, bu sadə məsləhətlər vasitəsilə problemlərinizi həll edə bilərsiniz ...

Uğurlar!

Videonu izləyin: How to Use OCR in Microsoft Office 2007-2016 (Aprel 2024).